近年来,电信业出现了大量 AI 驱动的技术,尤其是语音识别和翻译。多语种 AI 虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署 AI 以加快解决来电请求的速度,大幅提升客户体验、员工留存率和品牌声誉。
例如,自动语音识别(ASR),即语音转文本已被用于实时对话转录,这使企业能够迅速为客户确定资源或解决方案。语音 AI 还被用于分析情绪、识别分歧来源、提高合规性和坐席表现等。
本文将深入探讨语音识别在电信业的变革力量,并着重介绍 AT&T、T-Mobile 等行业领导者如何利用这些最先进的技术在其呼叫中心提供无与伦比的客户体验。
语音转文字对改善客户服务的影响
语音转文字技术的落地已为客服领域带来了巨大改变。通过实现呼叫路由、呼叫分类和语音认证等任务的自动化,企业可以大大缩短客户的等待时间并将其转接至最适合处理该请求的坐席。
语音识别还可以用于 AI 驱动的客户反馈分析,帮助改善客户满意度、产品和服务。凭借语音转文字赋能的 AI 应用,企业可以准确识别并及时满足客户需求。
AT&T 数据科学 AI 助理副总裁 Jeremy Fix 在 GTC23 上概述了该公司使用 AI 改善呼叫中心体验的主要原因:
优化人员配置资源
提供个性化的客户体验
协作坐席提供可执行的洞察
资源优化
充足的人员配置是呼叫中心的关键组成部分之一,包括吸引和维系最好的人才。AT&T 通过 AI 预测呼叫中心坐席与来电数量的平衡情况,为坐席提供发挥其最佳水平所需的支持。
个性化
通过了解客户首次接通时的意图,AT&T 可以将来电者与之前解决过类似问题并且向客户适时提供相关方案的资深坐席相匹配。
语音客服
AT&T 结合呼叫转录以及自然语言处理(NLP)驱动的洞察引擎,为坐席及管理人员提供实时、可操作的洞察,帮助他们做出智能化的决策并提供高质量的客户服务(视频 1)。
视频 1. GTC23 上的 AT&T 洞察引擎演示
如何能做到实时的呢?在通话过程中,AT&T 的 NLP 引擎使用实时转录和文本挖掘技术识别讨论主题,然后推荐后续最佳行动、识别通话情绪、预测客户满意度,甚至评估坐席质量和合规性。
常见的语音转文本准确性问题
尽管语音 AI 可以帮助呼叫中心做出重大改进,但要成功落实语音转文本仍面临着一些挑战。T-Mobile 的首席机器学习工程师 Heather Nolis 在 GTC23 期间谈到了这些挑战:
语音歧义
不同的说话风格
嘈杂的环境
电话的局限性
特定领域的词汇
语音歧义
您有多少次在打电话时误解了别人的意思?比如是“上了一艘邮轮”还是“上了一艘油轮”?这种听起来相同,但含义不同的词语会造成语音歧义。如果语音转文字应用没有经过训练,无法按照上下文识别单词,就会导致转写错误。
视频 2. 语音歧义
不同的说话风格
每个人都会有不同的口音、方言和口腔生理结构,这意味着我们所说的每个词语听起来都会有所不同。对于全球运营的呼叫中心来说,必须在训练数据集中捕捉到这些微妙的差别,从而提高语音识别的准确性。
视频 3. 不同说话风格背后的原因包括生理结构差异和我们学习说话的方式
嘈杂的环境
呼叫中心坐席在与客户对话时可能受到背景噪声、同时说话的人、麦克风质量不佳,甚至手机信号不良等干扰,这些都会导致电话中的声音丢失。部署到呼叫中心的强大语音转文字应用必须能够承受这类环境。
视频 4. 噪声源包括背景噪声、同时说话的人和麦克风质量
电话的局限性
电话的局限性,包括无法记录 “S”、“F” 等某些声音会进一步阻碍语音转文字的准确性。例如,即便您在电话中听到 “free for all Friday” 这句话时实际上没有听到未被电话传送的 “f” 这个音,但您的大脑仍会将 “f” 这个音补进去。而在转录过程中,就得由语音转文本模型来填补缺失的声音。
特定领域的词汇
每一座为企业创建的呼叫中心都会遇到具有不同主题和词汇的企业场景。开箱即用的 ASR 解决方案一般未经过有效的定制化,因此在现实中很少有用。
T-Mobile 展示了他们应对语音识别问题的解决方案。该方案采用 NVIDIA Riva(一款用于构建和部署自定义语音应用的 GPU 加速 SDK)并使用 NVIDIA NeMo (对特定领域的数据进行微调)。T-Mobile 在不同口音、不同说话风格和嘈杂生产环境等干扰下,将语音识别准确率提高了 3 倍(图 1)。
图 1. T-Mobile ASR 准确率*:从位于云端到高度定制化的 Riva 语音转文本(*准确率[%]=100-WER)
实现最佳语音转文字结果的首要因素
从电信呼叫中心和紧急服务到视频会议和广播,企业在部署最先进的语音 AI 技术时必须考虑准确度、延迟、可扩展性、安全性、运营成本等诸多因素,以便在竞争中保持领先地位。
企业正在不断寻找将呼叫中心变成价值中心的新办法,而成本在这方面起到至关重要的作用。呼叫数量多的企业必须根据定价模式、总体运营成本(TCO)和隐藏成本评估厂商。
实现全方位的语言、口音和方言覆盖对所有语言的语音识别准确性都至关重要。值得高兴的是,语音AI在多语种准确性上已经取得了很大的进步。例如,Riva 现在可以为英语、西班牙语、普通话、印地语、俄语、阿拉伯语、日语、韩语、德语、葡萄牙语、法语和意大利语提供全球领先的语音识别。
最后,语音 AI 模型必须实现低延迟才能为坐席和客户提供更好的实时体验。如果在坐席与客户对话的过程中,AI 无法足够快地向坐席提供有关后续行动的建议,那就会变得毫无用处。
T-Mobile 详细介绍了他们的语音转文本评估流程,展示了一项重要的发现—— Riva 语音识别在延迟、成本效益和准确性方面均优于当前的云供应商模型。
视频 5. T-Mobile 的语音转文本评估指标:延迟、成本效益和准确性
在 GTC23 专题讨论会“使用先进的语音 AI 技术引领潮流”上,Infosys、Quantiphi 和摩托罗拉分享了他们通过在电信解决方案中部署语音 AI 解决这些问题的经验。
要点总结
将语音和翻译 AI 集成到客服 AI 解决方案中正在给电信行业带来变革。通过使用客户会话的实时多语种转录,电信公司可以更好地对来电进行分类和转接,并向坐席提供有价值的洞察和个性化的建议。
拥抱这项技术的电信公司可凭借提供卓越的客户体验、在竞争中保持领先并满足客户不断变化的需求,从而获得在市场中的竞争优势。