OPTION_5:HP
语音作为一项新型人机交互方式,被业界寄予厚望,然而目前所存在的技术瓶颈让语音技术所能实现的功能非常有限,只能在安静的环境下,实现简单的语义理解,而稍微复杂一些的表达,就已经招架不住了,最明显的例子即是“纠正哥”对于安吉星的大发雷霆。而要让语音识别可以精确理解人类自然语言,从而完成任务,需要克服大动态范围、低信噪比、回声干扰等因素,还要拥有学习及认知的能力。思必驰公司通过软件算法让语音识别变得更加智能,在理解人类意图的能力上更胜一筹。
优化语音识别
从整个计算设备交互的历史发展来说,在移动互联时代,由于交互模态和交互目标的丰富,用户对人机交互的自由度和丰富性的需求日益提升,已经不满足于简单的搜索功能,而是正在逐渐向“任务处理”变迁。
相较于用户对于语音识别的期待,目前的语音技术正面临着巨大的挑战。真正自由和稳定的人机交互系统不仅需要解决语音的“感知/表达”,即传统的语音识别和合成,更需要解决认知理解和抽象思维的智能。这需要经历两个阶段,一个是传统语音技术的优化,使其更加人性化;二是对话技术的使用,采用认知交互智能提升任务完成的水平和用户体验。
图1:传统语音识别技术流程
“我们认为构建一个语音交互的机器人应该经过几步:语音识别—解析—行动选择—任务处理/语音合成,这样的环节非常依赖于信号识别的正确性,而且解析必须完全正确。但是,信号识别怎么做到完全准确?” 思必驰联合创始人、首席科学家俞凯说,“在移动互联时代,可以通过两个方面来实现这个目标,一是大数据,一是深度学习。”
图2:思必驰联合创始人、首席科学家俞凯
他补充说:“在自然语音输入的时候,无论怎样努力,它的识别率还是会下降得很厉害,所以针对人工智能的语音识别技术,我们需要做两件事,第一个要拼技术,即做好在各种复杂环境下的语音识别。第二个,不单单要有识别的东西,还要加一个脑子,让它有智能化的识别技术。”
图3:智能硬件时代的语音交互技术
思必驰在抗噪技术上取得了一些突破。在国际通用的噪声标准测试库上,思必驰的最新结构化抗噪语音识别技术刷新了国际记录,取得目前世界单系统最好成绩。模型算法的优化突破,使得思必驰仅用软件解决方案就可以达到以往采用语音降噪芯片才能达到的效果,大幅提升了识别率,降低了成本。
同时,先进的回声消除算法和麦克风阵列算法结合,可以有效的跟踪用户位置,增强语音信号质量,实现高性能的通用语音识别。软硬件结合的多种解决方案,更给出了更多的选择和可能性。
第四页:真正的智能化语音交互
{pagination}
个性化语音输出
除了语音输入识别,思必驰还在输出上下了功夫,通过参数化语音合成方法,造就了许多极具个性化的语音。传统语音合成是采用拼接技术,录制大规模的语音库,切片后在合成的时候把片段拼起来,这就往往需要大量的标准语音。思必驰采用最新的基于统计的参数化语音合成方法,可以实现模型规模的大幅压缩,语音连贯性的大幅提升,能够自由训练个性化的语音。
图4:个性化语音
“当大家想要把信息反馈给用户的时候,就要用到合成,过去几十年都认为合成是传递语音信号,核心点是清楚、准确,而现在的移动互联时代下,大家需要有更多的互动交流,这时候对语音合成的交流不能局限于原来传统的技术方案。” 俞凯说。
“传统方案就是找一个说话很准确的人,录100个小时的声音,10G,切成一小片一小片,合成的时候把声音合起来就好了,你需要录很多的话,存很多的数据,不方便。”他说,“而我们用的是参数化方法,就是用一些很小的模型呈现这么复杂的数据,所以可以做到模型特别小,基本的结构就是通过特征的提取,再加入一些生成的算法。”
第四页:真正的智能化语音交互
{pagination}
语义理解很重要
传统语音识别加自然语言处理的方案虽然能解决不少问题,但在真实场景下,由于没有针对交互进行优化的对话技术,往往还是无法完成任务。
“‘等周二许春来到苏州后约他一点钟在九寨沟喝茶’,这句话我们完整地解析了,但是这个话按字面解释,究竟说的是许春来到苏州后,请许春去喝茶,还是这个人来了,许春约他去喝茶。即使解析完全准确,你也没有办法很清晰地知道用户的意图是什么。” 俞凯说。
俞凯在PPT上嵌入了之前很火的“纠正哥”的视频,用以说明认知技能的重要性。“大部分人看到这个视频的时候会想这个方言识别不好,其实想想这不是方言识别的问题,而是识别不稳定,很多情况下,由于识别一点点不准确,后面的整个任务变得没办法完成。这里面最大的难点是机器没有办法理解用户的错误。‘135’这个信息,机器不能理解。加之,用户经常打断这个机器,理解起来就更困难了。这说明语音识别在硬件里面想要用,必须和后端某些东西结合在一起,就是我们说的认知技能。”
接着,他补充道:“我们需要在传统架构的基础上,加入两个新东西,就是当时用户的情景,并且在情境下进行深度的理解。这使得:如果我的理解不是字面上的东西,而确确实实知道你想干的是什么,如果我的意图理解有些问题的话,可以通过反复的交互,在过程里面进行反复的学习,使得原本有错误的现在纠正了。”
思必驰采用了认知交互模型设计语音交互系统。在领先的传统语音识别合成技术的基础上,引入交互认知智能,通过情境理解和多轮交互,面向最终任务完成度和用户体验进行系统设计和优化。
第四页:真正的智能化语音交互
{pagination}
真正的智能化语音交互
思必驰在面向智能硬件的抗噪,远场,回声消除等取得了技术的新突破,完成了软件为主和软硬件结合的综合解决方案;最新的对话技术采用认知智能计算技术,实现了深度理解和智能反馈,以及支持任性语音输入的对话交互架构。
图6:认知型交互模型
“一个真正具有认知能力的人机交互界面,我们的目标不是为了提升识别率,我们的目标是为了帮助用户完成任务,这里我们有三个层面的不同的任务,通过获取、理解、学习,我们要进行语义计算,通过识别适配以及上下文和情境的理解,并且可以打断、容错、纠错的情况下,完成用户的意图。”
本文为《电子工程专辑》原创,版权所有,转载请注明出处并附链接
如您对语音识别技术感兴趣,欢迎参加2015年IIC-China秋季展(8月31日~9月3日,深圳会展中心3号馆)。提前注册抢座,请点击或扫描下面的二维码: