随着电子元件智能化程度和人机互动能力的不断提高,语音、图像和手势等人机接口相继出现。2011年,苹果iPhone 4S内置的Siri应用让语音识别一夜间风靡全球;而最近,做闪存出身的Spansion则牵手Nuance公司,将定制型逻辑和硬件与Nuance VoCon软件引擎结合,推出“首款支持语音控制系统的人机接口(HMI)协处理器”,目标直指车载信息娱乐系统、游戏和消费电子领域,预计今年第三季度开始提供设计样片。
来自Strategy Analytics的数据显示,2012年,中国OEM厂商所提供的具备语音人机接口的信息娱乐和车载信息通讯系统(telematics)的出货量将达到300万台,并预期在2018年达到2,000万台,市场规模不容小觑。
其实采用协处理器服务特定功能的概念并不新鲜,在诸如语音、图形、加密、数字信号处理、高速通信等许多领域,都在利用专门的硬件从主处理器上卸载任务。Spansion市场营销和业务开发总监范承华表示,信息娱乐系统OEM厂商之间正围绕着高速互联网接入、高清视频、3D导航和语音识别等应用展开激烈竞争,导致嵌入式系统需要越来越强的高性能处理能力,这在汽车领域中尤为突出。但与此同时,汽车环境中的多种功能也在继续竞争有限的计算资源,结果为处理能力和存储器带宽带来了瓶颈。
CPU资源争夺战
“如果不把某些应用单独交给协处理器来处理,很难在整体上营造出更好的用户体验。” Spansion执行副总裁兼全球业务总经理Glenda Dorchak说,“即使高端应用处理器正在从单内核快速转向双内核和四内核技术,但我们认为人机界面(UI)仍将是一个计算密集型功能,要求独立的硬件加速器和灵活的软件算法。”
Spansion这一招围绕核心器件做扩展的方法其实很值得业界学习。为了打消业界对其产品的各种顾虑,Spansion方面坚称,其久经验证的65nm MirrorBit电荷捕获技术,和符合各种严格车标规定的产品质量,将是帮助其夺得市场份额的利器。Glenda Dorchak强调说,与仅采用应用处理器的典型系统相比,使用语音协处理器可使系统响应速度提高50%,应用处理器上的负载最多可下降50%。此外,该语音协处理器还能够支持更大的语音数据库(包括多语言,语音性别和声调),从而能够提高准确性并促进自然语言理解(NLU)。
Spansion语音协处理器能够支持更大的语音数据库
{pagination}
作为合作方,Nuance研发工程总监张亚昕表示,以前的语音识别技术只能做到简单的语言识别,如果希望进阶到自然语言理解阶段,需要克服的技术障碍将包括复杂的软件算法;能够在各种高噪声环境中准确工作;多语言支持和快速反应;大词汇量、操作简单、低延迟等等。目前,Nuance汽车应用已涵盖导航、娱乐、电话&信息与联网服务领域,可实现包括单命令目的地输入、POI语音搜索、TTS语音播报信息与导航、新闻阅读器、语音拨号、口撰新信息等在内的多种功能。
“未来的人机交互将是互联、多模式、智能、个性化和无缝整合的。”张亚昕分享了Nuance的未来汽车愿景,“HMI不但支持语音、运动、触屏、手写、生物识别等多种操作方式,汽车甚至还能通过自适应模板和声纹技术等自动识别个人,流畅的人机对话将不再是梦。”
在高端汽车信息娱乐领域中,也有部分厂商采用云计算技术用于支持语音识别。但Glenda Dorchak认为,云计算的优势在于它能通过各种复杂算法,产生先进的分析技术和功能,以提供更高的精度。但问题在于,目前高级语音识别系统需要的是高MIPS和快速内存访问,UI越来越多地要求访问先进的查找表和算法。而云带来的直接负面影响就是系统的延时,且产品质量良莠不齐,这是很多用户无法接受的。未来,协处理器还将有望集成专用的硬件加速器、算术逻辑单元(ALU)和更大的内存,能够以更低的延时、功耗,更快地处理高级UI功能。
Spansion语音协处理器结合了定制型逻辑和高速存储器
本文属于《电子工程专辑》网站作者原创,谢绝转载。