市调公司Gartner曾经在两年前预测,2018年所有与技术相关的人机互动中,大约有30%都来自与语音系统的对话。不久前。RBC Capital Markets的分析师也预期,亚马逊(Amazon)的Alexa智能语音助理将在2020年前达到100亿美元的销售额。
语音识别是去年国际消费电子展(CES)的热门话题,许多评论家认为2017年将是语音识别年。Gartner并指出,包括语音识别功能的对话平台将成为2018年前十大策略技术趋势之一。语音识别预计将推动系统的典范转移,不仅更能回答简单的问题,例如“天气如何?”同时还实现了越来越复杂的互动。对话平台之间的主要区别在于其对话模型的稳健性、应用程序编程接口(API),以及用于存取、启用和编排第三方服务以提供复杂结果的事件模型。
因此,语音识别技术正不断发展以满足这一需求,而投资人也看到了这个机会。例如英国的XMOS,以及卡米人工智能(Kami Intelligence Limited)等公司最近几个月都获得了融资。XMOS去年9月从英飞凌(Infineon Technologies)、Amadeus Capital Partners、Draper Esprit、Foundation Capital和Robert Bosch Venture Capital募资了1,500万美元。
位于伦敦和香港的Kami则在上个月从ARM创新生态加速器(Arm Innovation Ecosystem Accelerator;Softbank子公司)、香港X科技基金(X Technology Fund)和天富基金(Tin Fu Fund)等筹资170万美元的种子基金。
XMOS去年初推出首款远场语音处理器系列——XVF3000及其相关开发工具包。该公司声称是唯一一家获得亚马逊AVS认证的远程线性麦克风数组开发工具包供货商,能够将亚马逊的Alexa轻松地整合于智慧面板、厨房电器以及其他商业和工业电子设备。
XMOS最新语音处理器VocalFusion XVF3500在今年CES亮相(来源:XMOS)
在CES 2018,XMOS进一步展示其最新语音处理器,该处理器支持立体声声学回音消除(AEC)和远场线性麦克风数组解决方案。XVF3500语音处理器可提供双通道全双工声学回音消除功能,专为开发语音启动的智能电视、家庭剧院、机顶盒(STB)和数字媒体配接器等市场的开发人员而设计,这些成长中的市场与应用都需要立体声AEC支持“整个室内”的语音接口解决方案。该解决方案还支持可配置的AEC延迟,能够精确校准AEC参考讯号并调整延迟,从而为现有的消费电子产品提供售后远场语音配件。
即使是在复杂的声学环境,该解决方案也能透过云端语音识别系统处理,准确地在整个室内撷取指令。XVF3500语音处理器提供复杂的语音数字讯号处理(DSP)——包括具有语音干扰功能的全双工声学回音消除器、让用户能够中断或暂停正在播放音乐的设备,以及追随扬声器的自适应波束形成器。即使是在嘈杂的环境中,更先进的去混响、自动增益控制以及噪声抑制功能,也能提供清晰的语音互动体验。
新一代可信任对话AI平台
专精于生产台式机、笔记本电脑、平板电脑、智能手机、宽带、无线系统、游戏机、连网设备、STB等消费电子产品的和硕联合科技(Pegatron Corp.)最近宣布在其最新智能语音助理产品Martina中采用XMOS VocalFusion语音技术。Martina是和硕科技人工智能(AI)产品解决方案的一部份,采用了Google云端服务与自然语言辨识技术,可支持中文、英文、日文与韩文等。
和硕资深总监Joe Wu表示:“XMOS解决方案由于其卓越的远场语音技术而被选用于我们的智能语音助理。Martina具有跨平台的兼容性和语音驱动的用户接口,能够使用简单的语音命令连接和控制各种设备和服务。”
内建XVF3000语音处理器的和硕智能语音助理Martina
新创公司Kami则开发出使用神经网络和机器学习算法的下一代可信任对话AI平台。其目标在于透过对话学习和建立知识、记住个人并自然地进行交流。其专利技术结合了神经网络和机器学习算法。
Kami的种子轮投资方AIEA策略务发总监陈向军说:“Kami开发出一款真正强大的推理平台,拥有超强的记忆和情绪关注分析能力。其专利的外部动态记忆网络技术和关注分析技术大幅地提高了对话情境追踪和系统推理的能力。Kami独特的后设语言够透过分析情境和推理,跨多种不同的业务场景做出决策。”
Kami的产品包括Kami Relate和Kami Analytics。Kami Relate提供情境对话,因而能够记住客户说的话、理解内在的含义并且在架构之间自然地变换——就像与真人一样交谈。此外,它还支持文本和语音,并与Facebook Messenger、Skype、Kik、Slack和微信等主要的实时通信通道无缝整合。该架构并支持多种语言,节省了全球部署的时间和资源。
Kami Analytics透过言语和移动、创建模板并执行同类群组分析来区分用户,并透过持续的用户互动过程和语音优化,从而提高用户的参与度、持续率以及对话,并为A/B测试提供可让聊天机器人的效率优化的平台。在开发时透过软件开发工具包(SDK)和“即插即用”模块即可整合移动应用。
随着亚马逊和Google积极推动语音家用设备,如今有一点是确定的:更加准确的语音识别技术将继续发展,并将进一步推动平台实现更复杂的人机对话,以及超越这些家庭设备以外的用户接口。
编译:Susan Hong
本文授权编译自EE Times,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。