多模态人机交互：未来机器“眼耳手鼻口”一个都不能少-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

人类传统的交互单一通道有眼（视觉系统）、耳（听觉系统）、口（味觉系统）、鼻（嗅觉系统）、手（触觉系统）等器官，在这些通道彼此融合后，人机交互技术正从键盘鼠标变成了触屏，又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先，发展为“语音”优先……

百余年前，在等车的人们用看报纸打发时间；今天的人们同样需要打发时间，但是报纸变成了手机。

喜马拉雅硬件生态事业部总经理余涛

“人获取内容的本质需求其实没有变，变的是交互方式。从单一的视觉需求，扩展出了听觉、语音等多模态交互。”12 月 19 日，在炬芯科技举办的第四届 Techlife 炬芯 2019 多模态交互技术开发者大会上，喜马拉雅硬件生态事业部总经理余涛说到。

而炬芯举办本次开发者大会的目的，正是将AI 多模态交互技术运用在新型教育之中。“对于教育，我们不能停留在与电子产品的互动，而要回归本质与书本的互动。语音、视觉、触控加上反馈的融合是未来的方向。”炬芯产品总监肖凯平认为，人类传统的交互单一通道有眼（视觉系统）、耳（听觉系统）、口（味觉系统）、鼻（嗅觉系统）、手（触觉系统）等器官，在这些通道彼此融合后，人机交互技术正从键盘鼠标变成了触屏，又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先，发展为“语音”优先，并且兼顾老人、儿童以及方言人士让语音对话体验越来越好。语音与视觉，触屏，LCD反馈显示结合的交互体验，令交互门槛的不断降低。

炬芯产品总监肖凯平

在人机交互领域，人们常说“大耳朵，小眼睛”，这里耳朵表示听觉，眼睛表示视觉。这样说是因为语音技术已经比较成熟，是AI交互的主要手段，不同产品有不同需求，但体验的门槛是2mic，要在本地完成AFE+WWE+AEC所有的计算；视觉技术相对而言还没那么成熟，由于视觉算法需要的资源很大，本地化NN的性价比不够，一般在本地完成一部分计算，大部分工序在云端完成。

智能交互的目的，就是为了赋能AIoT双向交互反馈能力，给设备装上耳朵、眼睛和手，让AIoT更“有用”。

“为实现更优质交互体验，炬芯希望用更优质产品给智能机器赋能，推出了 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片，充足的算力、超低的功耗、强大的可扩展性。” 肖凯平说到，“ ATS 3609D支持多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合，为强人工智能下的多模态交互提供可行解决方案。”

芯片架构上，有着专为智能语音设计的VAD和6路高精度ADC，加上关键词检测模块形成了Always On唤醒功能的基础。算法则是集成了阿里巴巴达摩院的AFE，WWE。

达摩院语音实验室：从原子能力到自然交互

阿里巴巴达摩院语音实验室成立于2014年，承担着为阿里巴巴经济体提供无处不在的语音交互能力的重任。达摩院资深算法专家高杰介绍到，语音AI三大基石包括数据积累、算法以及计算能力，“背靠阿里云的数据积累，在三国五地百人精英团队的技术支持下，达摩院语音识别技术的弹性计算能做到百万并发，经受住了双十一的考验，SLA达到99.9%。”

达摩院资深算法专家高杰

达摩院语音实验室从成立到去年，基本上会以每半年周期做一个大提升。其中最具里程碑效应的是 2015年12月份的LCBLSTM模型，这是在语音识别领域中，整个序列模型第1次在工业界做大规模部署，当时的错误率相比DNN下降20%左右。另外是2017和2018年底大规模部署的两种语音识别模型，与之前的模型相比错误率都分别下降20%，效率大幅提升，“也因如此，麻省理工科技评论在一则报道中称阿里巴巴拥有了一项比谷歌更好用的语音助手技术。”高杰说到。

在语音技术上，达摩院语音实验室将语音技术做成一项原子产品，通过开箱即用的原子能力，在独创的学习平台定制业务模型，和多家业务伙伴携手，提出完整的行业语音解决方案。

在语音交互上，余杰表示，语音实验室采取被集成的策略，希望通过算法、系统以及服务全链路的能力输出解决方案，给硬件厂商提供服务。“达摩院语音实验室的解决方案已经在车载行业、电视行业、公共空间等交互设备上落地实现，在这些复杂的场景中，多模态技术已经开始发挥着作用。我们的合作策略是不做自己的硬件产品，只做alibaba-inside。”

一个被集成的案例是上海地铁的语音售票机，余杰称这也是全球第一台地铁语音售票机，在真实嘈杂环境下识别准确率超过96%。相比传统售票机买一张票需要30.64秒，AI语音售票机只需要11.85秒。另外在儿童教育硬件产品上，达摩院作为语音AI能力输出者，与炬芯等芯片厂商及方案商、内容厂商合作，定制TTS服务。

既要听得懂，也要看得明

2018年，中国发布的《教育信息化2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语言文字信息化关键技术研究与应用。由于产业政策的利好，教育机器人作为机器人应用于教育领域的代表，将成为智慧学习环境的重要组成部分。

玩瞳科技 CTO潘鑫

第一代教育机器设备以VCD、录音机等有声设备为主；第二代以个人电脑、手机搭配教育APP，结合多媒体、海量资源库以及GUI交互为主；目前的第三代设备已经进入到交互式智能教育硬件，例如教育机器人和学习平板，大量使用ASR/NLP技术和外辅设备。下一代机器人会往哪个方向发展？玩瞳科技 CTO 潘鑫认为，视觉将是下一代机器人的基本能力，具备自然交互和主动伺服功能的多模态交互机器人将成为主流。视觉的能力将使机器人改变以往的被动服务形式，迈向主动服务，从而为使用者提供更好的服务体验。

TWS蓝牙耳机也是语音市场爆发可以看得到的主力军。根据蓝牙联盟数据，2018年全球语音产品出货量为8.8亿台，这其中包括各种蓝牙耳机、智能音响等。而预计到2022年仅TWS蓝牙耳机出货量就将达到8亿只，对应的SoC市场规模将达到16亿颗，YoY增长率33%。这其中还不包括苹果的产品。

CEVA大客户经理田元

CEVA大客户经理田元表示，庞大且还在高速发展的智能语音市场，“有不同的场景需求，我们也提出超低功耗和高性能的两种解决方案，为 IC 设计公司提供更多的选择。”以炬芯的芯片为例，超低功耗的解决方案对应炬芯 ATS 283X 平台，高性能解决方案对应 ATS3609D 平台。

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能接口/总线/驱动传感/MEMS 处理器/DSP EDA/IP/IC设计机器人市场分析可穿戴设备业界新闻

多模态人机交互：未来机器“眼耳手鼻口”一个都不能少

达摩院语音实验室：从原子能力到自然交互

既要听得懂，也要看得明

杂志声明