人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先……

百余年前,在等车的人们用看报纸打发时间;今天的人们同样需要打发时间,但是报纸变成了手机。

IMG_2829.JPG

喜马拉雅硬件生态事业部总经理余涛

“人获取内容的本质需求其实没有变,变的是交互方式。从单一的视觉需求,扩展出了听觉、语音等多模态交互。”12 月 19 日,在炬芯科技举办的第四届 Techlife 炬芯 2019 多模态交互技术开发者大会上,喜马拉雅硬件生态事业部总经理余涛说到。

而炬芯举办本次开发者大会的目的,正是将AI 多模态交互技术运用在新型教育之中。“对于教育,我们不能停留在与电子产品的互动,而要回归本质与书本的互动。语音、视觉、触控加上反馈的融合是未来的方向。”炬芯产品总监肖凯平认为,人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先,并且兼顾老人、儿童以及方言人士让语音对话体验越来越好。语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。
1.jpg
炬芯产品总监肖凯平

在人机交互领域,人们常说“大耳朵,小眼睛”,这里耳朵表示听觉,眼睛表示视觉。这样说是因为语音技术已经比较成熟,是AI交互的主要手段,不同产品有不同需求,但体验的门槛是2mic,要在本地完成AFE+WWE+AEC所有的计算;视觉技术相对而言还没那么成熟,由于视觉算法需要的资源很大,本地化NN的性价比不够,一般在本地完成一部分计算,大部分工序在云端完成。

智能交互的目的,就是为了赋能AIoT双向交互反馈能力,给设备装上耳朵、眼睛和手,让AIoT更“有用”。

IMG_2885.JPG
“为实现更优质交互体验,炬芯希望用更优质产品给智能机器赋能,推出了 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性。” 肖凯平说到,“ ATS 3609D支持多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。”

IMG_2887.JPG
芯片架构上,有着专为智能语音设计的VAD和6路高精度ADC,加上关键词检测模块形成了Always On唤醒功能的基础。算法则是集成了阿里巴巴达摩院的AFE,WWE。

达摩院语音实验室:从原子能力到自然交互

阿里巴巴达摩院语音实验室成立于2014年,承担着为阿里巴巴经济体提供无处不在的语音交互能力的重任。达摩院资深算法专家高杰介绍到,语音AI三大基石包括数据积累、算法以及计算能力,“背靠阿里云的数据积累,在三国五地百人精英团队的技术支持下,达摩院语音识别技术的弹性计算能做到百万并发,经受住了双十一的考验,SLA达到99.9%。”
2.jpg
达摩院资深算法专家高杰

达摩院语音实验室从成立到去年,基本上会以每半年周期做一个大提升。其中最具里程碑效应的是 2015年12月份的LCBLSTM模型,这是在语音识别领域中,整个序列模型第1次在工业界做大规模部署,当时的错误率相比DNN下降20%左右。 另外是2017和2018年底大规模部署的两种语音识别模型,与之前的模型相比错误率都分别下降20%,效率大幅提升,“也因如此,麻省理工科技评论在一则报道中称阿里巴巴拥有了一项比谷歌更好用的语音助手技术。”高杰说到。
IMG_2850.JPG
在语音技术上,达摩院语音实验室将语音技术做成一项原子产品,通过开箱即用的原子能力,在独创的学习平台定制业务模型,和多家业务伙伴携手,提出完整的行业语音解决方案。

在语音交互上,余杰表示,语音实验室采取被集成的策略,希望通过算法、系统以及服务全链路的能力输出解决方案,给硬件厂商提供服务。“达摩院语音实验室的解决方案已经在车载行业、电视行业、公共空间等交互设备上落地实现,在这些复杂的场景中,多模态技术已经开始发挥着作用。我们的合作策略是不做自己的硬件产品,只做alibaba-inside。”
IMG_2861.JPG
一个被集成的案例是上海地铁的语音售票机,余杰称这也是全球第一台地铁语音售票机,在真实嘈杂环境下识别准确率超过96%。相比传统售票机买一张票需要30.64秒,AI语音售票机只需要11.85秒。另外在儿童教育硬件产品上,达摩院作为语音AI能力输出者,与炬芯等芯片厂商及方案商、内容厂商合作,定制TTS服务。

既要听得懂,也要看得明

2018年,中国发布的《教育信息化2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语言文字信息化关键技术研究与应用。由于产业政策的利好,教育机器人作为机器人应用于教育领域的代表,将成为智慧学习环境的重要组成部分。
3.jpg
玩瞳科技 CTO潘鑫

第一代教育机器设备以VCD、录音机等有声设备为主;第二代以个人电脑、手机搭配教育APP,结合多媒体、海量资源库以及GUI交互为主;目前的第三代设备已经进入到交互式智能教育硬件,例如教育机器人和学习平板,大量使用ASR/NLP技术和外辅设备。下一代机器人会往哪个方向发展?玩瞳科技 CTO 潘鑫认为,视觉将是下一代机器人的基本能力,具备自然交互和主动伺服功能的多模态交互机器人将成为主流。视觉的能力将使机器人改变以往的被动服务形式,迈向主动服务,从而为使用者提供更好的服务体验。

TWS蓝牙耳机也是语音市场爆发可以看得到的主力军。根据蓝牙联盟数据,2018年全球语音产品出货量为8.8亿台,这其中包括各种蓝牙耳机、智能音响等。而预计到2022年仅TWS蓝牙耳机出货量就将达到8亿只,对应的SoC市场规模将达到16亿颗,YoY增长率33%。这其中还不包括苹果的产品。
4.jpg
CEVA大客户经理田元

CEVA大客户经理田元表示,庞大且还在高速发展的智能语音市场,“有不同的场景需求,我们也提出超低功耗和高性能的两种解决方案,为 IC 设计公司提供更多的选择。”以炬芯的芯片为例,超低功耗的解决方案对应炬芯 ATS 283X 平台,高性能解决方案对应 ATS3609D 平台。

 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
据悉,此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus(巨人)。Colossus作为xAI的技术基石,将借此机会实现计算能力的飞跃。
锡作为AI技术生产的重要原料之一,其需求有望成为新的增长点。而中国有色矿业公司也希望锁定这种在关键矿物清单上占据重要地位的锡的供应。
HBM4将用于特斯拉正在开发的AI数据中心及其自动驾驶汽车。其中,特斯拉采购HBM4芯片将用于强化其超级电脑Dojo的性能。
如果新的法规能够实施,特斯拉毫无疑问将能够更自由地部署其无人驾驶技术,从而推动无人驾驶出租车(如Cybercab)的大规模生产。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题