人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先……

百余年前,在等车的人们用看报纸打发时间;今天的人们同样需要打发时间,但是报纸变成了手机。

IMG_2829.JPG

喜马拉雅硬件生态事业部总经理余涛

“人获取内容的本质需求其实没有变,变的是交互方式。从单一的视觉需求,扩展出了听觉、语音等多模态交互。”12 月 19 日,在炬芯科技举办的第四届 Techlife 炬芯 2019 多模态交互技术开发者大会上,喜马拉雅硬件生态事业部总经理余涛说到。

而炬芯举办本次开发者大会的目的,正是将AI 多模态交互技术运用在新型教育之中。“对于教育,我们不能停留在与电子产品的互动,而要回归本质与书本的互动。语音、视觉、触控加上反馈的融合是未来的方向。”炬芯产品总监肖凯平认为,人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先,并且兼顾老人、儿童以及方言人士让语音对话体验越来越好。语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。
1.jpg
炬芯产品总监肖凯平

在人机交互领域,人们常说“大耳朵,小眼睛”,这里耳朵表示听觉,眼睛表示视觉。这样说是因为语音技术已经比较成熟,是AI交互的主要手段,不同产品有不同需求,但体验的门槛是2mic,要在本地完成AFE+WWE+AEC所有的计算;视觉技术相对而言还没那么成熟,由于视觉算法需要的资源很大,本地化NN的性价比不够,一般在本地完成一部分计算,大部分工序在云端完成。

智能交互的目的,就是为了赋能AIoT双向交互反馈能力,给设备装上耳朵、眼睛和手,让AIoT更“有用”。

IMG_2885.JPG
“为实现更优质交互体验,炬芯希望用更优质产品给智能机器赋能,推出了 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性。” 肖凯平说到,“ ATS 3609D支持多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。”

IMG_2887.JPG
芯片架构上,有着专为智能语音设计的VAD和6路高精度ADC,加上关键词检测模块形成了Always On唤醒功能的基础。算法则是集成了阿里巴巴达摩院的AFE,WWE。

达摩院语音实验室:从原子能力到自然交互

阿里巴巴达摩院语音实验室成立于2014年,承担着为阿里巴巴经济体提供无处不在的语音交互能力的重任。达摩院资深算法专家高杰介绍到,语音AI三大基石包括数据积累、算法以及计算能力,“背靠阿里云的数据积累,在三国五地百人精英团队的技术支持下,达摩院语音识别技术的弹性计算能做到百万并发,经受住了双十一的考验,SLA达到99.9%。”
2.jpg
达摩院资深算法专家高杰

达摩院语音实验室从成立到去年,基本上会以每半年周期做一个大提升。其中最具里程碑效应的是 2015年12月份的LCBLSTM模型,这是在语音识别领域中,整个序列模型第1次在工业界做大规模部署,当时的错误率相比DNN下降20%左右。 另外是2017和2018年底大规模部署的两种语音识别模型,与之前的模型相比错误率都分别下降20%,效率大幅提升,“也因如此,麻省理工科技评论在一则报道中称阿里巴巴拥有了一项比谷歌更好用的语音助手技术。”高杰说到。
IMG_2850.JPG
在语音技术上,达摩院语音实验室将语音技术做成一项原子产品,通过开箱即用的原子能力,在独创的学习平台定制业务模型,和多家业务伙伴携手,提出完整的行业语音解决方案。

在语音交互上,余杰表示,语音实验室采取被集成的策略,希望通过算法、系统以及服务全链路的能力输出解决方案,给硬件厂商提供服务。“达摩院语音实验室的解决方案已经在车载行业、电视行业、公共空间等交互设备上落地实现,在这些复杂的场景中,多模态技术已经开始发挥着作用。我们的合作策略是不做自己的硬件产品,只做alibaba-inside。”
IMG_2861.JPG
一个被集成的案例是上海地铁的语音售票机,余杰称这也是全球第一台地铁语音售票机,在真实嘈杂环境下识别准确率超过96%。相比传统售票机买一张票需要30.64秒,AI语音售票机只需要11.85秒。另外在儿童教育硬件产品上,达摩院作为语音AI能力输出者,与炬芯等芯片厂商及方案商、内容厂商合作,定制TTS服务。

既要听得懂,也要看得明

2018年,中国发布的《教育信息化2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语言文字信息化关键技术研究与应用。由于产业政策的利好,教育机器人作为机器人应用于教育领域的代表,将成为智慧学习环境的重要组成部分。
3.jpg
玩瞳科技 CTO潘鑫

第一代教育机器设备以VCD、录音机等有声设备为主;第二代以个人电脑、手机搭配教育APP,结合多媒体、海量资源库以及GUI交互为主;目前的第三代设备已经进入到交互式智能教育硬件,例如教育机器人和学习平板,大量使用ASR/NLP技术和外辅设备。下一代机器人会往哪个方向发展?玩瞳科技 CTO 潘鑫认为,视觉将是下一代机器人的基本能力,具备自然交互和主动伺服功能的多模态交互机器人将成为主流。视觉的能力将使机器人改变以往的被动服务形式,迈向主动服务,从而为使用者提供更好的服务体验。

TWS蓝牙耳机也是语音市场爆发可以看得到的主力军。根据蓝牙联盟数据,2018年全球语音产品出货量为8.8亿台,这其中包括各种蓝牙耳机、智能音响等。而预计到2022年仅TWS蓝牙耳机出货量就将达到8亿只,对应的SoC市场规模将达到16亿颗,YoY增长率33%。这其中还不包括苹果的产品。
4.jpg
CEVA大客户经理田元

CEVA大客户经理田元表示,庞大且还在高速发展的智能语音市场,“有不同的场景需求,我们也提出超低功耗和高性能的两种解决方案,为 IC 设计公司提供更多的选择。”以炬芯的芯片为例,超低功耗的解决方案对应炬芯 ATS 283X 平台,高性能解决方案对应 ATS3609D 平台。

 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
OpenAI认为,在美国建设更多基础设施对于推进人工智能并使其优势广泛普及至关重要。
目前,这两家人工智能领军企业已经与美国政府下属的AI安全研究所(US AI Safety Institute)签署了谅解备忘录,承诺在发布重大新的人工智能模型之前,先让美国政府进行评估,包括模型的能力、可能带来的风险以及减轻这些风险的策略。
英伟达(NVIDIA) 发布 2025 财年第二季度财务报告显示,截至 2024 年 7 月 28 日的第二季度收入为 300 亿美元,较上一季度增长 15%,较去年同期增长 122%。NVIDIA财报的利好消息难以推动股价进一步上涨,也反映了投资人过高的预期......
全球科技企业早已掀起AI领域的军备竞赛。尽管中国科技企业无法获得先进的AI芯片,投入也远不及美国科技巨头,但在AI技术领域的大规模的投入仍体现了中国科技巨头对AI技术的重视程度和未来发展的信心。
在强化人工智能基础设施建设方面,哈尔滨建设绿色低成本人工智能超算中心,具有明显的地理位置和天然气候优势。目前,黑龙江省及哈尔滨市出台了多项政策,支持数字经济的发展,并给予新建或扩建智算中心的算力基础设施补贴。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
周二,捷普科技(Jabil)官员与印度泰米尔纳德邦代表团在泰米尔纳德邦首席部长MK Stalin的见证下,签署了一份备忘录。MK Stalin正在美国进行为期17天的访问,旨在吸引新的投资。MK St
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!再度出现,能否再次“出线”?文|覃洁兰近日,曾经在
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆