广告

科技把科幻变成现实,先从语音接口技术开始

时间:2017-06-22 11:37:41 作者:Eran Belaish,CEVA音频和语音产品线的产品营销 阅读:
随着虚拟助手变得更加智能,我们对它们的期望越来越高。现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感侦测…
广告

随着虚拟助手变得更加智能,我们对它们的期望越来越高。现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感侦测。在我之前的专栏中,我回顾了当前流行的语音接口的缺点和缺失特征,但是这些复杂的情况正濒临消除。在本文中,我将展望未来的语音接口和能够推动它们的技术。
20170621TA01P1
图1 描述一台来自电视剧《西部世界》的 Android“主机”。(图片来源:HBO)

能够相互通讯的长时倾听机器

语音优先用户接口(UI)需要长时间倾听。这对使用小电池的小型便携设备来说是一个挑战,每微瓦都是宝贵的。在这方面,有趣的发展之一是使用压电从声波产生电能。一家专门研究这项技术的公司Vesper最近为压电微机电系统(MEMS)麦克风的研发募集了1,500万美元。此外,在CES 2017上,Vesper和DSP Group展示其电池供电设备的近零功率语音启动。当环境安静时,他们的解决方案使用压电效能来保持系统处于低功耗唤醒模式,该平台使用DBMD4始终在线的语音和音频处理器实现了比现有方法低五倍的功耗(根据公司资料)。

这项技术可能成为真正的长时倾听接口的解决方案,即使是最小的电池供电设备,如苹果(Apple)的AirPods(目前需要点击来操作Siri)。可以从这项技术获益的另一个设备是Amazon Echo Tap。Tap最近实现了软件升级,使其能够长时倾听,但升级将待机时间从3周缩短至约8小时。哎呀!使用上述方法,待机时间可以增加到几个月!未来随着压电技术的改进,像Tap这样的设备待机时间可能会达到数年(图2)。
20170621TA01P2
图2 微型VM1010压电MEMS麦克风可以在接近零功率时用声音唤醒。(来源:Vesper)

对于整体UI,机器还必须能够彼此通讯,以及与人类进行通讯。为了避免被限制在每个服务提供商的封闭生态系统(称为“围墙花园”)中,设备之间应该有一个统一的通讯协议,类似智能型手机应用程序的深度链接。这个问题的一个解决方案可能是让设备透过无声的超声波音频进行通信,就像LISNR提供的技术。该解决方案使用音波传输可定制的数据封包,在启用的设备上启用近距离数据传输、第二屏幕功能、身份验证和设备到设备连接功能。

用于个性化用户体验的生物特征识别

语音接口的另一个理想特征是用户个性化。每个人都有独特的声音和自己的特征;这被称为“声纹”。透过声纹辨识每个用户的技能是语音接口的巨大进步,它将透过了解每个使用者经常使用哪些服务、喜欢的音乐等,为每个使用者提供个性化体验。例如,如果你和其他家庭成员使用同一个语音助手,你们每个人都可以问“我的每日行程是什么?”,但你只会收到你自己的行程内容。另外,声纹也可以用于生物特征识别,确保用信用卡消费时只能由持卡人或其他授权用户进行。

有传言表示Amazon的Alexa很快就会具备这样的技能;然而,在此期间,不同使用者之间的切换只能透过语音进行,而不能进行身份认证。Google Home同样如此,但是Google Pixel手机上的“语音助手”具备“信任的声音”功能,这使用户可以透过说“Ok,Google”来解锁手机,这也显示其应用了这项技术。下一步是将其适当地整合在具有远程语音拾取功能的设备中,为多个使用者提供服务。实现这一点的主要障碍是在语音识别之前处理语音输入,以清理语音输入时引入的失真,如本文中所述,为什么语音助手无法知道谁在说话?

在我最近的专栏中,介绍了语音接口背后的现今技术,我提到一些用于清除语音命令噪声和回声的算法。在将数据传送到通常位于云中的自动语音识别(ASR)引擎之前执行,清理过程倾向于消除构成声纹的独特标记,结果是,传送到云端的语音数据足以理解所说的内容,但不能确定是谁说的话。在这种情况下,执行边缘分析,也就是处理设备而不是云端的语音可以解决问题。与针对视频分析的边缘处理一样,与基于云端的处理相比,高效的边缘解决方案可以改进隐私保护、提高安全性、提升速度并降低成本。

把事情放在上下文中:类似人类的记忆

虚拟助手的下一个挑战将是利用深度学习的力量来建立类似人类的记忆技能。这将使助手以人类自然地与其他人交往的相同方式进行对话。这包括在上下文中引用事物的能力;例如,让我们考虑以下对话:

人类:“你记得我上个月要你订购进口啤酒,好让举办我妻子的生日聚会吗?” 机器:“是的,是可乐娜黑啤酒,你要我再订一包六罐装吗?”人类:“再订两包六罐装。” 机器:“好了,两包六罐装可乐娜黑啤酒正在送来的路上。”

对于两个人来说,这是一个简单而微不足道的交谈。但是为了让机器理解需订购什么啤酒,它必须记住下上一个订单的上下文,这需要以智能的方式组合不同领域的知识(如订单历程记录、家庭成员、行事历场合)以正确理解要求。另外,请注意:在上述情景下,机器可以理解需要它的协助,即使没有明确地将其称为如今的设备。

使用卷积深度神经网络(DNN),机器在需要复杂思想、情境记忆和决策的任务中,越来越接近于人类的表现。从而为无人驾驶汽车制定驾驶策略到在伦敦地铁导航,复杂的DNN使机器达到实现这一目标所必需的智能水平成为可能。

完成规划:情感侦测和计算机视觉

一旦我们与机器建立了对话关系,我们会立即注意到有些东西掉了。除了我们所说的实际话语,还有我们说话的方式。当你和另一个人谈话时,你希望他能够体会言外之意——感受你的语气和你的心情,并且明白你的意思,而不一定是你说的话,这将我们带入情感侦测或情感分析领域。像Beyond Verbal等公司专门分析来自声乐语调的情绪,使声动设备和应用程序能够在情感层面与用户进行交流。

同样,视频分析用于破译情感侦测的面部表情。在这里,深度学习再次被利用来研究庞大的面孔数据库,并学习如何判断对象表达的情感。一旦视觉也整合到虚拟助手中,他们就可以更好地理解我们的意图,例如,使用者是否指的是机器,即使没有明确地使用触发词,你也可以向它们表达情绪,使用手势及声音进行沟通。脸部识别、情绪检测、类似人类的记忆和情境感知的结合将推动人机交互的全新时代。
20170621TA01P3
图3 情感侦测和生物特征辨识是你的虚拟助手将很快获得的技能。(来源:CEVA)

当然,支持视觉的虚拟助手将进一步提升对个人隐私的忧虑。这些忧虑中的一些可能会被更加智能的边缘设备和使用“局部雾化”而不是将数据传送到云端进行处理而得到缓解。透过最大限度地减少云端支持,使用者还将体验到手持设备更快的响应速度和更长的电池续航力时间。

现实追赶科幻小说(但是哪个版本?)

支持语音的设备不断激发有关隐私和个人界限的伦理辩论。当他们变得更加智能、更加无处不在时,会发生什么?当他们获得视觉和情绪感知的新技能时,会发生什么?他们会突然达到一个转折点,像《西部世界》中的人物一样获得类似人类的意识和情感吗?如果是这样,会以充满激情的暴力爆发结束吗?还是他们会变得非常聪明,与我们在一起感到厌倦,深情地与我们分开,因为他们具备了奇异性?

无论如何,未来一定是有意思的时代。在我们仍然掌管的时候,让我们充分利用我们的技术。相信未来我的超智能、情绪感知、长时倾听小帮手,会观察当我是沉思心情时,播放我喜欢听的曲调。

本文授权编译自EDN Taiwan,版权所有,谢绝转载

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 晶圆级脉冲激光沉积将改变游戏规则 一项技术要想产生广泛的影响,它不仅要解决短期的挑战,还应该超越现有技术的进步,为未来的创新打开大门。这就是我们对泛林集团(Lam Research)今年早些时候推出的全球首个用于半导体量产的脉冲激光沉积(PLD)技术的描述。
  • 晶合集成与思特威首颗集成1.8亿像素全画幅CIS芯片成功试产 当今这个数字化时代,图像传感器技术的发展对于摄影、安防、医疗等多个领域的重要性不言而喻。近日,合肥晶合集成电路股份有限公司与国内设计公司思特威联合宣布,他们共同研发的首颗1.8亿像素全画幅(2.77英寸)CMOS图像传感器(CIS)已成功试产。
  • 为什么相干激光雷达在ADAS和汽车传感领域越来越受欢迎 激光雷达正在迅速获得人们的关注,并被广泛用于ADAS和自动驾驶汽车传感系统,但该技术有多种实现方法。本文介绍了这些方法以及相干激光雷达检测的相对优势。
  • 设计汽车雷达系统的挑战 雷达在新型汽车设计中随处可见。现在,高清雷达可以在所有天气条件下发挥作用,可以作为AI物体检测的前端,与其他传感器通道相辅相成,进一步提高准确性和安全性。高价值嵌入式雷达系统的制造商有着巨大的潜力。然而,如何在竞争中发掘这种潜力可能是一项挑战。
  • 面对欧盟效率和空载功耗两大新要求,BLDC设计怎么破? BLDC的应用持续增长,主要市场驱动力来自于以下几个方面:工业类电机应用节能指令提出了新要求;印度对于吊扇应用,致力于实现50%的节能目标;越来越多设备的终端客户,希望有更好的使用体验。
  • 马斯克:正与首位脑机芯片受试者讨论植入第二代芯片 据悉,Neuralink公司正在积极推进第二阶段的临床试验。该公司已获得美国FDA的批准,将在6月份对受试者进行芯片植入手术。
  • 全球折叠屏手机快速增长,中国品牌压 • 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
  • AI网络物理层底座: 大算力芯片先进 AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
  • 奕斯伟计算DPC 2024:发布RISAA(瑞 奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
  • 重磅发布:Canalys 2024年中国云渠道 2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
  • 路特斯的努力有多“韧性” 文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
  • 发奖金,人均105万,1.2万人有份! ‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
  • 【光电集成】玩转先进封装  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:AIOT大数据
  • 成立超30年!天津三星电子注销;同时以8.4亿美元向中国公司出售偏光膜业务! 天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
  • 协作机器人鼻祖进军移动机器人,势要东山再起? 会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!再度出现,能否再次“出线”?文|覃洁兰近日,曾经在
  • 【光电通信】特种光纤与光纤通信-236页收藏  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:通信大讲堂申明
  • 该国产SiC将上主驱,还有20家企业取得进展... 近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
  • 60%汽车供应商裁员! 疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
  • 总投资12亿元!这一IGBT项目明年投产 [关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
  • 【今日分享】世有伯乐,然后有千里马,谢谢您,我的导师…  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来---- 鹤发银丝映日月,丹
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了