随着虚拟助手变得更加智能,我们对它们的期望越来越高。现在,简单的语音命令实际上被认为是理所当然的,深度学习可以实现更复杂的交互,如情境对话和情感侦测。在我之前的专栏中,我回顾了当前流行的语音接口的缺点和缺失特征,但是这些复杂的情况正濒临消除。在本文中,我将展望未来的语音接口和能够推动它们的技术。
图1 描述一台来自电视剧《西部世界》的 Android“主机”。(图片来源:HBO)
能够相互通讯的长时倾听机器
语音优先用户接口(UI)需要长时间倾听。这对使用小电池的小型便携设备来说是一个挑战,每微瓦都是宝贵的。在这方面,有趣的发展之一是使用压电从声波产生电能。一家专门研究这项技术的公司Vesper最近为压电微机电系统(MEMS)麦克风的研发募集了1,500万美元。此外,在CES 2017上,Vesper和DSP Group展示其电池供电设备的近零功率语音启动。当环境安静时,他们的解决方案使用压电效能来保持系统处于低功耗唤醒模式,该平台使用DBMD4始终在线的语音和音频处理器实现了比现有方法低五倍的功耗(根据公司资料)。
这项技术可能成为真正的长时倾听接口的解决方案,即使是最小的电池供电设备,如苹果(Apple)的AirPods(目前需要点击来操作Siri)。可以从这项技术获益的另一个设备是Amazon Echo Tap。Tap最近实现了软件升级,使其能够长时倾听,但升级将待机时间从3周缩短至约8小时。哎呀!使用上述方法,待机时间可以增加到几个月!未来随着压电技术的改进,像Tap这样的设备待机时间可能会达到数年(图2)。
图2 微型VM1010压电MEMS麦克风可以在接近零功率时用声音唤醒。(来源:Vesper)
对于整体UI,机器还必须能够彼此通讯,以及与人类进行通讯。为了避免被限制在每个服务提供商的封闭生态系统(称为“围墙花园”)中,设备之间应该有一个统一的通讯协议,类似智能型手机应用程序的深度链接。这个问题的一个解决方案可能是让设备透过无声的超声波音频进行通信,就像LISNR提供的技术。该解决方案使用音波传输可定制的数据封包,在启用的设备上启用近距离数据传输、第二屏幕功能、身份验证和设备到设备连接功能。
用于个性化用户体验的生物特征识别
语音接口的另一个理想特征是用户个性化。每个人都有独特的声音和自己的特征;这被称为“声纹”。透过声纹辨识每个用户的技能是语音接口的巨大进步,它将透过了解每个使用者经常使用哪些服务、喜欢的音乐等,为每个使用者提供个性化体验。例如,如果你和其他家庭成员使用同一个语音助手,你们每个人都可以问“我的每日行程是什么?”,但你只会收到你自己的行程内容。另外,声纹也可以用于生物特征识别,确保用信用卡消费时只能由持卡人或其他授权用户进行。
有传言表示Amazon的Alexa很快就会具备这样的技能;然而,在此期间,不同使用者之间的切换只能透过语音进行,而不能进行身份认证。Google Home同样如此,但是Google Pixel手机上的“语音助手”具备“信任的声音”功能,这使用户可以透过说“Ok,Google”来解锁手机,这也显示其应用了这项技术。下一步是将其适当地整合在具有远程语音拾取功能的设备中,为多个使用者提供服务。实现这一点的主要障碍是在语音识别之前处理语音输入,以清理语音输入时引入的失真,如本文中所述,为什么语音助手无法知道谁在说话?
在我最近的专栏中,介绍了语音接口背后的现今技术,我提到一些用于清除语音命令噪声和回声的算法。在将数据传送到通常位于云中的自动语音识别(ASR)引擎之前执行,清理过程倾向于消除构成声纹的独特标记,结果是,传送到云端的语音数据足以理解所说的内容,但不能确定是谁说的话。在这种情况下,执行边缘分析,也就是处理设备而不是云端的语音可以解决问题。与针对视频分析的边缘处理一样,与基于云端的处理相比,高效的边缘解决方案可以改进隐私保护、提高安全性、提升速度并降低成本。
把事情放在上下文中:类似人类的记忆
虚拟助手的下一个挑战将是利用深度学习的力量来建立类似人类的记忆技能。这将使助手以人类自然地与其他人交往的相同方式进行对话。这包括在上下文中引用事物的能力;例如,让我们考虑以下对话:
人类:“你记得我上个月要你订购进口啤酒,好让举办我妻子的生日聚会吗?” 机器:“是的,是可乐娜黑啤酒,你要我再订一包六罐装吗?”人类:“再订两包六罐装。” 机器:“好了,两包六罐装可乐娜黑啤酒正在送来的路上。”
对于两个人来说,这是一个简单而微不足道的交谈。但是为了让机器理解需订购什么啤酒,它必须记住下上一个订单的上下文,这需要以智能的方式组合不同领域的知识(如订单历程记录、家庭成员、行事历场合)以正确理解要求。另外,请注意:在上述情景下,机器可以理解需要它的协助,即使没有明确地将其称为如今的设备。
使用卷积深度神经网络(DNN),机器在需要复杂思想、情境记忆和决策的任务中,越来越接近于人类的表现。从而为无人驾驶汽车制定驾驶策略到在伦敦地铁导航,复杂的DNN使机器达到实现这一目标所必需的智能水平成为可能。
完成规划:情感侦测和计算机视觉
一旦我们与机器建立了对话关系,我们会立即注意到有些东西掉了。除了我们所说的实际话语,还有我们说话的方式。当你和另一个人谈话时,你希望他能够体会言外之意——感受你的语气和你的心情,并且明白你的意思,而不一定是你说的话,这将我们带入情感侦测或情感分析领域。像Beyond Verbal等公司专门分析来自声乐语调的情绪,使声动设备和应用程序能够在情感层面与用户进行交流。
同样,视频分析用于破译情感侦测的面部表情。在这里,深度学习再次被利用来研究庞大的面孔数据库,并学习如何判断对象表达的情感。一旦视觉也整合到虚拟助手中,他们就可以更好地理解我们的意图,例如,使用者是否指的是机器,即使没有明确地使用触发词,你也可以向它们表达情绪,使用手势及声音进行沟通。脸部识别、情绪检测、类似人类的记忆和情境感知的结合将推动人机交互的全新时代。
图3 情感侦测和生物特征辨识是你的虚拟助手将很快获得的技能。(来源:CEVA)
当然,支持视觉的虚拟助手将进一步提升对个人隐私的忧虑。这些忧虑中的一些可能会被更加智能的边缘设备和使用“局部雾化”而不是将数据传送到云端进行处理而得到缓解。透过最大限度地减少云端支持,使用者还将体验到手持设备更快的响应速度和更长的电池续航力时间。
现实追赶科幻小说(但是哪个版本?)
支持语音的设备不断激发有关隐私和个人界限的伦理辩论。当他们变得更加智能、更加无处不在时,会发生什么?当他们获得视觉和情绪感知的新技能时,会发生什么?他们会突然达到一个转折点,像《西部世界》中的人物一样获得类似人类的意识和情感吗?如果是这样,会以充满激情的暴力爆发结束吗?还是他们会变得非常聪明,与我们在一起感到厌倦,深情地与我们分开,因为他们具备了奇异性?
无论如何,未来一定是有意思的时代。在我们仍然掌管的时候,让我们充分利用我们的技术。相信未来我的超智能、情绪感知、长时倾听小帮手,会观察当我是沉思心情时,播放我喜欢听的曲调。
本文授权编译自EDN Taiwan,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。