科技把科幻变成现实，先从语音接口技术开始-电子工程专辑

 随着虚拟助手变得更加智能，我们对它们的期望越来越高。现在，简单的语音命令实际上被认为是理所当然的，深度学习可以实现更复杂的交互，如情境对话和情感侦测…

随着虚拟助手变得更加智能，我们对它们的期望越来越高。现在，简单的语音命令实际上被认为是理所当然的，深度学习可以实现更复杂的交互，如情境对话和情感侦测。在我之前的专栏中，我回顾了当前流行的语音接口的缺点和缺失特征，但是这些复杂的情况正濒临消除。在本文中，我将展望未来的语音接口和能够推动它们的技术。
20170621TA01P1
图1 描述一台来自电视剧《西部世界》的 Android“主机”。(图片来源：HBO)

能够相互通讯的长时倾听机器

语音优先用户接口(UI)需要长时间倾听。这对使用小电池的小型便携设备来说是一个挑战，每微瓦都是宝贵的。在这方面，有趣的发展之一是使用压电从声波产生电能。一家专门研究这项技术的公司Vesper最近为压电微机电系统(MEMS)麦克风的研发募集了1,500万美元。此外，在CES 2017上，Vesper和DSP Group展示其电池供电设备的近零功率语音启动。当环境安静时，他们的解决方案使用压电效能来保持系统处于低功耗唤醒模式，该平台使用DBMD4始终在线的语音和音频处理器实现了比现有方法低五倍的功耗(根据公司资料)。

这项技术可能成为真正的长时倾听接口的解决方案，即使是最小的电池供电设备，如苹果(Apple)的AirPods(目前需要点击来操作Siri)。可以从这项技术获益的另一个设备是Amazon Echo Tap。Tap最近实现了软件升级，使其能够长时倾听，但升级将待机时间从3周缩短至约8小时。哎呀！使用上述方法，待机时间可以增加到几个月！未来随着压电技术的改进，像Tap这样的设备待机时间可能会达到数年(图2)。
20170621TA01P2
图2 微型VM1010压电MEMS麦克风可以在接近零功率时用声音唤醒。(来源：Vesper)

对于整体UI，机器还必须能够彼此通讯，以及与人类进行通讯。为了避免被限制在每个服务提供商的封闭生态系统(称为“围墙花园”)中，设备之间应该有一个统一的通讯协议，类似智能型手机应用程序的深度链接。这个问题的一个解决方案可能是让设备透过无声的超声波音频进行通信，就像LISNR提供的技术。该解决方案使用音波传输可定制的数据封包，在启用的设备上启用近距离数据传输、第二屏幕功能、身份验证和设备到设备连接功能。

用于个性化用户体验的生物特征识别

语音接口的另一个理想特征是用户个性化。每个人都有独特的声音和自己的特征；这被称为“声纹”。透过声纹辨识每个用户的技能是语音接口的巨大进步，它将透过了解每个使用者经常使用哪些服务、喜欢的音乐等，为每个使用者提供个性化体验。例如，如果你和其他家庭成员使用同一个语音助手，你们每个人都可以问“我的每日行程是什么？”，但你只会收到你自己的行程内容。另外，声纹也可以用于生物特征识别，确保用信用卡消费时只能由持卡人或其他授权用户进行。

有传言表示Amazon的Alexa很快就会具备这样的技能；然而，在此期间，不同使用者之间的切换只能透过语音进行，而不能进行身份认证。Google Home同样如此，但是Google Pixel手机上的“语音助手”具备“信任的声音”功能，这使用户可以透过说“Ok，Google”来解锁手机，这也显示其应用了这项技术。下一步是将其适当地整合在具有远程语音拾取功能的设备中，为多个使用者提供服务。实现这一点的主要障碍是在语音识别之前处理语音输入，以清理语音输入时引入的失真，如本文中所述，为什么语音助手无法知道谁在说话？

在我最近的专栏中，介绍了语音接口背后的现今技术，我提到一些用于清除语音命令噪声和回声的算法。在将数据传送到通常位于云中的自动语音识别(ASR)引擎之前执行，清理过程倾向于消除构成声纹的独特标记，结果是，传送到云端的语音数据足以理解所说的内容，但不能确定是谁说的话。在这种情况下，执行边缘分析，也就是处理设备而不是云端的语音可以解决问题。与针对视频分析的边缘处理一样，与基于云端的处理相比，高效的边缘解决方案可以改进隐私保护、提高安全性、提升速度并降低成本。

把事情放在上下文中：类似人类的记忆

虚拟助手的下一个挑战将是利用深度学习的力量来建立类似人类的记忆技能。这将使助手以人类自然地与其他人交往的相同方式进行对话。这包括在上下文中引用事物的能力；例如，让我们考虑以下对话：

人类：“你记得我上个月要你订购进口啤酒，好让举办我妻子的生日聚会吗？” 机器：“是的，是可乐娜黑啤酒，你要我再订一包六罐装吗？”人类：“再订两包六罐装。” 机器：“好了，两包六罐装可乐娜黑啤酒正在送来的路上。”

对于两个人来说，这是一个简单而微不足道的交谈。但是为了让机器理解需订购什么啤酒，它必须记住下上一个订单的上下文，这需要以智能的方式组合不同领域的知识(如订单历程记录、家庭成员、行事历场合)以正确理解要求。另外，请注意：在上述情景下，机器可以理解需要它的协助，即使没有明确地将其称为如今的设备。

使用卷积深度神经网络(DNN)，机器在需要复杂思想、情境记忆和决策的任务中，越来越接近于人类的表现。从而为无人驾驶汽车制定驾驶策略到在伦敦地铁导航，复杂的DNN使机器达到实现这一目标所必需的智能水平成为可能。

完成规划：情感侦测和计算机视觉

一旦我们与机器建立了对话关系，我们会立即注意到有些东西掉了。除了我们所说的实际话语，还有我们说话的方式。当你和另一个人谈话时，你希望他能够体会言外之意——感受你的语气和你的心情，并且明白你的意思，而不一定是你说的话，这将我们带入情感侦测或情感分析领域。像Beyond Verbal等公司专门分析来自声乐语调的情绪，使声动设备和应用程序能够在情感层面与用户进行交流。

同样，视频分析用于破译情感侦测的面部表情。在这里，深度学习再次被利用来研究庞大的面孔数据库，并学习如何判断对象表达的情感。一旦视觉也整合到虚拟助手中，他们就可以更好地理解我们的意图，例如，使用者是否指的是机器，即使没有明确地使用触发词，你也可以向它们表达情绪，使用手势及声音进行沟通。脸部识别、情绪检测、类似人类的记忆和情境感知的结合将推动人机交互的全新时代。
20170621TA01P3
图3 情感侦测和生物特征辨识是你的虚拟助手将很快获得的技能。(来源：CEVA)

当然，支持视觉的虚拟助手将进一步提升对个人隐私的忧虑。这些忧虑中的一些可能会被更加智能的边缘设备和使用“局部雾化”而不是将数据传送到云端进行处理而得到缓解。透过最大限度地减少云端支持，使用者还将体验到手持设备更快的响应速度和更长的电池续航力时间。

现实追赶科幻小说(但是哪个版本？)

支持语音的设备不断激发有关隐私和个人界限的伦理辩论。当他们变得更加智能、更加无处不在时，会发生什么？当他们获得视觉和情绪感知的新技能时，会发生什么？他们会突然达到一个转折点，像《西部世界》中的人物一样获得类似人类的意识和情感吗？如果是这样，会以充满激情的暴力爆发结束吗？还是他们会变得非常聪明，与我们在一起感到厌倦，深情地与我们分开，因为他们具备了奇异性？

无论如何，未来一定是有意思的时代。在我们仍然掌管的时候，让我们充分利用我们的技术。相信未来我的超智能、情绪感知、长时倾听小帮手，会观察当我是沉思心情时，播放我喜欢听的曲调。

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

传感/MEMS 人工智能业界新闻接口/总线/驱动模拟/混合信号

返回列表

上一篇： 半导体国家队不赚钱？展讯称“紫光五大危机缠身”报道不实 下一篇： 西数：许我东芝，我让64层3D NAND在18个月内成主流

安森美半导体有意收购Allegro，仍处早期探讨阶段若交易达成，安森美将获得Allegro在磁传感器领域的技术与客户资源，显著增强其在汽车和工业市场的垂直整合能力。
南开大学研发出基于光学的焦平面阵列堆叠芯片，用于毫米波高速成像龚诚表示，“该技术体现了光电融合的巨大优势，是微波光子学领域的新尝试。利用该技术，未来我们可以用光来实现对任意电磁波（微波、太赫兹、红外等）的高速探测、调制甚至计算。”
政策争议！汽车创新联盟起诉美国交通部，反对强制安装自动紧急制动系统美国汽车创新联盟认为该新规难以实现，并质疑其技术可行性。现有技术条件下，要求车辆在时速高达62英里/小时（约100公里/小时）的情况下自动刹停并避免碰撞几乎是不可能的。
消灭“药丸屏”设计，苹果发布iPhone屏下Face ID“隐身术”的新专利苹果的这项专利展示了其在屏下技术上的重大突破，尤其是在iPhone和MacBook设备上。对于iPhone而言，这项技术有望彻底消除刘海设计，使得设备拥有更加简洁和一体化的外观。
2025年全球半导体行业10大技术趋势 2024年，全球半导体行业虽然未全面复苏，但生成式人工智能、汽车电子和通信技术的快速发展为2025年的技术进步奠定了坚实基础，为行业在新一年中回暖带来了新的希望。基于与业内专家和厂商的交流，本文总结了2025年全球半导体行业的10大技术趋势，探讨这些技术的发展方向和市场前景。
下一代半导体氧化镓基光电探测器的应用与测试研究光电探测器的性能因材料不同、结构不同、制备工艺及应用场景的不同而存在较大的差异。性能指标之间往往存在制约，如暗电流与输出电流、灵敏度与响应度、可靠性与灵敏度等需要权衡。对于性能表征也是如此，例如高响应度与高精度电流表征无法同时进行。
赤池昌二先生升任TEL集团副总裁兼 TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。
2025年无线连接的七大趋势预计在2025年，以下七大关键趋势将塑造物联网的格局。
4月必逛电子展！六大热门新赛道，来NEP 领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！
ASML公布2025年度股东大会议程，并提本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

研报|台积电扩大对美投资至1650亿美元，预计最快2030年实现量产 Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究，TSMC（台积电）近日宣布提高在美国的先进半导体制造投资，总金额达1650亿美元，若新增的三座厂区扩产进度顺利，预计最快20
村田直播|小体积·大生态--GNSS技术如何重塑智能时代的位置服务边界本文来源：物联网展行业变革：“位置即服务”正催生万亿级市场裂变数据洞察：2025年全球GNSS市场规模预计达680亿美元，年复合增长率28%，其中智能穿戴、资产追踪、工业安全三大场景贡献超50%。增量
总投资10亿！阳光电源又一光储项目全面开工建设 2月17日，“南京江宁开发区”发文透露，阳光电源在南京新建的光伏储能项目已经全面开工建设，总投资达到10亿元。加入光储充交流群，请加微信：hangjiashuo888据报道，阳光电源南京研发中心项目是
UWB的跟随类市场，从小众逐渐扩大本文来源：智能通信定位圈自动跟随类的产品属于比较酷炫功能的“黑科技”产品。要实现自动跟随的技术可以有很多，但是最常用的就是UWB，因为UWB定位精度高，现在的成本也在下降，手机中也开始逐渐普及UWB等
低耗LED照明驱动电源ICU6116值得一选 UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小，在市场竞争激烈的当下，整灯企业希望能够降低LED驱动电源的成本，同时LED驱动电源的品质和性价比也成为主要焦
【喜讯】IFREE获高新技术企业殊荣，创新实力再获权威认证在当今科技创新的汹涌浪潮里，艾富瑞（苏州）测试科技有限公司成功脱颖而出，凭借卓越的研发实力与持之以恒的努力，顺利斩获高新技术企业认定证书。这一殊荣，不仅是对我们过往成就的高度褒奖，更是我们开启未来辉煌
10万人才缺口！新思科技携手全球行业合作伙伴，加快全梯队人才培养新思科技与国际半导体产业协会基金会（SEMI 基金会）近日在新思科技总部宣布签署一份谅解备忘录（MoU），携手推动半导体芯片设计领域的人才发展。据预测，到 2030 年，全球半导体行业将需要新增 10
SwitchBot推出可自行裁剪的智能窗帘点击蓝字关注我们SUBSCRIBE to USImage: SwitchBotSwitchBot价格实惠、可调节的智能窗帘终于问世了。SwitchBot窗帘（SwitchBot Roller Sha
最新面板价格趋势预测（2025年3月）面板价格预测（3月）根据TrendForce集邦咨询旗下面板研究中心《TrendForce 2025面板价格预测月度报告》最新调研数据：2025年3月，电视面板与显示器面板价格预期上涨，笔记本面板价格
2024年中国洁净室工程行业产业链图谱、发展现状及未来趋势分析内容概要：目前，全球半导体、光电等电子信息产业在世界范围内转移，东亚、东南亚等地区已成为世界电子信息行业的主要市场和发展重心;同时由于我国医药卫生、半导

热门评论
最新评论

换一换

科技把科幻变成现实，先从语音接口技术开始

杂志声明