在语音控制中,降低功率的创新技术将持续发展,从而将语音启动操作的潜力从线性供电到电池供电设计,一路扩展到实际应用...

仅仅使用语音来控制机器的能力已经成为许多商用和消费系统的流行功能了。但是语音控制的问题在于设备必须始终处于监听状态,这意味着必须随时为其供电。不过,更多的新选择正不断涌现,有助于设计人员为其音控设计降低使用功耗。

要让机器对口语指令做出适当响应,是一项巨大的处理挑战。系统必须先有麦克风来拾取声音、数字器将声音转换成处理器可以运作的形式,然后进行大量的数字信号处理,才能从声音中提取语音信息。所涉及的处理量将取决于需要辨识的指令字符数量。词汇量有限的系统可以使用如图1所示的结构进行本地处理,以进行单词检索,而需要自然语音理解的系统则可使用云端运算资源,进行更多的处理。

图1:典型的语音控制系统必须不断地处理声音,以寻找指令字词。(图片来源:Aspinity)

遗憾的是,大多数的时间并不会有任何的语音指令,浪费了处理和所消耗的功率。如果要求用户先按下按键等动作以启动语音处理,则可以避免这种浪费。但是,如果仅透过语音唤醒以启动系统,则必须始终撷取并处理声音,以免错过任何指令。这使得以电池供电的应用备受关注,因为语音处理的“常时监听”(always on )本质,可能会消耗大量电池。

为了减少浪费力气以及节省功率的考虑,语音处理系统通常会使用“唤醒”词来启动。这种方法所需的功率较小,因为在大多数情况下,语音处理只需要能够辨识某个特定单词,而不是全部功能的词汇。因此,系统可以在监听唤醒词的同时,执行较简单、功耗更少的处理算法,从而暂停整个语音处理工作,直到检索到唤醒词为止。

业界在追寻这种方法时,已经投入大量精力来开发仅需要最小功率的唤醒单词引擎。通常,这些引擎只能辨别几个单词,从而让用户选择可能的唤醒选项。然而,有些引擎能够辨别足够多的单词,以提供有限形式的语音控制,从而提供多个指令。但是,对于更复杂的语音控制,唤醒词引擎的目的只是为了及时启动一些更强大、更耗电的处理功能,以接收并诠释伴随唤醒词而来的语音指令。

这些唤醒词引擎正在不断发展中。例如,最近市场上推出将Retune的VoiceSpot关键词检测算法与CEVA的低功耗数字信号处理(DSP)系列相结合的配对方案。该组合可以执行波束成形和声学回声消除,以便在出现噪声时提高单词辨识以及唤醒词辨识的可靠性。该算法的总内存占用量低于80KB,适用于诸如耳塞、智慧手表和运动相机等更小的电池供电应用。

最近还有另一个方案采用Cyberon的CSpotter算法,搭配瑞萨电子(Renesas Electronics)的RA6系列微控制器(MCU)。该算法使用基于音素(phoneme)的建模,支持30多种语言。它可以作为唤醒词引擎或使用多种不同的指令集,提供本地语音控制。该处理器为数字麦克风提供I2S接口,从而无需使用模拟数字转换器(ADC)。

这两种方法尽管已尽能地减少语音识别任务了,但仍必须依靠数字信号处理来进行唤醒词辨识。这为“常时监听”的电源需求设置了下限,因而在电池供电的应用中可能仍然很麻烦。事实上,还有另一种技术可以为“常时监听”的唤醒词辨识节省更多功率。

模拟机器学习(machine learning)技术是关键。Aspinity为此开发了“可重配置模拟模块化处理器”(RAMP)芯片,首先将声音辨识为语音,然后再尝试确定语音是否提到唤醒词。RAMP芯片赋予系统的功能是在执行任何语音处理之前,先确定所检测到的声音实际上是语音。如图2所示,当没有任何人在说话时,这种预先确定声音是否是语音的功能,让唤醒词引擎能够持续休眠状态。

图2:RAMP芯片由于能先确定某个声音是语音再进行处理,让语音处理过程得以安全地略过其他声音类型。(图片来源:Aspinity)

该芯片使用模拟神经网络来实现这一目标,该模拟神经网络经过训练可以区别人类的语音以及其他声音,然后向语音处理系统发送启动信号,以确定语音是否在说某个唤醒词。为了确保语音处理具有完整的语音工作模式,芯片将会在快取开始之前缓冲500毫秒(msec)的撷取声音。当芯片辨识到声音为语音时,就会将传入的声音(从开始传送数据之前)引导至语音处理系统以进行解释。

这种方法仅在RAMP芯片持续供电时才能维持语音控制系统。每当没有人在讲话时,语音处理硬件(包括唤醒词引擎)就可能保持休眠状态。在大多数情况下,没有语音的时段表示系统运行的大部份时间。相较于唤醒字检测所需的典型数十毫安(mA)电流,RAMP芯片和主机MCU仅需要约25uA的电流。因此,相较于“常时监听”的唤醒字检测,忽略静音和非语音的能力可以节省大量功率。

在语音控制中,这种降低功率的创新很可能继续发展,从而将语音启动操作的潜力从线性供电到电池供电设计,一路扩展到实际应用。无论透过语音控制特定设备是不是个好主意,也无论其电源如何,它都已经成为一种实用的选择了。

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
过去几十年来,全球能源消耗稳步增长,预计还会进一步增长。
物理世界对智能的需求正在推动边缘设备支持复杂计算,如人工智能、机器学习、数字信号处理和数据分析等。这增加了能源需求,而这些设备通常处于能源匮乏状态。因此,迫切需要从根本上重新考虑制造这些设备的计算硬件以提高能源效率。
英诺赛科此次上市标志着作为氮化镓功率半导体领域的龙头企业正式进入资本市场,并成为港股“第三代半导体”第一股。英诺赛科的开盘价为31港元,较发行价上涨了0.5%,但随后股价跌破了发行价,市值约为270亿港元......
SiC的特定特性要求对MOSFET器件和栅极驱动电路进行仔细选择,以确保安全地满足应用需求,并尽可能提高效率。在本文中,我们将讨论为SiC MOSFET选择栅极驱动器时应考虑的标准。
由于在满足所有要求方面存在不同的权衡,因此很难采用一种适用于所有情况的电流检测方法。
本文整理分析了30家本土上市半导体公司2024三季度财报数据,结合第三季部分企业的重点新闻,让读者了解目前本土电源管理芯片市场现状及企业布局。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
近日,据36氪报道,进入2025年,丰田汽车针对中国区业务进行了一系列重要的人事调整。丰田中国已正式任命李晖为首位中国籍总经理。同时,广汽丰田现任总经理藤原宽行将被调任至一汽丰田,担任总经理一职。这一
本应用手册可用于指导将 TPS65219 电源管理集成电路 (PMIC) 集成到为 Xilinx® Zynq® UltraScale+® 系列 MPSoC 供电的系统中。本文档概述了 PMIC 的优势
电影《金陵十三钗》剧照上周,一向低调的轻舟智航举办了一场媒体交流会,联合创始人、总裁侯聪和 CTO 李栋等轻舟智航核心成员亲临现场,讲述轻舟智航过去一年的成绩及未来展望。轻舟智航的 2024,成绩斐然
1月23日,艾森股份发布公告称,公司正筹划以发行股份及支付现金的方式购买棓诺(苏州)新材料有限公司(以下简称“棓诺新材”)控股权并募集配套资金。该公司相关股票自2025年1月24日起停牌,预计停牌时间
等效电阻ESR是晶体在等效电路中的总电阻。谐振电阻RR是晶振本身的电阻值。大小取决于晶体的内部摩擦、电极、支架等机械振动时的损失,以及周围环境条件等的影响损失。谐振电阻较大或者较小对电路有不同的影响。
近日,维信诺在显示技术领域取得重大突破,在业界率先采用固态激光退火(SLA)技术,成功实现非晶硅薄膜向多晶硅薄膜的转化,并实现量产品成功点亮,预计在今年2月底将实现SLA技术的大规模量产。这一创举标志
1月20日,印度公司Dixon Technologies在2025年第三季财报电话会议上宣布,公司已与惠科(HKC)合作选定一处场地用于其显示制造工厂,该工厂计划于2026财年第一季度末或第二季度初开
宇树机器狗今年的 CES 展上,机器人无疑是一大焦点。清洁机器人、工业机器人、医疗机器人、陪伴机器人等引人注目,各大科技公司纷纷展示了机器人在不同场景下的巨大应用潜力。然而,尽管过去几年在大语言模型和
去年有望创下历来最佳业绩的SK海力士,已决定向员工发放每月本薪1,500%的绩效奖金,相当于15个月的年终,创下自家有史以来最高的奖金水准,显示其高频宽存储器(HBM)业务正得益于人工智能(AI)热潮
寒假到来,你是否已经计划好带着孩子来一场说走就走的旅行?无论是山川湖海,还是古城小镇,每一次旅行都充满了未知和惊喜。在这场旅行中,相机或手机将成为你记录美好瞬间的得力助手。当旅行结束,面对着一堆照片,