在语音控制中,降低功率的创新技术将持续发展,从而将语音启动操作的潜力从线性供电到电池供电设计,一路扩展到实际应用...

仅仅使用语音来控制机器的能力已经成为许多商用和消费系统的流行功能了。但是语音控制的问题在于设备必须始终处于监听状态,这意味着必须随时为其供电。不过,更多的新选择正不断涌现,有助于设计人员为其音控设计降低使用功耗。

要让机器对口语指令做出适当响应,是一项巨大的处理挑战。系统必须先有麦克风来拾取声音、数字器将声音转换成处理器可以运作的形式,然后进行大量的数字信号处理,才能从声音中提取语音信息。所涉及的处理量将取决于需要辨识的指令字符数量。词汇量有限的系统可以使用如图1所示的结构进行本地处理,以进行单词检索,而需要自然语音理解的系统则可使用云端运算资源,进行更多的处理。

图1:典型的语音控制系统必须不断地处理声音,以寻找指令字词。(图片来源:Aspinity)

遗憾的是,大多数的时间并不会有任何的语音指令,浪费了处理和所消耗的功率。如果要求用户先按下按键等动作以启动语音处理,则可以避免这种浪费。但是,如果仅透过语音唤醒以启动系统,则必须始终撷取并处理声音,以免错过任何指令。这使得以电池供电的应用备受关注,因为语音处理的“常时监听”(always on )本质,可能会消耗大量电池。

为了减少浪费力气以及节省功率的考虑,语音处理系统通常会使用“唤醒”词来启动。这种方法所需的功率较小,因为在大多数情况下,语音处理只需要能够辨识某个特定单词,而不是全部功能的词汇。因此,系统可以在监听唤醒词的同时,执行较简单、功耗更少的处理算法,从而暂停整个语音处理工作,直到检索到唤醒词为止。

业界在追寻这种方法时,已经投入大量精力来开发仅需要最小功率的唤醒单词引擎。通常,这些引擎只能辨别几个单词,从而让用户选择可能的唤醒选项。然而,有些引擎能够辨别足够多的单词,以提供有限形式的语音控制,从而提供多个指令。但是,对于更复杂的语音控制,唤醒词引擎的目的只是为了及时启动一些更强大、更耗电的处理功能,以接收并诠释伴随唤醒词而来的语音指令。

这些唤醒词引擎正在不断发展中。例如,最近市场上推出将Retune的VoiceSpot关键词检测算法与CEVA的低功耗数字信号处理(DSP)系列相结合的配对方案。该组合可以执行波束成形和声学回声消除,以便在出现噪声时提高单词辨识以及唤醒词辨识的可靠性。该算法的总内存占用量低于80KB,适用于诸如耳塞、智慧手表和运动相机等更小的电池供电应用。

最近还有另一个方案采用Cyberon的CSpotter算法,搭配瑞萨电子(Renesas Electronics)的RA6系列微控制器(MCU)。该算法使用基于音素(phoneme)的建模,支持30多种语言。它可以作为唤醒词引擎或使用多种不同的指令集,提供本地语音控制。该处理器为数字麦克风提供I2S接口,从而无需使用模拟数字转换器(ADC)。

这两种方法尽管已尽能地减少语音识别任务了,但仍必须依靠数字信号处理来进行唤醒词辨识。这为“常时监听”的电源需求设置了下限,因而在电池供电的应用中可能仍然很麻烦。事实上,还有另一种技术可以为“常时监听”的唤醒词辨识节省更多功率。

模拟机器学习(machine learning)技术是关键。Aspinity为此开发了“可重配置模拟模块化处理器”(RAMP)芯片,首先将声音辨识为语音,然后再尝试确定语音是否提到唤醒词。RAMP芯片赋予系统的功能是在执行任何语音处理之前,先确定所检测到的声音实际上是语音。如图2所示,当没有任何人在说话时,这种预先确定声音是否是语音的功能,让唤醒词引擎能够持续休眠状态。

图2:RAMP芯片由于能先确定某个声音是语音再进行处理,让语音处理过程得以安全地略过其他声音类型。(图片来源:Aspinity)

该芯片使用模拟神经网络来实现这一目标,该模拟神经网络经过训练可以区别人类的语音以及其他声音,然后向语音处理系统发送启动信号,以确定语音是否在说某个唤醒词。为了确保语音处理具有完整的语音工作模式,芯片将会在快取开始之前缓冲500毫秒(msec)的撷取声音。当芯片辨识到声音为语音时,就会将传入的声音(从开始传送数据之前)引导至语音处理系统以进行解释。

这种方法仅在RAMP芯片持续供电时才能维持语音控制系统。每当没有人在讲话时,语音处理硬件(包括唤醒词引擎)就可能保持休眠状态。在大多数情况下,没有语音的时段表示系统运行的大部份时间。相较于唤醒字检测所需的典型数十毫安(mA)电流,RAMP芯片和主机MCU仅需要约25uA的电流。因此,相较于“常时监听”的唤醒字检测,忽略静音和非语音的能力可以节省大量功率。

在语音控制中,这种降低功率的创新很可能继续发展,从而将语音启动操作的潜力从线性供电到电池供电设计,一路扩展到实际应用。无论透过语音控制特定设备是不是个好主意,也无论其电源如何,它都已经成为一种实用的选择了。

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
太倒霉了,把儿童手表的充电线,接到了骨传导耳机上,当下耳机就被烧了!是手表充电线电流过大导致的损坏?还是正负极反接造成的?
碳化硅技术正在彻底改变电力电子行业,使各种应用实现更高的效率、更紧凑的设计和更好的热性能。ST、安森美、Wolfspeed、罗姆和英飞凌等领先制造商均提供SiC解决方案,可根据特定用例提供分立器件、功率模块或裸片形式的产品。
从运算放大器、逻辑功能芯片到高端处理器等基本抗辐射器件已经存在多年,并提供多种辐射耐受等级。尽管抗辐射是必要条件之一,仅靠器件本身并不足以保证整个电路的抗辐射性能。
过去几十年来,全球能源消耗稳步增长,预计还会进一步增长。
物理世界对智能的需求正在推动边缘设备支持复杂计算,如人工智能、机器学习、数字信号处理和数据分析等。这增加了能源需求,而这些设备通常处于能源匮乏状态。因此,迫切需要从根本上重新考虑制造这些设备的计算硬件以提高能源效率。
英诺赛科此次上市标志着作为氮化镓功率半导体领域的龙头企业正式进入资本市场,并成为港股“第三代半导体”第一股。英诺赛科的开盘价为31港元,较发行价上涨了0.5%,但随后股价跌破了发行价,市值约为270亿港元......
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
倒计时1天,『2025年行家说开年盛会(第8届)取势行远·LED显示屏及MLED产业链2025年蓝图峰会』明天正式启幕。本届开年盛会特设「2025年产品/技术/市场蓝图计划」、「COB」、「MiP及玻
回顾2024年,碳化硅和氮化镓行业在多个领域取得了显著进步,并经历了重要的变化。展望2025年,行业也将面临新的机遇和挑战。为了更好地解读产业格局,探索未来的前进方向,行家说三代半与行家极光奖联合策划
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----编者荐语特征提取是计算机
市值一夜蒸发2900亿”作者|王磊编辑|秦章勇特斯拉陷入一个怪圈。马斯克的权力越来越大,但特斯拉的股价却跌得越来越惨。就在昨天,特斯拉股价又下跌了4.43%,一天之内蒸发406亿美元,约合人民币295
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
‍‍近几年,随着Mini/Micro LED技术的高速发展,LED产业呈现几大发展趋势,如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成,以及RGB 封装与COB 降本需求迫
点击文末“阅读原文”链接即可报名参会!往期精选《2024年度中国移动机器人产业发展研究报告》即将发布!2024年,36家移动机器人企业融了超60亿元2024移动机器人市场:新玩家批量入场,搅局还是破局
前不久,“行家说三代半”报道了长安汽车采用氮化镓OBC车载电源(点击查看)。近期,比亚迪、广汽埃安两家车企又相继公布了氮化镓应用进展:比亚迪&大疆:车载无人机采用氮化镓技术3月2日,比亚迪、大疆共同发
如果说华为代表了国产手机芯片的最高水平,那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日,巴塞罗那MWC世界移动通信大会上,紫光展锐正式发布手机芯片T8300。据了解,T8300采用的是6nm
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新《5G时代下的突破机会:论全球电信商FWA布局》报告指出,随着美国电信商T-Mobile、Verizon转移营运重心至拓展建置成本