随着芯片供货商持续提升设备性能,未来更先进的AI声源应用将超越基本的语音控制,赋予机器听觉,使其能以声音更智慧地判断周遭环境…

当我试着扣下扳机,子弹随即击发,但枪声并不如我期待的那样响亮…

从我现在所在的半电波暗室内听起来,这种枪声并不像一般开枪击发时所发出的巨响,根据我业余的判断,它更像是气球爆破的声音。

不过,在这家人工智能(AI)声源辨识公司Audio Analytic的音频实验室中,音频专家——Audio Analytic执行长Chris Mitchell告诉我,就音讯而言,实际的枪声可不像是气球爆破的声音。我承认我想错了。

在半电波暗室中开枪发出了一种奇怪的“爆裂声”,跟我们预期的那种枪声不太一样…
(来源:Audio Analytic/EE Times)

那么走到电波暗室外面再度击发看看,这次它发出来的枪声听起来就比较像是电影中可能听到的经典枪响了。

这两项展示的目的在于说明枪枝实际上发出的声响与我们通常听到的枪响,其间是有差别的——我们一般听到的枪响是由周围环境声音的反射和回音构成的。

如果想设计一种能够可靠地检测枪声的AI,那么区隔这两种枪响绝对至关重要。Mitchell解释说,因为我们希望这种AI功能只会对于真的枪枝发出的枪声做出反应,而不必对环境中的任何声音都有反应。

Audio Analytic记录并标记了数百万种声音,以用于训练其AI模型进行声源辨识。
(来源:Audio Analytic)

在Audio Analytic位于英国剑桥市郊的实验室中还配置了许多警报器、门铃以及来自世界各地的数十种烟雾报警器。Mitchell说,由于传感器中的放射性物质影响,使得这些设备的声音甚至比枪声还更难撷取。不过,Audio Analytic把这些设备发出来的声音,连同一些狗吠声和窗户破裂等声音事件都仔细地记录下来,用于训练该公司的AI模型进行声源辨识。

这些机器学习模型可用于赋予机器听觉,使其能够根据环境中发生的声音来感知情境。这可能意味着一套可用于监听烟雾警报、玻璃破碎或枪声的安全监控系统,但还有更多的消费设备应用可以分析用户所在的音频场景,以及利用此情境采取行动或巧妙地调整音讯输出加以响应。

Mitchell说,训练AI模型准确辨识声音的关键就在于“数据”(data)。收集高质量的数据并确切地标记这些数据,对于创建即使在运算能力有限情况下也能实现准确声源辨识的高效模型至关重要。

TinyML模型

在Audio Analytic位于剑桥市中心的办公室中,技术副总裁Dominic Binks展示了该公司的最新成果之一——以一种适用于Arm Cortex-M0 +设备的模型,实现特定声音的AI辨识,例如可在婴儿哭泣时进行预测的模型;该模型执行于恩智浦(NXP)的Kinetis KL82微控制器(MCU)上。

Dominic Binks

Binks说:“采用特定处理器,对于进行机器学习并没什么帮助。”KL82其实内建大容量的Flash (128kB)和RAM (96kB),但没有DSP或其他专用处理,功耗仅几十毫瓦(mW)。

但要将该公司的ai3软件库安装在MCU上并非易事。Binks表示,移除针对大型系统设计的功能(例如录制和播放声音以及除错工具等功能),使得软件大幅缩水。“婴儿哭声”(baby cry)检测模型,也是该公司的最小模型之一。

Binks还介绍其团队如何以汇编语言编写操作,以处理32位溢位(overflow)——即2个INT32整数相乘的乘积,或为64位整数。如此就能将处理每个音频样本所需的时间减少到所要求的16ms限制(以16kHz一次取样256个样本,意味着需要一次处理16ms的音讯)。

他说:“透过执行这些组合程序代码,我们通常可以将运行时间缩短至11-12ms,这为我们保留了一些空间得以因应更多的工作要求。”他强调,为了因应实时的输入数据串流,音频特别需要的是处理带宽而不只是运算能力。

Audio Analytic展示其为制造商市场设计的NXP标准MCU开发板,以及一款Adafruit I2S麦克风。当侦测到婴儿哭声时,LED就会变色。
(来源:Audio Analytic)

标记数据

声源辨识(sound recognition)和语音识别(speech recognition)是不一样的。对于AI而言,声音的辨识基本上是相当复杂的任务。那么Audio Analytic如何成功地将其模型拟合到如此小的设备上?

Binks说:“这对于我们来说并不难,因为[我们的模型]是从很小型开始设计。”

Audio Analytic的声源辨识模型AuditoryNET极其特殊,很大一部份的关键在于用来进行训练的高质量标记数据。标记是必不可少的基本元素:它们会告诉模型哪些部份的声音具有相关性,因此,婴儿哭声模型最终才能学会以哭声本身来建立特性,而不会以哭声之间的呼吸声作为依据。

Chris Mitchell

Binks说:“标注资料有助于机器仅提取相应于特定声音的有关部份。如果您提供的资料多于需求,那么处理时的变量就更多。我们经常发现,标记的数据越准确,[在训练中]提供给机器学习模型的数据就越多,而它们取得的资料就越小。其间显然存在着限制,但整体而言,由于这些模型能够概推到更多的数据,使其得以更有效地辨识出声音真正显著的特征。”

Audio Analytic的Alexandria声景图(sound map)以可视化呈现了这个概念。该声景图以2D方式呈现该公司音讯数据集中约700个标记类型的1,500万种声源,包括从紧急警报和警铃到各种声音,如笑声、咳嗽和打喷嚏等。Mitchell解释说,对特定声音进行分类意味着在声景图上把相关景点周围圈在一起。

“数据越复杂和分散,噪声越大,所绘制的形状就越复杂,显示系统出错的可能性就越大。那么,建立的[模型]最终也会变得相当大,因为您必须添加更多参数来描述更大型的事件。”Mitchell解释说:“在最小型、最紧凑以及更清晰表现等所要撷取的声音基本变量之间,必须能恰如份地进行权衡——不多也不少。如果20%的标记在50ms之后消失,表示在模型中包含了很多根本不应该有的东西。这可能因此学会了很多不必要的参数,而从内存的资源的观点来看,这些都是在做白工。”

Alexandria声景图是其Audio Analytic音讯数据集中1,500万种声音的2D视觉呈现。各种颜色代表不同的声音类别。从许多未连接的声音可能出现重迭或独特的特征,突显出教导机器听音辨识的复杂性。
(来源:Audio Analytic)

相较于语音和语言处理模型有着大量的开源训练数据,针对声音的处理则没有这样的数据集。为了撷取并标记这些训练数据,Audio Analytic必须大量投资,因此,这也成为该公司的重要IP。

AuditoryNET模型也是Audio Analytic从无到有一手建立起来的。

声音模型与广泛使用的语音和语言处理模型截然不同。相较于分析语音,声音产生的实际过程变化更大。一般的声音也比言语更不受限制;任何声音都可以沿用其他的声音序列。因此,模式辨识问题以及由此产生的机器学习模型都跟语音模型完全不同。

实际应用

将声源辨识嵌入于小型MCU,可望开启许多应用。像是智能型手机、消费性电子产品、耳塞、穿戴式设备、家电或任何带有MCU的产品,或许曾经是复杂的运算密集型任务,如今将会有更实际的前景。智能型手机通常采用M4级处理器执行唤醒字符检测,因而从应用处理器(AP)中移除了该功能——如今,你可以想象一种类似的功能,它可用于辨识多种不同的声音,执行于低成本的M0+协同处理器上,但已足以实现常时开启的运转效率。

该公司之前还有一项展示是在Ambiq Micro处理器上执行,使用一对AA电池就能运作数年。该展示使用基于Cortex-M4超低功耗核心的Ambiq Micro SPOT (次阈值功率优化技术)处理器,以及一款Vesper压电MEMS麦克风,即使是在常时倾听的情况下也不会消耗功率。该展示证明了超低功耗麦克风和处理器的组合,就足以迅速侦测诸如玻璃破碎等冲击性声响。

使用超低功耗Ambiq Micro的处理器和Vesper MEMS麦克风展示,显示响应速度已足以侦测到诸如玻璃破碎等冲击声响。
(来源:Audio Analytic)

Mitchell想象了一个这样的世界:当侦测到婴儿哭声时,智能家庭系统就能自动调低用户电视的音量,并且播放婴儿房的现场音频,甚至可能将电视切换成子母画面,同步显示来自婴儿监视系统的影像。当然,除此之外还有更多有趣的应用尚待发掘。除了辨识特定声源,ai3还可将音讯环境分类为不同的场景,然后使用此信息调整来自消费设备(如头戴式耳机)的音讯结果。

例如,当一个人从一个场景(例如火车站)移动到完全不同的音讯环境(如安静的列车上),即可调整均衡器(EQ)设定或增强头戴式耳机上的主动降噪效果。此外,还可以结合对于特定声音的反应,例如在听到紧急警报或警铃时启动混合模式。

当然,这一类型的应用完美结合机器学习模型、训练数据和硬件,如今已完全可行了。展望未来,随着芯片供货商持续提高其设备性能,并根据机器学习的需求进行调整,我们可以想象更复杂先进的AI音讯应用,它将超越基本的语音控制,在资源受限的硬件上执行。这一整体效果将会赋予机器听觉,使其能以声音更成功地判断周遭环境,最终变得更聪明。

编译:Susan Hong  责编:Yvonne Geng

(参考原文:AI Sound Recognition on a Cortex-M0: Data is King,by Sally Ward-Foxton)

您可能感兴趣
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
假设 GPU 租赁成本为 2 美元 / 小时,经计算,DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入,理论上一天的总收入可达……
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
2月以来,一些人形机器人头部企业高薪案例值得关注。其中,宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位,月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元,年薪超百万(15薪制)。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
作为功率半导体领域的创新领导者,Power Integrations(以下简称:PI)始终专注于前沿技术研发,持续为全球客户提供突破性解决方案。PI 在功率变换架构、电力电子驱动系统及汽车电子领域构建
千万级中标项目5个,百万级中标项目12个。文|新战略根据公开信息,新战略移动机器人产业研究所不完全统计,2025年2月,国内发布35项中标公告,披露总金额超15527.01万元。(由新战略移动机器人全
引言 嘿,各位电动汽车的爱好者们!咱们今儿个就来聊聊电动汽车里那些“看不见,摸不着”,但又至关重要的零部件。要说电动汽车这玩意儿,那可真是科技含量满满,各种高精尖的技术都往里堆。但要让这些
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
本文来源:智能通信定位圈自动跟随类的产品属于比较酷炫功能的“黑科技”产品。要实现自动跟随的技术可以有很多,但是最常用的就是UWB,因为UWB定位精度高,现在的成本也在下降,手机中也开始逐渐普及UWB等
UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小,在市场竞争激烈的当下,整灯企业希望能够降低LED驱动电源的成本,同时LED驱动电源的品质和性价比也成为主要焦
新思科技与国际半导体产业协会基金会(SEMI 基金会)近日在新思科技总部宣布签署一份谅解备忘录(MoU),携手推动半导体芯片设计领域的人才发展。据预测,到 2030 年,全球半导体行业将需要新增 10
面板价格预测(3月)根据TrendForce集邦咨询旗下面板研究中心《TrendForce 2025面板价格预测月度报告》最新调研数据:2025年3月,电视面板与显示器面板价格预期上涨,笔记本面板价格
为进一步推进商业信用体系建设,促进企业诚实守信经营,面向企业普及诚信与品牌建设的意义,指导企业加强诚信品牌建设,提升其整体竞争力,“崛起的民族品牌”专题系列节目以诚信为内涵,在全国范围内遴选出有行业代
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新《5G时代下的突破机会:论全球电信商FWA布局》报告指出,随着美国电信商T-Mobile、Verizon转移营运重心至拓展建置成本