当我试着扣下扳机,子弹随即击发,但枪声并不如我期待的那样响亮…
从我现在所在的半电波暗室内听起来,这种枪声并不像一般开枪击发时所发出的巨响,根据我业余的判断,它更像是气球爆破的声音。
不过,在这家人工智能(AI)声源辨识公司Audio Analytic的音频实验室中,音频专家——Audio Analytic执行长Chris Mitchell告诉我,就音讯而言,实际的枪声可不像是气球爆破的声音。我承认我想错了。
在半电波暗室中开枪发出了一种奇怪的“爆裂声”,跟我们预期的那种枪声不太一样…
(来源:Audio Analytic/EE Times)
那么走到电波暗室外面再度击发看看,这次它发出来的枪声听起来就比较像是电影中可能听到的经典枪响了。
这两项展示的目的在于说明枪枝实际上发出的声响与我们通常听到的枪响,其间是有差别的——我们一般听到的枪响是由周围环境声音的反射和回音构成的。
如果想设计一种能够可靠地检测枪声的AI,那么区隔这两种枪响绝对至关重要。Mitchell解释说,因为我们希望这种AI功能只会对于真的枪枝发出的枪声做出反应,而不必对环境中的任何声音都有反应。
Audio Analytic记录并标记了数百万种声音,以用于训练其AI模型进行声源辨识。
(来源:Audio Analytic)
在Audio Analytic位于英国剑桥市郊的实验室中还配置了许多警报器、门铃以及来自世界各地的数十种烟雾报警器。Mitchell说,由于传感器中的放射性物质影响,使得这些设备的声音甚至比枪声还更难撷取。不过,Audio Analytic把这些设备发出来的声音,连同一些狗吠声和窗户破裂等声音事件都仔细地记录下来,用于训练该公司的AI模型进行声源辨识。
这些机器学习模型可用于赋予机器听觉,使其能够根据环境中发生的声音来感知情境。这可能意味着一套可用于监听烟雾警报、玻璃破碎或枪声的安全监控系统,但还有更多的消费设备应用可以分析用户所在的音频场景,以及利用此情境采取行动或巧妙地调整音讯输出加以响应。
Mitchell说,训练AI模型准确辨识声音的关键就在于“数据”(data)。收集高质量的数据并确切地标记这些数据,对于创建即使在运算能力有限情况下也能实现准确声源辨识的高效模型至关重要。
TinyML模型
在Audio Analytic位于剑桥市中心的办公室中,技术副总裁Dominic Binks展示了该公司的最新成果之一——以一种适用于Arm Cortex-M0 +设备的模型,实现特定声音的AI辨识,例如可在婴儿哭泣时进行预测的模型;该模型执行于恩智浦(NXP)的Kinetis KL82微控制器(MCU)上。
Dominic Binks
Binks说:“采用特定处理器,对于进行机器学习并没什么帮助。”KL82其实内建大容量的Flash (128kB)和RAM (96kB),但没有DSP或其他专用处理,功耗仅几十毫瓦(mW)。
但要将该公司的ai3软件库安装在MCU上并非易事。Binks表示,移除针对大型系统设计的功能(例如录制和播放声音以及除错工具等功能),使得软件大幅缩水。“婴儿哭声”(baby cry)检测模型,也是该公司的最小模型之一。
Binks还介绍其团队如何以汇编语言编写操作,以处理32位溢位(overflow)——即2个INT32整数相乘的乘积,或为64位整数。如此就能将处理每个音频样本所需的时间减少到所要求的16ms限制(以16kHz一次取样256个样本,意味着需要一次处理16ms的音讯)。
他说:“透过执行这些组合程序代码,我们通常可以将运行时间缩短至11-12ms,这为我们保留了一些空间得以因应更多的工作要求。”他强调,为了因应实时的输入数据串流,音频特别需要的是处理带宽而不只是运算能力。
Audio Analytic展示其为制造商市场设计的NXP标准MCU开发板,以及一款Adafruit I2S麦克风。当侦测到婴儿哭声时,LED就会变色。
(来源:Audio Analytic)
标记数据
声源辨识(sound recognition)和语音识别(speech recognition)是不一样的。对于AI而言,声音的辨识基本上是相当复杂的任务。那么Audio Analytic如何成功地将其模型拟合到如此小的设备上?
Binks说:“这对于我们来说并不难,因为[我们的模型]是从很小型开始设计。”
Audio Analytic的声源辨识模型AuditoryNET极其特殊,很大一部份的关键在于用来进行训练的高质量标记数据。标记是必不可少的基本元素:它们会告诉模型哪些部份的声音具有相关性,因此,婴儿哭声模型最终才能学会以哭声本身来建立特性,而不会以哭声之间的呼吸声作为依据。
Chris Mitchell
Binks说:“标注资料有助于机器仅提取相应于特定声音的有关部份。如果您提供的资料多于需求,那么处理时的变量就更多。我们经常发现,标记的数据越准确,[在训练中]提供给机器学习模型的数据就越多,而它们取得的资料就越小。其间显然存在着限制,但整体而言,由于这些模型能够概推到更多的数据,使其得以更有效地辨识出声音真正显著的特征。”
Audio Analytic的Alexandria声景图(sound map)以可视化呈现了这个概念。该声景图以2D方式呈现该公司音讯数据集中约700个标记类型的1,500万种声源,包括从紧急警报和警铃到各种声音,如笑声、咳嗽和打喷嚏等。Mitchell解释说,对特定声音进行分类意味着在声景图上把相关景点周围圈在一起。
“数据越复杂和分散,噪声越大,所绘制的形状就越复杂,显示系统出错的可能性就越大。那么,建立的[模型]最终也会变得相当大,因为您必须添加更多参数来描述更大型的事件。”Mitchell解释说:“在最小型、最紧凑以及更清晰表现等所要撷取的声音基本变量之间,必须能恰如份地进行权衡——不多也不少。如果20%的标记在50ms之后消失,表示在模型中包含了很多根本不应该有的东西。这可能因此学会了很多不必要的参数,而从内存的资源的观点来看,这些都是在做白工。”
Alexandria声景图是其Audio Analytic音讯数据集中1,500万种声音的2D视觉呈现。各种颜色代表不同的声音类别。从许多未连接的声音可能出现重迭或独特的特征,突显出教导机器听音辨识的复杂性。
(来源:Audio Analytic)
相较于语音和语言处理模型有着大量的开源训练数据,针对声音的处理则没有这样的数据集。为了撷取并标记这些训练数据,Audio Analytic必须大量投资,因此,这也成为该公司的重要IP。
AuditoryNET模型也是Audio Analytic从无到有一手建立起来的。
声音模型与广泛使用的语音和语言处理模型截然不同。相较于分析语音,声音产生的实际过程变化更大。一般的声音也比言语更不受限制;任何声音都可以沿用其他的声音序列。因此,模式辨识问题以及由此产生的机器学习模型都跟语音模型完全不同。
实际应用
将声源辨识嵌入于小型MCU,可望开启许多应用。像是智能型手机、消费性电子产品、耳塞、穿戴式设备、家电或任何带有MCU的产品,或许曾经是复杂的运算密集型任务,如今将会有更实际的前景。智能型手机通常采用M4级处理器执行唤醒字符检测,因而从应用处理器(AP)中移除了该功能——如今,你可以想象一种类似的功能,它可用于辨识多种不同的声音,执行于低成本的M0+协同处理器上,但已足以实现常时开启的运转效率。
该公司之前还有一项展示是在Ambiq Micro处理器上执行,使用一对AA电池就能运作数年。该展示使用基于Cortex-M4超低功耗核心的Ambiq Micro SPOT (次阈值功率优化技术)处理器,以及一款Vesper压电MEMS麦克风,即使是在常时倾听的情况下也不会消耗功率。该展示证明了超低功耗麦克风和处理器的组合,就足以迅速侦测诸如玻璃破碎等冲击性声响。
使用超低功耗Ambiq Micro的处理器和Vesper MEMS麦克风展示,显示响应速度已足以侦测到诸如玻璃破碎等冲击声响。
(来源:Audio Analytic)
Mitchell想象了一个这样的世界:当侦测到婴儿哭声时,智能家庭系统就能自动调低用户电视的音量,并且播放婴儿房的现场音频,甚至可能将电视切换成子母画面,同步显示来自婴儿监视系统的影像。当然,除此之外还有更多有趣的应用尚待发掘。除了辨识特定声源,ai3还可将音讯环境分类为不同的场景,然后使用此信息调整来自消费设备(如头戴式耳机)的音讯结果。
例如,当一个人从一个场景(例如火车站)移动到完全不同的音讯环境(如安静的列车上),即可调整均衡器(EQ)设定或增强头戴式耳机上的主动降噪效果。此外,还可以结合对于特定声音的反应,例如在听到紧急警报或警铃时启动混合模式。
当然,这一类型的应用完美结合机器学习模型、训练数据和硬件,如今已完全可行了。展望未来,随着芯片供货商持续提高其设备性能,并根据机器学习的需求进行调整,我们可以想象更复杂先进的AI音讯应用,它将超越基本的语音控制,在资源受限的硬件上执行。这一整体效果将会赋予机器听觉,使其能以声音更成功地判断周遭环境,最终变得更聪明。
编译:Susan Hong 责编:Yvonne Geng
(参考原文:AI Sound Recognition on a Cortex-M0: Data is King,by Sally Ward-Foxton)