随着芯片供货商持续提升设备性能,未来更先进的AI声源应用将超越基本的语音控制,赋予机器听觉,使其能以声音更智慧地判断周遭环境…

当我试着扣下扳机,子弹随即击发,但枪声并不如我期待的那样响亮…

从我现在所在的半电波暗室内听起来,这种枪声并不像一般开枪击发时所发出的巨响,根据我业余的判断,它更像是气球爆破的声音。

不过,在这家人工智能(AI)声源辨识公司Audio Analytic的音频实验室中,音频专家——Audio Analytic执行长Chris Mitchell告诉我,就音讯而言,实际的枪声可不像是气球爆破的声音。我承认我想错了。

在半电波暗室中开枪发出了一种奇怪的“爆裂声”,跟我们预期的那种枪声不太一样…
(来源:Audio Analytic/EE Times)

那么走到电波暗室外面再度击发看看,这次它发出来的枪声听起来就比较像是电影中可能听到的经典枪响了。

这两项展示的目的在于说明枪枝实际上发出的声响与我们通常听到的枪响,其间是有差别的——我们一般听到的枪响是由周围环境声音的反射和回音构成的。

如果想设计一种能够可靠地检测枪声的AI,那么区隔这两种枪响绝对至关重要。Mitchell解释说,因为我们希望这种AI功能只会对于真的枪枝发出的枪声做出反应,而不必对环境中的任何声音都有反应。

Audio Analytic记录并标记了数百万种声音,以用于训练其AI模型进行声源辨识。
(来源:Audio Analytic)

在Audio Analytic位于英国剑桥市郊的实验室中还配置了许多警报器、门铃以及来自世界各地的数十种烟雾报警器。Mitchell说,由于传感器中的放射性物质影响,使得这些设备的声音甚至比枪声还更难撷取。不过,Audio Analytic把这些设备发出来的声音,连同一些狗吠声和窗户破裂等声音事件都仔细地记录下来,用于训练该公司的AI模型进行声源辨识。

这些机器学习模型可用于赋予机器听觉,使其能够根据环境中发生的声音来感知情境。这可能意味着一套可用于监听烟雾警报、玻璃破碎或枪声的安全监控系统,但还有更多的消费设备应用可以分析用户所在的音频场景,以及利用此情境采取行动或巧妙地调整音讯输出加以响应。

Mitchell说,训练AI模型准确辨识声音的关键就在于“数据”(data)。收集高质量的数据并确切地标记这些数据,对于创建即使在运算能力有限情况下也能实现准确声源辨识的高效模型至关重要。

TinyML模型

在Audio Analytic位于剑桥市中心的办公室中,技术副总裁Dominic Binks展示了该公司的最新成果之一——以一种适用于Arm Cortex-M0 +设备的模型,实现特定声音的AI辨识,例如可在婴儿哭泣时进行预测的模型;该模型执行于恩智浦(NXP)的Kinetis KL82微控制器(MCU)上。

Dominic Binks

Binks说:“采用特定处理器,对于进行机器学习并没什么帮助。”KL82其实内建大容量的Flash (128kB)和RAM (96kB),但没有DSP或其他专用处理,功耗仅几十毫瓦(mW)。

但要将该公司的ai3软件库安装在MCU上并非易事。Binks表示,移除针对大型系统设计的功能(例如录制和播放声音以及除错工具等功能),使得软件大幅缩水。“婴儿哭声”(baby cry)检测模型,也是该公司的最小模型之一。

Binks还介绍其团队如何以汇编语言编写操作,以处理32位溢位(overflow)——即2个INT32整数相乘的乘积,或为64位整数。如此就能将处理每个音频样本所需的时间减少到所要求的16ms限制(以16kHz一次取样256个样本,意味着需要一次处理16ms的音讯)。

他说:“透过执行这些组合程序代码,我们通常可以将运行时间缩短至11-12ms,这为我们保留了一些空间得以因应更多的工作要求。”他强调,为了因应实时的输入数据串流,音频特别需要的是处理带宽而不只是运算能力。

Audio Analytic展示其为制造商市场设计的NXP标准MCU开发板,以及一款Adafruit I2S麦克风。当侦测到婴儿哭声时,LED就会变色。
(来源:Audio Analytic)

标记数据

声源辨识(sound recognition)和语音识别(speech recognition)是不一样的。对于AI而言,声音的辨识基本上是相当复杂的任务。那么Audio Analytic如何成功地将其模型拟合到如此小的设备上?

Binks说:“这对于我们来说并不难,因为[我们的模型]是从很小型开始设计。”

Audio Analytic的声源辨识模型AuditoryNET极其特殊,很大一部份的关键在于用来进行训练的高质量标记数据。标记是必不可少的基本元素:它们会告诉模型哪些部份的声音具有相关性,因此,婴儿哭声模型最终才能学会以哭声本身来建立特性,而不会以哭声之间的呼吸声作为依据。

Chris Mitchell

Binks说:“标注资料有助于机器仅提取相应于特定声音的有关部份。如果您提供的资料多于需求,那么处理时的变量就更多。我们经常发现,标记的数据越准确,[在训练中]提供给机器学习模型的数据就越多,而它们取得的资料就越小。其间显然存在着限制,但整体而言,由于这些模型能够概推到更多的数据,使其得以更有效地辨识出声音真正显著的特征。”

Audio Analytic的Alexandria声景图(sound map)以可视化呈现了这个概念。该声景图以2D方式呈现该公司音讯数据集中约700个标记类型的1,500万种声源,包括从紧急警报和警铃到各种声音,如笑声、咳嗽和打喷嚏等。Mitchell解释说,对特定声音进行分类意味着在声景图上把相关景点周围圈在一起。

“数据越复杂和分散,噪声越大,所绘制的形状就越复杂,显示系统出错的可能性就越大。那么,建立的[模型]最终也会变得相当大,因为您必须添加更多参数来描述更大型的事件。”Mitchell解释说:“在最小型、最紧凑以及更清晰表现等所要撷取的声音基本变量之间,必须能恰如份地进行权衡——不多也不少。如果20%的标记在50ms之后消失,表示在模型中包含了很多根本不应该有的东西。这可能因此学会了很多不必要的参数,而从内存的资源的观点来看,这些都是在做白工。”

Alexandria声景图是其Audio Analytic音讯数据集中1,500万种声音的2D视觉呈现。各种颜色代表不同的声音类别。从许多未连接的声音可能出现重迭或独特的特征,突显出教导机器听音辨识的复杂性。
(来源:Audio Analytic)

相较于语音和语言处理模型有着大量的开源训练数据,针对声音的处理则没有这样的数据集。为了撷取并标记这些训练数据,Audio Analytic必须大量投资,因此,这也成为该公司的重要IP。

AuditoryNET模型也是Audio Analytic从无到有一手建立起来的。

声音模型与广泛使用的语音和语言处理模型截然不同。相较于分析语音,声音产生的实际过程变化更大。一般的声音也比言语更不受限制;任何声音都可以沿用其他的声音序列。因此,模式辨识问题以及由此产生的机器学习模型都跟语音模型完全不同。

实际应用

将声源辨识嵌入于小型MCU,可望开启许多应用。像是智能型手机、消费性电子产品、耳塞、穿戴式设备、家电或任何带有MCU的产品,或许曾经是复杂的运算密集型任务,如今将会有更实际的前景。智能型手机通常采用M4级处理器执行唤醒字符检测,因而从应用处理器(AP)中移除了该功能——如今,你可以想象一种类似的功能,它可用于辨识多种不同的声音,执行于低成本的M0+协同处理器上,但已足以实现常时开启的运转效率。

该公司之前还有一项展示是在Ambiq Micro处理器上执行,使用一对AA电池就能运作数年。该展示使用基于Cortex-M4超低功耗核心的Ambiq Micro SPOT (次阈值功率优化技术)处理器,以及一款Vesper压电MEMS麦克风,即使是在常时倾听的情况下也不会消耗功率。该展示证明了超低功耗麦克风和处理器的组合,就足以迅速侦测诸如玻璃破碎等冲击性声响。

使用超低功耗Ambiq Micro的处理器和Vesper MEMS麦克风展示,显示响应速度已足以侦测到诸如玻璃破碎等冲击声响。
(来源:Audio Analytic)

Mitchell想象了一个这样的世界:当侦测到婴儿哭声时,智能家庭系统就能自动调低用户电视的音量,并且播放婴儿房的现场音频,甚至可能将电视切换成子母画面,同步显示来自婴儿监视系统的影像。当然,除此之外还有更多有趣的应用尚待发掘。除了辨识特定声源,ai3还可将音讯环境分类为不同的场景,然后使用此信息调整来自消费设备(如头戴式耳机)的音讯结果。

例如,当一个人从一个场景(例如火车站)移动到完全不同的音讯环境(如安静的列车上),即可调整均衡器(EQ)设定或增强头戴式耳机上的主动降噪效果。此外,还可以结合对于特定声音的反应,例如在听到紧急警报或警铃时启动混合模式。

当然,这一类型的应用完美结合机器学习模型、训练数据和硬件,如今已完全可行了。展望未来,随着芯片供货商持续提高其设备性能,并根据机器学习的需求进行调整,我们可以想象更复杂先进的AI音讯应用,它将超越基本的语音控制,在资源受限的硬件上执行。这一整体效果将会赋予机器听觉,使其能以声音更成功地判断周遭环境,最终变得更聪明。

编译:Susan Hong  责编:Yvonne Geng

(参考原文:AI Sound Recognition on a Cortex-M0: Data is King,by Sally Ward-Foxton)

阅读全文,请先
您可能感兴趣
谷歌宣布向人工智能初创公司Anthropic追加投资超过10亿美元,进一步巩固其在人工智能领域的竞争力。Anthropic的估值因谷歌的持续投资而水涨船高。该公司估值已达到约600亿美元......
特朗普提出的“星际之门”项目,旨在通过OpenAI、软银集团和甲骨文公司三方合作,推动美国人工智能技术的发展,并计划在未来四年内投入至少5000亿美元用于建设相关基础设施......
这一举措不仅体现了国家对人工智能领域的高度重视和支持力度,还预示着中国将在全球AI竞赛中迈出关键一步。
台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
该款机器人其实是深圳创业公司众擎机器人推出的人形机器人SE01,被网友称为“走路最像人的机器人”。为什么许多人形机器人走路时总是微微弯着膝盖,看起来有些别扭?最主要的原因是人形机器人的膝盖是用电机来控制的……
该榜单显示,美国以413家公司位居榜首,总价值达到348万亿元人民币,占榜单总价值的56%。中国则以134家公司位列第二,总价值为65万亿元人民币,占榜单总价值的13%。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
美通社消息,根据Omdia最新的消费者调查,TikTok和YouTube已成为美国18-35岁人群的领先视频平台。这些平台的发展速度已经超过了Instagram、Facebook和Netflix,巩固
Arteris 是领先的系统 IP 提供商,致力于加速当今电子系统中的系统级芯片(SoC)开发。Arteris 的片上网络(NoC)互连 IP 和 SoC 集成自动化技术可实现更高的产品性能、更低的功
电影《金陵十三钗》剧照上周,一向低调的轻舟智航举办了一场媒体交流会,联合创始人、总裁侯聪和 CTO 李栋等轻舟智航核心成员亲临现场,讲述轻舟智航过去一年的成绩及未来展望。轻舟智航的 2024,成绩斐然
1月21日晚,中国MCU市场龙头兆易创新发布了2024年业绩预告,数据显示:2024年——预计实现营业收入73.49亿元左右,同比增长27.57%左右;预计归母净利润为10.90亿元,同比增长576.
有猜测称,三星显示器将很快开始采用红、绿、蓝 (RGB) OLEDoS(硅基 OLED)方法商业化下一代显示器。据专利信息搜索服务Kipris 1月24日报道,三星显示器近期申请了一个名为Arcpix
宇树机器狗今年的 CES 展上,机器人无疑是一大焦点。清洁机器人、工业机器人、医疗机器人、陪伴机器人等引人注目,各大科技公司纷纷展示了机器人在不同场景下的巨大应用潜力。然而,尽管过去几年在大语言模型和
1月23日,总部位于福州的昊盛科技集团旗下新美材料收购韩国LGC光学功能膜业务交割仪式,在福州长乐数字中国会展中心顺利举行,标志着我国新型显示产业正在摆脱偏光片上游材料受制于人的局面。交割仪式现场仪式
去年有望创下历来最佳业绩的SK海力士,已决定向员工发放每月本薪1,500%的绩效奖金,相当于15个月的年终,创下自家有史以来最高的奖金水准,显示其高频宽存储器(HBM)业务正得益于人工智能(AI)热潮
当前,人工智能(Artificial Intelligence,AI)发展势头愈发强劲,呈现出一种不可阻挡的迅猛态势。从广为人知的大型语言模型(Large Language Models,LLMs)如
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇TI(德州仪器)于1月23日(当地时间)公布了 20