你的门铃会被欺骗吗？

瑞萨MCU小百科 2024-11-19 12:00

【北京12.5号】无线前沿新技术与测试技术峰会 【有奖直播】无线前沿新技术与测试技术峰会

摘要

探索使用瑞萨电子硬件和AI软件平台的Reality AI Tools^®语音反欺骗应用示例。

Palash Koutu

Customer Support Engineering Manager

什么是语音反欺骗？

为什么它很重要？

语音反欺骗是一组技术，旨在防止涉及模仿语音的诈骗企图，并通过防止意外触发来改善VUI系统的整体UI/UX体验。这些技术对于防止与以下方面相关的问题尤为重要：

语音合成（SS）：这种类型的攻击使用计算机模拟语音。
语音转换（VC）：在这种攻击中，使用过滤器和其他工具使冒名顶替者的声音听起来尽可能接近目标个人的声音。
重放攻击（RA）：欺诈者使用预先录制的受害者声音样本。
模仿：攻击者模仿受害者的声音音调、韵律特征和词汇等特征。
滋扰触发：当人工语音意外触发系统时，就会出现此问题，从而给用户带来不便。

这些攻击和问题会严重破坏语音系统的完美使用体验，因此需要一个强大的解决方案。

语音反欺骗是如何工作的？

语音反欺骗的工作原理是检测和防止语音欺骗攻击，这些攻击可能涉及录制的、计算机生成的或计算机修改的语音。以下是其工作原理的一些关键组成部分：

图1 反欺骗解决方案组件

关键字检测：系统需要经过训练，以识别某人何时在说话或触发命令。例如：“Hi Renesas”触发系统。
特征提取：系统从输入语音信号中提取特定特征，例如音色、发音、语调和词汇行为。
欺骗性语音检测（SSD）：这组措施用于识别和防止语音欺骗攻击。例如，重放攻击会产生某些信号伪影，这些伪影有时是人耳无法区分的，但高级算法会找到并识别这些伪影以准确确定活度。
分类：提取特征后，使用分类器将语音分类为真实语音或录制语音。

通过使用这些技术，语音反欺骗系统可以有效地对抗不同类型的语音欺骗攻击，并增强整体用户体验......此外，它还能向各地的智能门铃用户保证，门外的人真的是您的邻居。

瑞萨电子应用实例

瑞萨电子的语音反欺骗技术专为速度和响应能力而设计，同时保持高精度，并且完全在边缘完成。我们将RA MCU系列（RA6、RA4、RA2系列）和RX MCU系列的硬件与Cyberon语音技术栈相结合，以识别触发/唤醒词，然后使用Reality AI生成的模型来检查信号中的真实语音与录制的语音。

瑞萨电子的Reality AI模型使用“Hi Renesas”作为唤醒词。用户可以使用任何常见的英语口音和自然的声调质量（男性或女性）来使用此解决方案。我们的测试结果表明，使用手机扬声器（iPhone或Android）播放的录制语音时该模型的准确率为96%，在训练K-Fold验证中准确率为~99%。