探索使用瑞萨电子硬件和AI软件平台的Reality AI Tools®语音反欺骗应用示例。
Palash Koutu
Customer Support Engineering Manager
语音反欺骗是一组技术,旨在防止涉及模仿语音的诈骗企图,并通过防止意外触发来改善VUI系统的整体UI/UX体验。这些技术对于防止与以下方面相关的问题尤为重要:
语音合成(SS):这种类型的攻击使用计算机模拟语音。
语音转换(VC):在这种攻击中,使用过滤器和其他工具使冒名顶替者的声音听起来尽可能接近目标个人的声音。
重放攻击(RA):欺诈者使用预先录制的受害者声音样本。
模仿:攻击者模仿受害者的声音音调、韵律特征和词汇等特征。
滋扰触发:当人工语音意外触发系统时,就会出现此问题,从而给用户带来不便。
这些攻击和问题会严重破坏语音系统的完美使用体验,因此需要一个强大的解决方案。
语音反欺骗的工作原理是检测和防止语音欺骗攻击,这些攻击可能涉及录制的、计算机生成的或计算机修改的语音。以下是其工作原理的一些关键组成部分:
图1 反欺骗解决方案组件
关键字检测:系统需要经过训练,以识别某人何时在说话或触发命令。例如:“Hi Renesas”触发系统。
特征提取:系统从输入语音信号中提取特定特征,例如音色、发音、语调和词汇行为。
欺骗性语音检测(SSD):这组措施用于识别和防止语音欺骗攻击。例如,重放攻击会产生某些信号伪影,这些伪影有时是人耳无法区分的,但高级算法会找到并识别这些伪影以准确确定活度。
分类:提取特征后,使用分类器将语音分类为真实语音或录制语音。
通过使用这些技术,语音反欺骗系统可以有效地对抗不同类型的语音欺骗攻击,并增强整体用户体验......此外,它还能向各地的智能门铃用户保证,门外的人真的是您的邻居。
瑞萨电子的语音反欺骗技术专为速度和响应能力而设计,同时保持高精度,并且完全在边缘完成。我们将RA MCU系列(RA6、RA4、RA2系列)和RX MCU系列的硬件与Cyberon语音技术栈相结合,以识别触发/唤醒词,然后使用Reality AI生成的模型来检查信号中的真实语音与录制的语音。
瑞萨电子的Reality AI模型使用“Hi Renesas”作为唤醒词。用户可以使用任何常见的英语口音和自然的声调质量(男性或女性)来使用此解决方案。我们的测试结果表明,使用手机扬声器(iPhone或Android)播放的录制语音时该模型的准确率为96%,在训练K-Fold验证中准确率为~99%。
图2 e² Studio解决方案工作流程
利用瑞萨电子的IDE,e² studio,用户可以收集数据,集成Cyberon的语音技术栈进行唤醒词检测(Hi Renesas),并最终集成使用Reality AI Tools®模块生成的任何AI模型。
图3 e² studio – Reality AI工具集成工作流程
我们收集了一小群人的真实数据(通过瑞萨电子硬件麦克风录制)和录音数据。这些数据被输入到Reality AI的特征提取和训练引擎,以开发和输出模型。我们实现了~99%的训练K-Fold准确率,这促使我们选择该模型进行现场测试和基准测试。
然后,该模型被集成到e² studio项目,并在不包括在训练集中的人员的实际办公室环境中进行了广泛测试,以进行基准测试,准确率达到96%。
图4 Reality AI工具训练结果
在基于VUI的系统中整合此应用示例,必将引发更多的适配需求。为了简化这一过程,我们可以借鉴“语音反欺骗应用示例”作为参考。有关更多信息,您可以在Reality AI工具页面上找到开发资源,或联系您当地的销售代表。
瑞萨电子的反欺骗应用示例展示了Reality AI工具应对现实世界挑战、改善用户体验和增强语音用户界面(VUI)系统的能力。我们的AI模型占用空间小,并且可以通过利用广泛的数据收集来进行灵活的扩展。
如您在使用瑞萨MCU/MPU产品中有任何问题,可识别下方二维码或复制网址到浏览器中打开,进入瑞萨技术论坛寻找答案或获取在线技术支持。
https://community-ja.renesas.com/zh/forums-groups/mcu-mpu/
1
END
1
推荐阅读
EZ-CUBE3用户手册[4-2]如何在RA微控制器上使用EZ-CUBE3(3)
瑞萨RA家族精品RA6T2产品介绍
X-IPM RA6T2 AC/DC三相无桥PFC数字电源解决方案研讨会回顾之方案介绍篇