信号处理链如何让智能语音助手“听命”-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

语音控制接口正迅速成为我们日常生活的重要组成部分，并且在未来会被添加到越来越多的产品中。随着信号处理和语音识别功能的加强，以及本地和云端计算功能的日趋强大，此技术将得到不断改进。本文将介绍语音控制解决方案的架构，并探讨底层处理过程以及所需要的硬件和软件。

随着Amazon Alexa和Google助手等语音助手逐渐能够更好地理解我们的请求，智能音箱和语音控制设备变得越来越普及。

这类语音交互的主要亮点在于它能够“听从命令”——我们不需要通过用户交互界面学习，即可跟这类智能设备对话，就像与人沟通一样自然。但要实现这样的功能需要进行大量复杂的处理。

本文将介绍语音控制解决方案的架构，并探讨底层处理过程以及所需要的硬件和软件。

信号流和架构

尽管语音控制设备的种类繁多，但它们的基本原理和信号流大同小异。我们以Amazon的Echo这款智能音箱为例探讨涉及的主要信号处理子系统和模块。

图1展示出智能音箱中的整个信号链。

图1：基于CEVA ClearVox和WhisPro的信号链（来源：CEVA）

从上面框图的左侧开始，您会看到，利用语音活动检测（VAD）检测到语音后，便会对语言进行数字化处理，并通过多个信号处理阶段来提高从主扬声器的语音到达方向传来的语音清晰度。经数字化处理的语音数据随后传输到后端进行语音处理，该处理过程有一部分可能在边缘（设备上）进行，有一部分在云端进行。最后，按需生成响应并通过扬声器输出，这一过程需要进行解码和数模转换。

对于其它应用，流程可能有些区别，优先级也可能不同。例如，在车内，需要对车载语音接口进行优化，以处理车内的典型背景噪声。由于市场对入耳式“可听戴设备”和低成本家用电器等小型设备的需求，此项技术还在朝着更低功耗和成本的方向发展。

前端信号处理

检测到语音并对其进行数字化处理之后，便需要执行多项信号处理任务。与处理外部噪声一样，我们还需要考虑由收听设备产生的声音，例如输出音乐的智能音箱或与线路另一端的人的对话。为了抑制这些声音，设备使用回声消除（AEC）技术。由此一来，即使智能音箱正在播放音乐或与用户对话，用户也可以进行干预并中断智能音箱的活动。这类回声得到消除后，便会使用噪声抑制算法清除外部噪声。

尽管应用各有不同，但我们可以将应用的语音控制设备分为两类：近场拾音设备和远场拾音设备。近场设备（如耳机、耳塞、可听戴设备和可穿戴设备）佩戴在用户的嘴边，而远场设备（如智能音箱和智能电视）用于收听来自整个房间的用户语音。

近场设备通常使用一个或两个麦克风，但远场设备使用的麦克风数目通常在3到8个之间。这是因为远场设备面临的环境挑战要比近场设备复杂：用户远离设备时，到达麦克风的语音会逐渐变小，而背景噪声大小保持不变。同时，设备还需要将直接语音信号从墙壁和其它表面反射（也称为混响）信号中分离出来。

为了处理这些问题，远场设备采用一项称为波束形成的技术。此技术使用多个麦克风，根据到达各麦克风的声音信号之间的时差计算声源方向。这样一来，设备便可忽略反射和其它声音，而只收听用户的语音。此外，还可以跟踪用户的移动情况，在有多人发声的情况下放大正确的语音。

对于智能音箱，另一项重要任务是识别“触发”词，比如“Alexa”。由于音箱始终处于收听状态，这种触发识别会带来隐私问题 — 如果用户音频一直上传到云端（即使用户没有说触发词），用户对Amazon或Google监听他们所有的对话是否有意见？更为可取的方法是在智能音箱本地处理触发识别以及“调高音量”等多种常用命令，这样，只有在用户启动较为复杂的命令后，语音才会发送到云端。

最后，清晰的语音样本必须先进行编码加密，然后发送到云端后台进行进一步处理。

专业解决方案

综上所述，前端语音处理必须能够处理多项任务。处理过程必须快速、准确，对于由电池供电的设备，耗电量必须保持在最低水平，即使设备始终处于收听触发词的状态也不例外。

要满足这些需求，通用数字信号处理器（DSP）或微处理器在成本、处理性能、尺寸和功耗方面不太可能胜任，而具有专用音频处理功能且软件得到优化的特定DSP有望成为更好的解决方案。选择已针对语音输入任务进行优化的硬件/软件还将降低开发成本，并大幅度缩短上市时间，降低总成本。

例如，CEVA推出的ClearVox属于语音输入处理算法软件套件，可处理不同声学场景和麦克风配置，包括扬声器的语音到达方向、多麦克风波束形成、噪声抑制以及回声消除。

除语音处理外，边缘设备还需要具有处理触发词检测的功能。WhisPro是专为CEVA DSP提供的基于神经网络的语音识别软件包，可帮助OEM厂商向其具有语音功能的产品添加语音激活功能。WhisPro可处理始终在线（Always-on）收听需求，而主处理器在需要使用之前保持休眠状态，从而降低系统总功耗。

图2：使用语音处理和语音识别进行语音激活。（来源：CEVA）

语音识别：本地或云

对语音进行数字化处理后，我们需要利用某种自动语音识别（ASR）功能。ASR技术种类繁多，从需要用户说出特定关键字的简单关键字检测，到复杂的自然语言处理（NLP），利用此技术，用户可以像与其他人交谈一样与智能音箱正常对话。

虽然关键字检测的词汇量极为有限，但其检测有多种用途。例如，电灯开关或恒温器等简单智能家居设备可能只对几条命令作出响应，比如“开”、“关”、“调亮”、“调暗”等。这种级别的ASR在本地（边缘设备）即可轻松处理，无需联网，从而降低成本、确保得到快速响应并避免安全和隐私问题。

另一个示例是说出“cheese”或“smile”可以命令多个Android智能手机拍照。此时，向云端发送命令需要很长时间，前提是有网络连接可用，但对于智能手表或可听戴设备来说，并不总有网络可供连接。

另一方面，很多应用需要使用NLP。要向Echo音箱询问天气情况或订一间今晚的酒店，您可以通过不同方式表达问题。设备需要能够理解命令中可能存在的细微差别和俗语，以便正确辨别用户命令。简而言之，设备需要能够将语音转换为语义，而不仅仅是将语音转换为文本。

这一过程需要进行大量处理，通常会用到人工智能（AI）和神经网络，仅在边缘设备上进行处理几乎是不切实际的。采用嵌入式处理器的低成本设备所具备的功能无法处理请求的任务。在这种情况下，正确的做法是将经过数字化处理的语音发送到云端进行处理。语音将在云端得到解析，云端会向语音控制设备发回相应的响应。

设备上的边缘处理与云端中的远程处理之间会进行权衡。如果所有任务都在本地处理，速度会更快，不要求设备联网，但难以处理更广泛的问题和信息获取。这意味着对于家用智能音箱等一般用途设备，至少要将某些任务推送到云端进行处理。

为了解决云端处理存在的缺陷，本地处理器的功能在不断发展。在不久的将来，边缘设备的NLP和AI方面将取得长足进步。新技术将降低所需内存的大小，处理器的速度会得到进一步提高，功耗会更低。

结论

语音控制接口正迅速成为我们日常生活的重要组成部分，并且在未来会被添加到越来越多的产品中。随着信号处理和语音识别功能的加强，以及本地和云端计算功能的日趋强大，此技术将得到不断改进。

为了满足OEM的要求，用于音频处理和语音识别的组件需要在性能、成本和功能方面迎接一些严峻的挑战。对于很多设计者而言，专门针对手头任务进行优化的解决方案为最佳方法——可满足最终客户的需求并缩短上市时间。

无论基于哪项技术，语音接口都将变得更加精确、更易于以日常用语对话，而不断降低的价格也会吸引更多制造商。对于语音接口的后续应用，我们拭目以待。

（参考原文： How extensive signal processing chains make voice assistants ‘just work’）

作者：Moshe Sheier，CEVA公司市场营销副总裁。

责编：Amy Guan

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

接口/总线/驱动人工智能处理器/DSP 技术文章

您可能感兴趣

汇顶科技终止收购云英谷，背后原因与影响几何？

汇顶科技在公告中解释，终止原因是公司与交易对方未能就本次交易对价等商业条款最终达成一致意见。

AMD将采用三星4nm工艺技术生产 I/O 芯片

AMD正在推进使用三星电子的4nm工艺晶圆代工技术，不过，I/O芯片的大规模生产尚未确定。业界预计，最快在今年下半年，三星代工厂将开始为AMD生产I/O芯片，因为AMD正在准备明年推出第六代EPYC服务器CPU......

康佳筹划收购宏晶微电子，聚焦半导体领域发展

通过收购宏晶微电子，康佳集团将能够进一步拓展其在半导体领域的业务版图，提升公司在芯片设计、开发、生产和销售等方面的实力。

溢价五倍，晶华微拟2亿元收购智芯微100%股权

晶华微发布重要公告，宣布公司拟使用自有资金2亿元收购芯邦科技持有的深圳芯邦智芯微电子有限公司100%的股权……

韩国政局震荡，对半导体行业有什么影响？

韩国半导体行业的全球地位不容忽视，特别是在存储、DDIC（显示驱动芯片）等领域占据了绝对的优势，存储半导体的全球市场占有率更是高达50%以上。12月3日晚的“紧急戒严”和韩国政坛局势的急剧转变，会对其半导体产业产生什么影响？

汇顶科技筹划收购显示驱动芯片设计公司云英谷

汇顶科技在芯片领域再下一城，计划通过发行股份及支付现金的方式收购云英谷科技股份有限公司（以下简称“云英谷”）的控制权，并拟发行股份募集配套资金。此举标志着汇顶科技在显示芯片领域的进一步布局，同时也是云英谷在资本市场的重要一步。

赤池昌二先生升任TEL集团副总裁兼中国区总裁

TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。

2025年无线连接的七大趋势

预计在2025年，以下七大关键趋势将塑造物联网的格局。

4月必逛电子展！六大热门新赛道，来NEPCON China 2025一展全看

领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！

ASML公布2025年度股东大会议程，并提名Karien van Gennip为新任监事会委员

本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

小米又一预研技术全球首发

小米宣布全球首发光学预研技术——小米模块光学系统，同时发布官方宣传视频。简单来说，该系统是一个磁吸式可拆卸镜头，采用定制M4/3传感器+全非球面镜组，带来完整一亿像素，等效35mm焦段，配备f/1.4

披露金额超1.5亿元-2月AGV/AMR领域中标项目一览

千万级中标项目5个，百万级中标项目12个。文｜新战略根据公开信息，新战略移动机器人产业研究所不完全统计，2025年2月，国内发布35项中标公告，披露总金额超15527.01万元。（由新战略移动机器人全

三星车规级电容在电动车高压DC-DC转换器中的作用 | 贞光科技代理品牌

引言嘿，各位电动汽车的爱好者们！咱们今儿个就来聊聊电动汽车里那些“看不见，摸不着”，但又至关重要的零部件。要说电动汽车这玩意儿，那可真是科技含量满满，各种高精尖的技术都往里堆。但要让这些

解析差分电路原理，输出电压为什么要偏移？

差分运算放大电路，对共模信号得到有效抑制，而只对差分信号进行放大，因而得到广泛的应用。差分电路的电路构型上图是差分电路。目标处理电压：是采集处理电压，比如在系统中像母线电压的采集处理，

低耗LED照明驱动电源ICU6116值得一选

UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小，在市场竞争激烈的当下，整灯企业希望能够降低LED驱动电源的成本，同时LED驱动电源的品质和性价比也成为主要焦

脊髓伤患重获新生，XoMotion开启站立与舞动的可能

点击蓝字关注我们SUBSCRIBE to USXoMotion许多脊髓受伤的人都有惊心动魄的灾难经历：潜水事故、车祸、建筑工地灾难等。但Chloë Angus的故事却截然不同。2015年的一个晚上，

最新面板价格趋势预测（2025年3月）

面板价格预测（3月）根据TrendForce集邦咨询旗下面板研究中心《TrendForce 2025面板价格预测月度报告》最新调研数据：2025年3月，电视面板与显示器面板价格预期上涨，笔记本面板价格

奇瑞用春天的阳光，唤醒了漫长的季节

文｜金融街老李奇瑞终于正式向港交所递交上市申请了。其实，支持奇瑞汽车实现IPO，此前就已经被安徽省列在了汽车产业2025年重点工作的第38条，但正如奇瑞汽车一贯的低调作风，此次赴香港上市，奇瑞在资本市

合洁科技净化工程：打造高质无尘车间制造高端产业链

合景智慧建设 (广东)有限公司子品牌合洁科技电子净化工程公司(以下简称“合洁科技”)作为洁净工程领域的领军企业，凭借其卓越的技术实力、创新的设计理念和高效的施工能力，在多个行业

本周五|UCIe1.1“验”值担当：IP和系统级验证挑战的妙解良方

文章评论

最新
热门

换一换

EE直播

更多>

信号处理链如何让智能语音助手“听命”

信号流和架构

前端信号处理

专业解决方案

语音识别：本地或云

结论

杂志声明