随着Amazon Alexa和Google助手等语音助手逐渐能够更好地理解我们的请求,智能音箱和语音控制设备变得越来越普及。
这类语音交互的主要亮点在于它能够“听从命令”——我们不需要通过用户交互界面学习,即可跟这类智能设备对话,就像与人沟通一样自然。但要实现这样的功能需要进行大量复杂的处理。
本文将介绍语音控制解决方案的架构,并探讨底层处理过程以及所需要的硬件和软件。
信号流和架构
尽管语音控制设备的种类繁多,但它们的基本原理和信号流大同小异。我们以Amazon的Echo这款智能音箱为例探讨涉及的主要信号处理子系统和模块。
图1展示出智能音箱中的整个信号链。
图1:基于CEVA ClearVox和WhisPro的信号链(来源:CEVA)
从上面框图的左侧开始,您会看到,利用语音活动检测(VAD)检测到语音后,便会对语言进行数字化处理,并通过多个信号处理阶段来提高从主扬声器的语音到达方向传来的语音清晰度。经数字化处理的语音数据随后传输到后端进行语音处理,该处理过程有一部分可能在边缘(设备上)进行,有一部分在云端进行。最后,按需生成响应并通过扬声器输出,这一过程需要进行解码和数模转换。
对于其它应用,流程可能有些区别,优先级也可能不同。例如,在车内,需要对车载语音接口进行优化,以处理车内的典型背景噪声。由于市场对入耳式“可听戴设备”和低成本家用电器等小型设备的需求,此项技术还在朝着更低功耗和成本的方向发展。
前端信号处理
检测到语音并对其进行数字化处理之后,便需要执行多项信号处理任务。与处理外部噪声一样,我们还需要考虑由收听设备产生的声音,例如输出音乐的智能音箱或与线路另一端的人的对话。为了抑制这些声音,设备使用回声消除(AEC)技术。由此一来,即使智能音箱正在播放音乐或与用户对话,用户也可以进行干预并中断智能音箱的活动。这类回声得到消除后,便会使用噪声抑制算法清除外部噪声。
尽管应用各有不同,但我们可以将应用的语音控制设备分为两类:近场拾音设备和远场拾音设备。近场设备(如耳机、耳塞、可听戴设备和可穿戴设备)佩戴在用户的嘴边,而远场设备(如智能音箱和智能电视)用于收听来自整个房间的用户语音。
近场设备通常使用一个或两个麦克风,但远场设备使用的麦克风数目通常在3到8个之间。这是因为远场设备面临的环境挑战要比近场设备复杂:用户远离设备时,到达麦克风的语音会逐渐变小,而背景噪声大小保持不变。同时,设备还需要将直接语音信号从墙壁和其它表面反射(也称为混响)信号中分离出来。
为了处理这些问题,远场设备采用一项称为波束形成的技术。此技术使用多个麦克风,根据到达各麦克风的声音信号之间的时差计算声源方向。这样一来,设备便可忽略反射和其它声音,而只收听用户的语音。此外,还可以跟踪用户的移动情况,在有多人发声的情况下放大正确的语音。
对于智能音箱,另一项重要任务是识别“触发”词,比如“Alexa”。由于音箱始终处于收听状态,这种触发识别会带来隐私问题 — 如果用户音频一直上传到云端(即使用户没有说触发词),用户对Amazon或Google监听他们所有的对话是否有意见?更为可取的方法是在智能音箱本地处理触发识别以及“调高音量”等多种常用命令,这样,只有在用户启动较为复杂的命令后,语音才会发送到云端。
最后,清晰的语音样本必须先进行编码加密,然后发送到云端后台进行进一步处理。
专业解决方案
综上所述,前端语音处理必须能够处理多项任务。处理过程必须快速、准确,对于由电池供电的设备,耗电量必须保持在最低水平,即使设备始终处于收听触发词的状态也不例外。
要满足这些需求,通用数字信号处理器(DSP)或微处理器在成本、处理性能、尺寸和功耗方面不太可能胜任,而具有专用音频处理功能且软件得到优化的特定DSP有望成为更好的解决方案。选择已针对语音输入任务进行优化的硬件/软件还将降低开发成本,并大幅度缩短上市时间,降低总成本。
例如,CEVA推出的ClearVox属于语音输入处理算法软件套件,可处理不同声学场景和麦克风配置,包括扬声器的语音到达方向、多麦克风波束形成、噪声抑制以及回声消除。
除语音处理外,边缘设备还需要具有处理触发词检测的功能。WhisPro是专为CEVA DSP提供的基于神经网络的语音识别软件包,可帮助OEM厂商向其具有语音功能的产品添加语音激活功能。WhisPro可处理始终在线(Always-on)收听需求,而主处理器在需要使用之前保持休眠状态,从而降低系统总功耗。
图2:使用语音处理和语音识别进行语音激活。(来源:CEVA)
语音识别:本地或云
对语音进行数字化处理后,我们需要利用某种自动语音识别(ASR)功能。ASR技术种类繁多,从需要用户说出特定关键字的简单关键字检测,到复杂的自然语言处理(NLP),利用此技术,用户可以像与其他人交谈一样与智能音箱正常对话。
虽然关键字检测的词汇量极为有限,但其检测有多种用途。例如,电灯开关或恒温器等简单智能家居设备可能只对几条命令作出响应,比如“开”、“关”、“调亮”、“调暗”等。这种级别的ASR在本地(边缘设备)即可轻松处理,无需联网,从而降低成本、确保得到快速响应并避免安全和隐私问题。
另一个示例是说出“cheese”或“smile”可以命令多个Android智能手机拍照。此时,向云端发送命令需要很长时间,前提是有网络连接可用,但对于智能手表或可听戴设备来说,并不总有网络可供连接。
另一方面,很多应用需要使用NLP。要向Echo音箱询问天气情况或订一间今晚的酒店,您可以通过不同方式表达问题。设备需要能够理解命令中可能存在的细微差别和俗语,以便正确辨别用户命令。简而言之,设备需要能够将语音转换为语义,而不仅仅是将语音转换为文本。
这一过程需要进行大量处理,通常会用到人工智能(AI)和神经网络,仅在边缘设备上进行处理几乎是不切实际的。采用嵌入式处理器的低成本设备所具备的功能无法处理请求的任务。在这种情况下,正确的做法是将经过数字化处理的语音发送到云端进行处理。语音将在云端得到解析,云端会向语音控制设备发回相应的响应。
设备上的边缘处理与云端中的远程处理之间会进行权衡。如果所有任务都在本地处理,速度会更快,不要求设备联网,但难以处理更广泛的问题和信息获取。这意味着对于家用智能音箱等一般用途设备,至少要将某些任务推送到云端进行处理。
为了解决云端处理存在的缺陷,本地处理器的功能在不断发展。在不久的将来,边缘设备的NLP和AI方面将取得长足进步。新技术将降低所需内存的大小,处理器的速度会得到进一步提高,功耗会更低。
结论
语音控制接口正迅速成为我们日常生活的重要组成部分,并且在未来会被添加到越来越多的产品中。随着信号处理和语音识别功能的加强,以及本地和云端计算功能的日趋强大,此技术将得到不断改进。
为了满足OEM的要求,用于音频处理和语音识别的组件需要在性能、成本和功能方面迎接一些严峻的挑战。对于很多设计者而言,专门针对手头任务进行优化的解决方案为最佳方法——可满足最终客户的需求并缩短上市时间。
无论基于哪项技术,语音接口都将变得更加精确、更易于以日常用语对话,而不断降低的价格也会吸引更多制造商。对于语音接口的后续应用,我们拭目以待。
(参考原文: How extensive signal processing chains make voice assistants ‘just work’)
作者:Moshe Sheier,CEVA公司市场营销副总裁。
责编:Amy Guan
本文为《电子工程专辑》2020年3月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅