语音控制接口正迅速成为我们日常生活的重要组成部分,并且在未来会被添加到越来越多的产品中。随着信号处理和语音识别功能的加强,以及本地和云端计算功能的日趋强大,此技术将得到不断改进。本文将介绍语音控制解决方案的架构,并探讨底层处理过程以及所需要的硬件和软件。

随着Amazon Alexa和Google助手等语音助手逐渐能够更好地理解我们的请求,智能音箱和语音控制设备变得越来越普及。

这类语音交互的主要亮点在于它能够“听从命令”——我们不需要通过用户交互界面学习,即可跟这类智能设备对话,就像与人沟通一样自然。但要实现这样的功能需要进行大量复杂的处理。

本文将介绍语音控制解决方案的架构,并探讨底层处理过程以及所需要的硬件和软件。

信号流和架构

尽管语音控制设备的种类繁多,但它们的基本原理和信号流大同小异。我们以Amazon的Echo这款智能音箱为例探讨涉及的主要信号处理子系统和模块。

图1展示出智能音箱中的整个信号链。

图1:基于CEVA ClearVox和WhisPro的信号链(来源:CEVA)

从上面框图的左侧开始,您会看到,利用语音活动检测(VAD)检测到语音后,便会对语言进行数字化处理,并通过多个信号处理阶段来提高从主扬声器的语音到达方向传来的语音清晰度。经数字化处理的语音数据随后传输到后端进行语音处理,该处理过程有一部分可能在边缘(设备上)进行,有一部分在云端进行。最后,按需生成响应并通过扬声器输出,这一过程需要进行解码和数模转换。

对于其它应用,流程可能有些区别,优先级也可能不同。例如,在车内,需要对车载语音接口进行优化,以处理车内的典型背景噪声。由于市场对入耳式“可听戴设备”和低成本家用电器等小型设备的需求,此项技术还在朝着更低功耗和成本的方向发展。

前端信号处理

检测到语音并对其进行数字化处理之后,便需要执行多项信号处理任务。与处理外部噪声一样,我们还需要考虑由收听设备产生的声音,例如输出音乐的智能音箱或与线路另一端的人的对话。为了抑制这些声音,设备使用回声消除(AEC)技术。由此一来,即使智能音箱正在播放音乐或与用户对话,用户也可以进行干预并中断智能音箱的活动。这类回声得到消除后,便会使用噪声抑制算法清除外部噪声。

尽管应用各有不同,但我们可以将应用的语音控制设备分为两类:近场拾音设备和远场拾音设备。近场设备(如耳机、耳塞、可听戴设备和可穿戴设备)佩戴在用户的嘴边,而远场设备(如智能音箱和智能电视)用于收听来自整个房间的用户语音。

近场设备通常使用一个或两个麦克风,但远场设备使用的麦克风数目通常在3到8个之间。这是因为远场设备面临的环境挑战要比近场设备复杂:用户远离设备时,到达麦克风的语音会逐渐变小,而背景噪声大小保持不变。同时,设备还需要将直接语音信号从墙壁和其它表面反射(也称为混响)信号中分离出来。

为了处理这些问题,远场设备采用一项称为波束形成的技术。此技术使用多个麦克风,根据到达各麦克风的声音信号之间的时差计算声源方向。这样一来,设备便可忽略反射和其它声音,而只收听用户的语音。此外,还可以跟踪用户的移动情况,在有多人发声的情况下放大正确的语音。

对于智能音箱,另一项重要任务是识别“触发”词,比如“Alexa”。由于音箱始终处于收听状态,这种触发识别会带来隐私问题 — 如果用户音频一直上传到云端(即使用户没有说触发词),用户对Amazon或Google监听他们所有的对话是否有意见?更为可取的方法是在智能音箱本地处理触发识别以及“调高音量”等多种常用命令,这样,只有在用户启动较为复杂的命令后,语音才会发送到云端。

最后,清晰的语音样本必须先进行编码加密,然后发送到云端后台进行进一步处理。

专业解决方案

综上所述,前端语音处理必须能够处理多项任务。处理过程必须快速、准确,对于由电池供电的设备,耗电量必须保持在最低水平,即使设备始终处于收听触发词的状态也不例外。

要满足这些需求,通用数字信号处理器(DSP)或微处理器在成本、处理性能、尺寸和功耗方面不太可能胜任,而具有专用音频处理功能且软件得到优化的特定DSP有望成为更好的解决方案。选择已针对语音输入任务进行优化的硬件/软件还将降低开发成本,并大幅度缩短上市时间,降低总成本。

例如,CEVA推出的ClearVox属于语音输入处理算法软件套件,可处理不同声学场景和麦克风配置,包括扬声器的语音到达方向、多麦克风波束形成、噪声抑制以及回声消除。

除语音处理外,边缘设备还需要具有处理触发词检测的功能。WhisPro是专为CEVA DSP提供的基于神经网络的语音识别软件包,可帮助OEM厂商向其具有语音功能的产品添加语音激活功能。WhisPro可处理始终在线(Always-on)收听需求,而主处理器在需要使用之前保持休眠状态,从而降低系统总功耗。

图2:使用语音处理和语音识别进行语音激活。(来源:CEVA)

语音识别:本地或云

对语音进行数字化处理后,我们需要利用某种自动语音识别(ASR)功能。ASR技术种类繁多,从需要用户说出特定关键字的简单关键字检测,到复杂的自然语言处理(NLP),利用此技术,用户可以像与其他人交谈一样与智能音箱正常对话。

虽然关键字检测的词汇量极为有限,但其检测有多种用途。例如,电灯开关或恒温器等简单智能家居设备可能只对几条命令作出响应,比如“开”、“关”、“调亮”、“调暗”等。这种级别的ASR在本地(边缘设备)即可轻松处理,无需联网,从而降低成本、确保得到快速响应并避免安全和隐私问题。

另一个示例是说出“cheese”或“smile”可以命令多个Android智能手机拍照。此时,向云端发送命令需要很长时间,前提是有网络连接可用,但对于智能手表或可听戴设备来说,并不总有网络可供连接。

另一方面,很多应用需要使用NLP。要向Echo音箱询问天气情况或订一间今晚的酒店,您可以通过不同方式表达问题。设备需要能够理解命令中可能存在的细微差别和俗语,以便正确辨别用户命令。简而言之,设备需要能够将语音转换为语义,而不仅仅是将语音转换为文本。

这一过程需要进行大量处理,通常会用到人工智能(AI)和神经网络,仅在边缘设备上进行处理几乎是不切实际的。采用嵌入式处理器的低成本设备所具备的功能无法处理请求的任务。在这种情况下,正确的做法是将经过数字化处理的语音发送到云端进行处理。语音将在云端得到解析,云端会向语音控制设备发回相应的响应。

设备上的边缘处理与云端中的远程处理之间会进行权衡。如果所有任务都在本地处理,速度会更快,不要求设备联网,但难以处理更广泛的问题和信息获取。这意味着对于家用智能音箱等一般用途设备,至少要将某些任务推送到云端进行处理。

为了解决云端处理存在的缺陷,本地处理器的功能在不断发展。在不久的将来,边缘设备的NLP和AI方面将取得长足进步。新技术将降低所需内存的大小,处理器的速度会得到进一步提高,功耗会更低。

结论

语音控制接口正迅速成为我们日常生活的重要组成部分,并且在未来会被添加到越来越多的产品中。随着信号处理和语音识别功能的加强,以及本地和云端计算功能的日趋强大,此技术将得到不断改进。

为了满足OEM的要求,用于音频处理和语音识别的组件需要在性能、成本和功能方面迎接一些严峻的挑战。对于很多设计者而言,专门针对手头任务进行优化的解决方案为最佳方法——可满足最终客户的需求并缩短上市时间。

无论基于哪项技术,语音接口都将变得更加精确、更易于以日常用语对话,而不断降低的价格也会吸引更多制造商。对于语音接口的后续应用,我们拭目以待。

(参考原文: How extensive signal processing chains make voice assistants ‘just work’

作者:Moshe Sheier,CEVA公司市场营销副总裁。

责编:Amy Guan

本文为《电子工程专辑》2020年3月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
通过收购宏晶微电子,康佳集团将能够进一步拓展其在半导体领域的业务版图,提升公司在芯片设计、开发、生产和销售等方面的实力。
晶华微发布重要公告,宣布公司拟使用自有资金2亿元收购芯邦科技持有的深圳芯邦智芯微电子有限公司100%的股权……
韩国半导体行业的全球地位不容忽视,特别是在存储、DDIC(显示驱动芯片)等领域占据了绝对的优势,存储半导体的全球市场占有率更是高达50%以上。12月3日晚的“紧急戒严”和韩国政坛局势的急剧转变,会对其半导体产业产生什么影响?
汇顶科技在芯片领域再下一城,计划通过发行股份及支付现金的方式收购云英谷科技股份有限公司(以下简称“云英谷”)的控制权,并拟发行股份募集配套资金。此举标志着汇顶科技在显示芯片领域的进一步布局,同时也是云英谷在资本市场的重要一步。
DF30芯片是业界首款基于自主开源RISC-V多核架构、采用国内40nm车规工艺开发的高端车规MCU芯片。该芯片实现了全流程国内闭环,功能安全等级达到了ASIL-D,并已通过295项严格测试。
EVIYOS® Shape不仅能提供针对单一区域的照明,还可以根据不同照明场景需求,实现定制化照明设计,同时有效控制每一颗芯片的能耗使用。可以说,这款产品赋予了光生命……
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
知识酷Pro 👆学显示行业知识找小酷!第1833篇推文据悉,Micro LED正作为光通信、增强现实与虚拟现实以及可穿戴设备的下一代显示技术崭露头角。金属卤化物钙钛矿因其高效的发光能力、长程载流子传输
近日,德州仪器公司(Texas Instruments Inc.)发布了令人失望的季度盈利预测,受到芯片需求持续低迷和制造成本上升的双重打击。在声明中,德州仪器预计第一季度每股利润将在94美分至1.1
你是否曾经因为语言障碍而无法与外国人顺畅交流?或者在旅行中因为语言不通而错过了一些精彩的经历?现在,随着AI技术的发展,实时翻译耳机可以帮你轻松解决这些问题。1什么是实时翻译耳机实时翻译耳机是一种能够
每到春节前夕,打工人就开始打听:“今年春节红包还发不发?”“会不会减半?”今天,字节的最新内部邮件,公布了答案:2025年还发,金额与去年持平。但是——2026年起,不再发了。这决定是为了明确区分“激
今年伊始,新升级的REDMI品牌就带来在2025年的首款机型——REDMI Turbo 4,该机凭借高达6550mAh的电池容量,一举夺得了REDMI品牌电池容量之冠。而现在有最新消息,近日已有电池更
行业观点STANDPOINT▙▖❙▗❘▖▝▚▘⁎⁑⁂⁑    1 月 22 日晚间消息,多家媒体消息,美的集团董事长兼总裁方洪波在内部签发了一项引人瞩目的《关于简化工作方式的要求》文件。    此文件
本文来自“重磅报告:2024-2026年中国信创硬件产业发展建议报告”,信创产业的生态体系主要由基础硬件、基础软件、应用软件和信息安全四部分构成,第一篇“2024-2026信创硬件图谱和发展现状”。2
今天凌晨,三星举办Galaxy S25全球新品发布会,三星史上最强AI手机S25系列发布。作为发布会的最大彩蛋,三星还首次展示其首款XR头显外观,并剧透了三折叠屏手机、智能眼镜等重要产品线。从发布会图
 智能汽车网络与数据安全新媒体 AutoSec Europe 2025随着汽车网络与数据安全进入强监管时代,中国车企作为欧盟市场上的重要玩家,如何才能更好地合法合规开展业务?怎么样面对不同部门甚至国家