跟机器语音交互的时候到底发生了什么？

云脑智库 2021-12-09 00:00

【直播】创新芯片重塑机器人未来 入门级示波器调查

来源 | 中兴文档

智库 | 云脑智库(CloudBrain-TT)

云圈 | 进“云脑智库微信群”,请加微信:15881101905,备注您的研究方向

智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。

语音交互的完整流程，如下图所示。

通常，根据距离远近语音交互场景可分为两种：

近场语音场景：通常通过按键激活，例如智能手机等便携设备。
远场语音场景：通常通过唤醒词激活，例如智能音箱等固定设备。

远场语音场景下，在产品策略上通常会采取两种方案，以提高唤醒的准确率：

将唤醒词的音节长度增加到4音节。这是因为音节越长，唤醒的准确率就会越高。比如：“小兴小兴”的唤醒准确率远高于“小兴”。

白天只对唤醒词做本地校验，夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。

白天用户更看重响应速度，发生偶尔的误唤醒用户能理解或接受，这时候仅由本地的唤醒检测模块进行快速检测，保证 700 ms 内快速响应用户。
晚上睡觉时用户对误唤醒是零容忍的，这时候就要偏重唤醒的准确度，将本地检测过的语音上传到云端进行二次确认，再决定本地是否响应。

语音识别阶段的主要作用是采集用于语音，并将语音转换为文字，该阶段主要做两件事情：

1. 寻向降噪。

寻向的作用就是判断用户方向，由用户方向的麦克风采集语音数据，保证语音的数据是最清晰的。降噪是对环境音进行消除，提高识别准确率。

2. 识别语音并转换成文字。

为提高特定内容的识别率，一般都会提供热词服务，配置的热词内容实时生效，并且会提升 ASR 结果的识别权重，在一定程度上提高 ASR 识别的准确率。

语义理解就是尝试理解人类的语言，即把语音识别的结果转成结构化的、机器能够理解的语言。

NLU 的工作逻辑是将用户的指令进行 Domain（领域）→Intent（意图）→Slot（词槽）三级拆分。

例如：“设置一个明早 8 点的闹钟”这样一条指令，经过 NLU 处理，用户的指令则被拆分为如下三级：

领域：“闹钟”
意图：“设置闹钟”
词槽：“明早8点”

先决策。机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。
再执行。如提供结果，询问特定限制条件，澄清或确认需求，调用各种 Skill 技能（AI 时代的 APP），从而最有效的辅助用户完成信息或服务的获取。

NLG 的主要目的是降低人类和机器之间的沟通鸿沟，将非语言格式的数据转换成人类可以理解的语言格式。简单的 NLG 可以将数据进行合并处理，而高级的 NLG 则可以理解数据想要表达的意图，并考虑上下文，呈现出可以轻松阅读的内容。

目前在一些有比较明显规则的领域中，比如体育新闻，已经可以借助 NLG 进行新闻的自动发布了。也许你现在正在看的一篇文章就是由机器生成的~

将文字内容转换成语音输出，让机器跟我们对话。这涉及到两个过程：

将从文字内容转换成语音输出，让机器说话。
合成语音：狭义上专指根据音素序列（以及标注好的起止时间、频率变化等信息）生成语音，广义上它也可以包括文本处理的步骤。

家庭中语音交互的主要应用场景包括：语音查询资讯、语音控制播放、语音免提拨号、语音控制家电等。

缩略语：

ASR：Automatic Speech Recognition，自动语音识别技术

NLU：Natural Language Understanding，自然语言理解

DM：Dialog Management，对话管理

NLG：Natural Language Generation，自然语言生成

TTS：Text To Speech，从文本到语音

NLP：Natural Language Processing，自然语言处理

IPTV：Internet Protocol Television，网际协议电视

OTT：Over The Top，通过互联网向用户提供各种应用服务

IMS：Interactive Multimedia Service，交互式多媒体服务

IOT：Internet of Things，物联网

－ The End －

声明：欢迎转发本号原创内容，转载和摘编需经本号授权并标注原作者和信息来源为云脑智库。本公众号目前所载内容为本公众号原创、网络转载或根据非密公开性信息资料编辑整理，相关内容仅供参考及学习交流使用。由于部分文字、图片等来源于互联网，无法核实真实出处，如涉及相关争议，请跟我们联系。我们致力于保护作者知识产权或作品版权，本公众号所载内容的知识产权或作品版权归原作者所有。本公众号拥有对此声明的最终解释权。

投稿/招聘/推广/合作/入群/赞助请加微信：15881101905，备注关键词

微群关键词：天线、射频微波、雷达通信电子战、芯片半导体、信号处理、软件无线电、测试制造、相控阵、EDA仿真、通导遥、学术前沿、知识服务、合作投资.

“阅读是一种习惯，分享是一种美德，我们是一群专业、有态度的知识传播者.”

↓↓↓ 戳“阅读原文”，加入“知识星球”，发现更多精彩内容.
分享💬 点赞👍 在看❤️@以“三连”行动支持优质内容！

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

云脑智库努力是一种生活态度,与年龄无关!专注搬运、分享、发表雷达、卫通、通信、化合物半导体等技术应用、行业调研、前沿技术探索!专注相控阵、太赫兹、微波光子、光学等前沿技术学习、分享

进入专栏

评论

云脑智库努力是一种生活态度,与年龄无关!专注搬运、分享、发表雷达、卫通、通信、化合物半导体等技术应用、行业调研、前沿技术探索!专注相控阵、太赫兹、微波光子、光学等前沿技术学习、分享

文章：4353篇粉丝：145人

最近文章

广告

推荐

入门级示波器多少钱合适？

示波器的最低带宽多少？

【直播】创新芯片重塑机器人未来

芯片现货市场行情分析

在线研讨会

EE直播间

Fabless100系列技术和应用直播 —实时控制、BMS：国产MCU迈向高性能应用直播时间：02月18日 10:00
高效协同与版本管理：Cliosoft助力现代芯片设计直播时间：02月26日 10:00
第三代功率半导体器件测试解决方案直播时间：03月06日 10:00

E聘热招职位

资料

文库

帖子

博文

分享到

评论

点赞