来源 | 中兴文档
智库 | 云脑智库(CloudBrain-TT)
云圈 | 进“云脑智库微信群”,请加微信:15881101905,备注您的研究方向
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。
- 近场语音场景:通常通过按键激活,例如智能手机等便携设备。
- 远场语音场景:通常通过唤醒词激活,例如智能音箱等固定设备。
远场语音场景下,在产品策略上通常会采取两种方案,以提高唤醒的准确率:
语音识别阶段的主要作用是采集用于语音,并将语音转换为文字,该阶段主要做两件事情:寻向的作用就是判断用户方向,由用户方向的麦克风采集语音数据,保证语音的数据是最清晰的。降噪是对环境音进行消除,提高识别准确率。为提高特定内容的识别率,一般都会提供热词服务,配置的热词内容实时生效,并且会提升 ASR 结果的识别权重,在一定程度上提高 ASR 识别的准确率。语义理解就是尝试理解人类的语言,即把语音识别的结果转成结构化的、机器能够理解的语言。
NLU 的工作逻辑是将用户的指令进行 Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。例如:“设置一个明早 8 点的闹钟”这样一条指令,经过 NLU 处理,用户的指令则被拆分为如下三级:- 先决策。机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。
- 再执行。如提供结果,询问特定限制条件,澄清或确认需求,调用各种 Skill 技能(AI 时代的 APP),从而最有效的辅助用户完成信息或服务的获取。
NLG 的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。简单的 NLG 可以将数据进行合并处理,而高级的 NLG 则可以理解数据想要表达的意图,并考虑上下文,呈现出可以轻松阅读的内容。目前在一些有比较明显规则的领域中,比如体育新闻,已经可以借助 NLG 进行新闻的自动发布了。也许你现在正在看的一篇文章就是由机器生成的~将文字内容转换成语音输出,让机器跟我们对话。这涉及到两个过程:
将从文字内容转换成语音输出,让机器说话。
合成语音:狭义上专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。
家庭中语音交互的主要应用场景包括:语音查询资讯、语音控制播放、语音免提拨号、语音控制家电等。ASR:Automatic Speech Recognition,自动语音识别技术NLU:Natural Language Understanding,自然语言理解DM:Dialog Management,对话管理NLG:Natural Language Generation,自然语言生成TTS:Text To Speech,从文本到语音NLP:Natural Language Processing,自然语言处理IPTV:Internet Protocol Television,网际协议电视OTT:Over The Top,通过互联网向用户提供各种应用服务IMS:Interactive Multimedia Service,交互式多媒体服务IOT:Internet of Things,物联网
- The End -
声明:欢迎转发本号原创内容,转载和摘编需经本号授权并标注原作者和信息来源为云脑智库。本公众号目前所载内容为本公众号原创、网络转载或根据非密公开性信息资料编辑整理,相关内容仅供参考及学习交流使用。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请跟我们联系。我们致力于保护作者知识产权或作品版权,本公众号所载内容的知识产权或作品版权归原作者所有。本公众号拥有对此声明的最终解释权。
投稿/招聘/推广/合作/入群/赞助 请加微信:15881101905,备注关键词
微群关键词:天线、射频微波、雷达通信电子战、芯片半导体、信号处理、软件无线电、测试制造、相控阵、EDA仿真、通导遥、学术前沿、知识服务、合作投资.
“阅读是一种习惯,分享是一种美德,我们是一群专业、有态度的知识传播者.”
↓↓↓ 戳“阅读原文”,加入“知识星球”,发现更多精彩内容.
分享💬 点赞👍 在看❤️@以“三连”行动支持优质内容!