开发者必看:在NGC容器中体验中英文混合语音识别方案

英伟达NVIDIA中国 2023-04-27 17:05

PaddleSpeech 又带着新功能和大家见面了。本次更新,为开发者们带来了基于端到端语音识别模型 Conformer 的中英文混合语音识别方案,通过命令行和 Python 可以快速体验,也根据 PaddleSpeech 模型训练方案定制与业务场景相关的语音识别模型。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器,在 NVIDIA GPU 上体验 PaddleSpeech 中英文混合语音识别方案。


本次 PaddleSpeech 发布的中英文语音识别预训练模型 Conformer_talcs 以通过 PaddleSpeech 封装的命令行工具 CLI 或者 Python 接口快速使用,开发者们可以基于此搭建自己的智能语音应用,也可以参考示例训练自己的中英文语音识别模型。


示例链接:

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/tal_cs/asr1


快速体验


使用命令行工具 CLI 快速体验语音识别效果,命令如下:


```bashpaddlespeech asr --model conformer_talcs --lang zh_en --codeswitch True --input ./ch_zh_mix.wav -v
# 终端输出:今天是 monday 明天是 tuesday```


Python 接口快速体验,代码实现如下:


```python>>> import paddle>>> from paddlespeech.cli.asr import ASRExecutor>>> asr_executor = ASRExecutor()>>> text = asr_executor(    model='conformer_talcs',    lang='zh_en',    sample_rate=16000,    config=None,    ckpt_path=None,    audio_file='./ch_zh_mix.wav',    codeswitch=True,    force_yes=False,    device=paddle.get_device())>>> print('ASR Result: \n{}'.format(text))ASR Result:今天是 monday 明天是 tuesday```


1.中英文语音识别技术


1.1 中英文语音识别难点


中英文语音识别相较于单语言的语音识别而言,主要难点如下:


1) 数据量少

中英混合数据相较于单语言的数据更少。目前开源的中文语音识别数据集如 WenetSpeech(10000 小时有监督,2500 小时弱监督,10000 小时无监督)、英文语音识别数据集 Giga Speech(10000 小时有监督,33000 小时无监督)都达到了万小时级别,但是混合的开源中英文语音识别数据只有 SEAME (120小时)和 TAL_CSASR (587小时) 两个开源数据,混合数据集比单语言数据集会更少。


2) 中英相似发音易混淆

中英文语音识别需要一个单一的模型来学习多种语音,相似但具有不同含义的发音通常会导致模型的复杂度和计算量增加,同时由于它需要区分处理不同语言的类似发音,因此在模型建模时就需要按照不同语言区分不同的建模单元。


1.2 PaddleSpeech 中英文语音识别方案


1.2.1 模型选择与介绍


本方案使用了一种端到端语音识别模型 Conformer U2 模型,其采用了 Joint CTC/Attention with Transformer or Conformer 的结构。训练时使用 CTC 和 Attention Loss 联合优化,并且通过 dynamic chunk 的训练技巧,使 Shared Encoder 能够处理任意大小的 chunk(即任意长度的语音片段)。其还使用 CTC-Prefix Beam Search 和 Attention Decoder 的方式进行解码,得到最终结果,同时实现了流式和非流式的语音识别,支持控制推理延迟。


本次 PaddleSpeech 开源的预训练模型,是非流式的端到端识别 Conformer U2 模型,chunk 中包含全部上下文信息,需要整句输入进行识别。如果你想训练流式中英文语音识别模型,也可以参考 PaddleSpeech 的 Conformer U2/U2++模型流式语音识别的示例训练自己的流式中英文语音识别模型。


示例链接:

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/wenetspeech/asr1


Conformer U2 结构示意图[1]


1.2.2 数据集介绍


本次使用了 TAL_CSASR 中英混合语音数据集。语音场景为语音授课音频,包括中英混合讲课的情况,总计 587 小时语音。


数据集下载地址:https://ai.100tal.com/dataset



数据集介绍[2]


1.2.3 中英混合语音识别建模单元


在中文语音识别系统中,常采用音素、汉字、词等作为声学模型的建模单元,在英文语音识别系统中则常采用英文音素、国际音标、子词等作为声学模型的建模单元。


本次 PaddleSpeech 开源的预训练中英文语音识别模型是采用端到端语音识别模型 Conformer U2,未接入语言模型,使用了中文字/词加英文子词的建模方法,将中英文分开建模,通过模型推理,直接得到识别后的结果。



1.2.4 试验结果对比


由于本项目使用的是中英文混合数据集,所以我们选择混合错误率(MER,Mix Error Rate)作为评价指标,中文部分计算字错误率(CER,Character Error Rate),英文部分计算词错误率(Word Error Rate)。测试数据集选择 TAL_CSASR 中已经划分好的测试集。由于不同的解码方式识别的效果不同,这里我们使用 Attention、CTC Greedy Search、CTC Prefix Beam Search、Attention Rescoring 四种解码方式进行试验,解码效果最佳为 Attention Rescoring,混合错误率 MER 为 0.084,折算为我们常说的语音识别正确率 91.6%。



1.2.5 进一步优化与效果提升


当前中英文语音识别方案的效果还有进一步提升的空间,比如在 Conformer U2 模型后面加入 Language Model,通过语言模型学习中英文语言信息, PaddleSpeech 中提供了基于 N-Gram 的语言模型训练方案。此外,可以在训练过程中加入 Language ID,使用 token 级别或者帧级别的语言 ID 标注信息,可以进一步提高中英文语音识别的效果。如果你有更大的中英文混合数据集或者是场景相关的数据集,可以通过微调或者进一步训练,提高在业务场景中的识别效果。


2.PaddleSpeech 语音识别技术介绍


除了中英文混合的 Conformer U2 模型以外,飞桨语音模型库 PaddleSpeech 中包含了多种语音识别模型,能力涵盖了声学模型、语言模型、解码器等多个环节,支持多种语言。目前 PaddleSpeech 已经支持的语音识别声学模型包括 DeepSpeech2、Transfromer、Conformer U2/U2 ++,支持中文和英文的单语言识别以及中英文混合识别;支持 CTC 前束搜索(CTC Prefix Beam Search)、CTC 贪心搜索(CTC Greedy Search)、注意力重打分(Attention Rescoring)等多种解码方式;支持 N-Gram 语言模型、有监督多语言大模型 Whisper、无监督预训练大模型 wav2vec2;同时还支持服务一键部署,可以快速封装流式语音识别和非流式语音识别服务。


通过 PaddleSpeech 提供的命令行工具 CLI 和 Python 接口可以快速体验上述功能。通过 PaddleSpeech 精品项目合集,可以在线体验 PaddleSpeech 的优秀项目,上面更有核心开发者精心打造的《飞桨 PaddleSpeech 语音技术课程》,帮助开发者们快速入门。


项目传送门:

https://aistudio.baidu.com/aistudio/projectdetail/4692119?contributionType=1


如果想了解更多有关 PaddleSpeech 的内容,欢迎前往 PaddleSpeech 主页学习 PaddleSpeech 的更多用法,Star 关注,了解 PaddleSpeech 最新资讯。


PaddleSpeech 地址


欢迎微信扫码加入 PaddleSpeech 社区,与核心开发者们一起交流。



3. NGC 飞桨容器介绍


如果您希望体验 PaddleSpeech 的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+ NVIDIA 带来的飞速体验。


最佳的开发环境搭建工具 - 容器技术


  1. 容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub 等等),或者你需要进行跨操作系统级别的迁移


  2. 容器镜像方便了开发者的版本化管理


  3. 容器镜像是一种易于复现的开发环境载体


  4. 容器技术支持多容器同时运行

最好的 PaddlePaddle 容器


NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL (DALI, RAPIDS)、训练(cuDNN, NCCL)和推理(TensorRT)工作负载的软件。


PaddlePaddle 容器具有以下优点:


  1. 适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能


  2. 更新的 Ubuntu 操作系统,更好的软件兼容性


  3. 按月更新


  4. 满足 NVIDIA NGC 开发及验证规范,质量管理


通过飞桨官网快速获取


环境准备


使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:


  1. Docker 引擎

  2. NVIDIA GPU 驱动程序

  3. NVIDIA 容器工具包


有关支持的版本,请参阅 NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档


不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。


NGC 飞桨容器正式安装:


要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:


docker run --gpus all --shm-size=1g --ulimit memlock=-1 -it --rm nvcr.io/nvidia/paddlepaddle:22.08-py3


*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html


*详细产品介绍视频

【飞桨开发者说|NGC飞桨容器全新上线 NVIDIA产品专家全面解读】 https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82


4.飞桨与 NVIDIA NGC 合作介绍


NVIDIA 非常重视中国市场,特别关注中国的生态伙伴,而当前飞桨拥有超过 535 万的开发者。在过去五年里我们紧密合作,深度融合,做了大量适配工作,如下图所示。

今年,我们将飞桨列为 NVIDIA 全球前三的深度学习框架合作伙伴。我们在中国已经设立了专门的工程团队支持,赋能飞桨生态。


为了让更多的开发者能用上基于 NVIDIA 最新的高性能硬件和软件栈。当前,我们正在进行全新一代 NVIDIA GPU H100 的适配工作,以及提高飞桨对 CUDA Operation API 的使用率,让飞桨的开发者拥有优秀的用户体验及极致性能。


以上的各种适配,仅仅是让飞桨的开发者拥有高性能的推理训练成为可能。但是,这些离行业开发者还很远,门槛还很高,难度还很大。


为此,我们将刚刚这些集成和优化工作,整合到三大产品线中。其中 NGC 飞桨容器最为闪亮。


NVIDIA NGC Container – 最佳的飞桨开发环境,集成最新的 NVIDIA 工具包(例如 CUDA)。




NGC 飞桨容器系列文章

BEV、单目和激光雷达 3D 感知算法开箱即用,无缝衔接 Apollo!


ERNIE 3.0 Tiny 新模型,压缩部署“小”“快”“灵”!欢迎在 NGC 飞桨容器中体验 PaddleNLP 最新版本


YOLOv8 来啦!一文带你解读 YOLO "内卷"期的模型选型以及在 NGC 飞桨容器中快速体验!


在 NGC 上玩转新一代推理部署工具 FastDeploy,几行代码搞定 AI 部署


在 NGC 上玩转飞桨自然语言处理模型库 PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方案应有尽有!


在 NGC 上玩转图像分割!NeurIPS 顶会模型、智能标注 10 倍速神器、人像分割 SOTA 方案、3D 医疗影像分割利器应有尽有!


在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22


在 NVIDIA NGC 上体验轻量级图像识别系统


在 NVIDIA NGC 上体验一键 PDF 转 Word


PaddleDetection 发新,欢迎在 NVIDIA NGC 飞桨容器中体验最新特性!


NVIDIA Deep Learning Examples 飞桨 ResNet50 模型上线训练速度超 PyTorch ResNet50


学习指南|NVIDIA 携手百度,为您解密 NGC 飞桨容器,快快关注“器”度不凡!



更多精彩仍在继续...

敬请关注




即刻点击 “阅读原文” 或扫描下方海报二维码在 NVIDIA On-Demand 上观看 GTC 精选回放,包括主题演讲相关精选、中国本地精选内容、生成式 AI 专题以及全球各行业及领域最新成果!


评论
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 189浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 184浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 136浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 61浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 182浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 178浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 81浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 167浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 125浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 268浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 73浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦