AliSSR 语音超分算法:让在线会议语音更明亮更自然

原创 阿里云视频云 2022-03-28 11:38

超分让在线会议语音更明亮,在线会议已成为日常工作中较为普遍的沟通交流方式,接入会议的方式也呈现多样化,比如电脑入会、手机入会又或是电话入会。

雪雅、曜辰|作者

众所周知,高采样率且高带宽的音频信号富含丰富的频率成分,能够带给人们更身临其境的听觉体验。但在线会议中,电话入会又或是因设备等原因导致原始采集带宽过低的场景中,带给人们的直观感受表现为听对方说话比较闷,严重影响会议体验。在信号处理中,语音超分技术可以用来处理这类情况,它可以最大限度地从低带宽的音频信号中重建出其高频成分,让语音信号听起来更“明亮、逼真”,从而为客户提供更出色更高音质的通话体验。


下面是一个简单的效果演示:

作者注:视频中前半部分是窄带信号,后半部分是超分后的宽带信号。

语音超分技术的早期研究多围绕传统信号处理理论展开,如源滤波器模型,通过 codebook 映射或者线性映射的方法来预测高频带频谱包络 [1, 2]。近些年随着深度学习技术在信号处理领域的应用,语音超分技术在深度学习的加持下,效果获得了明显的提升。

最开始,延续了传统信号处理框架,神经网络替换原有框架的一部分,用来预测高频带的谱包络或者幅度谱 [3, 4],相位扩展沿用传统的方法,保持计算复杂度低的优势 [1],然而相位信息对于人耳主观听感有着不可忽略的影响。

随后,受图像超分辨率算法的启发,基于端到端的神经网络模型应用到了语音超分任务 [5, 6],它直接在时域上对信号完成了预测,避免了相位问题,这些方法都是通过最小化某个损失函数(如 L2 loss) 来训练的,后来,引入了 GAN 的训练方式,结合原有的损失函数和对抗损失,达到了更好的效果 [7, 8]。

当前,我们主要针对采样率从 8KHz 提高到 16KHz 的情况(频谱带宽从 4KHz 扩展到 8KHz)。

语音超分算法:AliSSR

基于神经网络的语音超分算法近几年来取得了不错的超分效果,但其中很多算法都是双非算法(非实时非因果),同时往往涉及较大的参数量和计算量,难以在实际应用场景中部署。阿里云视频云音频技术团队基于上述实际问题,研发了两种实时因果的语音超分算法:AliSSR(e2e 版本)和 AliSSR(lightweight 版本),在拥有较少参数量和较低延时的同时,保持其高质量的语音超分效果。

1. 算法原理简介

A. AliSSR(e2e 版本):是基于端到端的 encoder-decoder 模型。该模型结合实际应用场景,充分考虑了编解码、下采样所带来的损失,并结合 GAN 相关的训练技巧,提升带宽拓展的效果;

B. AliSSR(lightweight 版本):传统信号处理与深度学习结合的算法模型。该模型简单易拓展,资源消耗较小。

音频技术团队研发的基于神经网络的语音超分算法无需额外数据传输, 可以实时流式地对窄带语音信号进行高质量地带宽拓展。

2. 算法性能

3. 应用场景

在某些低带宽的场景中 , 例如在 PSTN 场景中,往往感觉对方声音很 “闷”,这主要是由于发送端传输的语音信号采样率低,没有高频成分的语音信息。语音超分技术通过重建语音的高频成分,为客户提供更高音质、更出色的通话听觉体验。语音超分常用的使用场景如下表所示。

4. 超分效果显示

AliSSR 实时超分算法支持多语种、多性别。下面分别对男生英文和女生中文测试语料的超分前后效果进行展示,主观听感层面,超分之后的语音明显比窄带音频要更 “明亮”,其中 AliSSR(e2e 版本)超分后明亮度要比 AliSSR(lightweight 版本)更好。

样本 1:英文

视频中的三段音频分别是:窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本

样本 2:中文

视频中的三段音频分别是:窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本

语音超分技术在 PSTN、在线会议、老旧音频修复以及媒体生产等领域,有着较为广泛的落地场景。AliSSR 语音超分算法在神经网络的助力下,仅需极少的资源消耗,即可实时地给用户带来更“明亮、逼真”的音质体验。未来,音频技术将会继续铸造更强的超分能力,探索从窄带到全频带、从语音到音乐再到全类音频的全场景覆盖的超分技术。

阿里云视频云音频技术团队将继续探索基于深度学习 + 信号处理的的音频技术,为在线会议等场景提供更清晰更极致的音频体验。


参考文献

[1] J.Makhoul, M.Berouti, “High-frequency regen-eration in speech coding systems”, in Proceedings of ICASSP, 1979, vol. 4, pp. 428–431.

[2] B. Iser, G. Schmidt, “Neural networks versus codebooks inan application for bandwidth extension of speech signals,”  in Proc. of Interspeech, 2003

[3] Kehuang Li, Chin-Hui Lee, “A deep neural networkapproach to speech bandwidth expansion”,  in Proceedings of ICASSP, 2015, pp. 4395–4399.

[4] J. Abel, T. Fingscheidt, “Artificial  speech  band-width extension using deep neural networks for wide-band spectral envelope estimation”, IEEE Transactionson Acoustics, Speech, and Signal Processing,  vol. 26,no. 1, pp. 71–83, 2017.

[5] V. Kuleshov, S.Z. Enam, and S. Ermon,  “Audio super resolution  using  neural  nets”, in Workshop of ICLR, 2017.

[6] Heming Wang, Deliang Wang, "Time-frequency loss for CNN based speech super-resolution", in Proceedings of ICASSP, 2020.

[7] Eskimez, Sefik Emre et al. “Adversarial Training for Speech Super-Resolution.” IEEE Journal of Selected Topics in Signal Processing 13 (2019): 347-358.[8] Li, Y., Tagliasacchi, M., Rybakov, "Real-Time Speech Frequency Bandwidth Extension", ICASSP, 2021.

阿里云视频云 「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领
评论
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 164浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 53浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 186浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 150浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 122浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 112浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 73浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 41浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 101浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 399浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦