随着5G、AIoT等技术的快速发展与应用融合,人工智能(AI)产业及相关业务越来越受政府和产业界的关注与支持,在国家的“十四五”规划中,人工智能技术已被列为前沿科技领域的“最高优先级”,宏观环境不断向好发展。
AI技术中,语音识别、自然语义理解(NLP)、机器学习是人机交互技术的基础,居于重要地位。语音识别、NLP两项均与语音交互密切关联,而语音识别又是在行业中落地最早的AI技术。2010年前后,以神经网络为代表的AI技术大大提升智能语音识别效果后,各个领域的应用开始了积极尝试,如今已逐渐走向成熟。
从具体分类来看,AI语音芯片大致分为云端计算语音识别和端侧计算语音识别两种。在早期由于算力限制,端侧没有专用芯片可以解决算力和功耗成本均衡的问题,所以大部分的语音识别功能需要从端侧上传数据到云端完成推断,再将决策返回端侧。
但久而久之,人们发现云端语音存在一些弊端,例如需要稳定的网络连接,否则无法做到稳定的实时响应;数据上传云端,用户有隐私安全的顾虑;需要服务器等各种运维费用,导致整套方案成本居高不下,并直接传导给消费者……
全球人工智能芯片分类地图及代表公司
鉴于此,以启英泰伦为代表的企业,开始研究如何通过专用的AI语音芯片,将语音智能计算在终端实现。这种方式既保障语音功能应用的优点,又解决了云端语音的缺点,让终端用户能以最符合人类日常交流的形态去使用AI语音,同时拥有完整、自主的设备使用权和控制权。
离线方案才是语音识别的最终归宿?
“多年来,AI语音技术的发展经历了很多艰与辛,坎与痛。” 成都启英泰伦科技有限公司创始人,首席执行官何云鹏在接受《电子工程专辑》等媒体采访时,总结了之前AI语音方案普遍面对的三大难题——首先是用户个性化,不同用户拥有不同的口音与方言,表达方式也是丰富多彩,这给语音识别和语义理解带来了难度;其次是客户的高要求,对机器而言需要用人甚至超过人的识别标准来要求,同时还要满足不断降低成本的预期;最后是AI语音应用场景的复杂化,在家居、推广和生产环境中,存在各种不同的噪声干扰,给准确识别带来了难度。
成都启英泰伦科技有限公司创始人,首席执行官何云鹏
2016年,启英泰伦发布国内首款离线语音识别芯片Cl1006后,如今已经过3个大代和3个半代的产品迭代,总计6次。其中半代是在正数代基础上脑神经网络处理器核(BNPU)平台不变,通过功能精简达到 30%方案成本的下降。第二代产品是2019年的Cl110X系列,第三代产品则分为两大系列,分别是Cl130X系列智能语音主控(MCU)芯片;Cl230X系列智能语音AIoT芯片。
之所以选择做离线语音识别芯片,何云鹏给出的理由中有一条是让“亿万用户用得起、用得好”。他表示,在语音芯片发展的早期,限于半导体工艺水平和算法先进性等原因,终端用户对于增加一颗独立语音芯片是持观望态度的,因为额外的数据处理器、用于存储算法的Flash都会增加BoM成本。但随着摩尔定律的演进,经过6-7年的芯片制造工艺的提升及算法迭代后,独立AI语音芯片不但性能指数级提升,成本也以每年30-50%的速度下降。“目前我们的离线语音整体方案成本,最初1代为 50-90 元(CI1006),1.5 代为 30-40 元(CI1102),2 代芯片系列15-25元,来到2.5 代则降低到10-15元之间。高度集成实现单芯片即方案,不再会给端侧带来成本的负担。”
反观云端语音方案,其成本增加是持续存在的。由于需要每时每刻上传数据、接收指令,网络传输成本一直存在;云端服务器建设的周期长、费用大,通常需要借助第三方平台,带来运营成本每年也会摊销到设备端,如果不续费甚至可能造成语音功能停止——这一点用过智能音箱的人深有体会,当断网时,智能音箱立马变成“智障”音箱。
“这些额外的费用,在采用端侧语音识别方案后都可以省去。” 何云鹏认为,“语音识别是一种对实时反馈要求极高的技术,相关运算应该放在线下、端侧来做,而云端则更应该专注交易、内容服务、非实时大数据运算等协同操作。这才是一个合理的分工。”
第三代语音芯片的AI算法优势
为了更好地满足用户需求,启英泰伦在算法攻关和芯片研发两个方面同时发力,BNPU是启英泰伦的核心技术优势之一,版本也在不断升级,从BNPU 1.0、BNPU 2.0,一直到今天推出的BNPU 3.0版本。
何云鹏介绍道,第一代BNPU实现的是端侧语音识别,是行业首款集成神经网络处理器的语音AI芯片,也是离线语音产业应用兴起的标志。二代系列芯片CI1102/CI1103及CI1122芯片则集成了第二代BNPU,不仅实现了离线语音识别功能,还能实现离线声纹识别和命令词自学习等个性化的功能。
前几代产品在噪音环境下识别度方面已经很不错,正常安静家居环境下识别度达到98%以上,对于 65dB 左右中强环境噪声下也能有较好的识别效果。如今,搭载BNPU 3.0的第三代芯片又将把整个语音识别应用推向新的高点实现了更高算力、高集成度和性能新高的“三个新高”。
算法方面,启英泰伦三代语音芯片支持几乎全部信号处理和识别技术。包括单麦自适应降噪/降混响/回声消除/DOA(语音定向)/波束形成/盲源分离/语音活动检测等传统信号技术。BNPU 3.0 除了继承了 2 代的语音/声纹识别之外,还支持了基于深度学习的降噪(也称深度降噪)、人声分离(也称深度分离)、命令词自学习 2.0 版本以及行业首次突破的离线 NLP 技术。
- 深度降噪技术能在信噪比-5dB 到 -10dB 的环境噪声下将人声提取出来,实现良好识别。演示视频中,油烟机噪声高达80dB 时,对于70多dB的人声依然可以良好识别。
- 在深度人声分离技术演示中,电视噪声和干扰人声离语音设备更近,也就是此时目标人声分贝数为 0 甚至负的条件下,通过芯片的深度人声分离技术,语音模块仍然可以良好识别到。
- 命令词自学习 2.0 版本支持离线命令自学习,在 60 到 65 分贝噪声条件下依然具备良好的识别表现,非常接近大数据训练模型的效果。用户即便带着方言口音,简单训练2-3次设备也能学会,支持50多条词条数。
- 端侧 NLP 技术包含了语音识别和意图识别,该意图模型采用联合规则和统计训练的模型来实现端侧语音识别+语义理解的功能。这使得设备彻底不需要依赖云端,一样可以具备上下文关联、多轮对话、意图理解等云端 NLP 的功能。
此外BNPU 3.0还能运行语义识别模型、端侧离线TS等语音相关的算法。对于市面上一些竞品号称也能做到端侧离线NLP,何云鹏表示他们有做过对比,发现“(竞品)还是要用比较传统的命令词,用自然对话就无法识别了。而我们的芯片能达到自然语言识别。”
硬核技术及相关参数
前面 5 颗芯片的迭代,不仅是上述算法性能功能不断提升,集成度也在不断增加。 2 代系列相比1代,集成进了 Audio CODEC、Flash 等单元,以及双麦阵增强处理能力。据悉,启英泰伦的第三代语音芯片采用40nm工艺制造,主打性能的同时,相对于二代功耗降低了一半仅为10mA左右(低功耗模式做语音运算时)。
芯片算力方面,三代 13 系列芯片内置 BNPU 3.0 和支持 DSP 指令扩展的 RISC CPU 两大内核,主频高达 240MHz,并具有 640KB 系统 SRAM。而 2 代主频是 160MHz,内置 BNPU2.0,512KB SRAM。
芯片集成度方面,三代 13 系列芯片集成了 Audio Codec 模拟 MIC 接口、数字PDM麦克DMIC 接口、通用 ADC及 MCU 常见的串口/PWM/GPIO 等。还进一步集成了 4 线 NOR Flash、3 路 LDO PMU和高精度RC 振荡器等。
成本方面,芯片即方案,除了MIC、喇叭外,板级仅需要阻容和PA芯片,多数情况下连晶振都不需要加。极大简化BoM,但可以通过外设接口扩展各种功能。封装上,前两代采用QFN封装,第三代为适应不同应用及贴片要求,推出了SOP16/SSOP24/QFN40等系列封装。
23 系列 AIOT 单芯片(CI2305 和 CI2306)在语音功能和性能上与13系列相同,主要增加了 Wi-Fi 和 BLE,形成三合一单芯片。其中CI2305 支持离线语音+IOT,而 CI2306还支持将语音上传,实现离线语音+在线语音+IOT 功能。
“与一些 Wi-Fi芯片公司推出的用纯软件方式在芯片上跑语音算法低成本方案相比,我们的 23 系列 AIOT 单芯片能够实现优异的语音处理和识别表现,以及优良的 IOT 连接传输性能。”何云鹏说到。
值得注意的是,启英泰伦的一二代产品都是采用Arm内核,但在2.5代Cl1122这款产品中采用了RISC-V处理器。对于选择RISC-V还是Arm内核,何云鹏认为两者各有优点,会在不同产品线上选择不同的内核。“Arm生态成熟,而RISC-V的开源特性,带来了众人拾柴火焰高的效果。此外RISC-V指令精简,接口灵活,可以定制加速单元,方便加速设计。”
第三代产品的主控能力进一步加强,拥有更丰富的IO接口,兼容3.3V和5V;主频更高,SRAM更大,算力可更充分提供给主控应用。按照启英泰伦的说法,这颗语音芯片既可以作为语音识别或语音信号处理的专用芯片,也可以作为带语音识别功能的 MCU 主控芯片。
那为什么通用MCU不适合做AI语音?何云鹏解释到,传统通用MCU嵌入语音算法,还需要满足语音识别的大Flash存储、CPU频率、专用语音通道和Audio Codec等硬件要求,一般只能用于玩具级的机器学习(Tiny ML),无法用于专业设备。而启英泰伦第三代语音芯片提供1/2/4MB三种Flash版本供选择,更大的Flash,可以存放更大的神经网络模型,这是做离线NLP自然语言交互必须的;而不需要NLP的应用,采用1MB版本的就够了。
“可能刚开始做语音的同学无法理解,但要把语音真正做好的同时把成本降下来,就要对芯片和算法极致打磨。”何云鹏补充道,“通用MCU要想把语音做到接近我们的水平,在处理器频率和存储上要增加大量成本,具体取决于算法的好坏。”
哪些终端设备最需要语音交互技术?
据IDC的统计数据,2021年中国智能家居设备市场出货量已超2.2亿台,2022年中国智能家居设备市场出货量则将突破2.6亿台,同比增长为17.1%。
由于智能语音技术和NLP技术不断加速发展,智能语音的市场空间不断打开。目前,智能语音已在2C消费级的智能家居、智慧生活、智慧办公、智能驾驶;2B企业级的智慧医疗、智能客服等多个领域实现场景应用。其中家电行业的渗透率已达到130多个品类,某些品类的渗透率超过50%。
从目前终端客户的接受程度看,已经从之前大多采用AI语音beside方案(后装,一般是在电源插座上加装声控),转变为了inside方案(前装)。据何云鹏介绍,这一点在智能家居、智慧办公的房地产客户和家电设备客户上最明显,“因为用启英泰伦的语音AIOT芯片,已经可以直接替换原来的通用MCU。至于后装则是通过的加装一个带语音识别功能的插座来控制设备,仅需搭载一颗语音主控芯片,就能把存量的家电设备通过USB Dongle、2.4G红外等形式加上语音控制功能。”
最积极采用语音取代现有操作方式的,首先是使用者和设备之间有一定距离、传统上用遥控器的设备,例如空调、照明设备等;其次是虽然人和设备距离较近,但是双手无法解放的,用语音控制效果也较好,例如油烟机、车载操控;最后是功能多、菜单多、组合键多的设备,消费者觉得太复杂,这时候直接用语音表达需求更方便,例如微波炉档位选择、洗衣机洗衣方式的选择等。
何云鹏预计,接下来所有家电大厂将布局产品机器人化、智慧化服务。例如空调将不只是调节温度,还会实时监测空气温湿度、气味、负氧离子等,并提供山林、海边、乡间清晨等虚拟环境模拟。而这个过程中的很多服务需要让机器理解人,就会用到NLP,让家电成为服务的入口。
“这种服务是时刻发生,需要实时响应的。以往的云上识别方案带来的传输带宽成本只有抹掉,才能让这种服务入口落地。”他说到,“另外一些非实时的功能放在云上,例如固件升级、交易等,实现端云融合。”
结语
据悉,启英泰伦目前已经有5000多客户,10000多平台开发者,和10万多在校学员。整个离线语音及语音AIOT领域应用呈现快速崛起之势。目前已经达到2000万年装机量,正快速向上亿年装机量发展。
启英泰伦的终极目标是打造跨设备、跨时空,用户专属,终身守护的守护精灵。何云鹏将这一目标划分为三个阶段:
第一步,让人机交互更自然,更具普适性;
第二步,通过更多的数据,让机器更理解人、更主动地为人类服务;
最终目标,打造专属的守护精灵,它将是用户全方位的生活管家、健康安全卫士、百科知识导师和给与心灵陪伴的知己朋友。
如今整个行业正处于终端语音交互应用走向普及、多感知机器人技术芯片和技术研发积累的阶段。每个阶段都需要埋头苦干,需要多次迭代和至少 5 到 10 年的坚持。为了更快地实现自身目标,帮助下游客户实现敏捷开发、快速落地的目标,启英泰伦正加强生态建设,提升语音AI应用开发平台,该平台支持10000用户同时开发,即时生成NLP模型,提供更自然的语音交互能力。
“在过去20多年的工作时间里,很多人不理解我回国做芯片的选择,他们认为一个人的力太薄弱,不能改变什么。但我的妻子总是无怨无悔的支持我所有的选择和追求,最近她对我说,你当初的选择是对的,我们国家芯片差点被卡了脖子。”何云鹏感慨道, “我觉得,一个人的力量是微薄的,但是为追求那些站在民族和人类立场的美好愿望,多一个人的力量也是好的。一个人这么想,就一定会有更多人这么想,最终汇聚成浩浩荡荡一往无前的力量!今天,已经有千千万万的人投入到了民族的集成电路事业中,中国集成电路崛起之路已经势不可挡。”