清华大学集成电路学院研发出混合模态语音识别和交互智能人工喉-电子工程专辑

 语音是人类交流的重要方式，但说话人的健康状态（例如神经疾病、癌症、外伤等原因导致的声音障碍）和周围环境（噪音干扰、传播介质）往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度，但会导致更大的设备体积……

近日，清华大学集成电路学院任天令教授及合作团队在智能语音交互方面取得重要进展，其研发的可穿戴人工喉可以感知喉部发声相关的多模态机械信号以用于语音识别，并依靠热声效应播放对应的声音，研究结果为语音识别与交互系统提供了一条新的技术途径。

图1. 基于智能可穿戴人工喉的语音交互范式

语音是人类交流的重要方式，但说话人的健康状态（例如神经疾病、癌症、外伤等原因导致的声音障碍）和周围环境（噪音干扰、传播介质）往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度，但会导致更大的设备体积。而可穿戴设备能够获取高质量的原始语音或其他生理信号。然而，目前尚无充分的证据表明喉部肌肉的运动模式和反映在体表的发声器官振动中隐含着可识别的语音特征，且尚无实验证明其作为语音识别技术的完备性。

图2. 人工喉器件设计和性能表征

图3. 人工喉器件与麦克风采集的语音信息标注和共振峰特征分析

为解决这一问题，任天令团队成员开发了一款基于石墨烯的智能可穿戴人工喉（AT），同商业麦克风和压电薄膜相比，人工喉对低频的肌肉运动、中频食管振动和高频声波信息有很高的灵敏度（图1、图2），同时也具有抗噪声的语音感知能力（图2）。对声学信号和机械运动的混合模态的感知使人工喉能够获得更低的语音基频信号（图3）。此外，该器件还可以通过热声效应实现声音的播放功能。人工喉的制作过程简单、性能稳定、易于集成，为语音识别和交互提供了一种新的硬件平台。

图4. 人工喉语音识别性能

团队还利用人工智能模型对人工喉感知的信号进行语音识别和合成，实现了对基本语音元素（音素、声调和词语）的高精度识别，以及对喉癌患者模糊语音的识别与再现，为声音障碍者的沟通和交互提供了一种创新的解决方案。实验结果表明，人工喉采集的混合模态语音信号可以识别基本语音元素（音素、音调和单词），平均准确率为99.05%。同时人工喉的抗噪声性能明显优于麦克风，在60dB以上环境噪声下仍能保持识别能力。任天令研究团队进一步演示了它的语音交互式应用。通过集成AI模型，人工喉能够识别一名喉切除术患者模糊说出的日常词汇，准确率超过90%。识别出的内容被合成为语音在人工喉上播放，可以初步恢复患者的语音交流能力。

图5. 使用智能可穿戴人工喉进行无声语音交互

该人工喉还有很大的优化和拓展空间，例如提高声音的质量和音量，增加语音的多样性和表情，以及结合其他生理信号和环境信息实现更自然和智能的语音交互。研究团队希望通过进一步的研究和合作，让人工喉造福更多的声音障碍者和语音交互的用户。

该成果以“使用可穿戴人工喉的混合模态语音识别与交互”（Mixed-modality speech recognition and interaction using a wearable artificial throat）为题，于2月24日在线发表在《自然》（Nature）人工智能子刊《自然·机器智能》（Nature Machine Intelligence）上。

论文通讯作者为清华大学集成电路学院任天令教授、田禾副教授、杨轶副教授和上海交通大学医学院罗清泉教授，清华大学集成电路学院2019级博士生杨其晟、上海交通大学医学院2019级博士生金伟秋为共同第一作者。该项目得到了国家自然科学基金委、科技部、教育部霍英东基金、北京市自然基金委、清华大学国强研究院、清华大学佛山先进制造研究院、清华大学-丰田联合研究院、清华-华发建筑光电子技术联合研究院等的支持。

论文链接：

https://www.nature.com/articles/s42256-023-00616-6

這是真正造福人類的真科技,而非像ChatGPT那樣自嗨的東西.希望早日產品上市.

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

人工智能嵌入式设计医疗电子可穿戴设备业界新闻

返回列表

上一篇： 中科院微电子所在高能效浮点存内计算方面取得进展 下一篇： 从政府工作报告看电力行业发展新要求

AirPods 3产能回归中国，主要原因是疫情影响越南生产基地 AirPods 3全新的外观设计与AirPods Pro相似，关于新功能、价格、产品定位的传言已经有段时间了，将会很有可能在三季度发布，同步或者尾随iPhone 13系列等新品而来。
小米智能眼镜MicroLED光波导技术解决谷歌和华为痛点? 智能眼镜这条路上，谷歌折戟成沙，华为又是草草收场，是什么让小米这么自信能成功？
汽车用空调不制冷/暖了是怎么回事, 找出原因、检查与排除有些朋友觉得汽车空调不制冷/暖了就直接去维修店修就是了，实际上自己也能做些检测的呢？
长江存储发布官方声明，”NAND 闪存产能将翻倍“为不实言论长江存储NAND闪存产能将翻倍？外媒刚报道这样消息，就遭官方打脸。今日，长江存储科技有限责任公司发布官方声明否认，一切以官方信息为准。
显卡turbo之后,华为内存turbo技术使6G拓展到8G容量自从显卡 turbo之后，华为曝出了一个大料内存Turbo技术，却立刻就被人吐槽了！华为将推出内存Turbo技术，将6G内存直接变成8G
OPPO Enco Free2耳机三核降噪效果比苹果AirPods Pro要好 OPPO Enco Free2推出了“个性化降噪”功能，此功能下可将最大降噪深度提升至42dB。从官方展示图看，频率段正是在主动降噪体验非常敏感的100-200Hz附近。耳机在通话降噪，通透模式，丹拿调音等各个方向也没有落下。
华为鸿蒙OS 2.0系统开源发布后，外国科技圈、媒体、网友热烈讨论和华为已是世界无人不晓了，一直备受全球期待的华为鸿蒙OS 2.0，它将影响那些行业，那些领域、技术变化？除了鸿蒙OS 2.0，华为还带来了EMUI 11和HMS生态的新进展，信息丰富。强链接能力、更快，、传输更安全，这是鸿蒙OS 2.0升级后最重要的变化。
什么是NB-IoT物联网水表？有什么优势？ NB-IoT智能水表不但能完成预付费功能，并且能够实现远程传输数据及监管，从多方面克服了热水水表、冷水水表、纯净水水表的智能抄表、收费、监管等诸多问题。它有哪些技术特点？相对于传统水表，有什么优势？
蔚来也要自主研发自动驾驶芯片？传相关硬件研发团队已成立蔚来正在规划自主研发自动驾驶计算芯片，该计划尚处于早期，主要由蔚来汽车董事长兼CEO李斌推动。蔚来已成立独立的硬件研发团队，内部叫做“Smart HW（Hardware）”。
iPhone 13新消息:售价、1TB版本、激光雷达摄像头,120Hz屏引一加除了网上不断传出“13香”的消息外，苹果下一代新款iPhone13也成为了果粉持续关注的焦点，但最近关于iPhone13的谣言和爆料却满天飞，从网上反馈来看，很多果粉都对这款新机器充满期待。有人说iPhone12不香，新iPhone也有很多升级点相信这些升级也会提升用户体验，等新13香吧！

Imagination GPU为边缘智能提供高效率的加速在“2024奕斯伟计算开发者伙伴大会”上，来自Imagination英国总部的专家发表了主题为《用RISC-V CPU + PowerVR GPU迎接边缘生成式AI的到来》的演讲。
面向AI的下一代以太网技术随着AI应用的广泛普及和数据流量的迅猛增长，传统以太网技术在延迟、带宽、拥塞控制和高性能可扩展方面天然局限，导致其难以应对AI网络的复杂需求。
智能手机疲软，但超薄柔性玻璃出货量势头正猛可折叠盖板玻璃必须符合以下所有标准：透明、可折叠、坚固、平整和轻薄，这些基本要素缺一不可。
全球折叠屏手机快速增长，中国品牌压制三星 • 得益于西欧、关键亚洲市场和拉丁美洲市场的增长，以及中国品牌的持续领先，全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现，成为最大的贡献者，成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好，为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计，头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI网络物理层底座：大算力芯片先进封装技术 AI技术的发展极大地推动了对先进封装技术的需求，在高密度，高速度，高带宽这“三高”方面提出了严苛的要求。
智能手表OLED面板超 60%中国制造智能手表在新冠肺炎疫情后获得了越发广泛的关注，其功能包括语音、健康检查、运动和活动追踪、GPS、通信和个人数据监控。全球智能手表显示面板的出货量已从2022年的2.59亿片增长到2023年的3.51亿片。到 2024年，Omdia预测智能手表显示面板的出货量将达到3.59亿片，其中TFT LCD占63%，OLED占37%。
无处不在的Arm软硬件生态赋能开发者AI创新随着计算变得愈发复杂，计算效率的重要性更胜以往。
荣耀拿下欧洲横折手机榜第一既然可以保留几乎相同的旧款手机，或者以更低的价格购买旧款手机，为什么要购买最新款的智能手机呢？但变化已经到来，智能手机品牌厂商正带着其最前沿的创新技术重返欧洲市场……
如何选择数据中心的最佳运营地点选择最佳数据中心位置需要评估几个关键标准，以确保最佳性能、效率和未来增长。每项标准在确定数据中心运营地点的适宜性方面都起着至关重要的作用……
高通收购Sequans后，获得了哪些增强？ • 高通通过收购Sequans的4G技术加强物联网领导地位 • 高通已经以2亿美元收购了Sequans Communications的4G技术，扩展到蜂窝物联网市场。 • 该交易增强了高通在低功耗广域网（LPWA）领域的业务，通过Sequans先进的4G物联网技术解决了性能和效率方面的差距。 • 该收购为Sequans提供了用于5G开发的资金，同时允许其继续利用其4G物联网技术。

热门评论
最新评论

换一换

清华大学集成电路学院研发出混合模态语音识别和交互智能人工喉

杂志声明