自动语音识别技术有助于提高人民的生活质量,但是该技术难以适用于失声患者或环境噪音较大等情况。为拓展语音识别技术的使用场景,可应用生理信号进行语音识别,但是目前该领域使用单一种类的生理信号进行语音识别,存在佩戴电极数量多、识别准确率低等问题。
清华大学集成电路学院任天令教授团队根据语音的生成机制开发了一种基于石墨烯的融合肌电电极和力学传感器的双生物通道传感器(DGEMS)用于采集佩戴者说话时下颌部和喉部的肌电信号和力学信号,其中肌电电极和力学传感器均通过激光直写聚酰亚胺薄膜制备,石墨烯肌电电极比商业肌电电极具有更高的信噪比和更低的电极-皮肤阻抗,石墨烯力学传感器具有极高的稳定性,在千万次疲劳测试后依旧可以感知力学变化。
语音生成机制和传感器工作原理、肌电信号和力学信号频谱及语音识别性能图
肌电信号和力学信号在频谱上具有不同的特征,肌电信号的能量主要集中在高频部分,力学信号的能量集中在低频部分,融合两种不同种类的生理信号进行语音识别可以减少电极佩戴数量并提升识别准确率。整个识别系统包含两个贴片,每个贴片输出一路肌电信号两路力学信号。该工作在包含数字0-9的数据集中实现100%的识别率,在包含71个单词的扩展数据集中实现96.85%的识别率,该结果是目前在最大的孤立词数据集上实现的最高的识别准确率。此外,使用该方法进行语音识别还具有较高的抗噪特性,在70dB的外界环境噪音下,也可实现95%以上的识别率。以上研究表面基于双生物通道的融合传感器在复杂的语音识别应用环境中具有重要的发展潜力。
上述相关成果以“使用基于石墨烯的肌电-力学传感器的仿生双通道语音识别”(Bioinspired dual-channel speech recognition using graphene-based electromyographic and mechanical sensors)为题,于10月3日在线发表在《细胞报告·物理科学》(Cell Reports Physical Science)上。
论文的通讯作者为清华大学集成电路学院任天令教授、田禾副教授和杨轶副教授,清华大学集成电路学院田禾副教授、2020级博士生李骁时、2020级博士生韦雨宏为共同第一作者。该项目得到了国家自然科学基金委、科技部、北京市自然基金委、北京信息科学与技术国家研究中心等的支持。
近年来,任天令团队致力于二维材料的基础研究和实用化应用的探索,尤其关注研究突破传统器件限制的新型微纳电子器件,在新型石墨烯声学器件和各类传感器件方面已取得了多项创新成果。先后在《自然》(Nature)、《自然·电子》(Nature Electronics)、《自然·通讯》(Nature Communications)等知名期刊以及国际电子器件会议(IEDM)等领域内顶级国际学术会议上发表多篇论文。
论文链接:
https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(22)00369-1