研究背景
口语识别作为语音识别的一个分支,可以帮助有语言障碍的人以及人机交互表达想法和发出指令。当前的口语识别涉及直接检测声波,包括频谱分析、声学特征的提取与比较,以及声学纹理分析。然而,直接检测方法容易受到传输介质、环境噪声和说话者生理状态的干扰。通过机械传感器进行的语音识别可以通过检测喉部肌肉的振动来避免这些缺陷,这是基于发音时喉部的解剖基础。
可穿戴压力传感器能够将喉部振动转换为可视化电信号,在检测语音信息方面受到了广泛关注。最初,语音识别主要是通过比较使用压力传感器或触觉传感器捕获的喉部振动电信号波形来实现的。此外,压力传感器可以检测喉部肌肉内的振动,并通过简单的信号处理,如计算信号峰值的斜率和比较峰值宽度,来区分不同的发音。随着人工智能(AI)技术的进步,机器学习被引入用于构建模型,用于训练和识别不同的发音,特别是压力传感器和机器学习的结合。卷积神经网络(CNN)和支持向量机经常被引入用于识别收集的发音信号,以进行语音识别。然而,目前用于语音识别的压力传感器仅限于识别标准语言,这阻碍了方言说话者的有效沟通。对于声调语言,方言发音之间的差异在于声调和音高,这些是由控制舌骨和软骨运动的喉部肌肉产生的。声音音高的升高或降低与喉部肌肉的收缩和放松密切相关。通过具有狭窄检测范围和滞后效应的压力传感器进行方言识别的主要挑战在于,在发声过程中捕捉喉部肌肉微妙且快速的振动的困难。这些因素对压力感应性能提出了严格的要求,例如低检测限、高稳定性和滞后特性。
为了满足语音识别的要求,Ti3C2Tx MXene因其可调节的层间距和优越的导电性成为可穿戴压力传感器的有前途的候选材料。然而,纯Ti3C2Tx通常会受到机械脆性和氧化的影响,使其在重复循环过程中容易崩溃。为了防止在机械刺激下灵敏度退化,将Ti3C2Tx层与纳米结构聚合物基体复合,可以增强特定表面积和更多的接触点。具有高孔隙度的气凝胶结构对于创建有效的电连接和增加传感器层的压缩性至关重要,当暴露于外部压力时,会引起电导率的变化。壳聚糖(CS),作为一种多糖生物聚合物,可以显著增加分子运动的自由度,最终通过在生物聚合物和Ti3C2Tx之间形成坚固的氢键来提高灵活性。聚偏氟乙烯(PVDF)短纤维作为增强相,通过在高压下提供可逆变形来改善气凝胶的耐用性。与广泛用于压力传感器的导电气凝胶相比,这种聚合物纤维增强气凝胶通过利用低密度、在高压下的优异可逆变形以及由于低压缩模量而获得的小信号检测限,实现了宽检测范围,从而超越了导电气凝胶。因此,将聚合物复合到基于Ti3C2Tx的气凝胶中是实现具有增强灵敏度和机械稳定性的可穿戴压力传感器的可行方法。
研究成果
可穿戴压力传感器能够舒适地粘附在皮肤上,在声音检测方面具有很大的潜力。然而,基于压力传感器的当前智能语音助手只能识别标准语言,这限制了非标准语言人群的有效沟通。在这里,吉林大学刘方猛&贾晓腾教授等人制备了一种超轻的Ti3C2Tx MXene/壳聚糖/聚偏二氟乙烯复合气凝胶,其检测范围为6.25 Pa至1200 kPa,响应/恢复时间快,滞后性低(13.69%)。可穿戴气凝胶压力传感器可以通过喉部肌肉振动无干扰地检测语音信息,借助卷积神经网络,能够准确识别六种方言(准确率96.2%)和七个不同的单词(准确率96.6%)。这项工作代表了在人类与机器交互和生理信号监测的无声语音识别方面的重要进步。相关研究以“Ti3C2Tx Composite Aerogels Enable Pressure Sensors for Dialect Speech Recognition Assisted by Deep Learning”为题发表在Nano-Micro Letters期刊上。
图文导读
Fig.
1 a Schematic preparation of MX/CS/PVDF aerogel. b Wearable
Ti3C2Tx-based aerogel pressure sensor for dialect speech recognition
Fig. 2 Characterization of MX/CS/PVDF aerogels
Fig. 3 Piezoresistive effect of MX/CS/PVDF aerogel pressure sensor
Fig. 4 Pressure-sensing performances of MX/CS/PVDF aerogel pressure sensor
Fig. 5 Real-time monitoring of human physiological signals using the piezoresistive sensor
Fig. 6 Dialect speech recognition assisted by deep learning
总结与展望
在这里,作者制造了基于MX/CS/PVDF的压力传感器,具有超轻密度和显著的耐用性,用于方言识别。精心设计的基于MX/CS/PVDF的压力传感器展示了快速的响应/恢复时间(<72毫秒)和低检测限(6.25帕斯卡),允许检测喉咙中的微小振动。在方言语音识别过程中,喉咙上的发声振动信号超过6888和4158次,通过使用7个词汇和6种汉语方言来训练卷积神经网络模型获得了这些结果。方言发音信息的识别准确率分别达到了96.6%和96.2%。这种高性能的压力传感器在未来的人机交互和健康监测中可以发挥重要作用,用于表达指令和获取生理信息。
文献链接
https://doi.org/10.1007/s40820-024-01605-z