植入物将脑电波转化为单词

EETOP 2023-05-28 21:25

电脑屏幕上显示着这个问题:“你想喝水吗?”下面3个点闪烁着,接着陆续出现几个字,每次一个字:“不,我不渴。” 这是大脑活动生成的几个字——来自一个失语已经超过15年的人的大脑。15年前的一次中风让他的大脑和身体其他部分彻底“断联”,他几乎完全瘫痪了。他使用过许多技术来与外界沟通;最近,他用系在棒球帽上的指针敲击触摸屏上的单词,这种方法有效但速度很慢。他自愿参加我的研究小组在加州大学旧金山分校的临床试验,希望能开创一种更快速的方法。到目前为止,他只在研讨会上使用过大脑文本转换系统,但他希望帮助这项技术发展,使像他一样的人可以在日常生活中使用这项技术。

在试验研究中,我们在志愿者的大脑表面覆盖了一个薄薄的柔性电极阵列。电极记录神经信号,并发送至语音解码器,解码器将信号转换成他想要说的话。这是第一次有一位失语瘫痪者使用神经技术从大脑“广播”出整个单词,而不仅是字母。

这项试验是十几年来大脑控制语言底层机制研究的高峰,我们对迄今为止取得的成就感到非常自豪。但我们才刚刚开始。我在加州大学旧金山分校的实验室正在与世界各地的同事合作,使这项技术足够安全、稳定、可靠,可供家庭日常使用。我们还在努力提高系统性能,所以这是值得努力的。

在过去20年里,神经假体走过了漫长的道路。听觉假体植入物取得的进步最大,在设计上,它与内耳的耳蜗神经相连或者直接与听觉脑干相连。还有大量研究是关于视网膜和大脑视觉植入物的,以及如何为装有假肢手的人带来触觉。所有这些感觉修复术都是从外部世界获取信息,然后转化为电信号,并馈送到大脑的处理中心。

还有一些神经假体则与之相反,它们记录大脑的电活动,并将其转换为控制外部世界的信号,如机械臂、视频游戏控制器或计算机屏幕上的光标。最后一种控制模式已被BrainGate联盟等团体采用,使瘫痪者能够打字,有时一次一个字母,有时使用自动完成功能来加快打字过程。

为了实现大脑打字的功能,通常会将一个植入物植入到控制运动的大脑运动皮层中。然后,使用者想象某些物理动作来控制光标在虚拟键盘上移动。我的一些合作者在2021年的一篇论文中开创了另一种方法,让用户想象自己拿着一支笔在纸上书写字母,从而在运动皮层产生可转换成文本的信号。这种方法创造了新的速度纪录,志愿者每分钟可以写18个单词。

我们实验室采取了一种更为大胆的研究方法。我们不是解码用户移动光标或笔的意图,而是解码其控制声道的意图。声道由几十块控制喉部(通常称为喉头)、舌头和嘴唇的肌肉组成。

十几年前,我开始在这个领域工作。作为一名神经外科医生,我经常看到因严重受伤而失语的患者。令我吃惊的是,在许多病例中,脑损伤的位置及其导致的症状与我在医学院学到的并不匹配,我意识到,有关大脑是如何处理语言的,我们还有很多要学习。我决定研究基础的语言神经生物学,如果可能的话,再开发一种脑机接口(BMI),帮助失去交流能力的人恢复交流。除了神经外科背景外,我的团队还有语言学、电子工程、计算机科学、生物工程和医学方面的专业人才。我们正在临床试验中测试硬件和软件,探索脑机接口极限,确定我们可以帮助人们恢复什么样的语言能力。

语言是人类独有的能力之一。许多物种都可以发声,但只有人类能够将一组声音以无数不同的方式组合起来进行表达。这也是一个非常复杂的运动行为,一些专家认为这是人类表现的最复杂的运动行为。说话是经声道调节气流的产物;每一次发声,喉部声带都会产生听得见的振动,再通过改变嘴唇、下颌和舌头的形状,形成空气拂动。

以关节为基础的手臂和腿部肌肉只能以几种预先规定的方式运动,而声道的许多肌肉与之有很大的不同。例如,控制嘴唇的肌肉是括约肌,而舌头的肌肉更多由“液压”方式控制:舌头主要由固定体积的肌肉组织组成,移动舌头的一部分会改变舌头其他地方的形状。控制这些肌肉运动的物理特性与二头肌或腘绳肌完全不同。

由于有如此多的肌肉参与,而且每块肌肉都有如此多的自由度,所以基本上有无限多种可能的组合。但事实却是,人们说话仅用了很小一组核心动作(不同的语言略有不同)。例如,当讲英语的人发“d”音时,他们把舌头放在牙齿后面;当发“k”音时,舌头后部会向上碰到口腔后上部。很少有人能够意识到最简单的单词发音也需要精确、复杂和协调的肌肉动作。

我们小组专注于研究大脑运动皮层向面部、咽喉、口腔和舌头肌肉发送运动命令的这一部分。这部分大脑区域身兼数职:它们既管理肌肉运动产生语言,也管理这些肌肉运动完成吞咽、微笑和接吻等动作。

研究这些区域的神经活动的有效方法需要毫米级的空间分辨率和毫秒级的时间分辨率。在过去,非侵入性成像系统只能提供其中一个条件,无法两个条件都满足。开始这项研究时,我们发现,有关大脑活动模式如何关联最简单语音元素(音素和音节)的数据非常少。

在此,我们要感谢参与项目的志愿者。在美国加州大学旧金山分校癫痫中心,准备手术的癫痫患者通常会先通过手术将电极放置在他们的大脑表面几天,我们可以绘制他们癫痫发作时涉及的区域。在那“连线检修”的几天时间里,许多患者主动参加神经学研究试验,允许这些试验利用他们大脑中的电极记录,让我们能研究他们说话时的神经活动模式。

我们采用的技术被称为“皮层脑电图”(ECoG)。皮层脑电图系统的电极并不穿透大脑,而是位于大脑表面。其阵列可以包括几百个电极传感器,每个传感器记录着数千个神经元。目前,我们使用了一个有256个通道的阵列。我们早期的研究目标是发现人们说简单音节时大脑皮层的活动模式。我们请志愿者说出特定的声音和单词,同时记录他们的神经模式,并跟踪他们的舌头和嘴部运动。有时会让他们在面部涂上彩色涂料,使用计算机视觉系统提取运动姿态;有时则使用放置在患者下颌的超声波设备对他们的舌部运动进行成像。

我们用这些系统来匹配神经模式与声道运动。起初,我们对神经代码有很多疑问。其中一种可能性是神经活动对特定肌肉方向进行了编码,实质上大脑就像在键盘敲击按键一样,打开和关闭这些肌肉;另一种想法是代码决定了肌肉收缩的速度。还有一种想法是,神经活动与用来发声的肌肉收缩协调模式(例如,要发出“啊”这个音,舌头和下颌都需要向下运动)相对应。我们发现,存在一个控制声道不同部分的表征图,且大脑不同区域以协调的方式结合在一起,才能产生流利的言语。

我们的工作依赖于过去10年人工智能领域取得的进步。我们将所收集的关于神经活动和语音运动学的数据输入到神经网络中,然后让机器学习算法找到这两个数据集之间的关联模式。在神经活动和产生语音之间建立联系,计算机使用这种模型生成语音或文本是有可能的。但这项技术无法为瘫痪者训练算法,因为我们缺少一半数据:有神经模式,却没有相应的肌肉运动。

我们意识到,使用机器学习的明智方法是将问题分成两步。解码器先将来自大脑的信号转换成有意义的声道肌肉运动,然后将这些运动转换成合成语音或文本。

我们称之为仿生法,因为它模仿了生理机体;在人体中,神经活动直接负责声道的运动,而间接负责发出声音。这种方法的一大优势在于第二步,训练解码器将肌肉运动转换成声音。因为声道运动和声音之间的关系具有普遍性,我们可以利用来自未瘫痪者的大型数据集训练解码器。

下一项重大挑战是将这项技术带给真正能从中受益的人。美国国立卫生研究院(NIH)正在资助我们的试点试验,试验从2021年开始。我们已经有两名植入了皮层脑电图阵列的瘫痪志愿者,希望在未来几年招募更多。我们的主要目标是提高他们的交流能力,并用每分钟字数来衡量他们的表现。普通成年人每分钟可以在全键盘上打40个单词,打字员每分钟可打80多个单词。

我们认为利用语音系统能有更好的结果。人类说话的速度比打字快得多:一个说英语的人可以在一分钟内轻松说出150个单词。我们希望瘫痪者的交流速度能够达到每分钟100个单词。要实现这个目标还有很多工作要做,但我们的方法使它变成了一个可行的目标。

植入程序很常规。首先,外科医生移除一小部分头骨;接下来,将柔性皮层脑电图阵列轻轻地放在大脑皮层表面。然后将一个小端口固定在头骨上,通过头皮上的一个开口伸出来。目前我们需要这个端口,它连接着外部导线,传输来自电极的数据,但未来,我们希望实现系统的无线化。

我们考虑过使用穿透微电极,因为它们可以记录较小的神经群,提供更多的神经活动细节。但是对于临床应用来说,当前的硬件不像皮层脑电图那样稳固和安全,尤其是经过多年使用以后。

另一个考虑因素是,为了将神经信号转化为清晰的命令,穿透电极通常需要每天重新校准。对神经设备的研究表明,设备的准备速度和性能可靠性是吸引人们使用这项技术的关键。因此在建造长期使用的“即插即用”系统时,我们优先考虑稳定性。我们进行了一项研究,观察志愿者的神经信号随时间的变化,发现如果经历了多个会话和多天的数据模式,解码器的性能会更好。用机器学习术语来形容,那就是解码器的“权重”被继承下来,创建了稳定的神经信号。

由于观察大脑模式时,瘫痪志愿者不能说话,所以我们请第一位志愿者尝试了两种不同的方法。他从日常生活中常用的50个单词表开始,比如“饿”“渴”“请”“帮助”“电脑”等。在几个月的48次会话中,我们有时要求他想象说出单词表上的每一个单词,有时要求他明显地开口“说”出它们。我们发现,开口说话可以产生更清晰的大脑信号,足以训练解码算法。然后志愿者可以使用单词表中的单词来生成他自己选择的句子,比如“不,我不渴”。

我们现在正努力扩大词汇量。要做到这一点,需要继续完善当前的算法和接口,但我相信这些改进将在未来几个月或几年内完善。既然原理验证已确立,那么接下来的目标就是优化。我们的重点是提高系统速度和准确度,最重要的是,提高它的安全性和可靠性。现在应该进展得很快。

如果能够更好地了解我们试图解码的大脑系统,以及瘫痪如何改变大脑的活动,也许最大的突破就会到来。我们逐渐认识到,无法向声道肌肉发送指令的瘫痪者与能够向声道肌肉发送指令的癫痫患者的神经模式有着很大的不同。虽然对于基础神经科学,我们还有很多知识要学,但我们正在努力实现脑机接口工程的一项宏伟壮举。我们相信,这些都将帮助失语患者恢复交流能力。

文章来源于悦智网,作者张复伦


线上会议报名提醒

(提前报名,免费参加,可参与抽奖)


EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • 在企业管理和职场环境中,权力是一个常被提及却又让人感到微妙的话题。有人觉得它充满吸引力,有人却对它避之不及。然而,不管你对权力的态度如何,理解它、掌握它,甚至善用它,都是职场成功的重要一环。今天,我们就来深入探讨权力的本质,特别是个人权力和社会权力的区别,以及如何在职场中逐步建立属于自己的影响力。权力的两种面貌:你掌控自己,还是掌控他人?说到权力,首先要区分它的两种类型。个人权力是你对自己生活的掌控感。比如,你能自由决定自己的职业方向,不用总是请示他人。这种权力让人感到踏实和满足,是我们在生活中
    优思学院 2025-03-07 15:56 209浏览
  • Sub-GHz,即工作频段低于1GHz的无线通信技术,常见频段有315MHz、433MHz、868MHz与915MHz等。其可借助无线电波在自由空间传播的特性,把数据调制到射频载波上进行传输,达成物联网设备间的无线通信,是物联网设备实现高效、稳定、无缝交互的“通信基石”。典型射频信号(无线电波)收发电路简示在工业自动化、智慧城市、智慧农业与智能家居等物联网领域中,LoRa、Wi-SUN、Z-Wave、Sigfox等工业级通信协议大多运行在Sub-GHz频段。而正是通过Sub-GHz射频技术,传感
    华普微HOPERF 2025-03-07 11:39 165浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 137浏览
  • 深圳触觉智能SOM3506核心板现已上市,搭载瑞芯微RK3506B/J超低功耗处理器(1.5GHz三核A7+M0),低功耗满载仅0.7W,支持40℃~85℃工作环境,即日起宽温级59元/工业级68元,特价开售!芯片介绍RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机
    Industio_触觉智能 2025-03-07 10:03 162浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 143浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 165浏览
  • 深圳触觉智能RK3506开发板现已上市,开启预售!搭载瑞芯微RK3506B/J超低功耗工业处理器(1.5GHz三核A7+M0,主频1.5GHz);支持1280×1280显示、双百兆网口、星闪无线三模,板载高达2路CAN FD与5路串口。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机交互等应用场景。其多核异构架构(3xCortex-A7+Cortex-M0)和外设接口丰富,支持Buildroot、Yocto系统,适合轻量级HMI应用‌。‌工业通信‌:RK3506均支
    Industio_触觉智能 2025-03-07 10:04 136浏览
  • 近年来,越来越多的企业在5S管理的基础上,开始追求6S、7S甚至8S管理,仿佛S越多,管理就越先进,企业就越优秀。于是,6S增加了“安全”,7S又加上了“节约”,8S甚至引入了“学习”……看似更加全面,实则很多企业只是机械地增加S,却忽略了管理的核心目标:提升效率、降低浪费、优化工作环境。优思学院认为,5S本身已经是一套成熟的精益管理工具,它的核心理念不仅简单高效,而且易于实施和推广。如果企业只是为了赶时髦,盲目增加S,而没有真正理解5S的本质,那么这些额外的“S”很可能会变成管理上的负担,而不
    优思学院 2025-03-07 12:43 206浏览
  •        深夜的公园里,当路灯熄灭后,传统监控摄像头只能拍出模糊的黑白画面,仿佛老式胶片电影里的场景。而搭载为旌瑶光ISP的摄像头,却能像猫科动物一样,在几乎全黑的环境中捕捉到行人衣服的颜色、树叶的纹理,甚至快速跑动的宠物狗毛发细节。这种从“黑白默片”到“全彩4K电影”的跨越,背后是为旌瑶光ISP对传统红外补光技术的颠覆性创新。一、传统方案之困:被红外光“绑架”的夜视世界        传统安防摄像头依赖红外
    中科领创 2025-03-07 16:50 326浏览
  • 一、系统概述MYD-LD25X搭载的Debian系统包含以太网、WIFI/BT、USB、RS485、RS232、CAN、AUDIO、HDMI显示和摄像头等功能,同时也集成了XFCE轻量化桌面、VNC远程操控、SWITCH网络交换和TSN时间敏感网络功能,为工业设备赋予“超强算力+实时响应+极简运维”的体验!类别名称描述源码TF-AArm Trusted Firmware 2.8OP-TEEOP-TEE 3.19BootloaderU-boot 2022.10KernelLinux Ke
    米尔电子嵌入式 2025-03-07 14:08 247浏览
  • ​CS6212是一款可分别用于USB Type-C主机/显示端口源应用的带重定时的有源开关。这设备符合USB 3.2标准版本1.0和USB Type-C标准上的VESA DisplayPort Alt模式 1.0版,支持通过GPIO或12C进行灵活的模式切换。此设备支持USB 3.2第2x1代 运行速度高达10Gbps,DisplayPort 1.4运行速度高达HBR3 8.1Gbps。CS6212管脚分布及功能定义:CS6212支持重定时器训练,并支持USB 3.2标准中定义的状态状态机(RT
    QQ1540182856 2025-03-07 10:09 165浏览
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 162浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦