帕特·贝内特的处方比“吃几片阿司匹林,早上给我打电话”要复杂一些。但在她的大脑中植入了四个婴儿阿司匹林大小的传感器,旨在解决令她和其他人感到沮丧的问题:失去清晰说话的能力。这些设备将贝内特大脑中几个与语音相关的区域的信号传输到最先进的软件,该软件解码她的大脑活动并将其转换为计算机屏幕上显示的文本。
贝内特现年 68 岁,曾任人力资源总监,曾经是一名马术运动员,每天慢跑。2012年,她被诊断出患有肌萎缩侧索硬化症,这是一种进行性神经退行性疾病,会攻击控制运动的神经元,导致身体虚弱,最终瘫痪。
“当你想到 ALS 时,你会想到手臂和腿部的影响,”贝内特在通过电子邮件进行的采访中写道。“但在一群 ALS 患者中,一切都是从言语困难开始的。我无法说话。”
通常,ALS 首先出现在身体的外围——手臂和腿、手和手指。对于贝内特来说,恶化不是像典型的那样从她的脊髓开始,而是从她的脑干开始。她仍然可以四处走动、穿衣服并用手指打字,尽管难度越来越大。但她无法再使用嘴唇、舌头、喉部和下颌的肌肉来清晰地发音出音素(或声音单位,例如“sh”),而这些是语音的组成部分。
尽管贝内特的大脑仍然可以制定生成这些音素的方向,但她的肌肉无法执行这些命令。
研究人员并没有训练人工智能识别整个单词,而是创建了一个从音素解码单词的系统。这些是语音的子单位,它们形成口语单词的方式与字母形成书面单词的方式相同。例如,“Hello”包含四个音素:“HH”、“AH”、“L”和“OW”。
使用这种方法,计算机只需要学习 39 个音素就可以解读英语中的任何单词。这既提高了系统的准确性,又使其速度提高了三倍。
2022 年 3 月 29 日,斯坦福大学医学院的一位神经外科医生在贝内特大脑表面的两个不同区域分别放置了两个微型传感器,这两个区域都与语言产生有关。这些传感器是皮质内脑机接口(iBCI)的组件。与最先进的解码软件相结合,它们旨在将伴随语音尝试的大脑活动转化为屏幕上的文字。
手术后大约一个月,斯坦福大学的一组科学家开始每周两次的研究课程,以训练解释她演讲的软件。四个月后,Bennett 尝试的话语以每分钟 62 个单词的速度在计算机屏幕上转换为单词,是之前 BCI 辅助通信记录的三倍多。
贝内特写道:“这些初步结果证明了这个概念,最终技术将迎头赶上,让不会说话的人也能轻松使用它。” “对于那些不会说话的人来说,这意味着他们可以与更大的世界保持联系,也许可以继续工作,维持朋友和家庭关系。”
接近说话的速度
进行手术的外科医生杰米·亨德森 (Jaimie Henderson) 医学博士说,贝内特的速度开始接近英语使用者自然对话的每分钟大约 160 个单词的速度。
亨德森说:“我们已经证明,你可以通过记录大脑表面一个非常小的区域的活动来解码想要的语音。”
神经外科系的 John、Jean Blume-Robert 和 Ruth Halperin 教授 Henderson 是一篇描述该结果的论文的共同高级作者,该论文于 8 月 23 日发表在《自然》杂志上。
他的共同资深作者、电气工程和生物工程教授 Krishna Shenoy 博士在研究发表前去世。
弗兰克·威利特 (Frank Willett) 博士是霍华德休斯医学研究所的一名科学家,隶属于亨德森和谢诺伊于 2009 年共同创立的神经修复转化实验室,他与研究生艾琳·昆兹 (Erin Kunz) 和范超飞 (Chaofei Fan) 共同担任该研究的主要作者。
2021 年,Henderson、Shenoy 和 Willett 是《自然》杂志上发表的一项研究的共同作者,该研究描述了他们成功地使用 iBCI 将瘫痪者想象的笔迹转换为屏幕上的文本,达到了每分钟 90 个字符或 18 个单词的速度—迄今为止 iBCI 相关方法的世界纪录。
2021年,贝内特了解了亨德森和谢诺伊的工作。她联系了亨德森并自愿参加临床试验。
怎么运行的
亨德森植入贝内特大脑皮层(大脑最外层)的传感器是微小硅电极的方形阵列。每个阵列包含 64 个电极,排列成 8×8 网格,彼此间隔的距离约为信用卡厚度的一半。电极穿透大脑皮层的深度大致等于两个堆叠的四分之一的深度。
植入的阵列连接到细金线上,这些细金线通过用螺钉固定在头骨上的基座引出,然后通过电缆连接到计算机。
人工智能算法接收并解码贝内特大脑发出的电子信息,最终教会自己区分与她试图表达构成英语口语的 39 个音素中的每一个相关的不同大脑活动。
它将对贝内特尝试的音素序列的最佳猜测输入到所谓的语言模型中,该模型本质上是一个复杂的自动更正系统,它将音素流转换为它们所代表的单词序列。
“这个系统经过训练,知道哪些单词应该出现在其他单词之前,以及哪些音素构成哪些单词,”威利特解释道。“如果某些音素被错误地解释,仍然可以进行很好的猜测。”
熟能生巧
为了教会算法识别哪些大脑活动模式与哪些音素相关,贝内特进行了大约 25 次训练,每次持续约四个小时,在此期间,她尝试重复从由对话样本组成的大型数据集中随机选择的句子在打电话的人们中间。
举个例子:“过去五年才这样。” 另一个:“我就在中间离开了。”
当她尝试背诵每个句子时,贝内特的大脑活动会被解码器翻译成音素流,然后由自动更正系统组装成单词,并显示在屏幕上原始内容下方。然后屏幕上就会出现新的句子。
Bennett 在每次训练中重复 260 到 480 个句子。随着贝内特尝试演讲时 大脑活动的熟悉,整个系统不断改进。
iCBI 的预期语音翻译能力在培训课程中使用的不同句子上进行了测试。当句子和单词组装语言模型仅限于 50 个单词的词汇时(在这种情况下,所使用的句子是从特殊列表中抽取的),翻译系统的错误率为 9.1%。
当词汇量扩展到 125,000 个单词(大到足以组成几乎任何你想说的内容)时,错误率上升到 23.8%——远非完美,但与之前的技术水平相比已经迈出了步。
“这是一个科学的概念证明,而不是人们可以在日常生活中使用的实际设备,”威利特说。“但这对于恢复无法说话的瘫痪患者的快速沟通来说是一个巨大的进步。”
贝内特写道:“想象一下,当非语言的人能够用语言表达自己的想法时,购物、赴约、点餐、去银行、打电话、表达爱意或欣赏甚至争论等日常活动将会有多么不同。”即时的。”
本研究中描述的设备仅授权用于研究用途,不可商用。这项注册临床试验是在 BrainGate 的支持下进行的,BrainGate 是一个多机构联盟,致力于推进脑机接口在假肢应用中的使用,由研究合著者、神经学家 Leigh Hochberg 博士领导麻省总医院、布朗大学和弗吉尼亚州普罗维登斯(罗德岛)医疗保健系统的研究员。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!