神经脑植入物提供近乎即时的语音

内容摘要英国物理学家斯蒂芬·霍金 (Stephen Hawking) 可以说是最著名的肌萎缩侧索硬化症 (ALS) 患者,他使用安装在眼镜中的传感器与世界交流。该传感器使用他脸颊上一块肌肉的微小运动来选择屏幕上的字符。一旦他以大约每分钟一个单词的速

英国物理学家斯蒂芬·霍金 (Stephen Hawking) 可以说是最著名的肌萎缩侧索硬化症 (ALS) 患者,他使用安装在眼镜中的传感器与世界交流。该传感器使用他脸颊上一块肌肉的微小运动来选择屏幕上的字符。一旦他以大约每分钟一个单词的速度输入一个完整的句子,文本就会被 DECtalk TC01 合成器合成成语音,这给了他标志性的机器人声音。

本文引用地址:

但自霍金于 2018 年去世以来,发生了很多变化。最近的脑机接口 (BCI) 设备使将神经活动直接转化为文本甚至语音成为可能。不幸的是,这些系统具有明显的延迟,通常会将用户限制在预定义的词汇表中,并且它们无法处理口语的细微差别,如音高或韵律。现在,加州大学戴维斯分校 (University of California, Davis) 的一个科学家团队已经制造了一种神经假体,可以立即将大脑信号转换为声音——音素和单词。这可能是我们朝着完全数字化声带迈出的第一步。

短信

“我们的主要目标是创造一种灵活的言语神经假体,使瘫痪患者能够尽可能流利地说话,管理自己的节奏,并通过让他们调节语调来提高表现力,”领导这项研究的加州大学戴维斯分校神经假肢研究员 Maitreyee Wairagkar 说。开发满足所有这些条件的假肢是一项巨大的挑战,因为这意味着 Wairaggar 的团队必须解决基于 BCI 的通信解决方案过去面临的几乎所有问题。他们遇到了很多问题。

第一个问题是超越文本——迄今为止开发的大多数成功的神经假体都将大脑信号转化为文本——植入假体的患者想说的话只是出现在屏幕上。Francis R. Willett 在斯坦福大学领导了一个团队,以大约 25% 的错误率实现了大脑到文本的翻译。“当患有 ALS 的女性试图说话时,他们可以解码这些单词。四个词中有三个是正确的。这非常令人兴奋,但对于日常交流来说还不够,“加州大学戴维斯分校的神经科学家、该研究的资深作者谢尔盖·斯塔维斯基 (Sergey Stavisky) 说。

延误和字典

在斯坦福大学工作一年后,即 2024 年,Stavisky 的团队发表了自己对大脑到文本系统的研究,将准确率提高到 97.5%。“几乎每个单词都是正确的,但通过文本进行交流可能会受到限制,对吧?”斯塔维斯基说。“有时你想用你的声音。它允许你做感叹词,它使其他人打断你的可能性更小——你可以唱歌,你可以使用字典中没有的单词。但生成语音的最常见方法依赖于从文本中合成语音,这直接导致了 BCI 系统的另一个问题:非常高的延迟。

在几乎所有的 BCI 语音辅助工具中,句子在患者在脑海中完成单词串在一起很久之后,都会在很长一段时间后出现在屏幕上。语音合成部分通常发生在文本准备好之后,这会导致更多的延迟。Brain-to-text 解决方案也受到词汇量有限的影响。此类最新系统支持大约 1,300 个单词的词典。当您尝试说不同的语言、使用更复杂的词汇,甚至说出附近咖啡馆的不寻常名称时,系统都失败了。

因此,Wairagkar 设计了她的假肢,将大脑信号转化为声音,而不是文字,并且是实时完成的。

提取声音

同意参加 Wairagkar 研究的患者代号为 T15,是一名 46 岁的 ALS 患者。“他严重瘫痪,当他试图说话时,他很难理解。我认识他好几年了,当他说话时,我可能能听懂他所说的 5%,“神经外科医生、该研究的合著者 David M. Brandman 说。在与加州大学戴维斯分校团队合作之前,T15 使用陀螺仪头鼠标来控制计算机屏幕上的光标进行通信。

为了使用 Stavisky 的大脑到文本系统的早期版本,患者将 256 个微电极植入他的腹侧中央前回,这是大脑中负责控制声带肌肉的区域。

对于新的大脑转语音系统,Wairagkar 和她的同事们依赖于相同的 256 个电极。“我们记录了来自单个神经元的神经活动,这是我们可以从大脑获得的最高分辨率信息,”Wairagkar 说。然后,电极记录的信号被发送到一种称为神经解码器的 AI 算法,该算法破译这些信号并提取语音特征,例如音高或发声。下一步,这些功能被输入到声码器中,声码器是一种语音合成算法,旨在听起来像 T15 在仍然能够正常说话时的声音。整个系统的工作延迟低至 10 毫秒左右 — 将大脑信号转换为声音实际上是瞬时的。

由于 Wairagkar 的神经假体将大脑信号转换为声音,因此它没有提供有限的支持词选择。患者可以说任何他想说的话,包括字典中没有的伪词和“um”、“hmm”或“uh”等感叹词。因为系统对音高或韵律等特征很敏感,所以他还可以发声问题,说出一个音调稍高的句子中的最后一个单词,甚至可以唱出短促的旋律。

但 Wairagkar 的假肢有其局限性。

清晰度改进

为了测试假肢的性能,Wairagkar 的团队首先要求人类听众将 T15 患者的一些合成语音录音与一组六个相似长度的候选句子中的一份转录相匹配。在这里,结果非常完美,系统实现了 100% 的清晰度。

当团队尝试了一些更困难的事情时,问题就开始了:一个开放式转录测试,听众必须在没有任何候选转录的情况下工作。在第二次测试中,单词错误率为 43.75%,这意味着参与者正确识别了一半以上的记录单词。与 T15 的独立语音的清晰度相比,这无疑是一个进步,在 T15 的同一测试中,同一组听众的单词错误为 96.43%。但是,这个假肢虽然很有前途,但还不够可靠,无法用于日常通信。

“我们还没有到可以用于开放式对话的地步。我认为这是一个概念验证,“Stavisky 说。他建议改进未来设计的一种方法是使用更多的电极。“现在有很多初创公司在构建 BCI,这些 BCI 将拥有一千多个电极。如果你想想我们只用 250 个电极所取得的成就,而用 1000 或 2000 个电极就能完成的工作,我认为它会很有效,“他争辩道。实现这一目标的工作已经在进行中。

Paradromics 是一家位于德克萨斯州奥斯汀的专注于 BCI 的初创公司,希望继续进行语音神经假体的临床试验,并且已经在寻求 FDA 的批准。“他们有一个 1,600 个电极的系统,他们公开表示他们将进行演讲,”Stavisky 说。“我们的合著者 David Brandman 将成为这些试验的首席研究员,我们将在加州大学戴维斯分校进行这项工作。”

 
举报 收藏 打赏
24小时热闻
今日推荐
浙ICP备2021030705号-2