加州大学戴维斯分校研发新型神经假体,实现脑信号即时转化为声音

英国物理学家斯蒂芬·霍金,毫无疑问是最著名的肌萎缩侧索硬化症(ALS)患者之一,他通过安装在眼镜上的传感器与世界交流。这个传感器利用他面颊上肌肉的微小运动在屏幕上选择字符。每当他以每分钟大约一个单词的速度打出完整的句子时,文本便被DECtalk TC01合成器合成语音,赋予了他标志性的机器人音。

然而,自霍金于2018年去世以来,许多变化发生了。近年来,脑-计算机接口(BCI)设备使得直接将神经活动转化为文本甚至语音成为可能。不过,这些系统存在显著的延迟,往往限制用户的词汇量,并且无法处理纤细的语言语调和韵律。如今,加州大学戴维斯分校的科学家团队研发出一款神经假体,可以瞬间将脑信号转化为声音——音素和单词。这可能是我们朝向完全数字化声道迈出的第一步。

“我们的主要目标是创建一个灵活的言语神经假体,使瘫痪患者能够尽可能流利地说话,自主调节语速,并通过让患者能够调节语调来更具表现力,”负责这项研究的神经生物假体研究员麦特丽·韦海尔卡说。开发一个能够满足所有这些要求的假体是一个巨大的挑战,因为这意味着韦海尔卡的团队必须解决近乎所有过去BCI通信解决方案面临的问题。他们确实遇到了众多难题。

第一个问题是突破文本的限制——迄今为止,大多数成功的神经假体主要将脑信号转化为文本,患者希望说出的单词简单地在屏幕上显示出来。斯坦福大学的弗朗西斯·R·威利特领导的团队实现了大约25%的脑-文本翻译错误率。他说:“当一位ALS患者试图说话时,我们能解码出单词。四个单词中有三个是正确的。这固然令人兴奋,但对于日常交流来说远远不够。”

延迟和字典的局限性成为了另一个问题。斯塔维斯基等人提出的另一项研究表明,他们的脑-文本系统在2024年将准确率提升至97.5%。他表示:“几乎每个单词都是正确的,但仅通过文本进行交流是有限制的,对吧?有时你想用声音。这使得你更能够插话,也减少了他人打断的可能性——你可以唱歌,可以使用字典中没有的词汇。”但是,此类生成语音的最常见方法依赖于从文本合成语音,导致了BCI系统的另一个问题:延迟极高。

在几乎所有BCI语音辅助设备中,句子在屏幕上显示后便有显著延时,远在患者脑海中完成词语组合后。语音合成通常发生在文本准备就绪之后,这又引起了更多的延时。脑-文本解决方案也面临词汇量的限制。最先进的这类系统支持大约1,300个单词的词汇。试图说其他语言、使用更复杂的词汇,或是说出街角咖啡馆的特殊名字时,这些系统往往会失败。

因此,韦海尔卡设计了她的神经假体,旨在将脑信号转化为声音,而非仅仅是单词,并且做到实时转换。

参与韦海尔卡研究的患者代号为T15,是一名46岁的ALS男性患者。“他严重瘫痪,当他尝试说话时,很难被理解。我认识他已经好几年了,他说话时我理解的内容大概只有5%。”与UC戴维斯团队合作之前,T15通过一个陀螺仪头鼠标来控制屏幕上的光标。

为了使用斯塔维斯基的脑-文本系统,患者在腹侧前扣带回中的语言肌肉控制区域植入了256个微电极。而在新的脑-语音系统中,韦海尔卡和她的同事同样依靠这256个电极.“我们对单个神经元的神经活动进行了记录,这是我们从大脑获得信息的最高分辨率,”韦海尔卡提到。电极记录到的信号随后被送入名为神经解码器的人工智能算法,该算法解读这些信号并提取语音特征,如音调或发声。在下一步,这些特征被输入到一个声码器中,这是一个旨在模拟T15正常说话时声音的语音合成算法。整个系统的延迟降至约10毫秒——脑信号转化为声音的过程几乎是瞬时的。

由于韦海尔卡的神经假体将脑信号转化为声音,因此无需局限于固定词汇。患者可以随意说出他想表达的任何内容,包括不在字典中的拟声词和诸如“嗯”、“哈”、“唉”等插入词。由于系统对于音调和韵律等特征的敏感性,他甚至可以用稍微提高的音调来表达问题,或是唱出简短的旋律。

不过,韦海尔卡的假体也有其局限性。为了测试假体的性能,韦海尔卡的团队首先要求听众将T15患者合成语音的录音与六个候选句子中的一个进行匹配。在这项测试中,结果达到了完美的100%可理解性。

然而,当团队尝试更具挑战性的开放式转录测试时,问题便出现了。在这第二次测试中,单词错误率为43.75%,这意味着参与者正确识别了录音中的一半以上的单词。与T15未辅助说话的可理解性相比,这无疑是个进步——在同一测试中,T15的单词错误率高达96.43%。但这一神经假体虽然有前景,却尚未足够可靠,无法用于日常沟通。

“我们还没有达到可以用于开放式对话的程度。我将其视为概念验证,”斯塔维斯基表示。他还建议,改进未来设计的一种方法是使用更多的电极。“现在有很多初创公司正在构建将拥有超过一千个电极的BCI。如果考虑我们现有的250个电极所取得的成果与一千或两千个电极所可能实现的成果——我认为它将更加有效。”正在进行这项工作的进展已经开始。

位于德克萨斯州奥斯汀的BCI初创公司Paradromics,计划推进一项语音神经假体的临床试验,并已在寻求FDA的批准。他们拥有一个1,600个电极系统,并公开表示他们将进行语音方面的研究。斯塔维斯基表示,“我们的合著者大卫·布兰德曼将是这些试验的首席研究员,我们将在UC戴维斯进行此项工作。

图片源于:arstechnica