加州大学戴维斯分校研发新型神经假体，实现脑信号即时转化为声音

英国物理学家斯蒂芬·霍金，毫无疑问是最著名的肌萎缩侧索硬化症（ALS）患者之一，他通过安装在眼镜上的传感器与世界交流。这个传感器利用他面颊上肌肉的微小运动在屏幕上选择字符。每当他以每分钟大约一个单词的速度打出完整的句子时，文本便被DECtalk TC01合成器合成语音，赋予了他标志性的机器人音。

然而，自霍金于2018年去世以来，许多变化发生了。近年来，脑-计算机接口（BCI）设备使得直接将神经活动转化为文本甚至语音成为可能。不过，这些系统存在显著的延迟，往往限制用户的词汇量，并且无法处理纤细的语言语调和韵律。如今，加州大学戴维斯分校的科学家团队研发出一款神经假体，可以瞬间将脑信号转化为声音——音素和单词。这可能是我们朝向完全数字化声道迈出的第一步。

“我们的主要目标是创建一个灵活的言语神经假体，使瘫痪患者能够尽可能流利地说话，自主调节语速，并通过让患者能够调节语调来更具表现力，”负责这项研究的神经生物假体研究员麦特丽·韦海尔卡说。开发一个能够满足所有这些要求的假体是一个巨大的挑战，因为这意味着韦海尔卡的团队必须解决近乎所有过去BCI通信解决方案面临的问题。他们确实遇到了众多难题。

第一个问题是突破文本的限制——迄今为止，大多数成功的神经假体主要将脑信号转化为文本，患者希望说出的单词简单地在屏幕上显示出来。斯坦福大学的弗朗西斯·R·威利特领导的团队实现了大约25%的脑-文本翻译错误率。他说：“当一位ALS患者试图说话时，我们能解码出单词。四个单词中有三个是正确的。这固然令人兴奋，但对于日常交流来说远远不够。”

延迟和字典的局限性成为了另一个问题。斯塔维斯基等人提出的另一项研究表明，他们的脑-文本系统在2024年将准确率提升至97.5%。他表示：“几乎每个单词都是正确的，但仅通过文本进行交流是有限制的，对吧？有时你想用声音。这使得你更能够插话，也减少了他人打断的可能性——你可以唱歌，可以使用字典中没有的词汇。”但是，此类生成语音的最常见方法依赖于从文本合成语音，导致了BCI系统的另一个问题：延迟极高。

在几乎所有BCI语音辅助设备中，句子在屏幕上显示后便有显著延时，远在患者脑海中完成词语组合后。语音合成通常发生在文本准备就绪之后，这又引起了更多的延时。脑-文本解决方案也面临词汇量的限制。最先进的这类系统支持大约1,300个单词的词汇。试图说其他语言、使用更复杂的词汇，或是说出街角咖啡馆的特殊名字时，这些系统往往会失败。

因此，韦海尔卡设计了她的神经假体，旨在将脑信号转化为声音，而非仅仅是单词，并且做到实时转换。

参与韦海尔卡研究的患者代号为T15，是一名46岁的ALS男性患者。“他严重瘫痪，当他尝试说话时，很难被理解。我认识他已经好几年了，他说话时我理解的内容大概只有5%。”与UC戴维斯团队合作之前，T15通过一个陀螺仪头鼠标来控制屏幕上的光标。

为了使用斯塔维斯基的脑-文本系统，患者在腹侧前扣带回中的语言肌肉控制区域植入了256个微电极。而在新的脑-语音系统中，韦海尔卡和她的同事同样依靠这256个电极.“我们对单个神经元的神经活动进行了记录，这是我们从大脑获得信息的最高分辨率，”韦海尔卡提到。电极记录到的信号随后被送入名为神经解码器的人工智能算法，该算法解读这些信号并提取语音特征，如音调或发声。在下一步，这些特征被输入到一个声码器中，这是一个旨在模拟T15正常说话时声音的语音合成算法。整个系统的延迟降至约10毫秒——脑信号转化为声音的过程几乎是瞬时的。

由于韦海尔卡的神经假体将脑信号转化为声音，因此无需局限于固定词汇。患者可以随意说出他想表达的任何内容，包括不在字典中的拟声词和诸如“嗯”、“哈”、“唉”等插入词。由于系统对于音调和韵律等特征的敏感性，他甚至可以用稍微提高的音调来表达问题，或是唱出简短的旋律。

不过，韦海尔卡的假体也有其局限性。为了测试假体的性能，韦海尔卡的团队首先要求听众将T15患者合成语音的录音与六个候选句子中的一个进行匹配。在这项测试中，结果达到了完美的100%可理解性。

然而，当团队尝试更具挑战性的开放式转录测试时，问题便出现了。在这第二次测试中，单词错误率为43.75%，这意味着参与者正确识别了录音中的一半以上的单词。与T15未辅助说话的可理解性相比，这无疑是个进步——在同一测试中，T15的单词错误率高达96.43%。但这一神经假体虽然有前景，却尚未足够可靠，无法用于日常沟通。

“我们还没有达到可以用于开放式对话的程度。我将其视为概念验证，”斯塔维斯基表示。他还建议，改进未来设计的一种方法是使用更多的电极。“现在有很多初创公司正在构建将拥有超过一千个电极的BCI。如果考虑我们现有的250个电极所取得的成果与一千或两千个电极所可能实现的成果——我认为它将更加有效。”正在进行这项工作的进展已经开始。

位于德克萨斯州奥斯汀的BCI初创公司Paradromics，计划推进一项语音神经假体的临床试验，并已在寻求FDA的批准。他们拥有一个1,600个电极系统，并公开表示他们将进行语音方面的研究。斯塔维斯基表示，“我们的合著者大卫·布兰德曼将是这些试验的首席研究员，我们将在UC戴维斯进行此项工作。

图片源于：arstechnica

Related News

中国人工智能行业进入新阶段 竞争加剧

Nvidia回应关于向中国出售H20芯片的质疑

中国人工智能行业进入新阶段竞争加剧