新闻中心
AI怎么啥活都接还帮忙开发“读心术”?
来源:半岛综合发布时间:2024-01-09 16:33:01

  我喜欢骑行,骑车时经常会冒出一些灵感,或者忽的记起一件没做的事,或者想记录沿途风景所见所感,但腾不出手打字……

  我想过骑行之前打开录音机,有什么想法就对着耳机说出来,然后再将录音转成文字,摘取有意思的部分整理到笔记本里。

  但是,抛开路上有噪音和风声不说,把所有想法都说出来真的很社死诶,如果说旁边人的坏话被听到怎么办!还有,录着音就没法听音乐了,那骑车还有什么乐趣!(不是)

  那么,有没有一种可能性……可以在脑海里默默“说话”,电子设备直接识别,转为文字呢?

  脑机接口(brain-computer interface,BCI)是指,通过一些装置,在脑和外界设备之间建立联系,将脑的指令传到电脑并进行解读;或者将电脑中的信息变成可以解读的信号传给人脑。

  这类系统能帮助感官或肢体运动能力受损的病人恢复相关功能。例如将摄像机拍到的画面转为脑电信号,帮助盲人产生视觉,或者读取瘫痪病人的脑电波,控制机械臂做相关操作等。

  我们做任何动作、发任何声音,都是由大脑控制的。大脑皮层的不一样的区域会控制不同肌肉的动作。想要行动时,大脑通过电压变化发出指令,这种电信号通过外周神经传到相应肌肉。电信号不同,肌肉产生的变化便不相同。

  输出式脑机接口正是利用这些特征,读取大脑产生的种种电信号,对其进行解读,从而转化为语音、文字、机械臂动作等表现形式。而输入式脑机接口,则是对大脑特定部分进行电、磁等形式的刺激,例如将拍摄画面转化为电信号,刺激失明人士大脑相关区域,产生视觉。

  脑机接口分为非侵入式/无创、半侵入式/微创和完全侵入式/有创三类。侵入越深,测量的信号就越准确、噪声越小。

  非侵入式/无创:基于脑波(EEG)、脑磁等信号的系统,由于传感器放在头皮上便可以采集信号,所以属于非侵入式。

  半侵入式/微创:基于皮层脑电(electrocorticography,ECoG)的接口需要将传感器插入头皮,在大脑皮层上采集信号,对使用者有轻微创伤。

  完全侵入式/有创:完全侵入式传感器在大脑皮层内采集信号,因此就需要植入大脑皮层,创伤较大。例子有基于局部场电位(local field potential,LFP)的脑机接口。

  需要注意的是,脑机接口用于“读心”的前提是,大脑相关功能区域没有受到损伤。例如脊柱受伤导致瘫痪的病人,大脑能够顺利生成使手臂运动的命令,但因为信号传播会在脊柱中断,所以手臂无法响应命令。

  如果是大脑损伤导致的障碍,脑机接口就不适合用于“读心”,但能够适用于康复,比如通过向大脑提供输入和反馈,刺激大脑恢复一些神经功能。

  通过脑机接口“读心”的研究始于上世纪80年代,主要是为帮助因中风、渐冻症等疾病或意外,丧失说话及打字能力,但大脑相关功能区完好的人群。

  1988年,伊利诺伊大学厄巴纳-香槟分校的Donchin教授团队发表文章,分享了一种基于字母打字的脑机输入系统。

  这个体系把26个英语字母和一些功能键(如空格、删除、输入完成、取消)排列成一个6×6的方阵。使用者将注意力放在想打出的字母上,电脑依次尝试某个行或列是否包含其想使用的字母。若选择正确,使用者的头皮上会产生一个特定的脑电波EEG特征。这样一个一个字母输入,全部输入完成后再合成语音。

  但是这样的一种情况下,仅仅打出五个字母的单词,想要达到80%准确率需要花20.7秒,达到95%准确率要花26.0秒。而正常英语对线词,相当于每秒说两个词以上。仅凭拼写合成对话,速度很缓慢,实用性非常有限。

  另一种很成熟的体系是通过想象手、手臂、脚等身体部位的动作,指引光标向上下左右移动,确认输入字母。例如纽约州立大学的Wolpaw教授团队于2000年发表的文章,就分析了想象身体部位运动时的EEG,并指出这些特征能够适用于脑机接口开发。

  2021年,斯坦福大学Francis Willett等研究员发文报告,让瘫痪患者试图动手写字,通过脑机接口读取这些动作指令的不同特征,对应不同的字母。这样的解决方法的转化速度能有每分钟90个字符,约合18个英语单词;准确率高达94.1%,如果加上自动纠错,甚至能达到99%。

  然而,无论通过意识选择字母,还是用动作想象输入,这些方式都在模仿打字而不是说话,处理速度太慢、思维方法太不自然。

  今年8月发表于《自然》杂志的两篇研究,则分别使用侵入式的微电极阵列(microelectrode array)和半侵入式的ECoG,实现了“想象说话”向文字的转化,且正确率达到四分之三左右。

  为了张口说出一个字,大脑要做出大量努力,发出无数指令,指挥嘴唇、舌头、喉咙、下颌进行复杂的协同工作,才能发出正确的声音。大脑就像交响乐队的指挥,指令畅通无阻,底下的乐队才能奏响动人的旋律。而许多疾病可能使人丧失清晰说话的能力。

  斯坦福大学同样以Willett为首的团队,在一位渐冻人症患者Pat Bennett脑部植入了微电极阵列。这些电极埋在大脑皮层以下几毫米,能够精准测量脑电信号。接着,研究者让Bennett试着说各种字句,记录相应的脑电信号,然后用这一些数据进行深度学习。

  项目分析了两个数据集:一个小数据集只有50个单词,程序只训练这50个单词,测试时也只让程序在这个范围内辨认。训练后的程序正确率达到了91.9%。而大数据集包括12.5万个单词。经过训练,正确率也有76.2%。处理速度高达每分钟62个词,虽然还只是正常说线左右,但已经远胜于之前的研究。

  另一篇文章由加州大学旧金山分校的团队发表。他们的受试者Ann在18年前患脑干中风后失语。他们在Ann的大脑皮层植入电极(ECoG),记录了她试着说249句线个词)时的皮层脑电信号,用来训练机器学习模型。这个算法的原理就像ChatGPT,会一边识别她的神经信号对应着什么声音,一边尝试预测后面紧跟的音节和单词。

  Ann通过脑机接口“说话”,并用数字化身做出快乐、悲伤、惊讶等“表情”|NOAH BERGER

  虽然后者使用的单词库小,数据集里只有1024个单词,所以靠“盲猜”正确率也能更高一些,但是ECoG侵入性低于微电极植入,因此也有很大价值。

  虽然两篇文章都只使用了一名受试,针对其脑电“定制”了机器学习模型,但它们证明了脑电转文字的概念是可行的,而且通过记录大脑表面一个非常小的区域的电活动,就足以解码语音信息。

  研究人员目前还在努力开发无线版本,若能够不必被“电线”束缚,患者的生活品质必然还会有极大的提升。

  而能够造福障碍者的科技,往往也会慢慢向外“溢出”,顺便改善了健康者的生活。

  也许在不远的将来,我们戴上一个头戴耳机一样的设备,只需想象自己在说话,就可以输出文字了呢。

  [3] 罗建功, 丁鹏, 龚安民, 田贵鑫, 徐浩天, 赵磊, & 伏云发. (2022). 脑机接口技术的应用、产业转化和商业经济价值. 生物医学工程学杂志, 39(2), 405–415.

分享:
Copyright © 2020-2021 半岛综合闽ICP备2021004711号-1 闽公网安备 35021102001203号 Privacy Policy   |   Technical Support: lnest.com