本文主要是介绍读心术出现?AI模型将脑成像解读为自然语言!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
大脑解码器如何实现“读心术”
科幻小说中,读心术是一种神奇的超能力。但在现实生活中,我们曾经认为这是不可能实现的。如今,发表在Nature Neuroscience上的一篇工作提出了基于GPT模型和功能性磁共振成像(fMRI)技术的语言解码器,带来了惊人的消息:它能够通过大脑信号的解析,解码人类思想,准确率高达82%!
那么,这个恐怖的大脑解码器究竟是怎样实现“读心术”的呢?原来,它使用基于血氧水平依赖性(BOLD)的fMRI技术,通过监测大脑皮层不同部位的血氧水平得到大脑的动态变化图像。因此只需分析功能磁共振成像数据,就可以以非侵入性的方式,将参与者大脑中所想的故事甚至图像用语言描述出来。
接下来,研究人员基于GPT-1训练了一个神经网络语言模型。经过训练,模型能够将志愿者的脑fMRI数据翻译成单词和短语,并将内在的脑部活动“释义”成为可理解的自然语言。研究人员还通过大量实验验证了该模型的有效性,证明其在解读感知到的语音、解读想象的内容、解读无声电影三个任务上的准确率高达72%~82%。
网络结构与任务细节
该工作使用的方法记录志愿者在听到或想象语音时提供的功能性磁共振成像(fMRI)数据。然后使用解码器对数据进行处理,该解码器从皮质语义表示中重建了连续语言。解码器使用语言模型进行训练,并在皮层的多个区域进行了测试。使用 FSL 5.0 中的 FMRIB 线性图像配准工具 (FLIRT) 对数据进行了运动校正。
上图展示了完整的网络结构。在第一项任务中,三名志愿者被要求听16小时的叙事故事,他们收听时的脑成像BOLD信号被记录下来。随后,训练一个编码器(Encoding model)学习语音中的刺激词特征到脑BOLD信号的映射关系。除了编码器之外,训练一个解码器(Decoding model)学习志愿者实际的脑电波到刺激词的映射关系。为了生成连续的自然语言,该论文使用一个语言模型(LM)来逐单词地生成若干候选语句,并作用先前的编码器以预测最有可能的结果,并不断重复最终生成完整的自然语言输出。
在这项任务中,AI模型翻译得到的自然语言(右)和志愿者实际收听到的内容(左)在语义上基本一致,只是表达方式和句式不相同(如下图所示)。
在第二项任务中,志愿者被要求在脑海中构想一个故事,然后使用解码器生成自然语言(Decoded)。随后,再让志愿者用自然语言复述构想的故事(Reference),以进行对比。下图展示了两者的对比结果。
在第三项任务中,给志愿者播放一段无声电影,用解码器对他们的脑信号进行解码,结果如下所示。
实验数据显示,该模型准确率超过80%,这意味着它能够读取志愿者的大部分思考内容。尤其是在感知语音(收听录音)方面,准确率最高达到82%。而在想象语言(志愿者在内心讲述故事)和无声电影方面,准确率分别为41%~74%和21%~45%。
在被解码后生成的语句中,虽然每个单词都不是一一对应的,但是整个句子的意义被保留了下来,也就是解码器在给大脑信号「释义」。比如,在观看无声电影时,解码器能够精确地翻译出场景中的故事和情感。
最有趣的是,当你在看皮克斯无声电影时,大脑解码器都能读出你的想法。
大脑解码器的潜在威胁与应用前景
虽然这个大脑解码器能够为我们带来很多有益的应用,但同时也引发了我们对隐私保护的深刻思考。目前,虽然需要志愿者的配合才能读取大脑信号,但是未来若被恶意利用,就有可能造成极大的隐私泄露和思想监控。
然而,这种技术也可以帮助无法说话的人群,如患有运动失调、自闭症、神经肌肉疾病等的人们,通过大脑解码技术进行交流。此外,该技术还可以应用于研究心理健康,例如在神经科学、临床心理学和精神病学等领域中,探索精神障碍和情绪状态的生物学基础。
总而言之,“读心术”的出现开启了大脑成像领域的新潜力,同时也引发了我们对隐私保护的深刻思考。或许,在未来的某一天,它能够帮助我们更好地了解人类思想与心理,但我们还需要不断探索和完善技术的应用前景。
结语
读心术,曾经是人类最神秘的幻想之一。如今,随着脑机接口和GPT等自然语言技术的发展,正在逐渐实现这个幻想。我们不得不承认,它的出现可以给人类带来很多有益的应用。但同时,我们也需要高度警惕这种技术可能带来的潜在威胁。或许,在未来的某个时刻,我们可以找到更好的平衡点,让科技和隐私共存。
论文链接:https://www.nature.com/articles/s41593-023-01304-9
欢迎关注我的个人公众号【THU智能魔术师】
这篇关于读心术出现?AI模型将脑成像解读为自然语言!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!