语音神经科学-01.The cortical organization of speech processing

2023-12-10 05:36

本文主要是介绍语音神经科学-01.The cortical organization of speech processing,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

The cortical organization of speech processing: Feedback control and predictive coding the context of a dual-stream model(在双流模型的背景下,语音处理的皮层组织涉及到反馈控制和预测编码。)

想了解双流模型,可以参考:BCI-Two-streams hypothesis(双流假说)

专业术语

speech recognition 语音识别
predictive coding 预测编码
dorsal stream 背侧流
vental stream 腹侧流
conduction aphasia 传导性失语症
feedback control 反馈控制
temporal lobe 颞叶
superior temporal lobe 上颞叶
frontal lobe 额叶
posterior frontal lobe 后额叶
superior temporal sulcus(STS) 上颞沟(颞上沟)
superior temporal gyrus(STG) 上颞回

概述

本文作者概述了语音处理的双流模型,然后讨论了有关语音识别过程中预测编码来源的证据。并且作者总结出,腹侧感觉运动流才是促进语音识别的正向预测的来源。

阅读后读者能够:

  • 解释语音处理的双路模型,包括背侧和腹侧通路在语言处理中的功能。
  • 理解对背侧通路某些组成部分的干扰如何导致传导性失语症
  • 解释运动行为中状态反馈控制的基本原理。
  • 理解预测编码在运动控制和知觉中的作用,以及两个通路中的预测编码可能具有不同的功能后果。

提出问题

Q:为什么语音处理是双路模型?
A: 双路模型的基本假设是,语音处理需要同时进行语言理解语音产生两个过程,并且这两个过程在大脑中通过不同的通路进行。这种双路模型的观点得到了大量的神经影像学和神经病理学研究的支持。

Q: 什么是双路模型?
A:双路模型是一种描述语音处理组织的理论框架,它将语音处理划分为两个主要的神经通路:腹侧通路(ventral stream)背侧通路(dorsal stream)
腹侧通路主要与语言理解和语义处理相关。它负责将声学语音信息与语言的概念-语义表示相连接。在这个通路中,声学信息经过听觉皮层的初步处理,然后传递到颞叶的背侧上颞沟和背侧下颞回,进一步进行语音和语言的分析和解释。腹侧通路的关键区域包括Wernicke区和Broca区,它们在语言理解和产生中起着重要的作用。
背侧通路主要与运动控制和语音产生相关。它负责将声学语音信息与运动言语系统相连接,以便实现语音的再现。在背侧通路中,声学信息通过听觉皮层的处理后,进入到颞叶和顶叶交界处的背侧通路起始部分,然后连接到运动皮层,控制口腔和喉部肌肉的运动,产生语音声音。背侧通路的关键区域包括Sylvian顶颞联合(Spt)和运动皮层。

语音处理中的双流模型

双路模型(下图)认为,腹侧通路涉及颞叶(temporal lobe)的上部和中部结构,参与处理语音信号以进行理解。背侧通路涉及颞叶后部的音障区和额叶后部结构,参与将声学语音信号转化为运动表征,这对于语音产生至关重要。与语音处理主要依赖左半球的典型观点相反,广泛的证据表明,腹侧通路具有双侧组织(尽管两个半球之间存在重要的计算差异)。另一方面,背侧通路在左半球中占主导地位
在这里插入图片描述

腹侧通路:从声音到意义的映射

双边组织的并行计算

腹侧通路是并行计算的,证据是观察到左脑损伤不会导致患者在理解过程中处理语音信息的能力急剧下降。然而,累积到颞上叶的双侧病变会导致严重的语音知觉缺陷。
从医学成像中也发现,听取语音会在双侧激活包括背侧颞回和上颞沟(STS)在内的颞叶上部回旋(STG)。

计算不对称

声音识别中的音素级过程双侧组织的假设并不意味着两个半球在计算上完全相同。事实上,有强有力的证据表明在处理声学/语音信息时存在半球间的差异

音韵处理和STS

Q: 什么是音韵?
A: 音韵是语言学中研究语音结构和音位系统的分支。它关注的是语言中的音素(phoneme)音位(allophone),以及它们在词汇和语法中的组合和变化规律。
在语言中,音素是最小的语音单位,它们可以区分词义。例如,在英语中,/p/和/b/是两个不同的音素,因为它们可以使词的意义发生变化,如"pat"和"bat"。而音位是音素的具体发音方式或变体,它们在不同的语音环境中可能会有一些细微的差异,但不会改变词的意义。

除了语音识别的最早阶段,越来越多的证据表明STS的某些部分对于表示和/或处理音韵信息非常重要。STS在需要访问音韵信息的语言任务中被激活,包括语音的感知和产生,以及音素信息的主动维持。与复杂的非语音信号相比,STS的某些部分似乎对包含音韵信息的声学信号相对选择性较高。

词汇语义访问

在听觉理解过程中,语音处理的目标是利用音韵信息来访问对理解至关重要的概念-语义表示。双流模型认为,虽然概念-语义表示在大脑皮层中广泛分布,但一个更集中的系统作为计算接口,将音韵层次的表示与分布式的概念表示进行映射。这个接口并不是存储概念信息的地方。相反,它被假设为存储有关音韵信息与概念信息之间关系(或对应关系)的信息。大多数作者都同意颞叶在这个过程中起着关键作用。但关于是颞叶前部和后部的作用仍存在歧义。

背侧通路:从声音到行为的映射

背侧通路支持听觉和言语运动表示之间的接口,用于言语的感觉-运动整合。这一观点与背侧视觉通路具有感觉-运动整合功能的主张相似。

对听觉运动整合的需要

Wernicke的经典语言神经回路模型包括了感觉和运动言语表示之间的连接,并明确认为感觉系统参与了言语产生。
在视觉-手动领域中,我们通过视觉方式识别杯子的位置和形状(感觉目标),然后生成一个运动指令,使我们的肢体朝着那个位置移动,并塑造手的形状以匹配物体的形状。在言语领域中,目标并不是外部对象,而是单词声音模式(音韵形式)的内部表示。我们知道,这些目标具有听觉性质,因为在言语产生中操纵自己的听觉反馈会导致运动言语行为的补偿性变化。

在过去的十年中,在对言语的感觉运动整合的神经组织进行映射方面取得了很大的进展。这项工作确定了一个包括上颞沟区(superior temporal sulcus)的听觉区域、左侧额下回(left inferior frontal gyrus)(Broca区的一部分)的运动区域、更背侧的左侧前运动区以及左侧颞叶平面(left planum temporale)区域的网络区域,该区域被称为Spt区域。

传导性失语症是一种语言障碍,其特点是患者在理解语言方面表现出良好的能力,但在语音产生过程中会频繁出现音素错误。

研究发现,传导性失语症患者的语音产生缺陷与负荷敏感性相关。这意味着在处理较长、较低频的单词以及具有较少语义约束的连续语音重复时,患者更容易出现错误。这表明在传导性失语症中,语音产生过程中的缺陷与语言负荷有关

这些损伤的影响可以理解为在听觉目标和能够实现这些目标的运动语音行动之间提供接口的系统中断
传导性失语症的病变分布已被证明与听觉-运动整合区Spt的位置重叠,这与传导性失语是由该界面系统损伤引起的观点一致。

语音感知的前向预测

对文献中关于言语知觉的当前讨论的审视给人的印象是,言语知觉中的前向预测几乎是公理性的。可以明显地看出,知道要听什么可以增强我们感知言语的能力。然而,这些预测的来源还不太清楚。

Q: 什么是预测编码?
A: 预测编码(Predictive coding)是一种神经信息处理框架,用于解释和理解外部世界。它基于大脑通过生成对感知输入的预测来进行感知和认知的假设。
预测编码的基本原理是,大脑通过生成对感知输入的预测来解释外部世界,并通过比较预测和实际感知输入之间的差异来更新和调整神经活动。 具体来说,大脑会生成多个层次的预测,从低层次的感知特征到高层次的语义和概念。这些预测通过反馈连接传递到较低层次的感知区域,与实际的感知输入进行比较。如果预测与实际感知输入相符,那么大脑会减少对该信息的处理,从而提高信息处理的效率。如果预测与实际感知输入不符,那么大脑会增加对该信息的处理,以更好地解释和理解外部世界。

Q: 什么是感知?
A: 感知是指通过感觉器官接收和获取外部刺激的过程以及将这些刺激转化为神经信号并传递到大脑中进行处理和解释的过程。它是我们对外部世界的感知和认知的基础。
感知涉及感觉器官(如眼睛、耳朵、皮肤、鼻子和舌头)的功能,它们能够接收不同类型的刺激,如光线、声音、触觉、气味和味道。当这些刺激作用于感觉器官时,它们会转化为神经信号,并通过神经途径传递到大脑中的相应感觉区域。

Q: 预测编码在感知中的作用?
A:预测编码在感知中起着重要的作用。它是一种神经信息处理框架,通过生成对感知输入的预测来解释和理解外部世界
在感知过程中,大脑会不断生成对感知输入的预测。这些预测可以基于先前的经验、内部模型和上下文信息。预测编码的基本原理是,大脑通过比较预测和实际的感知输入之间的差异来更新和调整神经活动。如果预测与实际感知输入相符,那么大脑会减少对该信息的处理,从而提高信息处理的效率。如果预测与实际感知输入不符,那么大脑会增加对该信息的处理,以更好地解释和理解外部世界。
预测编码的作用是减少感知误差。通过不断生成和更新对感知输入的预测,大脑可以预测到即将发生的感知输入,并将注意力和资源集中在与预测不符的信息上。这种预测编码的过程使大脑能够更加高效地处理感知信息,并产生对外部世界的准确认知。

Q: 前向预测在运动控制中的作用?
A: 前向预测在运动控制中起着重要的作用。它是指在进行运动之前,大脑会通过内部模型生成预测,预测运动的结果和感觉后果。这些预测可以帮助调节和优化运动执行过程。
前向预测在运动控制中的作用可以总结如下:
运动计划和执行:前向预测可以帮助大脑规划和执行运动。通过预测运动的结果,大脑可以调整肌肉活动和运动轨迹,以实现预期的目标。

  • 运动校正:如果前向预测与实际感觉结果不一致,大脑可以使用预测误差来进行运动校正。这可以帮助纠正运动中的错误,使运动更加准确和精确。
  • 运动流畅性:前向预测可以提高运动的流畅性。通过提前预测感觉结果,大脑可以调整运动速度和力度,以使运动过程更加平滑和连贯。
  • 运动感知:前向预测可以影响感知过程。当大脑预测到自己的运动时,它可以抑制对相应感觉的敏感性,从而减少感知上的干扰。

而言语控制也是运动控制的一种。
最近,几个研究小组提出,来自运动系统的前向预测可能有助于言语知觉。这个想法的逻辑是:如果运动系统能够为自己的言语行为的感觉后果生成预测,那么也许这个系统可以用来预测他人言语的感觉后果,从而促进知觉。然而,这个想法存在概念上和实证上的问题。

最新的研究表明,在视听语音整合中,影响语音识别和理解的并非来自运动预测,而是来自腹侧通路中的跨感觉整合。这些发现对我们理解语音处理的机制和神经基础提供了重要的线索。

文献总结

背侧流正向预测主要服务于运动控制功能,并不促进对他人的语音识别,而腹侧流正向预测功能可以增强语音识别。

这篇关于语音神经科学-01.The cortical organization of speech processing的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/476154

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

hdu 2602 and poj 3624(01背包)

01背包的模板题。 hdu2602代码: #include<stdio.h>#include<string.h>const int MaxN = 1001;int max(int a, int b){return a > b ? a : b;}int w[MaxN];int v[MaxN];int dp[MaxN];int main(){int T;int N, V;s

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

集中式版本控制与分布式版本控制——Git 学习笔记01

什么是版本控制 如果你用 Microsoft Word 写过东西,那你八成会有这样的经历: 想删除一段文字,又怕将来这段文字有用,怎么办呢?有一个办法,先把当前文件“另存为”一个文件,然后继续改,改到某个程度,再“另存为”一个文件。就这样改着、存着……最后你的 Word 文档变成了这样: 过了几天,你想找回被删除的文字,但是已经记不清保存在哪个文件了,只能挨个去找。真麻烦,眼睛都花了。看

基于人工智能的智能家居语音控制系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 随着物联网(IoT)和人工智能技术的发展,智能家居语音控制系统已经成为现代家庭的一部分。通过语音控制设备,用户可以轻松实现对灯光、空调、门锁等家电的控制,提升生活的便捷性和舒适性。本文将介绍如何构建一个基于人工智能的智能家居语音控制系统,包括环境准备

01 Docker概念和部署

目录 1.1 Docker 概述 1.1.1 Docker 的优势 1.1.2 镜像 1.1.3 容器 1.1.4 仓库 1.2 安装 Docker 1.2.1 配置和安装依赖环境 1.3镜像操作 1.3.1 搜索镜像 1.3.2 获取镜像 1.3.3 查看镜像 1.3.4 给镜像重命名 1.3.5 存储,载入镜像和删除镜像 1.4 Doecker容器操作 1.4

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

2024年 Biomedical Signal Processing and Control 期刊投稿经验最新分享

期刊介绍 《Biomedical Signal Processing and Control 》期刊旨在为临床医学和生物科学中信号和图像的测量和分析研究提供一个跨学科的国际论坛。重点放在处理在临床诊断,患者监测和管理中使用的方法和设备的实际,应用为主导的研究的贡献。 生物医学信号处理和控制反映了这些方法在工程和临床科学的界面上被使用和发展的主要领域。期刊的范围包括相关的评论论文(review p