语音合成论文优选:脑机接口的语音合成Advancing Speech Synthesis using EEG

本文主要是介绍语音合成论文优选:脑机接口的语音合成Advancing Speech Synthesis using EEG,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

(这周主要看一个有趣的研究方向:脑机接口中的语音合成。粗略的搜了一下2020年的基于脑电图语音合成的文章,几篇文章都是出自德克萨斯大学奥斯汀分校脑机接口实验室,真是一招鲜,吃遍天呀!我感觉脑机接口的未来还有很长的路,尤其EEG数据的分析和清洗,使EEG数据的noise更少。另外人类和其它物种的EEG之间是否存在某种信息关系,是否可以通过EEG来进行万物交流?这样你可以听到动物们的声音,也可以回答动物)

Advancing Speech Synthesis using EEG

本文章是德克萨斯大学奥斯汀分校脑机接口实验室在2020.05.03更新的文章,主要的工作使用脑电图EEG来合成语音,具体的文章链接

https://arxiv.org/pdf/2004.04731.pdf

1 研究背景

脑机接口的研究已经发展很长时间,在语音方面通常使用脑信息来进行语音识别和语音合成,其中脑信息的获取主要包括侵入式和非侵入式。侵入式方式的信心获取是通过手术把芯片植入到大脑中,这样可以减少很多噪声。非侵入式的信息获取是使用电子传感器通过头皮来获取信息,常用的就是脑电图(EEG),这种方式更加安全和廉价。基于EEG的语音合成主要使用EEG来预测声学特征,其训练数据的获取是当参与者录取音频的时候,同时获取其脑电图来获取<EEG, audio>的并行数据。本文提出基于attention的回归模型,效果优于以前的回归模型。
(说个题外话,脑机接口的语音合成还是非常有趣,至少可以做到玄幻中的"内功传音",想想这种场面:两个人戴着脑电波采集器并发射给对方,对方接受脑电波后合成语音,通过播放器可以听到对方的悄悄话。另外,研究脑机接口的语音合成更关键点是EEG数据,使用的语音合成的架构都十分简单)

2 详细设计

本文主要是使用attention机制来优化基于EEG的语音合成,其中attention机制主要如下的公式1~3。我们可以看一下图1所示的架构,该架构很简单,就不再阐述(这类似的图在接下来的几篇文章都会出现)。图2展示了两种实验方式,直接从EEG转成声学特征MFCC,第二种是先使用EEG转成发音的特征articulatory,然后再转成MFCC。

3 实验

本文实验主要包括4位参加者,其中set 1,set2 , set3的区别是EEG的维度分别为30, 50 和93。table1~4显示各测试结果,其中第1种方法比第2种方法低一些(作者说不是MCD越低就是合成音频越好,但本文章又说比以前的方案低多了。)table 5展示了MFCC 128为结果,图3图4展示语音重构的结果。(可惜没放出样音,样音一听就一耳了然了)

4 总结

本文主要使用attention机制来优化基于EEG的语音合成,合成的语音可懂度更高。(其实我感觉EEG的分析和清洗才是未来的工作)

这篇关于语音合成论文优选:脑机接口的语音合成Advancing Speech Synthesis using EEG的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294599

相关文章

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

go中空接口的具体使用

《go中空接口的具体使用》空接口是一种特殊的接口类型,它不包含任何方法,本文主要介绍了go中空接口的具体使用,具有一定的参考价值,感兴趣的可以了解一下... 目录接口-空接口1. 什么是空接口?2. 如何使用空接口?第一,第二,第三,3. 空接口几个要注意的坑坑1:坑2:坑3:接口-空接口1. 什么是空接

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

如何用java对接微信小程序下单后的发货接口

《如何用java对接微信小程序下单后的发货接口》:本文主要介绍在微信小程序后台实现发货通知的步骤,包括获取Access_token、使用RestTemplate调用发货接口、处理AccessTok... 目录配置参数 调用代码获取Access_token调用发货的接口类注意点总结配置参数 首先需要获取Ac

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

MyBatis-Plus中Service接口的lambdaUpdate用法及实例分析

《MyBatis-Plus中Service接口的lambdaUpdate用法及实例分析》本文将详细讲解MyBatis-Plus中的lambdaUpdate用法,并提供丰富的案例来帮助读者更好地理解和应... 目录深入探索MyBATis-Plus中Service接口的lambdaUpdate用法及示例案例背景

Java8需要知道的4个函数式接口简单教程

《Java8需要知道的4个函数式接口简单教程》:本文主要介绍Java8中引入的函数式接口,包括Consumer、Supplier、Predicate和Function,以及它们的用法和特点,文中... 目录什么是函数是接口?Consumer接口定义核心特点注意事项常见用法1.基本用法2.结合andThen链

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll