语音驱动的口型同步算法文献汇总

本文主要是介绍语音驱动的口型同步算法文献汇总，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文一：语音驱动的口型同步算法
核心工作：提出一种口型动画同步算法，预先定义基本口型动作集合，通过权重线性混合构成口型动画和过渡动画，最终拼接得到完整口型动画。
音素：输入的语音信号首先被转化为由一串发音单元构成的序列，这些发音单元成为音素。
视素：序列中的音素会被映射到一个口型动作单元上，这些口型动作单元成为视素。
协同发音：
1. 难题：除了当前正在发音的音素外，该音素之前或之后的一些音素也会对当前口型动作产生影响的现象。
2. 解法：程序式，对音素优先级制定规则；物理模型，模拟脸部与嘴唇肌肉的作用；数据驱动，采集大量数据并进行匹配；机器学习，基于GMM-HMM等模型方法学习。
算法描述：
1. 预处理：
（1）音素分类：基于Timit音素表合并到16个基本音素集合；
（2）定义音素对应的口型动画：通过FaceGen建模六种基本口型；
（3）权重推导，曲线分为稳定阶段与变化阶段，稳定阶段在前，变化阶段T一般为30-50ms。
2. 运行阶段：
（1）分析语音信号获得音素序列：常用Festival、Julius系统
（2）音素序列的映射：讨论映射的动画片段 >和< 变化阶段T的情况
（3）过渡动画拼接：线性插值算法

论文二：基于加权算法的汉语语音同步三维口型动画研究
核心工作：提出一种综合了汉语拼音发音的口型变化规律和标点的时间控制的声韵加权控制算法；口型过渡动画用余弦插值方法合成序列。
在这里插入图片描述
实现步骤：
1. 输入汉语文本
2. 将文本转换为汉语拼音
3. 从文本产生合成语音的样本
4. 询问音频处理器，从语音播放处理器中决定当前音素
5. 从当前音节的轨迹中计算出目前口型
6. 合成语音同步的口型并且同步图形展示，返回4
音画同步：
1. 初始化音频服务器，返回开始时间
2. 播放样本序列，返回样本时间、服务器时间，
3. 计算出的相关动画驱动时间
4. 面部图形更新，渲染并播放
声韵加权控制算法：
1. 定义音素表：合并定义声、韵母以及单独出现的韵母的口型动作单元
2. 基本口型动画合成：按照声、韵母发音时长比例，标点停顿等特点合成；过渡动画根据唇部肌肉模型计算。
在这里插入图片描述