本文主要是介绍Kaldi-Timit 训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Kaldi-Timit 训练
背景
- 这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。
Timit数据介绍
制作方
- Timit是几个研究机构联合收集的,文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成;语音录制在TI完成,转录(包括维护和校验)在MIT完成。
Corpus Speaker Distribution
Timit一共包含6300个句子,由来自美国8个主要州的630个人,每个人说10句话得到,详细情况如下表:
州号(dr) 男性人数(#Male) 女性人数(#Female) 总人数(Total) dr1 (New England) 31(63%) 18(37%) 49(8%) dr2 (Northern) 71(70%) 31(30%) 102(16%) dr3 (North Midland) 79(67%) 23(23%) 102(16%) dr4 (South Midland) 69(69%) 31(31%) 100(16%) dr5 (Southern) 62(63%) 36(37%) 98(16%) dr6 (New Yourk City) 30(65%) 16(35%) 46(7%) dr7 (Western) 74(74%) 26(26%) 100(16%) dr8 (Army Brat) 22(67%) 11(33%) 33(5%) total 438(70%) 192(30%) 630(100%)
Corpus Text Material
详细情况如下表:
句子类型(Sentence Type) 句子数量(#Sentences) 说话人数(#Speakers) 总人数(Total) 句/人(#Sentences/Speaker) 方言(SA) 2 630 1260 2 音素紧凑型(SX) 450 7 3150 5 音素分散型(SI) 1890 1 1890 3 总数(Total) 2342 - 6300 10 SA类型主要针对同一音素在不同方言中的发音;SX类型的目的在于尽可能的覆盖多的音素对;SI类型是从Brown Corpus中选取的,目的在于增加句子的多样性。
Training/Test Subdivision
核心测试集包含24个speaker,每个州2个男性1个女性,每个人3句SI型句子和5句SX型句子;完整测试集包含168个人,没人8句SX型句子。详细情况如下表:
测试集类型 人数 句子/人 句子数 核心测试集 24 8(3SI + 5SX) 192 完整测试集 168 8(SX) 1344
文件类型
.wav : SPHERS 格式语音文件
.txt : 音频转录文本
.wrd : 带有时间标记的转录文件
.phn : 带有时间标记的音素转录文件
如下图所示:
过程
- Timit数据准备
- 注意: Timit数据集不可以免费获取,通过交钱或者加入LDC会员才可以获取数据集。以下假设已经获得Timit数据集。
- 步骤如下:
1. 进入kaldi/egs/timit/s5, 创建data目录, 用于存放timit数据;
2. 将timit数据复制到data目录下,复制完后的目录为data/timit/ ;
3. 修改s5目录下run.sh里timit的路径,在s5目录下执行run.sh即可,整个过程要几个小时;
问题及解决方法
问题一:
从错误信息可以知道qsub没有安装(或者不在搜索路径中),安装qsub,重新执行问题二:
这种情况多半是电脑没有使用GridEngine,这是需要修改s5目录下的cmd.sh中的变量,如下图:
参考
- kaldi
- TIMIT
- LDC
- SPHERS
- Timit ReadMe
这篇关于Kaldi-Timit 训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!