Kaldi-Timit 训练

2024-06-16 18:48

文章标签 训练 kaldi timit

本文主要是介绍Kaldi-Timit 训练，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Kaldi-Timit 训练

背景

这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。

Timit数据介绍

制作方
- Timit是几个研究机构联合收集的，文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成；语音录制在TI完成，转录(包括维护和校验)在MIT完成。

Corpus Speaker Distribution

Timit一共包含6300个句子，由来自美国8个主要州的630个人，每个人说10句话得到，详细情况如下表：

州号(dr)	男性人数(#Male)	女性人数(#Female)	总人数(Total)
dr1 (New England)	31(63%)	18(37%)	49(8%)
dr2 (Northern)	71(70%)	31(30%)	102(16%)
dr3 (North Midland)	79(67%)	23(23%)	102(16%)
dr4 (South Midland)	69(69%)	31(31%)	100(16%)
dr5 (Southern)	62(63%)	36(37%)	98(16%)
dr6 (New Yourk City)	30(65%)	16(35%)	46(7%)
dr7 (Western)	74(74%)	26(26%)	100(16%)
dr8 (Army Brat)	22(67%)	11(33%)	33(5%)
total	438(70%)	192(30%)	630(100%)

Corpus Text Material

详细情况如下表：

句子类型(Sentence Type)	句子数量(#Sentences)	说话人数(#Speakers)	总人数(Total)	句/人(#Sentences/Speaker)
方言(SA)	2	630	1260	2
音素紧凑型(SX)	450	7	3150	5
音素分散型(SI)	1890	1	1890	3
总数(Total)	2342	-	6300	10

SA类型主要针对同一音素在不同方言中的发音；SX类型的目的在于尽可能的覆盖多的音素对；SI类型是从Brown Corpus中选取的，目的在于增加句子的多样性。

Training/Test Subdivision
- 核心测试集包含24个speaker，每个州2个男性1个女性，每个人3句SI型句子和5句SX型句子；完整测试集包含168个人，没人8句SX型句子。详细情况如下表：
  
  测试集类型人数句子/人句子数
  核心测试集 24 8(3SI + 5SX) 192
  完整测试集 168 8(SX) 1344
文件类型
.wav : SPHERS 格式语音文件
.txt : 音频转录文本
.wrd : 带有时间标记的转录文件
.phn : 带有时间标记的音素转录文件
如下图所示：

过程

Timit数据准备
- 注意: Timit数据集不可以免费获取，通过交钱或者加入LDC会员才可以获取数据集。以下假设已经获得Timit数据集。
步骤如下：
1. 进入kaldi/egs/timit/s5, 创建data目录, 用于存放timit数据；
2. 将timit数据复制到data目录下，复制完后的目录为data/timit/ ;
3. 修改s5目录下run.sh里timit的路径，在s5目录下执行run.sh即可，整个过程要几个小时；

问题及解决方法

问题一：

从错误信息可以知道qsub没有安装(或者不在搜索路径中)，安装qsub，重新执行
问题二：

这种情况多半是电脑没有使用GridEngine，这是需要修改s5目录下的cmd.sh中的变量，如下图：

参考

kaldi
TIMIT
LDC
SPHERS
Timit ReadMe

这篇关于Kaldi-Timit 训练的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1067253。 23002807@qq.com

相关文章

MiniGPT-3D, 首个高效的3D点云大语言模型，仅需一张RTX3090显卡，训练一天时间，已开源

MiniGPT-3D, 首个高效的3D点云大语言模型，仅需一张RTX3090显卡，训练一天时间，已开源

项目主页：https://tangyuan96.github.io/minigpt_3d_project_page/ 代码：https://github.com/TangYuan96/MiniGPT-3D 论文：https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA，被ACM MM2024接收，只拥有47.8M的可训练参数，在一张RTX

阅读更多...

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法，用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据，特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

阅读更多...

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失，在SigLIP这个工作中，作者提出采用非对比性的sigmoid损失，能够更高效地进行图文预训练，本文进行介绍。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注

阅读更多...

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现：数据准备、训练命令、日志分析与输出目录在深度学习项目中，目标检测是一项重要的任务。本文将详细介绍如何使用Detectron2进行目标检测模型的复现训练，涵盖训练数据准备、训练命令、训练日志分析、训练指标以及训练输出目录的各个文件及其作用。特别地，我们将演示在训练过程中出现中断后，如何使用 resume 功能继续训练，并将我们复现的模型与Model Zoo中的

阅读更多...

多云架构下大模型训练的存储稳定性探索

多云架构下大模型训练的存储稳定性探索

一、多云架构与大模型训练的融合（一）多云架构的优势与挑战多云架构为大模型训练带来了诸多优势。首先，资源灵活性显著提高，不同的云平台可以提供不同类型的计算资源和存储服务，满足大模型训练在不同阶段的需求。例如，某些云平台可能在 GPU 计算资源上具有优势，而另一些则在存储成本或性能上表现出色，企业可以根据实际情况进行选择和组合。其次，扩展性得以增强，当大模型的规模不断扩大时，单一云平

阅读更多...

神经网络训练不起来怎么办（零）| General Guidance

神经网络训练不起来怎么办（零）| General Guidance

摘要：模型性能不理想时，如何判断 Model Bias， Optimization， Overfitting 等问题，并以此着手优化模型。在这个分析过程中，我们可以对Function Set，模型弹性有直观的理解。关键词：模型性能，Model Bias， Optimization， Overfitting。零，领域背景如果我们的模型表现较差，那么我们往往需要根据 Training l

阅读更多...

如何创建训练数据集

如何创建训练数据集

在 HuggingFace 上创建数据集非常方便，创建完成之后，通过 API 可以方便的下载并使用数据集，在 Google Colab 上进行模型调优，下载数据集速度非常快，本文通过 Dataset 库创建一个简单的训练数据集。首先安装数据集依赖 HuggingFace datasetshuggingface_hub 创建数据集替换为自己的 HuggingFace API key

阅读更多...

【YOLO 系列】基于YOLOV8的智能花卉分类检测系统【python源码+Pyqt5界面+数据集+训练代码】

【YOLO 系列】基于YOLOV8的智能花卉分类检测系统【python源码+Pyqt5界面+数据集+训练代码】

前言：花朵作为自然界中的重要组成部分，不仅在生态学上具有重要意义，也在园艺、农业以及艺术领域中占有一席之地。随着图像识别技术的发展，自动化的花朵分类对于植物研究、生物多样性保护以及园艺爱好者来说变得越发重要。为了提高花朵分类的效率和准确性，我们启动了基于YOLO V8的花朵分类智能识别系统项目。该项目利用深度学习技术，通过分析花朵图像，自动识别并分类不同种类的花朵，为用户提供一个高效的花朵识别

阅读更多...

深度学习与大模型第3课：线性回归模型的构建与训练

深度学习与大模型第3课：线性回归模型的构建与训练

文章目录使用Python实现线性回归：从基础到scikit-learn1. 环境准备2. 数据准备和可视化3. 使用numpy实现线性回归4. 使用模型进行预测5. 可视化预测结果6. 使用scikit-learn实现线性回归7. 梯度下降法8. 随机梯度下降和小批量梯度下降9. 比较不同的梯度下降方法总结使用Python实现线性回归：从基础到scikit-learn 线性

阅读更多...

使用openpose caffe源码框架训练车辆模型常见错误及解决办法

使用openpose caffe源码框架训练车辆模型常见错误及解决办法

错误1：what(): Error: mSources.size() != mProbabilities.size() at 51, OPDataLayer, src/caffe/openpose/layers/oPDataLayer.cpp 原因：这是因为在网络模型中数据源sources和probabilities设置的参数个数不一样导致的，一个数据源对应一个概率解决方法：只需要将网络文

阅读更多...