通过wav文件和text文件训练出phoneme文件的过程

2023-10-21 15:50
文章标签 训练 过程 text wav phoneme

本文主要是介绍通过wav文件和text文件训练出phoneme文件的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

环境:python2.7和python3.6

最近训练的一个神经网络需要wav文件和phn文件作为自己输入。

所有的数据库中都有wav文件,但是phoneme文件却不是每个数据库都有。

TIMIT数据库中就PHN文件。

先贴个PHN文件的图。

SX127.PHN

再看一下这句话的文本。

后面就是这句话没问题,0-24679肯定就是时间了。

我们看到时间是1.543,因为是16000的采样率,所以一共采24672个点,和24679基本一致(差几个估计是时间精度不够)。

至此,PHN文件我们已经非常了解了。

start_time end_time phoneme

应该是这个格式。

 

 

接下来我们先了解一下一个包:glob

glob模块是最简单的模块之一,内容非常少。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符:"*", "?", "[]"。"*"匹配0个或多个字符;"?"匹配单个字符;"[]"匹配指定范围内的字符,如:[0-9]匹配数字。

用法也很简单。

 

import globwav_file = glob.glob('data_path')

 

举个例子:

 

import glob
wav_file = glob.glob('./train/*/*/*.wav')

用的时候要注意下相对路径和绝对路径。

 

这样我们就得到了数据库中所有wav的名字了,被存在一个list中。

 

接下来学习一个alienment的软件 ,基于kaldi做的。

montreal-forced-aligner。

这是他们的git:https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner

这是他们的官方文档:http://montreal-forced-aligner.readthedocs.io/en/latest/

其实这个工具非常好用,因为我们是汉字的对齐,所以就不使用他们的预训练模型了。

我们直接使用release版本。

解压后有3个文件夹,其中的bin里面就是我们需要的程序。

看两个简单的命令来了解一下。

 

bin/mfa_align /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt english ~/Documents/aligned_librispeech

这个是直接对齐的命令,第一个参数是你的数据库,第二个参数是字典,第三个参数是你使用的模型。

 

 

bin/mfa_train_and_align  /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt ~/Documents/aligned_librispeech

这个是训练模型命令,第一个参数是数据库,第二个但是字典,第三个是你保存模型的位置。


下面我们继续学习一个分词工具包:jieba

 

因为我们要进行中文的txt2phn。

所以我们不得不面临分词的问题,接下来我们继续来看看如何中文分词。

python有个很好的工具包jieba

安装非常容易。python2或3均可。

 

pip install jieba

这个包也是非常的简单,Git上有详细说明,这里就不赘述了。

 

用这个工具把文本全部分割好就可以对齐了。

后面的过程就不赘述了,大概就是分割-对齐-最后形成相同格式。。。

可能有点烂尾,如果也在做相同过程碰到了一些问题可以给我留言,Emm

 

这篇关于通过wav文件和text文件训练出phoneme文件的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255397

相关文章

将Mybatis升级为Mybatis-Plus的详细过程

《将Mybatis升级为Mybatis-Plus的详细过程》本文详细介绍了在若依管理系统(v3.8.8)中将MyBatis升级为MyBatis-Plus的过程,旨在提升开发效率,通过本文,开发者可实现... 目录说明流程增加依赖修改配置文件注释掉MyBATisConfig里面的Bean代码生成使用IDEA生

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

C#原型模式之如何通过克隆对象来优化创建过程

《C#原型模式之如何通过克隆对象来优化创建过程》原型模式是一种创建型设计模式,通过克隆现有对象来创建新对象,避免重复的创建成本和复杂的初始化过程,它适用于对象创建过程复杂、需要大量相似对象或避免重复初... 目录什么是原型模式?原型模式的工作原理C#中如何实现原型模式?1. 定义原型接口2. 实现原型接口3

Spring Security注解方式权限控制过程

《SpringSecurity注解方式权限控制过程》:本文主要介绍SpringSecurity注解方式权限控制过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、摘要二、实现步骤2.1 在配置类中添加权限注解的支持2.2 创建Controller类2.3 Us

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea