linux读入文件分行操作,linux shell脚本如何将文本内容按空格分行、如何使用timit原始corpus制作wav的scp文件...

本文主要是介绍linux读入文件分行操作,linux shell脚本如何将文本内容按空格分行、如何使用timit原始corpus制作wav的scp文件...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在kaldi-trunk提供的例子voxforge中有一个online-demo

直接使用就可以完成样例的在线解码并得到一个不错的结果,但是数据量很小

前段时间试了一下用另一个corpus来做同样的事情,但是效果很差

今天想用timit corpus来试一试

在修改run.sh脚本过程中遇到了很多问题,主要是对shell脚本操作不熟悉

其中有一个步骤是需要制作corpus中的wav的scp文件

timit的原始语料库中的文件层级是这样的:

第一级:

0818b9ca8b590ca3270a3433284dd417.png

第二级:

0818b9ca8b590ca3270a3433284dd417.png

第三极:

0818b9ca8b590ca3270a3433284dd417.png

第四级:

0818b9ca8b590ca3270a3433284dd417.png

第五级:

0818b9ca8b590ca3270a3433284dd417.png

我这里只选择了TEST作为decoding的对象,所以只需要关注TEST目录下的结构,下面是scp文件制作实现过程:

step1:

> $decode_dir/input.scp

这一步是run.sh文件中原本就有的,但也很重要,即创建一个scp文件,同时还起到的一个作用是,如果之前生成过一个不需要的scp文件可以将其覆盖掉。

step2:

find $audio -not \( -iname 'SA*' \) -name '*.WAV' -print | xargs echo "" > $decode_dir/input.scp.temp

这一步达到的效果是将所有WAV文件中前缀不为SA的地址提取出来并存放在input.scp.temp这个中间文件中

这一步执行完之后得到的input.scp.temp文件是这个样子的:

0818b9ca8b590ca3270a3433284dd417.png

也就是,我生成的文件中有三行,每一行都包括了很多个WAV文件,还不知道为什么会这样,这自然不是我希望得到的最后结果,所以需要进一步处理。

step3:

OLD_IFS="$IFS"

IFS=" "

cat $decode_dir/input.scp.temp | while read line

do

arr=($line)

IFS="$OLD_IFS"

for s in ${arr[@]}

do

echo ${s##*/} `pwd`"/$s" >> $decode_dir/input.scp

done

done

首先要实现的是将文本一行一行读入之后再用空格作为分隔符,将一行中的多个元素形成一个数组arr,详情请参考:http://my.oschina.net/5lei/blog/189559

然后是要制作成scp的格式,即文本的每一行为: wav名   wav所在的绝对路径

所以就有了echo ${s##*/} `pwd`"/$s" >> $decode_dir/input.scp这句话

${s##*/}的意思是取字符串s最后出现的 “/”这个字符,将这个字符及其左边所有的字符都删除掉,只取其右边剩下的部分,因此就得到了wav文件名

`pwd`"/$s"自然对应的就是wav文件的绝对路径了,`pwd`表示当前目录的绝对路径,后面再加上"/$s"也就构成了完整的文件路径。

最后终于得到了想要的scp文件:

0818b9ca8b590ca3270a3433284dd417.png

就只是以上这一点东西就花了我一天的时间,主要还是对linux指令的使用太不熟悉,

如果熟悉linux指令的话这应该是很简单的事情,好好学习,希望越来越好。

这篇关于linux读入文件分行操作,linux shell脚本如何将文本内容按空格分行、如何使用timit原始corpus制作wav的scp文件...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206147

相关文章

基于Python编写一个git自动上传的脚本(打包成exe)

《基于Python编写一个git自动上传的脚本(打包成exe)》这篇文章主要为大家详细介绍了如何基于Python编写一个git自动上传的脚本并打包成exe,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录前言效果如下源码实现利用pyinstaller打包成exe利用ResourceHacker修改e

C#中checked关键字的使用小结

《C#中checked关键字的使用小结》本文主要介绍了C#中checked关键字的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录✅ 为什么需要checked? 问题:整数溢出是“静默China编程”的(默认)checked的三种用

C#中预处理器指令的使用小结

《C#中预处理器指令的使用小结》本文主要介绍了C#中预处理器指令的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 第 1 名:#if/#else/#elif/#endif✅用途:条件编译(绝对最常用!) 典型场景: 示例

Mysql中RelayLog中继日志的使用

《Mysql中RelayLog中继日志的使用》MySQLRelayLog中继日志是主从复制架构中的核心组件,负责将从主库获取的Binlog事件暂存并应用到从库,本文就来详细的介绍一下RelayLog中... 目录一、什么是 Relay Log(中继日志)二、Relay Log 的工作流程三、Relay Lo

使用Redis实现会话管理的示例代码

《使用Redis实现会话管理的示例代码》文章介绍了如何使用Redis实现会话管理,包括会话的创建、读取、更新和删除操作,通过设置会话超时时间并重置,可以确保会话在用户持续活动期间不会过期,此外,展示了... 目录1. 会话管理的基本概念2. 使用Redis实现会话管理2.1 引入依赖2.2 会话管理基本操作

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

Springboot请求和响应相关注解及使用场景分析

《Springboot请求和响应相关注解及使用场景分析》本文介绍了SpringBoot中用于处理HTTP请求和构建HTTP响应的常用注解,包括@RequestMapping、@RequestParam... 目录1. 请求处理注解@RequestMapping@GetMapping, @PostMappin

MySQL游标和触发器的操作流程

《MySQL游标和触发器的操作流程》本文介绍了MySQL中的游标和触发器的使用方法,游标可以对查询结果集进行逐行处理,而触发器则可以在数据表发生更改时自动执行预定义的操作,感兴趣的朋友跟随小编一起看看... 目录游标游标的操作流程1. 定义游标2.打开游标3.利用游标检索数据4.关闭游标例题触发器触发器的基

springboot3.x使用@NacosValue无法获取配置信息的解决过程

《springboot3.x使用@NacosValue无法获取配置信息的解决过程》在SpringBoot3.x中升级Nacos依赖后,使用@NacosValue无法动态获取配置,通过引入SpringC... 目录一、python问题描述二、解决方案总结一、问题描述springboot从2android.x

SpringBoot整合AOP及使用案例实战

《SpringBoot整合AOP及使用案例实战》本文详细介绍了SpringAOP中的切入点表达式,重点讲解了execution表达式的语法和用法,通过案例实战,展示了AOP的基本使用、结合自定义注解以... 目录一、 引入依赖二、切入点表达式详解三、案例实战1. AOP基本使用2. AOP结合自定义注解3.