corpus专题

中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus 【❤️下载介绍❤️】

❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】 👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀 文章目录 📔 该数据集基本信息🔴 下载链接🔵 原论文数据介绍如下 📗 下载的数据集分析如下📙 致谢 📔 该数据集基本信息 🔴 下载链接原英文论文链接THCHS-30数据集官方下载链接 🔵 原论文数据介绍

Wikipedia corpus英文语料处理，获得原文

我们在预训练word vector或其他预训练任务时，需要大量的语料数据，Wikipedia开放了英文语料，大约11G：wiki英文语料下载链接该语料库是.bz2格式，但是不能直接解压，需要使用工具处理，我们介绍两种常用的处理工具，gensim和wikiextractor。 Gensim gensim提供了处理工具，但是只能够获得文章的词列表，丢失了段落句子以及标点符号。 from g

linux读入文件分行操作,linux shell脚本如何将文本内容按空格分行、如何使用timit原始corpus制作wav的scp文件...

在kaldi-trunk提供的例子voxforge中有一个online-demo 直接使用就可以完成样例的在线解码并得到一个不错的结果，但是数据量很小前段时间试了一下用另一个corpus来做同样的事情，但是效果很差今天想用timit corpus来试一试在修改run.sh脚本过程中遇到了很多问题，主要是对shell脚本操作不熟悉其中有一个步骤是需要制作corpus中的wav的scp文件