corpus专题

中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus 【❤️下载介绍❤️】

❤️【专栏:数据集整理】❤️ 之【有效拒绝假数据】 👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀 文章目录 📔 该数据集基本信息🔴 下载链接🔵 原论文数据介绍如下 📗 下载的数据集分析如下📙 致谢 📔 该数据集基本信息 🔴 下载链接 原英文论文链接THCHS-30数据集官方下载链接 🔵 原论文数据介绍

Wikipedia corpus英文语料处理,获得原文

我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接 该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。 Gensim gensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。 from g

linux读入文件分行操作,linux shell脚本如何将文本内容按空格分行、如何使用timit原始corpus制作wav的scp文件...

在kaldi-trunk提供的例子voxforge中有一个online-demo 直接使用就可以完成样例的在线解码并得到一个不错的结果,但是数据量很小 前段时间试了一下用另一个corpus来做同样的事情,但是效果很差 今天想用timit corpus来试一试 在修改run.sh脚本过程中遇到了很多问题,主要是对shell脚本操作不熟悉 其中有一个步骤是需要制作corpus中的wav的scp文件