我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接 该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。 Gensim gensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。 from g
准备:wikipedia-parallel-titles项目(老师给的) This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wik