stanfordcorenlp专题

将stanfordcorenlp的tokenizer换成自定义的（或用stanfordcorenlp对自定义tokenizer分词后的结果做ner）

本文是基于中文语料做的，对于英文语料应该也是同理，即同样适用的。分析stanfordcorenlp的分词结果，可以发现，它好像是对最小的中文词进行分词，即其对中文的分词粒度很小，这对于某些nlp场景可能就不太合适了，自然的就想到能不能将stanfordcorenlp中用于分词的tokenizer替换掉，替换成自定义的，这样就可以控制中文分词结果是你想要的了。基于以上动机，我查找了相关资料，

【NLP】Stanfordcorenlp和Stanfordnlp的安装和基本使用

一、stanfordcorenlp安装和使用 1.安装Python包 pip install stanfordcorenlp 2.下载数据文件 https://stanfordnlp.github.io/CoreNLP/index.html#download corenlp 下载好后解压，记当前路径为path_or_host 另外，将下载的各语