首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
stanfordcorenlp专题
将stanfordcorenlp的tokenizer换成自定义的(或用stanfordcorenlp对自定义tokenizer分词后的结果做ner)
本文是基于中文语料做的,对于英文语料应该也是同理,即同样适用的。 分析stanfordcorenlp的分词结果,可以发现,它好像是对最小的中文词进行分词,即其对中文的分词粒度很小,这对于某些nlp场景可能就不太合适了,自然的就想到能不能将stanfordcorenlp中用于分词的tokenizer替换掉,替换成自定义的,这样就可以控制中文分词结果是你想要的了。 基于以上动机,我查找了相关资料,
阅读更多...
【NLP】Stanfordcorenlp和Stanfordnlp的安装和基本使用
一、stanfordcorenlp安装和使用 1.安装Python包 pip install stanfordcorenlp 2.下载数据文件 https://stanfordnlp.github.io/CoreNLP/index.html#download corenlp 下载好后解压, 记当前路径为path_or_host 另外,将下载的各语
阅读更多...