本文主要是介绍使用Stanford-CoreNLP命令行进行分词,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
接上文 https://blog.csdn.net/guotong1988/article/details/136652691
java -cp "stanford-corenlp-4.5.6/*" edu.stanford.nlp.international.arabic.process.ArabicTokenizer normArDigits,normArPunc,normAlif,removeDiacritics,removeTatweel,removeQuranChars < input.txt
其中input.txt
每行一句话
建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java
这篇关于使用Stanford-CoreNLP命令行进行分词的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!