本文主要是介绍自然语言处理-命名实体识别的预料优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本文主要是针对https://github.com/Determined22/zh-NER-TF 这个开源工程中的一个ner语料进行优化
非常标准的命名实体识别语料,语料的质量也是非常的高。
但是有个小问题
语料对于人物的标注,有非常多带称谓的人物只标注的姓
导致识别到非常多单字的姓效果非常差。
例如张女士、和张师傅识别结果都是张、张。
但我认为称谓也应该附带上
这边我花了两天时间,对语料中大约八百处标注进行了修改
原始语料
修改之后
识别结果对比
语料修改之前的识别效果
修改之后的重新训练的识别结果
这篇关于自然语言处理-命名实体识别的预料优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!