本文主要是介绍python知识图谱关系抽取算法_spo_extract_platform,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
开放领域的关系抽取的一次尝试
平台组成
标注平台(前端网页),对应目录spo_tagging_platform;
标注内容: S,P,O, is_tagging, 原文以及SPO的关系。
模型:
S,P,O: 序列标注算法(ALBERT+BiLSTM+CRF),对应目录sequence_labeling,在测试集上的F1大约为81%;
关系抽取: 文本二分类(ALBERT+BiGRU+ATT),对应目录text_classification,在测试集上的准确率大约为96%。
标注语料来源于新闻内容和小说内容。
该项目在提取小说、新闻以及其他无结构文本方面的应用,对应目录为extract_example。
数据介绍
现阶段的序列标注算法的样本为3211个,关系抽取的标注数据为9279,共有关系1365个,数量最多的前20个关系如下图:
平台使用前的准备工作
该平台采用Python3开发,需要安装的模块参考requirements.txt
如何使用该平台?
序列标注算法和文本二分类已经训练好,可以直接clone下来使用。
运行sequence_labeling/run.py,该HTTP服务运行端口为12306;
运行t
这篇关于python知识图谱关系抽取算法_spo_extract_platform的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!