本文主要是介绍王昊奋知识图谱学习笔记--第一讲知识图谱概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
第一部分 知识图谱概述
从链接文本到链接数据
事物的类型很多
一个人、一本书、一个抽象的概念。都可以是作为事物。
事物之间有多种类型的连接
一个节点代表实体,边表示实体的属性或者实体与实体间的关系。
知识图谱的发展
知识图谱在2012年由Google提出。其前身称之为语义网络。
知识图谱的应用
- 辅助搜索
Web的理想是万物的链接,搜索的理想是事物的搜索。基本知识图像,去实现从网页的搜索到语义的搜索。
- 辅助问答
机器人及IOT设备的智能化:给万物都链接一个背景知识库。
- 辅助决策
美国公司Palantir :提出动态本体。
金融领域:Kensho ,构建各种各样的金融本体。
- 辅助AI:常识推理
知识图谱的本质
第二部分 知识图谱项目
CYC 是用于创建一个常识知识库。
Wordnet 主要用于词义消歧。
ConceptNet 也是创建一个常识知识库。
Wididata 期望构建全球最大的免费知识库。
YAGO 具有更加丰富的实体分类体系。并考虑了时间和空间知识,增加了时间和空间的属性描述。
Babelnet 是为了支持多语种,解决非英语语种中数据缺乏的问题,
NELL 是卡内基梅隆大学开发的知识库,期望是能够从web自动抽取三元组知识。
Concept Graph 是以概念层次体系为中心的知识图谱。
Zhishi.me 初衷是期望利用百度百科、维基百科、互动百科三个知识库做成类似于DBpedia 的中文百科知识图谱。
第三部分 知识图谱技术概览
数据来源:文本数据、结构化数据库、多媒体与传感器、众包
关系抽取常用的数据集和工具
1.Standford CoreNLP 自然语言处理工具包,
实现对自然语言文本的文本分析,包括词形还原,词性标注、命名实体标注、共指消解、句法分析以及依存分析等功能。
2.自然语言工具包(Natural Language Tookit,NLTK)
基于脚本语言Python的自然语言处理工具包,该工具包集成了一些文本处理技术,例如中文分词、词形还原、文本分类等,并涉及50多种语料和字典的交互界面。
3.OpenCCG
指开放式自然语言CCG文库,基于Java的开源自然语言处理文库,能够实现基于Mark Steedman的组合的范畴语法形式为主的文本解析,包括句法分析和依存分析。
RDF:三元组
三元组即主谓宾,在知识图谱中主语和宾语是节点,关系是边。
RDF 图:有向标记图
RDFS:基于RDF的模式
由很少的一个词汇集组成。
RDF 的序列化格式
RDF表示形式可以用XML或者Json-LD
OWL:扩展了RDF模式
SPARQL :RDF的查询语言
知识图谱的分布式表示
知识抽取
知识抽取的主要方法
知识存储
知识问答
基于知识图谱形成的一个知识库。
KBQA的实现流程
首先基于问题,进行语义解析。然后由创立的知识库转换为问题的语义表示(语义表示可以用多种方式表示)。
知识推理
基于已知事实推出未知事实的计算过程。
知识融合:不同数据集中找出同一个实体
基于Python的知识融合的工具Dedupe
提供了很多相似度计算的方法,支持对大规模的数据库进行处理。工具使用可以参考openkg中的链接。
LIMES
不要求两个数据集由相似的结构,对Dedupe 是一种补充。
Wikibase
开源软件。可以学习一下,有助于项目快速上线。
第四部分 典型案例讲解
这篇关于王昊奋知识图谱学习笔记--第一讲知识图谱概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!