知识图谱入门 【三】- 知识抽取

知识图谱入门 【一】- 认识图谱技术
知识图谱入门 【二】- 知识表示与知识建模
知识图谱入门 【三】- 知识抽取
知识图谱入门 【四】- 知识挖掘
知识图谱入门 【五】- 知识存储
知识图谱入门 【六】- 知识融合
知识图谱入门 【七】- 知识推理
知识图谱入门 【八】- 语义搜索
知识图谱入门 【九】- 知识问答???????
知识抽取的概念
知识抽取 , 即从不同来源、不同结构的数据中进行知识提取 , 形成知识(结构化数据)存入到知识图谱 。大体的任务分类与对应技术如下图所示:
知识抽取的子任务术语抽取
从语料中发现多个单词组成的相关术语 。关系抽取
王思聪是万达集团董事长王健林的独子 。→→[王健林][王思聪]事件抽取
例如从一篇新闻报道中抽取出事件发生是触发词、时间、地点等信息 , 如图二所示 。共指消解
弄清楚在一句话中的代词的指代对象 。例子如图三所示 。

知识图谱入门 【三】- 知识抽取

文章插图

知识图谱入门 【三】- 知识抽取

文章插图
面向非结构化数据的知识抽取 实体抽取
【知识图谱入门 【三】- 知识抽取】实体抽取抽取文本中的原子信息元素 , 通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签 , 具体的标签定义可根据任务不同而调整 。如:
知识图谱入门 【三】- 知识抽取

文章插图
单纯的实体抽取可作为一个序列标注问题 , 因此可以使用机器学习中的HMM、CRF、神经网络等方法解决 。
实体识别与链接
实体识别即识别出句子或文本中的实体 , 链接就是将该实体与知识库中的对应实体进行链接 。其中涉及到了实体的识别与消岐技术 。实体识别技术刚刚介绍过 , 下面把重点放在实体链接部分 。
实体链接的流程如下图所示:
文字表述为 , 首先输入的是非结构化的文本数据 , 经由命名实体识别或词典匹配技术进行实体的指称识别 。由于刚刚识别出来的实体可能是实体的部分表示或另类表示 , 因此需要结束表层名字扩展、搜索引擎、构建查询实体引用表等技术来对候选实体进行生成 。经过该步骤生成的实体可能有多个候选项 , 因此需要对候选实体进行消岐 , 此处可使用基于图的方法、基于概率生成模型、基于主题模型或基于深度学习的方法 。经过实体消岐后得到的唯一实体候选后就可以与知识库中的实体进行连接了 。
举个例子:
关系抽取
关系抽取是从文本中抽取出两个或多个实体之间的语义关系 。它是信息抽取研究领域的任务之一 。如:
根据关系抽取方法的不同 , 可以将其分为:基于模板的方法(触发词的, 依存句法分析的)、基于监督学习的方法(机器学习方法)、弱监督学习的方法(远程监督、) 。
基于模板的方法
基于模板的方法在小规模数据集上容易实现且构建简单 , 缺点为难以维护、可移植性差、模板有可能需要专家构建 。
基于触发词的
首先定义一套种子模板 , 如:
其中的触发词为老婆、妻子、配偶等 。根据这些触发词找出夫妻关系这种关系 , 同时通过命名实体识别给出关系的参与方 。
基于依存分析的
以动词为起点 , 构建规则 , 对节点上的词性和边上的依存关系进行限定 。一般情况下是形容词+名字或动宾短语等情况 , 因此相当于以动词为中心结构做的 。其执行流程为: