知识图谱入门【三】- 知识抽取( 三 ) _实体关系图

面向结构化数据的知识抽取
所谓结构化数据就是指类似于关系库中表格那种形式的数据，他们往往各项之间存在明确的关系名称和对应关系。因此我们可以简单的将其转化为RDF或其他形式的知识库内容。一种常用的W3C推荐的映射语言是R2RML() 。一种映射结果如下图所示：

文章插图
现有的工具免费的有D2R ，、MOrph等。
面向半结构化数据的知识抽取
半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。
百科类知识抽取
对于百科类数据我们都较为熟悉，下面着重介绍怎么从百科里抽取知识：
上图给出从百科里抽取知识的流程介绍。(待补)
Web网页数据抽取：包装器生成
现在我们的目标网站是部分结构化的，如：
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。使用它提取信息流程为：

文章插图
包装器归纳
对于一般的有规律的页面，我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。但这样的通用性很差，因此也可以通过包装器归纳这种基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。其运行流程为：

文章插图
自动抽取
对于监督学习我们知道标注数据是它的短板，因此我们想到自动抽取的方法。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。自动抽取的流程如图所示：

文章插图
来自：知识图谱入门 (三) -的博客

知识图谱入门 【三】- 知识抽取( 三 )

知识图谱入门【三】- 知识抽取( 三 )