知识图谱入门 【三】- 知识抽取( 三 )


面向结构化数据的知识抽取
所谓结构化数据就是指类似于关系库中表格那种形式的数据 , 他们往往各项之间存在明确的关系名称和对应关系 。因此我们可以简单的将其转化为RDF或其他形式的知识库内容 。一种常用的W3C推荐的映射语言是R2RML() 。一种映射结果如下图所示:

知识图谱入门 【三】- 知识抽取

文章插图
现有的工具免费的有D2R , 、MOrph等 。
面向半结构化数据的知识抽取
半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据 。
百科类知识抽取
对于百科类数据我们都较为熟悉 , 下面着重介绍怎么从百科里抽取知识:
上图给出从百科里抽取知识的流程介绍 。(待补)
Web网页数据抽取:包装器生成
现在我们的目标网站是部分结构化的 , 如:
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序 。使用它提取信息流程为:
知识图谱入门 【三】- 知识抽取

文章插图
包装器归纳
对于一般的有规律的页面 , 我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素 。但这样的通用性很差 , 因此也可以通过包装器归纳这种基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据 。其运行流程为:
知识图谱入门 【三】- 知识抽取

文章插图
自动抽取
对于监督学习我们知道标注数据是它的短板 , 因此我们想到自动抽取的方法 。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的 。自动抽取的流程如图所示:
知识图谱入门 【三】- 知识抽取

文章插图
来自:知识图谱入门 (三) -的博客