知识图谱入门 【三】- 知识抽取( 二 )


监督学习
在给定实体对的情况下 , 根据句子上下文对实体关系进行预测 , 执行流程为:
其优点为准确率高 , 标注的数据越多越准确 。缺点为标注数据的成本太高 , 不能扩展新的关系 。
训练
即识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果 , 这样的好处的各模型相互独立 , 设计上较为容易 , 但误差会逐层传递 , 步骤太多有可能导致后续不可用 。
联合模型
将实体识别和关系分类一起做 , 在一个模型中完成 。
半监督学习方法
前面的监督学习效果虽好 , 但有标注数据集的获取困难 。因此可以借助半监督学习的方法 , 此处又分为远程监督学习和方法两种 。
所谓远程监督方法就是知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力 。是通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组 。
远程监督
该方法认为若两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系 。如在某知识库中存在“创始人(乔布斯 , 苹果公司)” 。那么就认为出现乔布斯和苹果公司的句子就是表述创始人这项关系 。因此可构建训练正例:乔布斯是苹果公司的联合创始人和CEO 。
远程监督流程为:
远程监督可以利用丰富的知识库信息 , 减少一定的人工标注 , 但它的假设过于肯定 , 如乔布斯被赶出苹果公司 。这句话表达的就不是创始人的例子 , 因此会引入大量的噪声 , 存在语义漂移现象 。同时由于是在知识库中抽取存在的实体关系对 , 因此很难发现新的关系 。
####
这个方法在很多任务中都有提到 , 其执行流程为:
2、将抽取出的去文档集中匹配 小猪 与妻子 伊万 外出赴约3、根据抽取出的新文档如种子库,迭代多轮直到不符合条件
该方法的优点为构建成本低 , 适合大规模的构建 , 同时还可以发现新的(隐含的)关系 。缺点为对初始给定的种子集敏感 , 存在语义漂移现象 , 结果的准确率较低等 。
事件抽取
从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等 。如:
时间抽取任务最基础的部分包括:
此外 , 事件抽取任务还包括:

知识图谱入门 【三】- 知识抽取

文章插图
对于事件抽取 , 也可分为方法和联合训练的方法 。
事件抽取的方法
有监督的事件抽取方法的标准流程一种的方法,将事件抽取任务转化为多阶段的分类问题,需要的分类器包括:
元素分类器( ) 元素角色分类器(Role ) 属性分类器( ) 可报告性分类器(-Event )
可以看到 , 这个流程还是蛮长的 , 因此存在的误差传递问题在这里格外严重 , 因此我们需要联合训练:
联合训练
知识图谱入门 【三】- 知识抽取

文章插图
基于深度学习的事件抽取方法
传统的方法需要借助外部NLP工具 , 还需要人工设计特征 , 但深度学习可以自动提取句子特征 , 减少对外部NLP工具的依赖 。
下图给出一个典型的基于动态多池化卷积神经网络的事件抽取方法: