Reinforcement Learning Based Meta( 二 )


基于上述观察结果,本文提出了一种新型的强化学习框架,用于从大规模hin中自动挖掘有趣的元路径,命名为基于强化学习的元路径发现(with, MPDRL) 。我们的目标是利用强化学习代理推断出从源对象到目标对象最有意义的路径,然后执行进一步的元路径归纳步骤,从大量生成的路径中总结出元路径 。我们的方法有三个可取的特性 。首先,我们的推理框架不需要预先训练和其他监督,也不需要对先验知识进行微调 。其次,提出的方法具有内建的灵活性,可以考虑不同长度的可解释元路径,这对于推断远程元路径很重要 。最后,代理可以通过它们的类型上下文识别不同的对象,允许系统在百万级hin上成功运行 。我们的方法应用于两个具有复杂模式的hin, Yago和NELL,并通过代理的多跳推理产生了丰富的元路径 。此外,链接预测的实验结果表明,我们的方法优于比较方法 。
我们的贡献有三个方面:
2.相关工作 2.1Meta-path指导方法
分析和执行HINs中的数据挖掘任务,Sun等(2009;2011年)提出了元路径的概念,用于捕获语义信息和表达两个对象的复杂相关性 。随后,已经发表了大量论文,涉及HIN中许多数据挖掘任务中的元路径,如相似性度量(Sun et al. 2011;Wang et al. 2016),链接预测(Shi et al. 2014;Cao, Kong, and2014),表征学习(Dong, , and Swami 2017;Cao, Kong, and2014),等等 。
2.2在HIN中发现元路径
许多元路径指导方法都有一个主要缺陷,即它们需要领域专家手工定义一系列元路径 。Lao and Cohen(2010)提出了一种基于随机游走的方法,在固定长度l内发现并利用标记关系网络的元路径 。然而,由于长度在不同的数据集之间存在差异,因此很难设置 。孟等人(2015)最近的一项研究开发了一种名为FSPG的贪婪算法来发现最相关的元路径,进一步开发了一种贪婪树数据结构来迭代寻找元路径 。Yang et al.(2018)指出寻径过程是一个组合问题 。因此,他们提出了一种可以通过强化学习预定义元路径的相似性度量模型 。但是,这种方法只对模式简单的HIN有效 。Shi和(2014)讨论了大型复杂HIN中不同类型粒度级别的元路径发现,并提出了一个通用框架,利用经典知识发现技术的适应性从复杂HIN中挖掘元路径 。
2.3图中的多跳推理
许多基于随机游走的多跳推理方法(Lao, , and Cohen 2011)被提出用于在知识库中捕获更复杂的推理模式 。但是,通过执行随机漫步收集的推理路径与对象的类型无关 。最近,深度强化学习在许多人工智能问题中取得了巨大的成功(Mnih et al. 2015) 。深度强化学习允许从基于图的数据中学习策略功能,用于多跳推理 。Xiong等人(2017)研究了基于知识库的RL的多跳推理 。但是,它也忽略了对象的类型 。Das et al.(2018)和Shen et al.(2018)进一步研究了用于知识库完成的强化学习 。
3.定义和注释 定义1(异构信息网络)
HIN是一个包含多种类型节点和边的信息网络,定义为图G = (V, E) 。V表示一个对象集,它有一个类型映射函数:φ: V→T,其中T表示类型集 。E表示一个带有关系映射函数的边缘集:其中n: E→R,其中R是一个关系集 。节点表示对象v∈V,边描述两个对象之间的关系r∈R
定义2(Meta-path)
从巴拉克·奥巴马是美国政治家的例子中,我们可以推导出元路径:人是政治家的-→国家 。元路径可以度量对象之间的紧密程度,指导建模进行相似度计算 。
4.方法
MPDRL概述我们提出的方法的示意图概述在图2中 。MPDRL旨在通过对象之间的多跳推理从HIN中发现元路径;这个过程包括两个步骤 。
MPDRL的概述 。MPDRL由两个步骤组成:1)利用RL进行多跳推理,在HIN中生成路径实例;2)由路径实例进行元路径归纳 。左边的灰框是我们政策网络的架构 。