【论文导读】DAG( 六 )

< d 。为了证明这种能力,我们构建了一个数据集,其中不同的维度来自于线性SEM的随机缩放和扰动的样本 。具体来说,给定一个图形邻接矩阵A,我们首先从线性SEM中构建一个样本x?∈R^{m×1}:
,然后生成第k个维度
,其中u^k和v^k是标准正态的随机标量,z^k是一个标准正态向量 。最终的样本是
我们让d = 5,d_Z = 1,并比较DAG-GNN和DAG- 。SHD和FDR被绘制在图6中 。该图清楚地显示了所提方法的性能明显更好 。此外,参数估计值显示在图7中,与 truth A相比较 。我们可以看到,DAG-GNN的估计图成功地捕获了所有的 truth edges,估计的权重也很相似 。另一方面,DAG-几乎没有学习到图的内容 。
4.2 基准数据集
所提议的方法的一个好处是,它可以自然地处理离散变量,这是线性SEM所不允许的情况 。我们在三个离散的基准数据集上演示了DAG-GNN的使用:Child, Alarm, and Pigs ( et al., 2006).用于比较的是最先进的精确DAG求解器(等人,2016),它是基于一个受限的整数编程公式 。我们使用1000个样本进行学习 。
从表1可以看出,我们的结果相当接近基本事实,而的结果几乎是最优的,这并不令人惊讶 。DAG-GNN表现出的BIC分数差距可能是由相对简单的自动编码器结构造成的,它在逼近多叉分布方面不太成功 。然而,令人鼓舞的是,所提出的方法作为一个统一的框架可以处理离散变量,只需在网络结构上稍作改变 。
4.3 实际应用
我们考虑了一个生物信息学数据集(Sachs等人,2005) 。发现一个基于蛋白质和磷脂表达水平的蛋白质信号网络 。这是 一个广泛用于研究图形模型的数据集 。实验注释被生物研究界接受 。该数据集提供了对人类免疫系统中多种磷酸化蛋白和磷脂成分的表达水平的连续测量 。而建模的网络则提供了通路成分之间的排序 路径成分之间的联系 。基于 n=7466个样本,m=11种细胞类型,Sachs等人(2005年) 估计图中有20条边 。
在表2中,我们将DAG-GNN与DAG- 以及FSG,即等人(2017)提出的快速贪婪搜索方法,与Sachs等人(2017)提供的 truth进行比较 。我们提出的方法实现了 最低的SHD 。我们在图8中进一步展示了我们的估计 图 。我们注意到,它是一个无环的 。我们的方法成功地学习了20条真实的边缘中的8条(如图所示 红色箭头),并预测出5条间接连接的边(蓝色 虚线箭头)以及3条反向边(黄色箭头) 。
在另一个应用中,我们对知识库模式中定义的关系开发了一个新的因果推理任务 。该任务旨在学习一个BN,其中的节点是关系,边表示一个关系是否暗示另一个关系 。例如,人/国籍的关系可能暗示人/语言,因为一个人的口头语言自然与他/她的国籍相关联 。这项任务具有实用价值,因为大多数现有的知识库都是由手工构建的 。这项任务的成功有助于为新的实体提出有意义的关系,并减少人类的努力 。我们从FB15K-237(等人,2015)构建了一个数据集,并在表3中列出了一些提取的因果关系 。由于篇幅限制,我们将细节和更多结果推迟到补充材料中 。人们看到,这些结果是相当直观的 。我们计划与现场专家进行全面研究,以系统地评估提取结果 。
5.结论
DAG结构学习是一个具有挑战性的问题,在图形模型的文献中被长期追求 。这种困难在很大程度上是由于组合式表述中所产生的NP困难性 。Zheng等人(2018)提出了一个等价的连续约束,为使用发达的连续优化技术来解决该问题提供了机会 。在这种情况下,我们探索了神经网络作为功能近似器的力量,并开发了一个深度生成模型来捕捉复杂的数据分布,旨在通过不同的目标函数设计更好地恢复底层DAG 。特别是,我们采用了变分自动编码器的机制,并用新的图形神经网络架构对其进行参数化 。所提出的方法不仅可以处理由超越线性的参数模型产生的数据,还可以处理一般形式的变量,包括标量/矢量值和连续/离散类型 。我们在合成、基准和应用数据上进行了广泛的实验,证明了该提议的实际竞争力