【论文导读】DAG( 二 )


我们的建议有以下明显的特点和优势 。首先,这项工作建立在深度生成模型(特别是变异自动编码器,VAE( & ,2014))的广泛使用上,这些模型能够捕获复杂的数据分布并从中取样 。在图的设置下,加权邻接矩阵是一个明确的参数,而不是一个潜在的结构,可与其他神经网络参数一起学习 。所提出的网络结构以前还没有被使用过 。
第二,VAE的框架自然地处理各种数据类型,特别是不仅有连续的,也有离散的 。人们需要做的就是建立与变量性质一致的似然分布(解码器输出)模型 。
第三,由于使用图神经网络进行参数化,每个变量(节点)不仅可以是标量值的,而且可以是矢量值的 。这些变量被认为是输入/输出到GNNs的节点特征 。
第四,我们提出了一个更适合在当前深度学习平台下实施的非周期性约束的变体 。Zheng等人(2018)建议的矩阵指数,虽然在数学上很优雅,但可能无法在所有流行的平台上实现或支持自动分化 。我们提出了一个多项式的替代方案,在实践中更加方便,并且在数值上与指数一样稳定 。我们在由线性和非线性SEM产生的合成数据、离散变量的基准数据集和应用数据集上证明了所提方法的有效性 。对于合成数据,提议的DAG-GNN优于Zheng等人(2018)提出的基于线性SEM的算法DAG- 。对于基准数据,我们学习到的图与通过使用组合搜索优化贝叶斯信息准则获得的图相比更有优势 。
背景和相关工作
一个DAG G和一个联合分布P是相互忠实()的:如果P中的所有条件独立性有且仅有G所包含的(Pearl,1988) 。忠实性条件使人们能够从P中恢复G 。如果给定独立同分布D、知道是从一个分布中取出、且这个分布对应于一个忠实但未知的DAG,结构学习( )指的是从D中恢复DAG 。
许多精确和近似的算法用于从数据中学习DAG 的算法,其中包括基于分数和基于约束的方法(等人,2000a;,2002; & Sood,2004; & , 2006;等人,2010;,2011;Yuan & , 2013;Gao & Wei, 2018) 。基于分数的方法通常使用一个分数来衡量不同图形对数据的拟合度数据;然后使用搜索程序--如爬坡法(等人,1995;等人,2006 。Gmez等人,2011)、前向-后向搜索(, 2002),动态编程(Singh和Moore,2005;和,2006),A?(Yuan和,2013) 。(Yuan & , 2013) 。或整数编程(等人,2010;, 2011年;等人,2016年),以找到最佳图形 。常用的贝叶斯评分标准,如BDeu和 贝叶斯信息准则(BIC),是可分解的()、一致()、局部一致的(local )(,2002),以及得分等价的(score )(等人,1995) 。
可分解的保证了我们可以对这个score“分而治之”、保证了越大越好(而不会出现score高了的DAG反而不能更好刻画分布的独立性条件)、local 保证对加一条边()的
具体见, D. M., , D., and Meek, C. Large-ofis NP-hard.of, 5:1287–1330, 2004.
一篇很长、有很多证明的论文,读了很久但是很有收获
这篇更长了…………离谱插个眼之后去看看
, D., , D., and , D. M.: Theofanddata., 20(3):197–243, 1995.
为了使DAG的搜索空间具有可操作性【否则容易出现NP-难的问题】,近似方法做出了额外的假设,如有界的树宽(Nie等人,2014),树状结构(Chow 和Liu,1968),近似(等人,2015)和 关于DAG的其他约束(Chen等人,2016) 。许多 (等人,1999)和基于抽样的结构学习算法(等人,1995; & , 2003; Eaton & , 2012;& , 2008;&¨, 2013;等人,2012;He等人,2016)也被提出来解决昂贵的搜索问题 。
相比之下,基于约束的方法使用(条件)独立性测试来测试每个变量对之间是否存在边 。变量对之间的存在 。流行的算法包括SGS( 等人,2000b)、PC(等人,2000b)、IC(Pearl, 2003)和FCI(等人,1995;Zhang,2008【插眼,之后跟进】) 。最近,出现了一套混合算法,结合了基于分数和基于约束的方法,如 MMHC(等人,2003),并将基于约束的方法应用于多种环境(Mooij等人 。2016).