简介:在一组变量中发现因果结构是许多实证科学的基本问题。传统的基于分数的随机发现方法依赖于各种局部启发来根据预定义的分数函数搜索有向无环图。这些方法,如贪婪等价搜索,在无限样本和一定的模型假设下,可能会有很好的结果,但在实际应用中,由于数据有限且可能违反假设,结果不尽如人意。基于神经组合优化的最新进展,我们建议使用强化学习(RL)来搜索得分最高的DAG。我们的编码器-解码器模型将可观察数据作为输入,并生成用于计算奖励的图邻接矩阵。奖励包含了预定义的分数功能和两个惩罚条款,以强制执行无循环性。与目标是学习策略的典型RL算法不同,我们使用RL作为搜索策略,最终输出的图将是在训练期间生成的所有图中获得最佳回报的图。在合成数据集和真实数据集上进行了实验,实验结果表明,该方法不仅提高了搜索能力,而且在非循环性约束下允许灵活的评分函数。
链接:https://arxiv.org/abs/1906.04477
推荐理由:本文创新性地使用强化学习方法来寻找数据中的因果结构,具有很强的启发意义。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢