标题:ICLR 23 Submission (6)| Causal Estimation for Text Data with (Apparent) Overlap Violations|具有(明显的)违背重叠假设的文本数据的因果估计
简介:考虑估计文本文件的某些属性的因果效应的问题;例如:写一封礼貌的和粗鲁的电子邮件对响应时间有什么影响?为了从观察数据中估计因果效应,我们需要调整影响处理和结果的文本的混杂方面--例如,文本的主题或写作水平。这些混杂的方面是先验的,所以调整整个文本似乎是很自然的(例如,使用transformer)。然而,因果识别和估计程序依赖于重叠的假设:对于所有级别的调整变量,都有随机性的遗留,所以每个单元都可能(不)接受治疗。由于这里的治疗本身是文本的一个属性,它是完全确定的,重叠显然被违反了。本文的目的是说明如何处理因果识别,并在明显违反重叠的情况下获得稳健的因果估计。简而言之,我们的想法是使用监督表征学习来产生一个数据表征,保留混杂的信息,同时消除只对治疗有预测作用的信息。然后这个表征就足以进行调整并满足重叠。根据非参数估计的结果,我们表明这个程序对条件性结果的错误估计显示出鲁棒性,并产生一个低偏差的估计器,在弱的条件下允许有效的不确定性量化。经验结果显示,相对于自然(基于transformer)的基线,偏差减少了,不确定性量化也有很大改善。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢