- 简介我们介绍了HypotheSAEs,这是一种通用方法,用于推测文本数据(例如标题)与目标变量(例如点击量)之间可解释的关系。HypotheSAEs包含三个步骤:(1) 在文本嵌入上训练稀疏自编码器,生成描述数据分布的可解释特征;(2) 选择能够预测目标变量的特征;(3) 使用大型语言模型(LLM)为每个特征生成自然语言解释(例如,“提到感到惊讶或震惊”)。每种解释都构成一个关于什么因素预测目标变量的假设。与基线方法相比,我们的方法在合成数据集上能更准确地识别参考假设(F1分数至少提高+0.06),在真实数据集上生成更具预测性的假设(显著发现的数量约为两倍),同时计算成本比最近基于LLM的方法低1到2个数量级。此外,HypotheSAEs在两项深入研究的任务中也产生了新的发现:解释国会演讲中的党派差异,以及识别在线标题参与度的驱动因素。
-
- 图表
- 解决问题该论文试图解决如何从文本数据中发现可解释的特征,并将其与目标变量(如点击率)建立关联的问题。这是一个常见的挑战,尤其是在需要理解模型预测背后原因的应用场景中。
- 关键思路论文提出了一种名为HypotheSAEs的方法,结合了稀疏自编码器和大型语言模型(LLM)。首先通过稀疏自编码器提取可解释的特征,然后筛选出对目标变量有预测能力的特征,最后利用LLM生成自然语言解释。这种方法不仅提高了特征的可解释性,还显著减少了计算成本,相比现有LLM方法降低了1-2个数量级的计算需求。
- 其它亮点实验设计包括合成数据集和真实数据集两部分,验证了方法在F1分数上的提升(至少+0.06)以及在实际应用中产生更多显著发现的能力(约两倍于基线方法)。此外,该方法在两个经典任务上展示了新发现:解释国会演讲中的党派差异和识别在线标题的参与度驱动因素。代码和数据集是否开源未明确提及,但其高效性和新颖性为后续研究提供了方向。
- 近期相关研究包括使用LLM直接生成假设(例如'Prompt-based Hypothesis Generation for Text Data'),以及结合深度学习模型进行特征选择的工作(如'Sparse Feature Selection in Deep Neural Networks')。其他类似方法还包括基于规则的文本分析(如'Interpretable Rule Mining for Text Classification')和因果推断技术(如'Causal Analysis of Textual Predictors')。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流