Sparse Autoencoders for Hypothesis Generation

2025年02月05日
  • 简介
    我们介绍了HypotheSAEs,这是一种通用方法,用于推测文本数据(例如标题)与目标变量(例如点击量)之间可解释的关系。HypotheSAEs包含三个步骤:(1) 在文本嵌入上训练稀疏自编码器,生成描述数据分布的可解释特征;(2) 选择能够预测目标变量的特征;(3) 使用大型语言模型(LLM)为每个特征生成自然语言解释(例如,“提到感到惊讶或震惊”)。每种解释都构成一个关于什么因素预测目标变量的假设。与基线方法相比,我们的方法在合成数据集上能更准确地识别参考假设(F1分数至少提高+0.06),在真实数据集上生成更具预测性的假设(显著发现的数量约为两倍),同时计算成本比最近基于LLM的方法低1到2个数量级。此外,HypotheSAEs在两项深入研究的任务中也产生了新的发现:解释国会演讲中的党派差异,以及识别在线标题参与度的驱动因素。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决如何从文本数据中发现可解释的特征,并将其与目标变量(如点击率)建立关联的问题。这是一个常见的挑战,尤其是在需要理解模型预测背后原因的应用场景中。
  • 关键思路
    论文提出了一种名为HypotheSAEs的方法,结合了稀疏自编码器和大型语言模型(LLM)。首先通过稀疏自编码器提取可解释的特征,然后筛选出对目标变量有预测能力的特征,最后利用LLM生成自然语言解释。这种方法不仅提高了特征的可解释性,还显著减少了计算成本,相比现有LLM方法降低了1-2个数量级的计算需求。
  • 其它亮点
    实验设计包括合成数据集和真实数据集两部分,验证了方法在F1分数上的提升(至少+0.06)以及在实际应用中产生更多显著发现的能力(约两倍于基线方法)。此外,该方法在两个经典任务上展示了新发现:解释国会演讲中的党派差异和识别在线标题的参与度驱动因素。代码和数据集是否开源未明确提及,但其高效性和新颖性为后续研究提供了方向。
  • 相关研究
    近期相关研究包括使用LLM直接生成假设(例如'Prompt-based Hypothesis Generation for Text Data'),以及结合深度学习模型进行特征选择的工作(如'Sparse Feature Selection in Deep Neural Networks')。其他类似方法还包括基于规则的文本分析(如'Interpretable Rule Mining for Text Classification')和因果推断技术(如'Causal Analysis of Textual Predictors')。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问