Sparse Autoencoders for Hypothesis Generation

向作者提问

NEW

简介

我们介绍了HypotheSAEs，这是一种通用方法，用于推测文本数据（例如标题）与目标变量（例如点击量）之间可解释的关系。HypotheSAEs包含三个步骤：(1) 在文本嵌入上训练稀疏自编码器，生成描述数据分布的可解释特征；(2) 选择能够预测目标变量的特征；(3) 使用大型语言模型（LLM）为每个特征生成自然语言解释（例如，“提到感到惊讶或震惊”）。每种解释都构成一个关于什么因素预测目标变量的假设。与基线方法相比，我们的方法在合成数据集上能更准确地识别参考假设（F1分数至少提高+0.06），在真实数据集上生成更具预测性的假设（显著发现的数量约为两倍），同时计算成本比最近基于LLM的方法低1到2个数量级。此外，HypotheSAEs在两项深入研究的任务中也产生了新的发现：解释国会演讲中的党派差异，以及识别在线标题参与度的驱动因素。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决如何从文本数据中发现可解释的特征，并将其与目标变量（如点击率）建立关联的问题。这是一个常见的挑战，尤其是在需要理解模型预测背后原因的应用场景中。
关键思路

论文提出了一种名为HypotheSAEs的方法，结合了稀疏自编码器和大型语言模型（LLM）。首先通过稀疏自编码器提取可解释的特征，然后筛选出对目标变量有预测能力的特征，最后利用LLM生成自然语言解释。这种方法不仅提高了特征的可解释性，还显著减少了计算成本，相比现有LLM方法降低了1-2个数量级的计算需求。
其它亮点

实验设计包括合成数据集和真实数据集两部分，验证了方法在F1分数上的提升（至少+0.06）以及在实际应用中产生更多显著发现的能力（约两倍于基线方法）。此外，该方法在两个经典任务上展示了新发现：解释国会演讲中的党派差异和识别在线标题的参与度驱动因素。代码和数据集是否开源未明确提及，但其高效性和新颖性为后续研究提供了方向。
相关研究

近期相关研究包括使用LLM直接生成假设（例如'Prompt-based Hypothesis Generation for Text Data'），以及结合深度学习模型进行特征选择的工作（如'Sparse Feature Selection in Deep Neural Networks'）。其他类似方法还包括基于规则的文本分析（如'Interpretable Rule Mining for Text Classification'）和因果推断技术（如'Causal Analysis of Textual Predictors'）。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问