Do Androids Know They're Only Dreaming of Electric Sheep?

简介

我们设计了一种探针，它是在变压器语言模型的内部表示上训练的，并且可以预测其在上下文生成任务上的幻觉行为。为了促进这种检测，我们创建了一个有机和合成幻觉的跨任务的区间注释数据集。我们发现，训练在合成幻觉的强制解码状态上的探针通常在有机幻觉检测中具有生态无效性。此外，有关幻觉的隐藏状态信息似乎与任务和分布有关。内在和外在幻觉的显著性在层、隐藏状态类型和任务之间存在差异；值得注意的是，变压器内部表示中的外在幻觉往往更加显著。我们表明，在可用模型状态的情况下，探测是一种可行且高效的语言模型幻觉评估替代方法，优于多个当代基线。
图表
解决问题

论文旨在设计一种探针，通过训练变压器语言模型内部表示的预测性来检测其在上下文生成任务中的幻觉行为。这是否是一个新问题？
关键思路

通过创建一个有机和合成幻觉的跨度注释数据集来促进幻觉检测，发现在合成幻觉的强制解码状态上训练的探针通常在有机幻觉检测中是生态无效的。此外，幻觉的隐藏状态信息似乎是任务和分布相关的，内在和外在幻觉显著性在层、隐藏状态类型和任务之间变化，值得深入研究。
其它亮点

该论文的实验设计合理，使用了有机和合成幻觉的跨度注释数据集，证明了探针是一种可行和高效的替代语言模型幻觉评估方法，还发现了内在和外在幻觉的显著性差异。
相关研究

最近的相关研究包括：《On the Evaluation of Conditional Language Models》、《The Curious Case of Neural Text Degeneration》等。

Do Androids Know They're Only Dreaming of Electric Sheep?

评论