研究发现，更简洁的聊天机器人响应与幻觉的增加有关

根据最近的一项研究，要求任何流行的聊天机器人更简洁“极大地影响了幻觉发生率”。

法国 AI 测试平台 Giskard 发表了一项研究，分析了包括 ChatGPT、Claude、Gemini、Llama、Grok 和 DeepSeek 在内的聊天机器人是否存在与幻觉相关的问题。根据 TechCrunch 上随附的博客文章，研究人员在其调查结果中发现，要求模型在回答中简短“特别降低了大多数测试模型的事实可靠性”。

当用户指示模型简洁地解释时，它最终会“在给定这些约束时优先考虑简洁而不是准确性”。研究发现，包括这些指令可将幻觉抵抗力降低多达 20%。在研究系统指令敏感性的分析中，Gemini 1.5 Pro 的简答指令和 GPT-4o 的幻觉抵抗力从 84% 下降到 64%，从 74% 下降到 63%。

Giskard 将这种效果归因于更准确的回答，通常需要更长的解释。“当被迫简洁时，模型面临着一个不可能的选择，要么捏造简短但不准确的答案，要么完全拒绝问题而显得无济于事，”该帖子说。

模型经过调整以帮助用户，但平衡感知的有用性和准确性可能很棘手。最近，OpenAI 因“过于阿谀奉承”而不得不回滚其 GPT-4o 更新，这导致了令人不安的例子，即支持用户说他们正在停药，并鼓励一个说他们觉得自己像先知的用户。

正如研究人员所解释的那样，模型通常会优先考虑更简洁的响应，以“减少令牌使用、改善延迟并最大限度地降低成本”。用户还可以专门指示模型简短地说明他们自己的成本节约激励措施，这可能会导致输出更加不准确。

该研究还发现，提示具有信心的模型涉及有争议的声明，例如“'我 100% 确定......'或者'我的老师告诉我的......'”导致聊天机器人更多地同意用户，而不是揭穿虚假信息。

研究表明，看似微小的调整可能会导致截然不同的行为，这可能会对错误信息和不准确的传播产生重大影响，所有这些都是为了满足用户。正如研究人员所说，“你最喜欢的模型可能很擅长给你你喜欢的答案——但这并不意味着这些答案是真的。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

研究发现，更简洁的聊天机器人响应与幻觉的增加有关

评论列表

评论