根据最近的一项研究,要求任何流行的聊天机器人更简洁“极大地影响了幻觉发生率”。

法国 AI 测试平台 Giskard 发表了一项研究,分析了包括 ChatGPT、Claude、Gemini、Llama、Grok 和 DeepSeek 在内的聊天机器人是否存在与幻觉相关的问题。根据 TechCrunch 上随附的博客文章,研究人员在其调查结果中发现,要求模型在回答中简短“特别降低了大多数测试模型的事实可靠性”。

当用户指示模型简洁地解释时,它最终会“在给定这些约束时优先考虑简洁而不是准确性”。研究发现,包括这些指令可将幻觉抵抗力降低多达 20%。在研究系统指令敏感性的分析中,Gemini 1.5 Pro 的简答指令和 GPT-4o 的幻觉抵抗力从 84% 下降到 64%,从 74% 下降到 63%。

Giskard 将这种效果归因于更准确的回答,通常需要更长的解释。“当被迫简洁时,模型面临着一个不可能的选择,要么捏造简短但不准确的答案,要么完全拒绝问题而显得无济于事,”该帖子说。

模型经过调整以帮助用户,但平衡感知的有用性和准确性可能很棘手。最近,OpenAI 因“过于阿谀奉承”而不得不回滚其 GPT-4o 更新,这导致了令人不安的例子,即支持用户说他们正在停药,并鼓励一个说他们觉得自己像先知的用户。

正如研究人员所解释的那样,模型通常会优先考虑更简洁的响应,以“减少令牌使用、改善延迟并最大限度地降低成本”。用户还可以专门指示模型简短地说明他们自己的成本节约激励措施,这可能会导致输出更加不准确。

 

该研究还发现,提示具有信心的模型涉及有争议的声明,例如“'我 100% 确定......'或者'我的老师告诉我的......'”导致聊天机器人更多地同意用户,而不是揭穿虚假信息。

研究表明,看似微小的调整可能会导致截然不同的行为,这可能会对错误信息和不准确的传播产生重大影响,所有这些都是为了满足用户。正如研究人员所说,“你最喜欢的模型可能很擅长给你你喜欢的答案——但这并不意味着这些答案是真的。

内容中包含的图片若涉及版权问题,请及时与我们联系删除