近日,Fudan DISC与King's College London NLP Group 合作的最新工作 Large Language Models Hack Rewards, and Society 被Science News报道 。
论文中探讨了一个问题:在人工智能被广泛应用的今天,由后训练引发的奖励作弊(Reward Hacking)现象,是否会从对封闭数据集指标的拟合,演变为对现实社会规章制度的漏洞利用??
报道原文:https://www.science.org/content/article/ai-models-have-troubling-knack-discovering-legal-loopholes


题目:Large Language Models Hack Rewards, and Society
作者:Wei Liu*, Xinyi Mou*, Hanqi Yan, Zhongyu Wei, Yulan He
单位:King's College London, Fudan University, Shanghai Innovation Institute, The Alan Turing Institute
arXiv:https://arxiv.org/abs/2606.04075
Github:https://github.com/thinkwee/SocioHack
研究背景

图1:不同层级hacking行为的比较,从简单的人类偏好到复杂社会体系。
在强化学习领域,奖励作弊是一种常见的现象,即模型会找到巧妙的、意想不到的捷径来获得高分,但实际上并未实现其任务的真正目标。例如,一个旨在最大限度提高用户满意度的模型可能会学会过度奉承或提供冗长的回复,而不是提供真正的帮助。现实中,越来越多的人和机构在用 LLM 辅助决策、执行任务,模型厂商也会持续收集用户反馈来迭代模型。在这一背景下,我们注意到一个令人警觉的结构性类比:社会规章制度和奖励函数在形式上高度相似,它们都定义了可量化的指标和例外条款,却往往只部分表达了制度背后的真实意图。结果导向、数值驱动的设计,天然为钻空子留下了缝隙。这引出了一个让人不安的问题:
LLM 的 reward hacking 能力,会不会从刷 benchmark升级为钻社会规章制度的漏洞?
为此,我们引入了一个新的概念,称为社会黑客(Societal Hacking),即经过强化学习(RL)训练的模型,可能会自发发现规章制度中的漏洞,生成在字面上合规、却从根本上颠覆制度本意的策略。
SocioHack

图2: SocioHack流程图展示了策略模型如何与模拟环境交互以识别和完善利用策略。
为了安全地研究这个问题,我们构建了 SocioHack, 一个包含 72 个模拟社会制度场景的沙箱,涵盖金融、医疗、移民、专利等多个领域,分为三个子集:
Historical(32个):来源于真实历史规章制度,移除已有补丁重建原始规则,被移除的补丁作为 ground truth;代表性案例包括 SEC Rule 10b5-1 内幕交易规则、Texas two-step 破产结构等。
Synthetic(20个):基于文献中归纳的规律性制度漏洞类型,人工构造植入漏洞的合成场景。
Fictional(20个):将 Synthetic 场景改写为虚构世界背景,保留制度结构与漏洞逻辑。
我们在模拟的社会环境里将问题简化为outcome RLVR去研究这个问题:模型在每轮迭代中生成策略,模拟器评估策略得分,成功的漏洞策略被自动转化为新补丁注入后续 prompt,形成动态军备竞赛式的训练循环。
主要发现
1. RL 能自发还原历史漏洞,效果显著
在没有被显式要求"寻找漏洞"的情况下,RL 在 Historical 子集上达到了 61.25% Recall,显著优于 BoN、IterPrompt、EvoPrompt 等非参数基线。换言之,模型仅仅是在优化制度得分,就自动还原了 60%+ 历史上被真实机构修复的漏洞。
2. 漏洞发现顺序与某些历史修法时间线吻合
在 Hatch-Waxman 药品专利场景中,RL 挖掘漏洞的顺序与历史修法时间线高度一致:先还原 2003 年立法,再还原 2013 年 FTC v. Actavis 案的限制,甚至进一步挖掘出截至 2026 年仍处于草案阶段、尚未通过的反专利常青化条款。
3. 现有 safeguard 方案几乎失效
模型的拒绝机制主要由明显的有害措辞触发,而 RL 产生的策略措辞合规,几乎不会触发拒绝回答。
被RL挖掘出的漏洞策略平均只有 37% 能被self-critique 识别。
KL anchoring 和 entropy regularisation等训练时正则化方法即便强度提升 20 倍,模型也仍能还原大量历史漏洞。
4. 漏洞能跨场景泛化,且与模型无关
在 Historical 上训练的检查点迁移到 Synthetic 和 Fictional 子集后,比直接在这些子集上训练高出 15 个百分点以上。在 Qwen、Gemma 等四个不同模型骨架上复现,均能还原 46–52% 的历史漏洞,没有任何一个模型完全失败。
5. 打补丁像打地鼠,难以彻底修复
连续训练 100 轮后,最高得分很快饱和,但漏洞数量持续累积。后期发现的漏洞措辞更合规、更精妙,实际上保留了相同的漏洞利用机制,只是改变表达方式以适应已有补丁。
思考
AI for Society:reward hacking 可以作为制度漏洞的自动审计工具,提前帮助政策设计者发现和修复规章制度中的薄弱环节。
Society for AI:随着 LLM 在现实世界中被广泛部署,我们可能需要新的 post-training 迭代范式,来应对AI知识平权下的各种风险,并避免将其纳入迭代过程放大AI的缺陷。
我们希望这项工作能引发更多关于 AI 治理与训练范式的思考与讨论。当 AI 真正走入社会、参与决策,我们需要的不只是更强的模型,更是更审慎的训练范式。
来源/参考资料:
https://mp.weixin.qq.com/s/KscHEonwQA1aC6PxCMB_cw
https://mp.weixin.qq.com/s/ZvRfvWVIiLlzXCeE3rcqlA
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢