- 简介大范围采用大语言模型(LLM)导致了一种特征性的重复性表达方式,被称为“文本冗余”(slop),这种现象会降低输出质量,并使人工智能生成的文本极易被识别。我们提出了Antislop——一个综合性框架,提供检测并消除这些过度使用模式的工具。我们的方法结合了三项创新:(1)Antislop采样器,该采样器在推理过程中利用回溯技术抑制不需要的字符串,同时不破坏词汇多样性;(2)一套自动化流程,用于将模型特有的冗余模式与人类文本基线进行对比分析,并生成相应的训练数据;(3)最终令牌偏好优化(FTPO),这是一种新颖的微调方法,针对单个令牌进行操作,在推理轨迹中出现禁用模式的位置精准调整logits值。我们证明,某些冗余模式在大语言模型输出中的出现频率比在人类文本中高出1000倍以上。Antislop采样器成功抑制了8000多种模式,同时保持了生成质量;相比之下,传统的令牌屏蔽方法在仅屏蔽2000个模式时就已变得无法使用。更重要的是,FTPO在跨领域评估任务(包括GSM8K、MMLU以及创意写作)中实现了90%的冗余减少,同时维持甚至提升了模型性能。相比之下,DPO方法尽管抑制效果较弱,却已导致文本质量和词汇多样性的显著下降。我们已在MIT许可下公开所有代码和结果:https://github.com/sam-paech/auto-antislop。
-
- 图表
- 解决问题论文旨在解决大语言模型(LLM)广泛使用后产生的重复性、模板化表达问题,即‘slop’现象。这种语言退化使得AI生成文本容易被识别且质量下降。尽管此前已有对文本多样性的关注,但系统性识别和消除特定模式的‘slop’仍是一个较新的问题。
- 关键思路提出Antislop框架,包含三个核心创新:1)Antislop Sampler,利用回溯机制在推理时抑制不良字符串而不破坏词汇多样性;2)自动化流程,通过对比模型与人类文本分析模型特有的slop并生成训练数据;3)最终令牌偏好优化(FTPO),一种基于推理轨迹中禁用模式出现位置、对单个token进行logit微调的新细调方法。相比传统方法如token banning或DPO,该方法更精准、高效且不损害生成质量。
- 其它亮点实验显示某些slop模式在LLM输出中出现频率超过人类文本1000倍以上;Antislop Sampler成功抑制8000+模式,远超token banning在2000模式时的崩溃点;FTPO实现90%的slop减少,并在GSM8K、MMLU和创意写作等跨领域任务中保持或提升性能;相比之下,DPO导致文本质量和词汇多样性显著下降。代码与结果已开源,MIT许可发布于https://github.com/sam-paech/auto-antislop,具备高可复现性和实用价值。未来可探索slop定义的动态更新、多语言扩展及与其他对齐技术的融合。
- 近期相关研究包括:'Self-Alignment with Instruction Backtranslation'(Wang et al., 2023)探索无监督指令微调;'Controlling Textual Style Transfer via Disentangled Representations'(Li et al., 2022)关注风格解耦控制;'On the Measurability of LLM Creativity'(Jiang et al., 2023)尝试量化创造性;以及'Direct Preference Optimization'(Rafailov et al., 2023)作为DPO基础工作。此外,'DejaVu: Debiasing Language Models via Data Erasure'(Zhang et al., 2023)从训练数据层面干预,与本文的运行时与微调策略形成互补视角。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流