Antislop: A Comprehensive Framework for Identifying and Eliminating Repetitive Patterns in Language Models

向作者提问

NEW

简介

大范围采用大语言模型（LLM）导致了一种特征性的重复性表达方式，被称为“文本冗余”（slop），这种现象会降低输出质量，并使人工智能生成的文本极易被识别。我们提出了Antislop——一个综合性框架，提供检测并消除这些过度使用模式的工具。我们的方法结合了三项创新：（1）Antislop采样器，该采样器在推理过程中利用回溯技术抑制不需要的字符串，同时不破坏词汇多样性；（2）一套自动化流程，用于将模型特有的冗余模式与人类文本基线进行对比分析，并生成相应的训练数据；（3）最终令牌偏好优化（FTPO），这是一种新颖的微调方法，针对单个令牌进行操作，在推理轨迹中出现禁用模式的位置精准调整logits值。我们证明，某些冗余模式在大语言模型输出中的出现频率比在人类文本中高出1000倍以上。Antislop采样器成功抑制了8000多种模式，同时保持了生成质量；相比之下，传统的令牌屏蔽方法在仅屏蔽2000个模式时就已变得无法使用。更重要的是，FTPO在跨领域评估任务（包括GSM8K、MMLU以及创意写作）中实现了90%的冗余减少，同时维持甚至提升了模型性能。相比之下，DPO方法尽管抑制效果较弱，却已导致文本质量和词汇多样性的显著下降。我们已在MIT许可下公开所有代码和结果：https://github.com/sam-paech/auto-antislop。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大语言模型（LLM）广泛使用后产生的重复性、模板化表达问题，即‘slop’现象。这种语言退化使得AI生成文本容易被识别且质量下降。尽管此前已有对文本多样性的关注，但系统性识别和消除特定模式的‘slop’仍是一个较新的问题。
关键思路

提出Antislop框架，包含三个核心创新：1）Antislop Sampler，利用回溯机制在推理时抑制不良字符串而不破坏词汇多样性；2）自动化流程，通过对比模型与人类文本分析模型特有的slop并生成训练数据；3）最终令牌偏好优化（FTPO），一种基于推理轨迹中禁用模式出现位置、对单个token进行logit微调的新细调方法。相比传统方法如token banning或DPO，该方法更精准、高效且不损害生成质量。
其它亮点

实验显示某些slop模式在LLM输出中出现频率超过人类文本1000倍以上；Antislop Sampler成功抑制8000+模式，远超token banning在2000模式时的崩溃点；FTPO实现90%的slop减少，并在GSM8K、MMLU和创意写作等跨领域任务中保持或提升性能；相比之下，DPO导致文本质量和词汇多样性显著下降。代码与结果已开源，MIT许可发布于https://github.com/sam-paech/auto-antislop，具备高可复现性和实用价值。未来可探索slop定义的动态更新、多语言扩展及与其他对齐技术的融合。
相关研究

近期相关研究包括：'Self-Alignment with Instruction Backtranslation'（Wang et al., 2023）探索无监督指令微调；'Controlling Textual Style Transfer via Disentangled Representations'（Li et al., 2022）关注风格解耦控制；'On the Measurability of LLM Creativity'（Jiang et al., 2023）尝试量化创造性；以及'Direct Preference Optimization'（Rafailov et al., 2023）作为DPO基础工作。此外，'DejaVu: Debiasing Language Models via Data Erasure'（Zhang et al., 2023）从训练数据层面干预，与本文的运行时与微调策略形成互补视角。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问