Creative Preference Optimization

2025年05月20日
  • 简介
    虽然大型语言模型(LLMs)在自然语言生成任务中表现出令人印象深刻的能力,但它们生成真正具有创意的内容的能力——以新颖性、多样性、惊喜感和高质量为特征——仍然有限。现有的提升LLM创意的方法往往仅专注于多样性或特定任务,未能以可泛化的方式全面解决创意的多维度特性。在本研究中,我们提出了创意偏好优化(CrPO),这是一种新颖的对齐方法,能够以模块化的方式将多个创意维度的信号注入偏好优化目标中。我们使用CrPO和MuCE(一个新的人工标注大规模数据集,包含超过20万条人工生成的响应和来自30多种心理学创意评估的评分)训练并评估了几个增强创意能力的模型版本。我们的模型在自动化评估和人工评估中均超越了强大的基线模型(包括GPT-4o),生成的内容更加新颖、多样且充满惊喜,同时保持了高输出质量。此外,在NoveltyBench上的进一步评估也证实了我们方法的泛化能力。综合来看,我们的结果表明,在偏好框架内直接优化创意是一个有前景的方向,能够在不牺牲输出质量的前提下提升LLM的创意能力。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLMs)在生成创造性内容时的能力限制问题,具体包括如何提升生成内容的 novelty(新颖性)、diversity(多样性)、surprise(惊喜度)和 quality(质量)。这是一个重要但尚未完全解决的问题,尤其是在将创造力的多维度特性整合到模型优化中。
  • 关键思路
    论文提出了一种名为 Creative Preference Optimization (CrPO) 的新方法,通过在偏好优化目标中模块化地注入来自多个创造力维度的信号,来增强 LLMs 的创造性能力。这种方法相比现有研究更具通用性和系统性,能够同时考虑创造力的多个方面,而非仅关注单一维度(如多样性)。
  • 其它亮点
    1. 使用了 MuCE,一个大规模的人类偏好数据集,包含超过20万个人类生成的响应和30多种心理学创造力评估的评分;2. 在自动化和人工评估中均超越了强大的基线模型(如 GPT-4o),证明了方法的有效性;3. 在 NoveltyBench 数据集上的额外实验验证了方法的泛化能力;4. 论文未提及代码开源情况,但其提出的 CrPO 方法框架值得进一步研究和扩展。
  • 相关研究
    近期相关研究包括:1. 'Diversity-Promoting Language Models',专注于通过调整解码策略提高输出多样性;2. 'Enhancing Creativity in Story Generation with Human Feedback',利用人类反馈优化故事生成的创造性;3. 'Measuring and Improving Neural Text Generation via Psychological Creativity Metrics',探索心理学指标在文本生成中的应用。这些研究大多集中在特定任务或单一创造力维度上,而本论文则提供了一个更全面的解决方案。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问