Creative Preference Optimization

向作者提问

NEW

简介

虽然大型语言模型（LLMs）在自然语言生成任务中表现出令人印象深刻的能力，但它们生成真正具有创意的内容的能力——以新颖性、多样性、惊喜感和高质量为特征——仍然有限。现有的提升LLM创意的方法往往仅专注于多样性或特定任务，未能以可泛化的方式全面解决创意的多维度特性。在本研究中，我们提出了创意偏好优化（CrPO），这是一种新颖的对齐方法，能够以模块化的方式将多个创意维度的信号注入偏好优化目标中。我们使用CrPO和MuCE（一个新的人工标注大规模数据集，包含超过20万条人工生成的响应和来自30多种心理学创意评估的评分）训练并评估了几个增强创意能力的模型版本。我们的模型在自动化评估和人工评估中均超越了强大的基线模型（包括GPT-4o），生成的内容更加新颖、多样且充满惊喜，同时保持了高输出质量。此外，在NoveltyBench上的进一步评估也证实了我们方法的泛化能力。综合来看，我们的结果表明，在偏好框架内直接优化创意是一个有前景的方向，能够在不牺牲输出质量的前提下提升LLM的创意能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLMs）在生成创造性内容时的能力限制问题，具体包括如何提升生成内容的 novelty（新颖性）、diversity（多样性）、surprise（惊喜度）和 quality（质量）。这是一个重要但尚未完全解决的问题，尤其是在将创造力的多维度特性整合到模型优化中。
关键思路

论文提出了一种名为 Creative Preference Optimization (CrPO) 的新方法，通过在偏好优化目标中模块化地注入来自多个创造力维度的信号，来增强 LLMs 的创造性能力。这种方法相比现有研究更具通用性和系统性，能够同时考虑创造力的多个方面，而非仅关注单一维度（如多样性）。
其它亮点

1. 使用了 MuCE，一个大规模的人类偏好数据集，包含超过20万个人类生成的响应和30多种心理学创造力评估的评分；2. 在自动化和人工评估中均超越了强大的基线模型（如 GPT-4o），证明了方法的有效性；3. 在 NoveltyBench 数据集上的额外实验验证了方法的泛化能力；4. 论文未提及代码开源情况，但其提出的 CrPO 方法框架值得进一步研究和扩展。
相关研究

近期相关研究包括：1. 'Diversity-Promoting Language Models'，专注于通过调整解码策略提高输出多样性；2. 'Enhancing Creativity in Story Generation with Human Feedback'，利用人类反馈优化故事生成的创造性；3. 'Measuring and Improving Neural Text Generation via Psychological Creativity Metrics'，探索心理学指标在文本生成中的应用。这些研究大多集中在特定任务或单一创造力维度上，而本论文则提供了一个更全面的解决方案。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问