- 简介生成高质量的故事,涵盖数千个标记,需要具备多种技能的综合能力,从跟踪情节和角色发展,到保持一致且引人入胜的写作风格。由于标注数据集获取困难,以及质量评估难以精确量化,大多数利用大型语言模型(LLMs)进行长篇故事生成的研究依赖于手动设计的提示技术组合,以激发类似作者的行为。这是一种高度依赖具体故事生成任务的手动过程。受到近期将带有可验证奖励的强化学习(RL)成功应用于数学和编程领域的启发,我们提出了一种通用的故事生成任务(下一章节预测)以及一种奖励公式(通过完成可能性提升实现的可验证奖励),这使我们能够使用未标注的书籍数据集作为推理的学习信号。我们学习如何对故事的浓缩信息进行推理,并为下一章节生成详细的计划。我们的推理能力通过帮助故事生成器创建的章节来评估,并与未训练模型和监督微调(SFT)基线进行对比。成对的人类判断显示,我们通过学习推理生成的章节在几乎所有指标上都更受青睐,而这种效果在科幻和奇幻题材中尤为显著。
- 图表
- 解决问题论文试图解决长篇故事生成的问题,特别是如何通过大规模语言模型(LLMs)生成高质量、连贯且风格一致的长篇故事。这是一个具有挑战性的问题,因为需要同时跟踪情节和角色发展,并保持写作风格的一致性。尽管已有研究使用手动设计的提示技术,但这种方法依赖于特定任务且不够通用。
- 关键思路论文提出了一种新的方法,结合‘下一章节预测’任务和基于完成概率改进的可验证奖励机制(Verified Rewards via Completion Likelihood Improvement),利用未标注的书籍数据集作为学习信号。与传统的监督微调(SFT)不同,该方法通过强化学习训练模型进行推理,生成下一章节的详细计划,从而提升生成故事的质量和连贯性。
- 其它亮点1. 提出了一个通用的任务框架(Next-Chapter Prediction),适用于多种类型的长篇故事生成。 2. 使用强化学习中的可验证奖励机制,避免了对大量标注数据的需求。 3. 在科幻和奇幻类别的故事生成中表现尤为突出,人类评估显示其生成的章节在多个指标上优于非训练和监督微调基线。 4. 实验设计包括与多种基线方法的比较,以及详细的定性和定量分析。 5. 论文提到未来可以进一步探索跨领域的泛化能力和更复杂的叙事结构生成。
- 相关研究包括: 1. 使用大型语言模型进行文本生成的研究,如《Language Models are Few-Shot Learners》(Brown et al., 2020)。 2. 强化学习在自然语言处理中的应用,例如《RL with Human Feedback for Dialogue Systems》。 3. 针对数学和编程问题的可验证奖励机制研究,如《Training Verifiers to Solve Math Word Problems》。 4. 故事生成领域的其他工作,如《Controlled Story Generation with Pretrained Language Models》和《StoryGAN: A Sequential Conditional GAN for Story Visualization》。
沙发等你来抢
去评论
评论
沙发等你来抢