- 简介扩散模型在从图像和视频到蛋白质设计和文本等多种模式中产生了令人印象深刻的结果。然而,生成具有用户指定属性的样本仍然是一个挑战。最近的研究提出通过微调模型以最大化捕捉所需属性的奖励,但这些方法需要昂贵的训练,并且容易出现模式崩溃。在这项工作中,我们提出了费曼-卡茨(Feynman Kac, FK)引导,这是一种基于奖励函数在推理时间引导扩散模型的框架。FK引导通过采样多个相互作用的扩散过程系统(称为粒子),并在中间步骤根据使用势函数计算的分数重新采样粒子来工作。势函数是用中间状态的奖励定义的,并选择使得高值表示该粒子将产生高奖励的样本。我们探讨了各种势函数、中间奖励和采样器的选择。我们在文本到图像和文本扩散模型上评估了FK引导。对于使用人类偏好奖励引导文本到图像模型,我们发现FK引导一个8亿参数的模型在提示保真度上优于一个26亿参数的微调模型,并且具有更快的采样速度和无需训练的优势。对于使用文本质量和特定文本属性奖励引导文本扩散模型,我们发现FK引导生成了更低的困惑度、更符合语言学接受的输出,并且能够无梯度地控制诸如毒性等属性。我们的结果表明,即使使用现成的奖励,在推理时间对扩散模型进行扩展和引导也能显著提高样本质量并增强可控性。代码可在 https://github.com/zacharyhorvitz/Fk-Diffusion-Steering 获取。
- 图表
- 解决问题该论文试图解决在生成样本时如何根据用户指定的属性进行控制的问题。尽管扩散模型在多种模ality上表现出色,但生成具有特定属性的样本仍然是一个挑战。这是一个需要进一步探索的问题,因为现有的方法通常依赖于昂贵的再训练过程,并且容易出现模式崩溃。
- 关键思路论文提出了一种名为Feynman Kac (FK) 转向的推理时间框架,用于通过奖励函数转向扩散模型。关键思路是使用多个相互作用的扩散过程(称为粒子),并在中间步骤根据基于潜在函数计算的分数重新采样这些粒子。这种方法避免了昂贵的再训练过程,并能在推理阶段实现对生成样本属性的有效控制,相比现有方法更具创新性和效率。
- 其它亮点论文展示了FK转向在文本到图像和文本扩散模型上的应用,证明了它可以在不进行额外训练的情况下优于经过微调的大规模模型。实验设计包括评估人类偏好奖励下的文本到图像生成,以及文本质量和特定文本属性的奖励下的文本生成。作者还开源了代码,为后续研究提供了便利。未来的研究可以进一步探索不同类型的奖励函数和更复杂的交互机制。
- 最近在这个领域中,相关的研究包括:1. 使用强化学习优化扩散模型的生成过程;2. 提出新的损失函数以提高生成样本的质量和多样性;3. 探索多模态数据的联合生成。相关研究的论文标题如《Optimizing Diffusion Models with Reinforcement Learning》、《Enhancing Sample Diversity in Diffusion Models via Novel Loss Functions》、《Joint Multimodal Generation Using Diffusion Models》。
沙发等你来抢
去评论
评论
沙发等你来抢