Controlling Language and Diffusion Models by Transporting Activations

2024年10月30日
  • 简介
    大型生成模型的能力不断提升及其应用范围的不断扩大,引发了对其可靠性、安全性和潜在滥用的担忧。为了解决这些问题,近期的研究提出通过引导模型激活来控制模型生成,从而有效地诱导或阻止生成输出中某些概念或行为的出现。在本文中,我们引入了激活传输(AcT)这一通用框架,该框架基于最优传输理论,概括了许多先前的激活引导工作。AcT 不依赖于特定模态,并且能够在几乎不影响模型能力的情况下,以极小的计算开销提供对模型行为的精细控制。我们通过实验展示了 AcT 在应对大型语言模型(LLMs)和文本到图像扩散模型(T2Is)中的关键挑战时的有效性和多功能性。对于 LLMs,我们展示了 AcT 能够有效减轻毒性内容,诱导任意概念,并提高其真实性。在 T2Is 中,我们展示了 AcT 如何实现细粒度的风格控制和概念否定。
  • 图表
  • 解决问题
    该论文旨在解决大型生成模型在可靠性、安全性和潜在误用方面的问题。随着这些模型能力的增强和应用范围的扩大,如何有效控制模型生成的内容成为了一个重要课题。
  • 关键思路
    论文提出了一种基于最优传输理论的通用框架——激活传输(Activation Transport, AcT),用于引导模型激活,从而实现对生成内容的精细控制。AcT不仅模态无关,而且计算开销极小,对模型能力的影响也最小。这一方法在很大程度上扩展了之前的激活引导技术,提供了更广泛的应用可能性。
  • 其它亮点
    1. 实验验证了AcT在大型语言模型(LLMs)和文本到图像扩散模型(T2Is)中的有效性。2. 对于LLMs,AcT能够有效减少毒性内容,诱导特定概念的出现,并提高模型的真实性。3. 对于T2Is,AcT实现了细粒度的风格控制和概念否定。4. 论文提供了详细的实验设计和数据集信息,并且代码已经开源,方便其他研究者复现和进一步探索。
  • 相关研究
    近年来,关于控制生成模型的研究越来越多。例如,《Steering Generative Models with Continuous Conditional GANs》提出了通过连续条件GAN来引导生成内容;《Controlling Neural Networks with Rule-Based Programming》探讨了使用规则编程来控制神经网络的行为;《Guiding Text Generation with Conceptual Constraints》则研究了如何通过概念约束来引导文本生成。这些研究都为AcT的发展提供了重要的参考和基础。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论