Aligning LLMs with Individual Preferences via Interaction

简介

随着大型语言模型（LLMs）展示出越来越先进的能力，使它们的行为与人类价值和偏好保持一致对于它们的广泛应用变得至关重要。尽管以前的研究集中于普遍遵循诸如有益性、无害性和诚实等原则的调整，但很少考虑到考虑个人和多样化的偏好，这可能会削弱定制的人类体验。为了解决这一差距，我们训练LLMs，可以“交互对齐”，基本上通过多回合对话培养LLMs的元技能，隐含地推断出当前用户未说出的个性化偏好，然后动态地将它们的后续行为和响应与这些推断的偏好对齐。我们的方法涉及通过最初创建种子样例来建立3,310个不同用户的多样化池，然后通过迭代的自我生成和过滤来扩展这些用户的数量。在不同的用户人物形象的指导下，我们利用多个LLM的协作来开发一个包含3K+多回合对话树结构的偏好数据集。最后，我们应用监督微调和强化学习来使用这个数据集增强LLMs。为了评估，我们建立了ALOE（ALign With CustOmized PrEferences）基准，包括100个精心挑选的例子和设计良好的指标，以衡量对话期间的定制对齐表现。实验结果证明了我们的方法在通过交互实现动态、个性化对齐方面的有效性。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决个性化语言模型对话中的偏好问题

关键思路

通过多轮对话，训练模型自动推断用户的个性化偏好，并根据偏好进行动态调整

其它亮点

论文建立了一个包含3,310个不同用户个性的数据集，并使用多个语言模型进行协作训练，提高模型的个性化对话能力。同时，论文提出了ALOE基准测试集用于评估模型的个性化对话表现。

Aligning LLMs with Individual Preferences via Interaction

提问交流

提问交流