- 简介最近对通过聚合多个偏好来微调大型语言模型(LLMs)的研究引起了广泛关注。然而,现有文献主要关注聚合算法的经验性能,而忽略了代理人误报其偏好的基本动机。本文将其形式化为多参数机制设计问题,其中LLM提供者设计培训和付款规则以实现特定目标并促进真实报告偏好。首先,我们通过证明在广泛的培训规则下,如果没有付款方案,说真话是一种严格支配策略,来声明付款方案的必要性。然后,我们介绍了用于社会福利最大化培训规则的仿射最大化付款方案,该方案确保了主导策略激励兼容性(DSIC)和个体合理性(IR)。此外,我们证明,在温和条件下,任何其他付款规则,只要它们也在DSIC中实现这些培训规则,就可以通过添加与代理人自己的报告无关的因素将其转换为仿射最大化付款。我们还展示了当机制的输入是报告偏差版本时,该机制满足近似DSIC,展示了其在实际应用中的鲁棒性。
- 图表
- 解决问题本文试图解决如何通过机制设计促进大型语言模型的多参数偏好聚合的问题,以实现特定目标并促进真实偏好的报告。
- 关键思路本文提出了一种机制设计方案,即引入支付机制来促进代理人真实报告偏好,并介绍了一种针对社会福利最大化训练规则的支付机制——仿射最大化器支付机制。
- 其它亮点本文证明了在广泛使用的社会福利最大化训练规则下,支付机制是必要的。仿射最大化器支付机制保证了支配策略激励兼容性和个体合理性,并且可以通过添加与代理人自身报告无关的因素将任何其他支付规则转换为仿射最大化器支付。本文还证明了该机制在输入机制的偏置版本时满足近似支配策略激励兼容性。
- 最近的相关研究包括:《Improving Multi-Task Deep Reinforcement Learning with Soft Modularization》、《Multi-Task Learning with Task Routing》、《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》等。
沙发等你来抢
去评论
评论
沙发等你来抢