- 简介当前的人工智能训练方法仅在模型的核心能力基本形成之后,才将其与人类价值观进行对齐,导致模型容易偏离预期,并缺乏根深蒂固的价值体系。我们提出一种从“模型训练”到“模型养育”的范式转变,将价值对齐从一开始就融入模型的发展过程之中。我们确定了实现这一范式的若干关键要素,其核心在于重新设计训练语料库:将训练数据从第一人称视角进行重构,把信息重新置于“亲身体验”的情境中,模拟社会互动,并对训练数据的顺序进行结构化安排。我们预期,通过这种语料库的重新设计,模型将从第一个训练词元开始就建立起对价值观的早期承诺,从而使知识、技能与价值观内在地紧密结合,难以分离。在一个大语言模型能力已在诸多任务上开始超越人类能力的生态中,我们认为这种转变显得尤为迫切和关键。
-
- 图表
- 解决问题当前的AI训练方法在模型核心能力形成之后才进行人类价值观对齐,导致模型容易偏离人类价值体系,缺乏内在稳固的价值观基础。论文试图解决如何从训练初期就将价值观嵌入模型发展过程的问题,确保知识、技能与价值观深度融合。这是一个随着大模型能力超越人类而愈发紧迫的新问题。
- 关键思路提出从‘模型训练’到‘模型养育(model raising)’的范式转变,强调从第一训练token开始就将价值对齐融入模型成长全过程。关键创新在于重构训练语料:采用第一人称视角、将信息转化为‘经历’、模拟社会互动、以及对训练数据进行发展性阶段化排序,使模型像被‘养育’一样逐步建立价值观。
- 其它亮点论文提出了系统性的语料设计框架,而非依赖后期微调或奖励建模。实验设计虽尚处概念阶段,但提出了可验证的发展路径,例如通过控制训练序列顺序观察价值观稳定性。未提及具体数据集或开源代码,但为未来构建‘养育型’训练语料库提供了理论蓝图。值得深入研究的方向包括:如何量化‘价值观内化’程度、设计可扩展的社会交互模拟机制、以及构建分阶段的认知发展语料序列。
- 1. Training Language Models to Follow Instructions with Human Feedback (InstructGPT) 2. Large Language Models as Agents of Alignment 3. Social Imitation: Aligning Language Models with Normative Behavior through Social Simulation 4. Developmental AI: Drawing from Cognitive Science to Build More General Intelligence 5. Value Learning in Language Models: Challenges and Pathways
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流