TRINITY: An Evolved LLM Coordinator

2025年12月04日
  • 简介
    结合多种基础模型具有广阔前景,但权重融合方法受限于架构不匹配和封闭的API。Trinity通过引入一个轻量级协调器来解决这一问题,该协调器可组织多个大语言模型(LLM)协同工作。该协调器由一个紧凑型语言模型(约0.6B参数)和一个轻量级输出头(约10K参数)组成,并采用进化策略进行优化,以实现高效且自适应的任务分配。Trinity以多轮交互方式处理查询,在每一轮中,协调器为选定的LLM分配三种角色之一:思考者(Thinker)、执行者(Worker)或验证者(Verifier),从而将复杂技能的学习负担有效转移出协调器本身。实验表明,Trinity在编程、数学、推理以及领域知识等任务上始终优于单个模型及现有方法,并能稳健地泛化至分布外任务。在标准基准测试中,Trinity取得了当前最优的结果,例如在LiveCodeBench上达到86.2%的得分。理论与实证分析揭示了其优异性能背后的两个关键因素:(1)协调器的隐状态表征为输入提供了丰富的上下文信息;(2)在高维空间和严格资源限制下,可分离的协方差矩阵自适应进化策略(CMA-ES)相较于强化学习、模仿学习和随机搜索更具优势,因其能够利用潜在的块-epsilon-可分性结构。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何有效整合多样化基础模型(如不同架构或闭源API的LLMs)以实现协同推理的问题。由于现有方法如权重合并受限于模型结构不匹配和无法访问内部参数,难以灵活组合多个大模型的能力。该问题在当前多模型协作需求日益增长的背景下具有现实意义,并非全新问题,但挑战依然显著。
  • 关键思路
    Trinity提出引入一个轻量级协调器(Coordinator),由约0.6B参数的小型语言模型和约10K参数的轻量头组成,通过进化策略优化其决策能力。该协调器在多轮交互中动态地为每个查询将角色(Thinker、Worker、Verifier)分配给不同的LLM,从而实现无需修改底层模型的高效协作。相比传统方法需对齐模型结构或微调整个系统,Trinity将复杂技能获取从协调器中解耦,提升了灵活性与可扩展性。
  • 其它亮点
    实验设计采用多轮任务处理机制,在编码、数学、推理和领域知识等多个任务上验证性能;使用了LiveCodeBench等标准基准,Trinity取得了86.2%的SOTA成绩,并展现出对分布外任务的良好泛化能力;理论分析揭示了协调器隐藏状态的强上下文建模能力和进化策略在高维稀疏约束下的优势;Covariance Matrix Adaptation Evolution Strategy(CMA-ES)被证明优于强化学习、模仿学习和随机搜索;目前未提及代码是否开源,值得进一步探索其协调机制在更多模型组合中的应用潜力。
  • 相关研究
    1. Mixtral of Experts: Designing a Sparse Mixture-of-Experts Language Model 2. Model Soups: Averaging Weights of Multiple Models for Improved Performance 3. AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Frameworks 4. Orca: Progressive Learning from Complex Explanation Traces 5. ChatComposer: Decomposing Tasks with Self-Reflection for Multi-Model Collaboration
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问