- 简介推理时技术正在成为增强大型语言模型(LLM)能力的高度有效的工具。然而,由于我们对单个推理时技术的效用以及它们之间的相互作用的理解有限,因此开发结合这些技术的系统的最佳实践仍未得到充分发展。此外,由于设计空间巨大,高效自动地搜索模型选择、推理时技术及其组合的空间也是具有挑战性的。为了解决这些挑战,我们介绍了Archon,这是一个模块化框架,用于选择、组合和堆叠推理时技术层,构建针对目标基准测试的优化LLM系统。我们利用多样化的LLMs和推理时技术,而不是依赖于单个LLM,创造出比其各部分之和更大的LLM系统。Archon定义了可扩展的设计空间,包括生成集成、重复采样、排名、融合、批判、验证和单元测试等技术。它将构建LLM系统的问题转化为超参数优化目标。鉴于可用的LLMs、推理时技术和计算预算,Archon利用超参数搜索技术发现了目标基准测试的优化架构。我们在一系列指令跟随、推理和编码基准测试中评估Archon架构,包括MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH和CodeContests。Archon架构在这些基准测试中优于前沿模型,如GPT-4o和Claude 3.5 Sonnet,通过使用所有可用的LLMs,平均准确率提高了15.1个百分点。我们在Github上公开了我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。
- 图表
- 解决问题如何优化大型语言模型的能力?
- 关键思路使用模块化框架Archon来选择、组合和堆叠推理技术的层,构建针对目标基准测试的优化LLM系统。
- 其它亮点Archon定义了一个可扩展的设计空间,包括生成集成、重复采样、排名、融合、批判、验证和单元测试等技术。它将构建LLM系统的问题转化为超参数优化目标,使用超参数搜索技术发现目标基准测试的优化体系结构。在多个基准测试中,Archon体系结构在准确性方面优于前沿模型,如GPT-4o和Claude 3.5 Sonnet。
- 最近的相关研究包括:《GPT-4o: Next-Generation Language Models for Few-Shot Learning》、《Claude 3.5 Sonnet: A 13B-Parameter Language Model with Explicit Syntactic and Semantic Representations》等。
沙发等你来抢
去评论
评论
沙发等你来抢