Octopus v4: Graph of language models

2024年04月30日
  • 简介
    语言模型在广泛应用中表现出了高效的作用,但最复杂的模型通常是专有的。例如,OpenAI的GPT-4和Anthropic的各种模型都很昂贵,消耗大量能源。相比之下,开源社区已经开发出了竞争性的模型,如Llama3。此外,专门针对法律、医疗或金融任务量身定制的小型语言模型,已经超过了专有的同类模型。本文介绍了一种新方法,采用“功能标记”来集成多个开源模型,每个模型都针对特定任务进行了优化。我们新开发的Octopus v4模型利用“功能标记”智能地将用户查询引导到最合适的垂直模型,并重新格式化查询以实现最佳性能。Octopus v4是Octopus v1、v2和v3模型的进化版,擅长选择和参数理解以及重新格式化。此外,我们探索了图形作为一种多才多艺的数据结构,通过利用Octopus模型和“功能标记”的能力,有效地协调多个开源模型。使用我们的开源GitHub(\url{https://www.nexa4ai.com/})尝试Octopus v4模型(\url{https://huggingface.co/NexaAIDev/Octopus-v4}),并为更大的语言模型图做出贡献。通过激活小于10B参数的模型,我们在相同级别的模型中实现了74.8的SOTA MMLU得分。
  • 图表
  • 解决问题
    如何通过整合多个开源语言模型来提高性能?
  • 关键思路
    使用功能令牌(functional tokens)来智能地将用户查询定向到最合适的垂直模型,并重新格式化查询以实现最佳性能。
  • 其它亮点
    论文介绍了Octopus v4模型,它是Octopus v1、v2和v3模型的进化版本,利用功能令牌来选择和理解参数,并重新格式化查询。使用图作为数据结构来协调多个开源模型的能力。实验结果表明,Octopus v4模型在激活小于10B参数的模型时,实现了74.8的SOTA MMLU分数。
  • 相关研究
    该论文提到了OpenAI的GPT-4和Anthropic的模型,以及Llama3等开源竞争模型。此外,还提到了针对特定领域的小型语言模型在性能上优于专有模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论