- 简介人们对微调前沿大型语言模型(LLM)以注入新信息和更新现有知识非常感兴趣。尽管OpenAI和Google等提供商提供的商业LLM微调API承诺可以灵活适应各种应用,但微调的有效性仍不清楚。在本研究中,我们介绍了FineTuneBench,这是一个评估框架和数据集,旨在了解商业微调API在成功学习新知识和更新知识方面的表现。我们分析了五种具有商用微调API的前沿LLM,包括GPT-4o和Gemini 1.5 Pro,评估它们在两种设置下的有效性:(1)吸收新信息,例如最近的新闻事件和新人物简介;(2)更新现有知识,例如最新的医疗指南和代码框架。我们的结果显示,所有模型在通过微调有效学习新信息方面都存在显著不足,平均泛化准确率为37%。在更新现有知识时,如纳入医疗指南更新,商业微调API的能力更加有限,平均泛化准确率仅为19%。总体而言,微调GPT-4o mini在注入新知识和更新知识方面最有效,其次是GPT-3.5 Turbo和GPT-4o。Gemini 1.5 Flesh和Gemini 1.5 Pro的微调API无法学习新知识或更新现有知识。这些发现强调了当前使用商业微调服务在常见场景中实现可靠知识注入的一个主要不足。我们已将FineTuneBench数据集开源,地址为https://github.com/kevinwu23/StanfordFineTuneBench。
-
- 图表
- 解决问题该论文探讨了通过商业细调API对前沿大型语言模型(LLMs)注入新信息和更新现有知识的有效性。这是一个新兴的研究方向,因为随着LLMs的发展,如何有效地更新这些模型的知识库成为了业界和学术界关注的问题。
- 关键思路论文提出了FineTuneBench,一个评估框架和数据集,用于系统地分析商业细调API在学习新信息和更新现有知识方面的表现。与现有的研究不同,本研究不仅关注模型的学习能力,还特别考察了模型在实际应用场景中的泛化性能。
- 其它亮点研究分析了五种前沿LLM,包括GPT-4o和Gemini 1.5 Pro,在两个设置下的表现:摄入新信息和更新现有知识。结果显示,所有模型在细调后的一般泛化准确率仅为37%,而在更新现有知识时,这一数字下降到19%。此外,研究发现GPT-4o mini在两项任务中表现最佳,而Gemini 1.5系列则未能有效学习新知识或更新现有知识。论文还开源了FineTuneBench数据集,为后续研究提供了宝贵的资源。
- 近期在这个领域内,有几项相关研究值得关注: 1. "Evaluating the Effectiveness of Fine-Tuning Large Language Models on Domain-Specific Tasks" - 探讨了LLM在特定领域任务上的细调效果。 2. "Knowledge Infusion in Pre-trained Language Models: A Survey" - 综述了知识注入技术在预训练语言模型中的应用和发展。 3. "Fine-Tuning Strategies for Continuous Learning in Large Language Models" - 讨论了连续学习背景下LLM的细调策略。


提问交流