ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?

Hailin Chen ,
Fangkai Jiao ,
Xingxuan Li ,
Chengwei Qin ,
Mathieu Ravaut ,
Ruochen Zhao ,
Caiming Xiong ,
Shafiq Joty
2023年11月28日
  • 简介
    2022年底,ChatGPT的发布在人工智能领域的研究和商业中带来了巨大的变革。通过对大型语言模型(LLM)进行监督微调和强化学习的指导,以及从人类反馈中学习,ChatGPT展示出模型能够回答人类问题并在广泛的任务面板上遵循指令。随着这一成功,对LLMs的兴趣不断增强,包括许多专注于LLMs的初创企业,学术界和工业界也频繁涌现新的LLMs。虽然闭源LLMs(例如OpenAI的GPT,Anthropic的Claude)通常表现优于开源LLMs,但后者的进展迅速,声称在某些任务上达到或甚至更好的水平,这不仅对研究而且对商业都具有重要意义。在ChatGPT发布一周年之际,本文提供了一个详尽的概述,调查了所有开源LLM声称与ChatGPT相当或更好的任务。
  • 图表
  • 解决问题
    开源大语言模型在各个任务上是否能够与ChatGPT等闭源模型相媲美或者更优?
  • 关键思路
    本文对开源大语言模型在各个任务上的表现进行了全面调查和总结,并提出了一些改进方案。
  • 其它亮点
    本文总结了开源大语言模型在各个任务上的表现,并提出了一些改进方案。实验使用了多个数据集,其中一部分数据集已经开源。开源大语言模型在某些任务上甚至超过了ChatGPT等闭源模型。
  • 相关研究
    最近的相关研究包括:1. Pile: The Largest Openly Available Dataset for Training and Evaluating Conversational AI。2. GPT Understands, Too。3. XLNet: Generalized Autoregressive Pretraining for Language Understanding。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论