An In-depth Look at Gemini's Language Abilities

Syeda Nahida Akter ,
Zichun Yu ,
Aashiq Muhamed ,
Tianyue Ou ,
Alex Bäuerle ,
Ángel Alexander Cabrera ,
Krish Dholakia ,
Chenyan Xiong ,
Graham Neubig
2023年12月18日
  • 简介
    最近发布的谷歌Gemini模型系列是第一个在广泛的任务中全面报告结果,可以与OpenAI GPT系列相媲美的模型。本文对Gemini的语言能力进行了深入探索,并做出了两点贡献。首先,我们提供了第三方、客观的OpenAI GPT和Google Gemini模型能力比较,并提供可复现的代码和完全透明的结果。其次,我们对结果进行了更详细的分析,确定了两种模型中优秀的领域。我们在10个数据集上进行了这项分析,测试了各种语言能力,包括推理、回答基于知识的问题、解决数学问题、语言翻译、生成代码和作为指令跟随代理。通过这个分析,我们发现Gemini Pro在我们测试的所有任务中的准确度都接近但略低于相应的GPT 3.5 Turbo。我们进一步提供了一些这种低效表现的解释,包括在许多数字的数学推理中失败、对多项选择答案排序的敏感性、过度的内容过滤等。我们还确定了Gemini表现出相对较高性能的领域,包括生成非英语语言和处理更长、更复杂的推理链。可在https://github.com/neulab/gemini-benchmark找到复现所需的代码和数据。
  • 图表
  • 解决问题
    比较OpenAI GPT和Google Gemini模型在多项语言任务上的表现,并探究两者的优劣之处。
  • 关键思路
    通过10个数据集测试多项语言能力,包括推理、回答基于知识的问题、解决数学问题、翻译、生成代码和作为指令跟随代理等任务,发现Google Gemini模型在一些任务上表现优异,但整体准确率略低于OpenAI GPT 3.5 Turbo。
  • 其它亮点
    论文提供了第三方客观比较OpenAI GPT和Google Gemini模型的结果,提供可复现的代码和完全透明的结果。研究发现Google Gemini模型在生成非英语语言和处理更长、更复杂的推理链方面表现优异。但在多位数的数学推理、多项选择题答案排序等方面表现较差。研究代码和数据集可在https://github.com/neulab/gemini-benchmark找到。
  • 相关研究
    最近的相关研究包括OpenAI GPT系列模型和其他语言模型的改进,如T5和XLNet。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论