- 简介最近发布的谷歌Gemini模型系列是第一个在广泛的任务中全面报告结果,可以与OpenAI GPT系列相媲美的模型。本文对Gemini的语言能力进行了深入探索,并做出了两点贡献。首先,我们提供了第三方、客观的OpenAI GPT和Google Gemini模型能力比较,并提供可复现的代码和完全透明的结果。其次,我们对结果进行了更详细的分析,确定了两种模型中优秀的领域。我们在10个数据集上进行了这项分析,测试了各种语言能力,包括推理、回答基于知识的问题、解决数学问题、语言翻译、生成代码和作为指令跟随代理。通过这个分析,我们发现Gemini Pro在我们测试的所有任务中的准确度都接近但略低于相应的GPT 3.5 Turbo。我们进一步提供了一些这种低效表现的解释,包括在许多数字的数学推理中失败、对多项选择答案排序的敏感性、过度的内容过滤等。我们还确定了Gemini表现出相对较高性能的领域,包括生成非英语语言和处理更长、更复杂的推理链。可在https://github.com/neulab/gemini-benchmark找到复现所需的代码和数据。
- 图表
- 解决问题比较OpenAI GPT和Google Gemini模型在多项语言任务上的表现,并探究两者的优劣之处。
- 关键思路通过10个数据集测试多项语言能力,包括推理、回答基于知识的问题、解决数学问题、翻译、生成代码和作为指令跟随代理等任务,发现Google Gemini模型在一些任务上表现优异,但整体准确率略低于OpenAI GPT 3.5 Turbo。
- 其它亮点论文提供了第三方客观比较OpenAI GPT和Google Gemini模型的结果,提供可复现的代码和完全透明的结果。研究发现Google Gemini模型在生成非英语语言和处理更长、更复杂的推理链方面表现优异。但在多位数的数学推理、多项选择题答案排序等方面表现较差。研究代码和数据集可在https://github.com/neulab/gemini-benchmark找到。
- 最近的相关研究包括OpenAI GPT系列模型和其他语言模型的改进,如T5和XLNet。
沙发等你来抢
去评论
评论
沙发等你来抢