标题

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

作者:Yejin Bang,Samuel Cahyawijaya,Nayeon Lee,Wenliang Dai,Dan Su,Bryan Wilie,Holy Lovenia,Ziwei Ji,Tiezheng Yu,Willy Chung,Quyet V. Do,Yan Xu,Pascale Fung

机构:Centre for Artificial Intelligence Research (CAiRE), The Hong Kong University of Science and Technology

地址https://arxiv.org/abs/2302.04023

本文提出了一个使用公开数据集定量评估交互式LLM(如ChatGPT)的框架。我们使用涵盖8个不同的常见NLP应用任务的21个数据集对ChatGPT进行了广泛的技术评估。我们基于这些数据集和一个新设计的多模态数据集评估了ChatGPT的多任务、多语言和多模态方面。我们发现ChatGPT在大多数任务上优于zero-shot学习的LLM,甚至在某些任务上优于微调的模型。我们发现它更擅长于理解非拉丁字母语言而不是生成它们。它能够通过中间代码生成步骤从文本提示生成多模态内容。此外,我们发现ChatGPT在逻辑推理、非文本推理和常识推理这10个不同的推理类别中,平均准确率为64.33%,因此它是一个不可靠的推理器。例如,它比归纳推理更擅长演绎推理。ChatGPT像其他LLM一样遭受幻觉问题,并且由于它不能访问外部知识库,它从其参数记忆中产生更多的外部幻觉。最后,ChatGPT的交互特性使人能够与底层的LLM协作,以改进其性能,例如,以多回合“即时工程”的方式,8%的ROUGE-1用于摘要,2%的ChrF++用于机器翻译。