PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion

简介

越来越多地使用大型语言模型（LLMs）来完成用户指令，这需要全面了解它们在实际复杂任务完成中的鲁棒性。为了解决这一关键问题，我们提出了PowerPoint任务完成鲁棒性基准（PPTC-R），以衡量LLMs对用户PPT任务指令和软件版本的鲁棒性。具体而言，我们通过在句子、语义和多语言层面攻击用户指令来构建对抗性用户指令。为了评估语言模型对软件版本的鲁棒性，我们改变提供的API数量来模拟最新版本和早期版本设置。随后，我们使用包含这些鲁棒性设置的基准测试3个闭源和4个开源LLMs，旨在评估偏差如何影响LLMs的API调用以完成任务。我们发现，GPT-4在我们的基准测试中表现最佳，并且在版本更新和多语言设置方面表现出强大的鲁棒性。然而，我们发现当同时面临多个挑战（例如，多轮对话）时，所有LLMs都会失去它们的鲁棒性，导致显着的性能下降。我们进一步分析了LLMs在我们的基准测试中的鲁棒性行为和错误原因，这为研究人员了解LLMs在任务完成中的鲁棒性并开发更加鲁棒的LLMs和代理提供了有价值的见解。我们在\url{https://github.com/ZekaiGalaxy/PPTCR}上发布了代码和数据。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

衡量大型语言模型在完成PPT任务时的鲁棒性，包括对用户指令和软件版本的攻击。
关键思路

构建了PowerPoint Task Completion Robustness benchmark（PPTC-R）来测试语言模型的鲁棒性，包括攻击用户指令和模拟不同软件版本的API数量。使用该benchmark测试了3个闭源和4个开源语言模型，发现GPT-4在版本更新和多语言设置中表现最佳，但当面临多种挑战时，所有语言模型的鲁棒性都会下降。
其它亮点

实验数据和代码已开源，可以在GitHub上获取。研究结果提供了语言模型鲁棒性的有价值的见解，同时也为未来开发更鲁棒的语言模型提供了启示。
相关研究

近期相关研究包括：1.《Towards Robustness and Data Efficiency of Large Scale Language Models》；2.《The Robustness of Large Language Models to Adversarial Inputs and Training Conditions》。

PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion

提问交流

提问交流