PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion

2024年03月06日
  • 简介
    越来越多地使用大型语言模型(LLMs)来完成用户指令,这需要全面了解它们在实际复杂任务完成中的鲁棒性。为了解决这一关键问题,我们提出了PowerPoint任务完成鲁棒性基准(PPTC-R),以衡量LLMs对用户PPT任务指令和软件版本的鲁棒性。具体而言,我们通过在句子、语义和多语言层面攻击用户指令来构建对抗性用户指令。为了评估语言模型对软件版本的鲁棒性,我们改变提供的API数量来模拟最新版本和早期版本设置。随后,我们使用包含这些鲁棒性设置的基准测试3个闭源和4个开源LLMs,旨在评估偏差如何影响LLMs的API调用以完成任务。我们发现,GPT-4在我们的基准测试中表现最佳,并且在版本更新和多语言设置方面表现出强大的鲁棒性。然而,我们发现当同时面临多个挑战(例如,多轮对话)时,所有LLMs都会失去它们的鲁棒性,导致显着的性能下降。我们进一步分析了LLMs在我们的基准测试中的鲁棒性行为和错误原因,这为研究人员了解LLMs在任务完成中的鲁棒性并开发更加鲁棒的LLMs和代理提供了有价值的见解。我们在\url{https://github.com/ZekaiGalaxy/PPTCR}上发布了代码和数据。
  • 作者讲解
  • 图表
  • 解决问题
    衡量大型语言模型在完成PPT任务时的鲁棒性,包括对用户指令和软件版本的攻击。
  • 关键思路
    构建了PowerPoint Task Completion Robustness benchmark(PPTC-R)来测试语言模型的鲁棒性,包括攻击用户指令和模拟不同软件版本的API数量。使用该benchmark测试了3个闭源和4个开源语言模型,发现GPT-4在版本更新和多语言设置中表现最佳,但当面临多种挑战时,所有语言模型的鲁棒性都会下降。
  • 其它亮点
    实验数据和代码已开源,可以在GitHub上获取。研究结果提供了语言模型鲁棒性的有价值的见解,同时也为未来开发更鲁棒的语言模型提供了启示。
  • 相关研究
    近期相关研究包括:1.《Towards Robustness and Data Efficiency of Large Scale Language Models》;2.《The Robustness of Large Language Models to Adversarial Inputs and Training Conditions》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问