TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks

解决问题:这篇论文旨在解决一个新问题,即如何设计复杂任务的LLM提示语,以便进行全面的基准测试,并克服LLMs在不同提示类型/风格和详细程度下表现差异的挑战。

关键思路:该论文提出了一种通用分类法,可以用于设计具有特定属性的提示语,以执行各种复杂任务,从而克服了LLMs在不同提示类型/风格和详细程度下表现差异的挑战。相比当前领域的研究状况,该论文的思路在于提出了一种通用的分类法,使得未来的基准测试研究能够报告所使用的具体提示语类别,从而实现不同研究之间的有意义的比较。

其他亮点:该论文的实验设计了一个基准测试,使用了多个LLMs,并使用了所提出的分类法来设计提示语。该论文还指出,通过建立这种分类法的共同标准,研究人员将能够更准确地得出关于LLMs在特定复杂任务上的表现的结论。此外,该论文没有提供开源代码。值得进一步研究的工作是,通过使用不同的LLMs和不同的提示语类型来扩展该分类法。

关于作者:Shubhra Kanti Karmaker Santu和Dongji Feng都是来自新加坡国立大学的研究人员。他们之前的代表作并未在我的数据库中列出。

相关研究:最近的相关研究包括:1)"Benchmarking Natural Language Inference with a Taxonomy of Semantic Variations",作者为Yixin Nie,Mohit Bansal,以及Aida Nematzadeh,他们来自北卡罗来纳大学教堂山分校;2)"A Taxonomy of Data Augmentation for BERT Fine-tuning in Low-Resource Settings",作者为Yichong Xu,Xiaodong Liu,以及Jiawei Han,他们来自伊利诺伊大学香槟分校。

论文摘要:本文提出了一个通用的分类法,可用于设计具有特定属性的提示,以执行各种复杂任务,以解决多种语言模型的性能差异问题。这个分类法将允许未来的基准研究报告所使用的特定提示类别,从而实现跨不同研究的有意义的比较。此外,通过这个分类法建立共同的标准,研究人员将能够更准确地得出关于特定复杂任务的LLMs性能的结论。虽然LLMs在传统的对话设置中表现出了很大的成功,但它们在执行模糊的复杂任务方面的潜力还大部分没有被研究。因此,我们需要进行全面的基准研究,以了解不同类型的LLMs在执行复杂任务时的性能差异。

内容中包含的图片若涉及版权问题,请及时与我们联系删除