ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents

向作者提问

NEW

简介

大型语言模型（LLMs）在自然语言处理的各种任务中表现出了卓越的性能。然而，当这些任务需要领域专业知识和高级分析技能时，仍然存在挑战，比如在指定主题上进行研究调查。在这项研究中，我们开发了ResearchArena，这是一个基准测试，用于衡量LLM代理的学术调查能力，是学术研究过程的一个初始步骤。具体而言，我们将调查过程分解为三个阶段：1）信息发现：定位相关论文，2）信息选择：评估论文对主题的重要性，3）信息组织：将论文组织成有意义的结构。特别地，我们建立了一个离线环境，包括1200万篇全文学术论文和7900篇调查论文，评估代理定位支持材料以撰写关于主题的调查、根据其影响力对定位的论文进行排名以及将这些论文组织成分层的知识思维导图的能力。通过这个基准测试，我们对现有技术进行了初步评估，并发现与基本的基于关键词的检索技术相比，所有基于LLM的方法表现不佳，突显了未来研究的巨大机遇。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在开发一个基准测试，评估大型语言模型在进行学术调查时的表现。具体而言，研究将调查过程分解为三个阶段：信息发现、信息选择和信息组织。作者试图解决的问题是大型语言模型在处理需要领域专业知识和高级分析技能的任务时的表现如何。
关键思路

研究开发了ResearchArena，这是一个离线环境，包含1200万篇全文学术论文和7900篇调查论文，用于评估大型语言模型的能力。该评估分为三个阶段：信息发现、信息选择和信息组织。通过对现有技术的初步评估，发现所有基于大型语言模型的方法在与基本的基于关键词的检索技术相比时表现不佳，这为未来的研究提供了巨大的机会。
其它亮点

研究设计了一个基准测试来评估大型语言模型在进行学术调查时的表现。该评估分为三个阶段，包括信息发现、信息选择和信息组织。研究使用了一个包含1200万篇全文学术论文和7900篇调查论文的离线环境进行评估。研究发现，所有基于大型语言模型的方法在与基本的基于关键词的检索技术相比时表现不佳，这为未来的研究提供了巨大的机会。
相关研究

最近在这个领域中，还有一些相关的研究被进行，例如“BERT for Document Classification: Is Fine-Tuning Worth It?”和“Pre-training of Deep Bidirectional Transformers for Language Understanding”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问