- 简介自动化科学发现承诺加速各科学领域的进展。然而,开发和评估AI代理的端到端科学推理能力具有挑战性,因为运行真实世界的实验通常非常昂贵或不可行。在这项工作中,我们介绍了DISCOVERYWORLD,这是第一个用于开发和基准测试代理执行完整循环的新科学发现能力的虚拟环境。DISCOVERYWORLD包含各种不同的挑战,涵盖了放射性同位素定年、火箭科学和蛋白质组学等各种主题,以鼓励发展通用的发现技能而不是特定任务的解决方案。DISCOVERYWORLD本身是一个廉价的模拟文本环境(可选择2D视觉叠加),包括120个不同的挑战任务,涵盖八个主题,每个主题有三个难度级别和几个参数变化。每个任务都需要代理人形成假设、设计和运行实验、分析结果并根据结论采取行动。DISCOVERYWORLD还提供了三个自动指标来评估性能,基于(a)任务完成情况,(b)采取的与任务相关的行动,以及(c)发现的解释性知识。我们发现,在以前发布的环境中表现良好的强基线代理在大多数DISCOVERYWORLD任务上都很困难,这表明DISCOVERYWORLD捕捉了一些新的发现挑战,因此DISCOVERYWORLD可能有助于加速代理的科学发现能力的近期发展和评估。代码可在www.github.com/allenai/discoveryworld找到。
-
- 图表
- 解决问题本论文旨在解决科学发现中的AI代理人的全流程推理能力的开发和评估问题,提出了一个虚拟环境DISCOVERYWORLD来进行开发和基准测试。这个环境包含了多个挑战任务,涵盖了放射性同位素测年、火箭科学和蛋白质组学等不同领域,以鼓励开发通用的发现技能而非特定任务的解决方案。
- 关键思路本论文提出了DISCOVERYWORLD虚拟环境,其中包含了120个不同的挑战任务,要求AI代理人进行假设构建、实验设计和运行、结果分析和结论行动。此外,DISCOVERYWORLD还提供了三个自动指标来评估性能,基于任务完成、相关行动和发现的解释性知识。实验结果表明,之前在其他环境中表现良好的基线代理人在大多数DISCOVERYWORLD任务中表现不佳,这表明DISCOVERYWORLD捕捉到了发现的一些新挑战,因此可能有助于加速代理人在科学发现能力方面的发展和评估。
- 其它亮点本论文提出了一个全新的虚拟环境DISCOVERYWORLD,用于开发和基准测试AI代理人的全流程推理能力。该环境包含了多个挑战任务,可以鼓励开发通用的发现技能。论文还提供了三个自动指标来评估性能,基于任务完成、相关行动和发现的解释性知识。实验结果表明,DISCOVERYWORLD捕捉到了发现的一些新挑战,因此可能有助于加速代理人在科学发现能力方面的发展和评估。论文代码已经开源。
- 近期的相关研究包括使用虚拟环境进行AI代理人的训练和评估,如Gym和ViZDoom。此外,也有一些研究关注于使用机器学习方法进行科学发现,如自动化化学实验和材料发现。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流