- 简介解决复杂的现实世界任务需要行动和观察的循环。这一点在科学领域尤为明显,因为科学任务通常需要多次分析、工具使用和实验的循环。语言代理在自动化科学领域的智力任务方面具有巨大潜力,因为它们可以通过自然语言或代码与工具进行交互。然而,它们的灵活性为软件实现带来了概念性和实际性的挑战,因为这些代理可能包含非标准组件,如内部推理、规划、工具使用,以及基于温度采样的语言模型所固有的随机性。 在此,我们介绍了Aviary,一个可扩展的语言代理训练环境。我们将代理形式化为解决语言驱动的部分可观测马尔可夫决策过程(我们称之为语言决策过程)的策略。随后,我们实现了五个环境,其中包括三个具有挑战性的科学环境:(1)操作DNA构建体以进行分子克隆;(2)通过访问科学文献回答研究问题;(3)设计蛋白质稳定性。这些环境的选择是基于其对多步骤推理的关注以及与当代生物学研究的相关性。 最后,通过在线训练和扩展推理时间计算资源,我们展示了基于开源、非前沿大型语言模型(LLM)的语言代理能够在多个任务上匹配并超过前沿LLM代理和人类专家的表现,同时推理成本最多可降低100倍。
- 图表
- 解决问题该论文试图解决如何通过语言代理(language agents)自动化处理复杂的科学任务,特别是那些需要多步骤推理和实验的任务。这并不是一个全新的问题,但论文特别关注于在生物学研究中应用这些代理,并提高其效率和成本效益。
- 关键思路关键思路在于将语言代理视为解决语言导向的部分可观测马尔可夫决策过程(language decision processes)的策略,并引入了一个名为Aviary的扩展性环境,用于训练和评估这些代理。与现有研究相比,该论文的新颖之处在于它不仅展示了非前沿的语言模型(non-frontier LLMs)可以匹敌甚至超越最先进的语言模型和人类专家,而且显著降低了推理成本。
- 其它亮点论文的亮点包括:1) 实施了五个环境,其中三个专注于生物学中的复杂任务;2) 使用在线训练和扩展推理时间计算,证明了低成本模型的有效性;3) 开源了代码和环境,为后续研究提供了基础。值得继续深入的研究方向包括进一步优化语言代理的成本效益比,以及探索更多领域的应用。
- 最近在这个领域相关的研究还包括: - 'Reinforcement Learning for Automated Scientific Discovery' - 'Large Language Models in Biomedical Research' - 'Cost-Efficient AI Agents for Complex Task Automation' 这些研究同样探讨了使用强化学习和大型语言模型来自动化科学研究的过程,但本论文的独特之处在于其实现了更低的成本和更高的性能。
沙发等你来抢
去评论
评论
沙发等你来抢