- 简介语言代理通过使用工具精确执行每个步骤来执行复杂任务。然而,大多数现有的代理基于专有模型或旨在针对特定任务,例如数学或多跳问题回答。我们介绍了Husky,这是一个全面的,开源的语言代理,它学习在统一的操作空间上进行推理,以解决涉及数字、表格和基于知识的推理的各种复杂任务。Husky在两个阶段之间迭代:1)生成下一个行动以解决给定任务;2)使用专家模型执行行动并更新当前解决方案状态。我们确定了用于解决复杂任务的行动的全面本体论,并策划了高质量的数据来训练执行这些行动的专家模型。我们的实验表明,Husky在14个评估数据集上优于先前的语言代理。此外,我们介绍了HuskyQA,这是一个新的评估集,它对语言代理进行混合工具推理的压力测试,重点是检索缺失的知识和执行数字推理。尽管使用了7B模型,但Husky在这些任务上与甚至超过了像GPT-4这样的前沿LM,展示了我们在解决复杂推理问题方面的全面方法的有效性。我们的代码和模型可在https://github.com/agent-husky/Husky-v1上获得。
- 图表
- 解决问题论文旨在解决复杂任务的语言智能代理问题,包括数字、表格和基于知识的推理。该代理如何通过学习来推理出一致的行动空间?
- 关键思路Husky是一个开源的语言代理,通过迭代生成下一步行动并使用专家模型执行行动来解决复杂任务。该代理使用全面的行动本体,训练高质量的专家模型来执行这些行动,从而实现数字、表格和知识推理的混合工具推理。
- 其它亮点该论文的亮点包括提出了一个全面的行动本体来解决复杂任务、使用高质量数据集训练专家模型、在14个评估数据集上超过了先前的语言代理、提出了HuskyQA评估集以测试语言代理的混合工具推理能力、并展示了Husky在这些任务上的有效性。
- 最近的相关研究包括GPT-4等前沿语言模型,以及针对特定任务的专用代理,如数学或多跳问题回答。
沙发等你来抢
去评论
评论
沙发等你来抢