TOOLVERIFIER: Generalization to New Tools via Self-Verification

2024年02月21日
  • 简介
    教语言模型使用工具是建立通用助手的重要里程碑,但仍然是一个未解决的问题。虽然通过微调学习使用特定工具取得了显著进展,但是语言模型仍然难以从仅有少量演示中学习如何稳健地使用新工具。在这项工作中,我们引入了一种自我验证方法,在(1)工具选择和(2)参数生成过程中通过自问对比问题来区分近似候选项。我们使用Llama-2 70B构建了用于此目的的合成高质量自动生成数据,我们打算公开发布。对ToolBench基准测试中的4个任务进行了广泛的实验,包括17个未见过的工具,即使在候选工具之间的区别微妙时,平均改进了22%以上的少样本基线。
  • 图表
  • 解决问题
    该论文旨在解决语言模型在从少量演示中学习如何使用新工具方面的困难,提出了一种自验证方法以区分候选工具,并构建了高质量的自动生成数据集。
  • 关键思路
    该论文的关键思路是通过自我验证方法,在工具选择和参数生成过程中使用对比问题来区分候选工具,从而提高语言模型在学习如何使用新工具方面的性能。
  • 其它亮点
    该论文使用Llama-2 70B构建了高质量的自动生成数据集,并在ToolBench基准测试的4个任务中进行了广泛实验,包括17个未见过的工具。实验结果表明,该方法平均改进了22%的few-shot基线表现。该论文的亮点还包括提出了一种自我验证的方法,能够在学习如何使用新工具方面提高语言模型的性能。
  • 相关研究
    在这个领域的相关研究包括fine-tuning学习如何使用特定工具的方法,以及few-shot学习如何使用新工具的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论