Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents

2024年03月08日
  • 简介
    交互数据分析是人类和LLM智能代理之间的协作,可以实现实时数据探索以进行明智的决策。然而,收集逼真的交互日志以进行数据分析的挑战和成本阻碍了对LLM代理在此任务中的量化评估。为了缓解这个问题,我们介绍了Tapilot-Crossing,这是一个新的基准,用于评估LLM代理在交互数据分析方面的表现。Tapilot-Crossing包含1024个交互,涵盖了4个实际场景:正常、行动、私人和私人行动。值得注意的是,Tapilot-Crossing是由经济实惠的多智能体环境Decision Company构建的,只需少量人力。我们在Tapilot-Crossing中评估了流行和先进的LLM代理,这凸显了交互数据分析的挑战。此外,我们提出了自适应交互反思(AIR),这是一种自动生成的反思策略,可以指导LLM代理从成功的历史中学习。实验表明,AIR可以将LLM发展成为有效的交互数据分析代理,相对性能提高高达44.5%。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决交互式数据分析中收集实时交互日志的挑战和成本问题,提出了一个经济高效的多智能体环境Decision Company,并引入Tapilot-Crossing数据集来评估大语言模型在交互式数据分析中的表现。同时,提出了自适应交互反思(AIR)策略,以帮助模型从历史成功经验中学习,提高性能。
  • 关键思路
    本论文提出了Tapilot-Crossing数据集,包含1024个交互,涵盖了4个实际场景,同时提出了自适应交互反思(AIR)策略,以帮助模型从历史成功经验中学习,提高性能。
  • 其它亮点
    Tapilot-Crossing数据集是一个经济高效的多智能体环境Decision Company构建的,可以用于评估大语言模型在交互式数据分析中的表现。本文提出的AIR策略可以将模型从历史成功经验中学习,提高性能,实验结果表明相对性能提高了44.5%。
  • 相关研究
    在相关研究方面,最近的研究包括:1)在交互式数据分析中使用深度强化学习;2)使用大型语言模型进行交互式数据分析;3)使用多智能体环境进行强化学习。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问