CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems

2024年06月02日
  • 简介
    复合人工智能系统(CAS)采用LLM作为代理人,通过与工具和数据检索器的交互来完成知识密集型任务,已经引起了数据库和人工智能社区的重视。虽然这些系统有潜力补充企业数据平台中数据分析师的典型分析工作流程,但不幸的是,CAS受到与分析师多年来遇到的数据发现挑战相同的限制——组织内团队和部门创建的多模态数据源的孤立性使得难以确定适合完成手头任务的数据源。现有的数据发现基准不模拟这种多模态和多样性的数据源。此外,CAS的基准只优先评估端到端任务性能。为了在真实环境中促进评估CAS中多模态数据检索器的数据发现性能的研究,我们提出了CMDBench,一个模拟企业数据平台复杂性的基准。我们调整了开放域中现有数据集和基准——从问题回答和复杂推理任务到结构化数据的自然语言查询——以评估粗粒度和细粒度的数据发现和任务执行性能。我们的实验揭示了数据检索器设计对下游任务性能的影响——平均任务准确性下降了46%——跨越各种模态、数据源和任务难度。结果表明需要开发优化策略来确定适合在企业数据上高效执行CAS的LLM代理和检索器。
  • 图表
  • 解决问题
    论文旨在解决复合AI系统(CAS)中数据发现的挑战,提出了一个名为CMDBench的基准测试,以评估多模态数据检索器在CAS中的数据发现性能。
  • 关键思路
    CMDBench基准测试采用现有数据集和基准测试,模拟企业数据平台的复杂性,以评估粗粒度和细粒度的数据发现和任务执行性能。实验结果表明,数据检索器的设计对下游任务性能有着重要的影响。
  • 其它亮点
    实验结果显示,不同模态、数据源和任务难度下,数据检索器的设计会导致任务准确率平均下降46%。该论文提出的CMDBench基准测试有助于促进评估CAS中的数据发现性能,并为优化策略的开发提供了指导。
  • 相关研究
    最近的相关研究包括使用深度学习技术进行数据检索和使用自然语言处理技术进行数据发现。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论