DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing

2024年10月16日
  • 简介
    分析非结构化数据,如复杂的文档,一直是数据处理中的一个持久性挑战。大型语言模型(LLM)在这方面表现出了潜力,导致了最近提出的用于LLM驱动的非结构化数据处理的声明性框架。然而,这些框架侧重于在使用LLM执行用户指定操作时降低成本,而不是提高准确性,大多数操作都按原样执行。这对于复杂的任务和数据是有问题的,因为即使使用了优化的提示,用户定义操作的LLM输出通常也是不准确的。 我们提出了DocETL,这是一个优化复杂文档处理流程的系统,同时考虑到LLM的缺点。DocETL为用户定义这样的流程提供了声明性接口,并使用基于代理的框架自动优化它们,利用我们引入的新颖的基于代理的重写(我们称之为“重写指令”)和优化和评估框架。我们引入了(i)针对基于LLM的任务量身定制的管道的逻辑重写,(ii)一种代理引导的计划评估机制,该机制综合和编排特定于任务的验证提示,以及(iii)一种优化算法,该算法有效地找到有前途的计划,考虑到基于LLM的计划生成和评估的时间限制。我们在三个不同的非结构化文档分析任务上的评估表明,DocETL找到的计划的输出质量比经过良好设计的基线高1.34到4.6倍(例如更准确、全面),填补了现有声明性非结构化数据分析框架中的一个重要差距。DocETL在\ttt{docetl.org}上是开源的,并且截至2024年10月,已经积累了800多个GitHub星,并且用户涵盖了各种领域。
  • 图表
  • 解决问题
    解决复杂文档处理中大语言模型(LLMs)的精度问题,提高非结构化数据处理的准确性。
  • 关键思路
    提出了一种基于代理的框架,通过逻辑重写、代理引导计划评估机制和优化算法,自动优化复杂文档处理流程,解决LLMs精度问题。
  • 其它亮点
    实验结果表明,DocETL相比其他基线方法,能够提高1.34到4.6倍的输出质量。DocETL是开源的,可用于各种领域。
  • 相关研究
    相关研究包括使用LLMs处理非结构化数据的框架,以及基于代理的流程优化方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论