DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ

2024年05月24日
  • 简介
    创建高质量的科学图形可能非常耗时和具有挑战性,即使在纸上草拟想法相对容易。此外,重新制作那些没有保存语义信息格式的现有图形同样复杂。为了解决这个问题,我们引入了DeTikZify,这是一种新颖的多模式语言模型,它可以根据手绘草图和现有图形自动生成保留语义信息的TikZ图形程序来合成科学图形。为了实现这一点,我们创建了三个新的数据集:DaTikZv2是迄今为止最大的TikZ数据集,包含超过36万个人类创建的TikZ图形;SketchFig是一个将手绘草图与其对应的科学图形配对的数据集;SciCap ++是一个包含各种科学图形和相关元数据的集合。我们在SciCap ++和DaTikZv2上训练DeTikZify,以及从SketchFig学习的合成生成的草图。我们还引入了一种基于MCTS的推理算法,使DeTikZify能够迭代地改进其输出,而无需进行额外的训练。通过自动评估和人工评估,我们证明了DeTikZify在合成TikZ程序方面的表现优于商业的Claude 3和GPT-4V,而MCTS算法有效地提高了它的性能。我们公开了我们的代码、模型和数据集。
  • 图表
  • 解决问题
    DeTikZify: 一种自动生成科学图形的多模态语言模型
  • 关键思路
    DeTikZify是一种基于多模态语言模型的自动生成科学图形的方法,通过结合手绘草图和现有图像,自动生成保留语义信息的TikZ图形程序。为了实现这一目标,作者创建了三个新数据集:DaTikZv2、SketchFig和SciCap++,并在这些数据集上训练了DeTikZify模型。同时,作者还引入了一种基于MCTS的推理算法,使DeTikZify能够迭代地优化其输出。
  • 其它亮点
    DeTikZify在自动生成TikZ程序方面的表现优于商业软件Claude 3和GPT-4V,并且作者的MCTS算法有效地提高了其性能。作者公开了代码、模型和数据集。
  • 相关研究
    与此相关的最新研究包括:Generating LaTeX code from hand-drawn sketches of diagrams using a deep neural network和Sketch2CAD: Reconstruction of 3D CAD models from freehand sketches.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论