- 简介编程通常涉及将详细而复杂的规格说明转换为代码,这个过程中开发人员通常利用视觉辅助工具更有效地传达概念。虽然最近大型多模态模型的发展展示了惊人的视觉推理和数学任务能力,但很少有研究调查这些模型是否能够有效地解释视觉元素以生成代码。为此,我们提出了MMCode,这是第一个用于在视觉丰富的背景下评估算法问题解决能力的多模态编码数据集。MMCode包含3548个问题和6620张图像,这些问题和图像来自于10个编程竞赛网站的现实世界编程挑战,由于需要极高的推理能力,所以具有重大的挑战性。我们的实验结果表明,目前最先进的模型难以解决这些问题。结果突显了缺乏强大的视觉代码模型,我们希望MMCode能够成为该领域未来工作的灵感来源。数据和代码可在https://github.com/happylkx/MMCode上公开获取。
- 图表
- 解决问题论文试图解决如何将视觉元素用于代码生成的问题,提出了一个新的多模态编码数据集MMCode,并探究了当前最先进的模型在解决这些问题上的表现。
- 关键思路论文的关键思路是使用多模态数据集MMCode来评估当前最先进的模型在视觉推理和算法问题解决方面的能力。同时,该论文提出了一种基于多模态编码的新型视觉代码生成模型,以期能够解决当前视觉代码生成模型的不足之处。
- 其它亮点该论文收集了来自10个编程竞赛网站的3,548个问题和6,620张图像,构建了一个多模态编码数据集MMCode。实验结果表明,当前最先进的模型在解决这些问题方面存在困难。该论文的数据和代码已经公开发布在GitHub上,为未来的研究提供了数据支持和参考。
- 最近的相关研究包括:1.《Large-Scale Study of Curiosity-Driven Learning》;2.《Learning to Reason with Third-Order Tensor Products》;3.《Visual Interaction Networks: Learning a Physics Simulator from Video》等。


提问交流