Scaling Automatic Extraction of Pseudocode

向作者提问

NEW

简介

学术论文中的伪代码提供了一种简洁的方式来表达所实现的算法。伪代码也可以被视为一种中介表示，有助于弥合编程语言和自然语言之间的差距。拥有大量伪代码的收集可以带来各种好处，从增强算法理解、促进进一步的算法设计，到为自动化代码生成和光学字符识别（OCR）等任务赋能NLP或计算机视觉模型。我们从arXiv论文中提取了近320,000个伪代码示例，创建了一个大型伪代码收集。这个过程涉及扫描超过2.2百万篇学术论文，其中1,000篇进行了手动检查和标记。我们的方法包括一个定制化的提取机制来优化覆盖率，以及基于随机抽样的验证机制来检查其准确性和可靠性，考虑到收集的异构性。此外，我们提供了关于常见伪代码结构的见解，支持聚类和统计分析。值得注意的是，这些分析表明伪代码的使用呈指数增长趋势，突显了它们的日益重要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提取arXiv论文中的伪代码，构建大规模的伪代码集合，以促进算法理解和自动代码生成等任务。
关键思路

通过扫描超过220万篇学术论文，从中提取近320,000个伪代码示例。采用定制的提取机制和基于随机采样的验证机制，以优化覆盖率、检查准确性和可靠性。通过聚类和统计分析，揭示了伪代码结构的共性和增长趋势。
其它亮点

该研究构建了一个大规模的伪代码集合，并提供了有关伪代码结构和增长趋势的洞见。这个集合可以用于促进算法理解、进一步的算法设计以及自然语言处理或计算机视觉等任务。研究还包括了实验设计、数据集和开源代码等方面的细节。
相关研究

近期的相关研究包括：1）从GitHub代码库中提取伪代码；2）使用自然语言处理技术生成伪代码；3）使用深度学习技术进行代码生成。相关论文包括：1）“Mining Source Code Repositories at Massive Scale using Language Modeling”；2）“Neural Program Synthesis from Diverse Demonstration Videos”；3）“DeepCoder: Learning to Write Programs”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问