CGEM:使用 GPT-3 自动生成代码的度量模型
作者:Aishwarya Narasimhan, Krishna Prasad Agara Venkatesha Rao, Veena MB
推荐理由:基于蒙特卡罗模拟方法验证无约束算法的评估度量模型
简介:如今,人工智能技术几乎在各个行业和各行各业都展现出了自己的优势。从文本生成、文本摘要、聊天机器人,NLP 正在被广泛使用。一种这样的范例是自动代码生成。AI 可以生成任何东西;因此输出空间是不受约束的。自动驾驶汽车行驶 1 亿英里以验证其安全性,但无法编写测试来监控和覆盖不受限制的空间。验证 AI 生成内容的解决方案之一是约束问题并将其从抽象转换为现实,这可以通过使用理论证明或使用蒙特卡罗模拟方法验证无约束算法来实现。在这种情况下,我们使用后一种方法来测试/验证具有统计意义的样本数量。验证人工智能生成代码的假设是这项工作的主要动机,为了了解人工智能生成的代码是否可靠,提出了一个度量模型 CGEMs。这是一项极具挑战性的任务,因为程序可以具有不同命名约定的不同逻辑,但指标必须捕获程序的结构和逻辑。这类似于基于 AI 的文本生成、问答、翻译等中的重要性语法。 在这项工作中获得的支持生成代码评估的各种指标如下:编译、NL 描述到逻辑转换、数量在需要的编辑中,一些常用的静态代码指标和 NLP 指标。这些指标适用于使用 OpenAI 的 GPT-3 生成的 80 个代码。神经网络设计用于二进制分类的帖子(生成代码的可接受/不可接受的质量)。该网络的输入是从度量中获得的特征值。该模型实现了 76.92% 的分类准确率和 55.56% 的 F1 分数。XAI 增强了模型的可解释性。
下载地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.10168.pdf
HUB地址:https://hub.baai.ac.cn/view/9455
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢