Perplexed: Understanding When Large Language Models are Confused

简介

大型语言模型（LLMs）已经成为自然语言处理（NLP）领域的主流，短时间内取得了巨大的进展。然而，它们的局限性仍然是一个谜，主要是通过定制的数据集来分析特定的人类水平技能，例如否定、名称解析等。在本文中，我们介绍了perplexed，这是一个用于探索特定语言模型困惑之处的库。为了展示perplexed的灵活性和可以获得的洞见类型，我们进行了一项案例研究，重点研究了用于代码生成的LLMs，并使用我们构建的另一个工具codetokenizer来帮助分析代码模型。具体而言，我们探讨了代码LLMs在不同情况下（例如变量名称或运算符）预测代码结构的成功和失败案例。我们还研究了预测内部方法调用与外部方法调用对性能的影响。通过这个分析，我们发现我们研究的代码LLMs在代码不符合语法规则的结构上表现最差。此外，我们发现模型通常在预测内部方法调用方面比外部方法调用表现更差。我们已经开源了这两个工具，以便研究社区更好地了解LLMs的一般情况和用于代码生成的LLMs。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

探索LLMs在代码生成中的局限性，特别是在不同编码结构和内部与外部方法调用预测方面的表现。
关键思路

介绍了perplexed库，用于探索LLMs的困惑点。通过对LLMs进行代码生成的案例研究，发现模型在不正确的语法结构下表现最差，同时在预测内部方法调用方面表现较差。
其它亮点

论文开源了perplexed库和codetokenizer工具，以帮助研究人员更好地理解LLMs。实验设计了针对代码LLMs的案例研究，使用了codetokenizer工具进行分析。值得进一步研究的是如何改进LLMs在代码生成中的性能。
相关研究

最近的相关研究包括：1.《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》；2.《A Survey on Deep Learning for Code Generation》。

Perplexed: Understanding When Large Language Models are Confused

提问交流

提问交流