LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss

向作者提问

NEW

简介

开源开发通过促进协作、透明度和社区驱动的创新，彻底改变了软件行业。今天，各种类型的开源软件形成了仓库网络，通常托管在流行的软件开发平台GitHub上。为了增强仓库网络的可发现性，即相似仓库的组合，GitHub在2017年引入了仓库主题，使用户更容易按类型、技术等浏览相关项目。因此，准确地为每个GitHub仓库分配主题至关重要。目前自动主题推荐的现有方法主要依赖于使用TF-IDF对文本数据进行编码，存在理解语义细微差别的挑战。本文通过提出Legion，一种利用预训练语言模型（PTMs）为GitHub仓库推荐主题的新方法，解决了现有技术的局限性。Legion的关键创新有三个方面。首先，Legion利用PTMs在语言理解方面的广泛能力，捕捉GitHub仓库中的上下文信息和语义含义。其次，Legion通过提出分布平衡损失（DB Loss）来克服长尾分布的挑战，这导致PTMs对热门主题有偏见，从而更好地训练PTMs。第三，Legion采用过滤器来消除模糊的推荐，从而提高PTMs的精度。我们在真实世界的GitHub仓库基准数据集上的实证评估表明，Legion可以将PTMs在推荐GitHub主题方面提高高达26％。Legion还可以比最先进的基准方法更精确、更有效地建议GitHub主题，平均精度和F1得分分别提高了20％和5％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决GitHub仓库的主题推荐问题，以提高GitHub仓库的发现性和可用性。当前自动主题推荐方法主要依靠TF-IDF编码文本数据，存在理解语义细微差别的挑战。
关键思路

Legion是一种新方法，利用预训练语言模型（PTMs）为GitHub仓库推荐主题。Legion利用PTMs的语言理解能力来捕捉GitHub仓库中的上下文信息和语义含义。此外，Legion提出了分布平衡损失（DB Loss）来解决长尾分布的挑战，并使用过滤器来消除模糊推荐，从而提高PTMs的精度。
其它亮点

论文在真实世界的GitHub仓库基准数据集上进行了实证评估，结果显示Legion可以将PTMs的推荐结果提高26％。此外，Legion在精确度和F1-score方面比当前最先进的基线平均提高了20％和5％。
相关研究

相关研究包括使用深度学习方法进行主题建模的研究，以及使用基于图形的方法进行GitHub仓库推荐的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问