LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss

2024年03月09日
  • 简介
    开源开发通过促进协作、透明度和社区驱动的创新,彻底改变了软件行业。今天,各种类型的开源软件形成了仓库网络,通常托管在流行的软件开发平台GitHub上。为了增强仓库网络的可发现性,即相似仓库的组合,GitHub在2017年引入了仓库主题,使用户更容易按类型、技术等浏览相关项目。因此,准确地为每个GitHub仓库分配主题至关重要。目前自动主题推荐的现有方法主要依赖于使用TF-IDF对文本数据进行编码,存在理解语义细微差别的挑战。本文通过提出Legion,一种利用预训练语言模型(PTMs)为GitHub仓库推荐主题的新方法,解决了现有技术的局限性。Legion的关键创新有三个方面。首先,Legion利用PTMs在语言理解方面的广泛能力,捕捉GitHub仓库中的上下文信息和语义含义。其次,Legion通过提出分布平衡损失(DB Loss)来克服长尾分布的挑战,这导致PTMs对热门主题有偏见,从而更好地训练PTMs。第三,Legion采用过滤器来消除模糊的推荐,从而提高PTMs的精度。我们在真实世界的GitHub仓库基准数据集上的实证评估表明,Legion可以将PTMs在推荐GitHub主题方面提高高达26%。Legion还可以比最先进的基准方法更精确、更有效地建议GitHub主题,平均精度和F1得分分别提高了20%和5%。
  • 图表
  • 解决问题
    论文旨在解决GitHub仓库的主题推荐问题,以提高GitHub仓库的发现性和可用性。当前自动主题推荐方法主要依靠TF-IDF编码文本数据,存在理解语义细微差别的挑战。
  • 关键思路
    Legion是一种新方法,利用预训练语言模型(PTMs)为GitHub仓库推荐主题。Legion利用PTMs的语言理解能力来捕捉GitHub仓库中的上下文信息和语义含义。此外,Legion提出了分布平衡损失(DB Loss)来解决长尾分布的挑战,并使用过滤器来消除模糊推荐,从而提高PTMs的精度。
  • 其它亮点
    论文在真实世界的GitHub仓库基准数据集上进行了实证评估,结果显示Legion可以将PTMs的推荐结果提高26%。此外,Legion在精确度和F1-score方面比当前最先进的基线平均提高了20%和5%。
  • 相关研究
    相关研究包括使用深度学习方法进行主题建模的研究,以及使用基于图形的方法进行GitHub仓库推荐的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论