- 简介开源开发通过促进协作、透明度和社区驱动的创新,彻底改变了软件行业。今天,各种类型的开源软件形成了仓库网络,通常托管在流行的软件开发平台GitHub上。为了增强仓库网络的可发现性,即相似仓库的组合,GitHub在2017年引入了仓库主题,使用户更容易按类型、技术等浏览相关项目。因此,准确地为每个GitHub仓库分配主题至关重要。目前自动主题推荐的现有方法主要依赖于使用TF-IDF对文本数据进行编码,存在理解语义细微差别的挑战。本文通过提出Legion,一种利用预训练语言模型(PTMs)为GitHub仓库推荐主题的新方法,解决了现有技术的局限性。Legion的关键创新有三个方面。首先,Legion利用PTMs在语言理解方面的广泛能力,捕捉GitHub仓库中的上下文信息和语义含义。其次,Legion通过提出分布平衡损失(DB Loss)来克服长尾分布的挑战,这导致PTMs对热门主题有偏见,从而更好地训练PTMs。第三,Legion采用过滤器来消除模糊的推荐,从而提高PTMs的精度。我们在真实世界的GitHub仓库基准数据集上的实证评估表明,Legion可以将PTMs在推荐GitHub主题方面提高高达26%。Legion还可以比最先进的基准方法更精确、更有效地建议GitHub主题,平均精度和F1得分分别提高了20%和5%。
- 图表
- 解决问题论文旨在解决GitHub仓库的主题推荐问题,以提高GitHub仓库的发现性和可用性。当前自动主题推荐方法主要依靠TF-IDF编码文本数据,存在理解语义细微差别的挑战。
- 关键思路Legion是一种新方法,利用预训练语言模型(PTMs)为GitHub仓库推荐主题。Legion利用PTMs的语言理解能力来捕捉GitHub仓库中的上下文信息和语义含义。此外,Legion提出了分布平衡损失(DB Loss)来解决长尾分布的挑战,并使用过滤器来消除模糊推荐,从而提高PTMs的精度。
- 其它亮点论文在真实世界的GitHub仓库基准数据集上进行了实证评估,结果显示Legion可以将PTMs的推荐结果提高26%。此外,Legion在精确度和F1-score方面比当前最先进的基线平均提高了20%和5%。
- 相关研究包括使用深度学习方法进行主题建模的研究,以及使用基于图形的方法进行GitHub仓库推荐的研究。
沙发等你来抢
去评论
评论
沙发等你来抢