- 简介语言模型训练依赖于大量的计算和海量数据集,这些数据集可能来自低质量、受版权保护或敏感的数据,这在实践、法律和伦理上都存在问题。联邦学习提供了一种可行的替代方案,通过使之前未被利用的数据可以自愿地从合作组织中收集。然而,当联邦学习在全球范围内扩展时,需要跨越异构的法律、安全和隐私制度进行合作,同时考虑语言数据的固有局限性;这进一步加剧了联邦统计异质性所面临的挑战。我们提出了一个基于联邦的联邦语言模型训练(WorldLM)系统,其中每个联盟都有自主权,可以考虑其行业、经营管辖区或竞争环境等因素。WorldLM通过允许子联盟注意地聚合其构成部分的关键层来实现局部模型本地化,从而在统计异质性存在的情况下实现这种自主权。此外,它可以通过残差层嵌入自适应地在联盟之间共享信息。对自然异构数据集上的语言建模评估表明,WorldLM的性能比标准联盟高出多达1.91倍,接近完全本地模型的个性化性能,并在隐私增强技术下保持这些优势。
-
- 图表
- 解决问题本论文试图解决语言模型训练所依赖的大量计算和数据集所带来的法律和伦理问题,提出了一种基于联邦学习的解决方案
- 关键思路提出了一种基于联邦学习的全球联邦语言模型训练(WorldLM)系统,通过联邦的联邦实现各个联邦的自治,通过局部模型本地化和残差层嵌入来解决统计异质性问题
- 其它亮点实验结果表明,WorldLM相比标准联邦学习模型性能提高了1.91倍,接近完全本地模型的个性化性能,并且在隐私保护技术下仍然保持优势
- 与此相关的研究包括联邦学习、语言模型训练、隐私保护等方面的研究,如Federated Learning for Natural Language Processing、Privacy-Preserving Federated Brain Tumor Segmentation等


提问交流