FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom

简介

Federated Learning（FL）已成为协作训练大型语言模型（LLMs）的有前途的解决方案。然而，将LLMs集成到FL中会引入新的挑战，特别是涉及LLMs评估方面。传统的评估方法依赖于标记的测试集和基于相似度的指标，只涵盖了可接受答案的子集，因此无法准确反映LLMs在生成任务上的性能。同时，虽然利用先进的LLMs的自动评估方法具有潜力，但由于需要将数据传输到外部服务器并且缺乏领域知识而面临数据泄漏的重大风险和下游任务性能不佳的问题。为了解决这些问题，我们提出了一种名为FedEval-LLM的大型语言模型联邦评估框架，它提供了LLMs在下游任务上可靠的性能测量，而无需依赖标记的测试集和外部工具，从而确保了强大的隐私保护能力。FedEval-LLM利用参与者的个性化LLMs组成的联盟作为裁判员，提供领域知识和集体评估能力，从而与相应的下游任务保持一致，减轻了单个裁判员的不确定性和偏见。实验结果表明，在下游任务上，个性化评估模型的评估能力显著提高。当应用于FL时，这些评估模型在精心策划的测试集上展现出与人类偏好和RougeL分数的强烈一致性。FedEval-LLM有效地克服了传统指标和对外部服务的依赖的局限性，使它成为协作训练场景中评估LLMs的有前途的框架。
图表
解决问题

解决基于联邦学习的大型语言模型评估问题，传统评估方法无法准确反映生成任务的性能。
关键思路

提出一种名为FedEval-LLM的基于联邦评估框架，利用个性化的大型语言模型作为裁判提供领域知识和集体评估能力，以确保强大的隐私保护能力和可靠的性能测量。
其它亮点

实验结果表明，FedEval-LLM在下游任务的个性化评估模型的评估能力方面有显著改进，同时能够与人类偏好和RougeL得分达成强烈一致。FedEval-LLM有效地克服了传统指标和对外部服务的依赖的局限性，是评估联邦学习中大型语言模型的一个有前途的框架。
相关研究

最近的相关研究包括：《Federated Learning for Natural Language Processing: A Survey》、《Federated Learning: Challenges, Methods, and Future Directions》等。

FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom

评论