The Impossibility of Fair LLMs

简介

在通用系统（如ChatGPT、Gemini和其他大型语言模型（LLMs））时代，公平的AI需求越来越明显。然而，人工智能交互的日益复杂以及其社会影响引发了如何应用公平标准的问题。在这里，我们回顾了机器学习研究人员用于评估公平性的技术框架，如群体公平性和公平表达，并发现它们在LLMs上的应用面临固有的局限性。我们表明，每个框架要么在逻辑上不扩展到LLMs，要么呈现出LLMs难以处理的公平概念，主要是由于受影响人群、敏感属性和用例的多样性。为了解决这些挑战，我们制定了指南，以实现特定用例中的公平：上下文的重要性、LLM开发人员的责任以及需要利益相关者参与设计和评估的迭代过程。此外，最终可能甚至需要利用AI系统的通用能力来解决公平性挑战，作为可扩展的AI辅助对齐形式。
图表
解决问题

如何在大型语言模型中实现公平性？当前的技术框架存在哪些局限性？
关键思路

针对大型语言模型的公平性标准需要根据具体应用场景进行设计和评估，需要考虑上下文、开发者责任和利益相关者参与。
其它亮点

论文介绍了机器学习研究人员用于评估公平性的技术框架，如群体公平性和公平表示，发现它们在应用于大型语言模型时存在固有的局限性。论文提出了针对特定应用场景实现公平性的指南，并探讨了利用AI系统的通用能力解决公平性挑战的可能性。
相关研究

在这个领域中，最近的相关研究包括《公平机器学习：历史、定义和研究方向》、《公平性在机器学习中的应用》等。

评论