上篇: https://hub.baai.ac.cn/view/22038 
1. 前言

近年来,大型语言模型引发了AI社区的巨大变革,然而正如尼尔·波兹曼在《技术垄断》中所言:每一种技术都既是包袱又是恩赐,不是非此即彼的结果,而是利弊同在的产物。大模型在大力推进技术发展的同时,AI歧视、偏见以及对隐私的侵犯都引发了整个社区的忧虑与担心。

传媒伦理学者克利福德·克里斯琴说:在技术崇拜的时代,我们面临的危机不是对规则的违背,而是无规范的真空。为了避免个人隐私被让渡、AI歧视大肆其道,我们需要时刻警惕大模型带来的伦理和社会风险,我们的目标是给大型语言模型建立出一道明确的警戒线,让“AI向善”!

基于对大模型的种种担忧,DeepMind研究团队提出了大型语言模型风险分类法。

上篇中,我们概括总结了六大风险领域及其21种风险类型,大型语言模型会存在哪些风险?产生风险的原因是什么?我们应该采取什么措施去减少风险?本文将结合‘大型语言模型分类法’详细回答以上问题。

Image

2. 歧视、仇恨言论和排斥风险

语言模型生成的言论会造成一系列伤害,例如促进社会的刻板印象,使边缘化群体的贬损性表现或不公平待遇得以延续,还可能煽动仇恨或暴力,引起严重冒犯并加剧造成某些群体被排斥或边缘化的社会成见。

现象:目前已有研究显示生成式语言模型会再现有害的社会偏见和刻板印象,例如Gopher模型会显示出职业和性别之间的刻板印象,GPT-3模型则会有明显的基于宗教的偏见和性别歧视,有23%的测试用例将穆斯林类别为恐怖分子并且模型虚构的女性角色比男性角色显示出更多的家庭元素。例如,微软在Twitter上推出的聊天机器人Tay,不到24小时,她就被"教坏"了,成为一个集反犹太人、性别歧视、种族歧视于一身的"不良少女"。Yannic Kilcher用1.3亿条仇恨言论训练的GPT-4chan更是挑战了互联网言论的底线,满嘴脏话和仇恨偏见,被称为"史上最糟糕的模型"[1]

Image

此外,由于“常见词汇偏差”,不常见的词汇可能会边缘化,语言模型在回答问题时会经常使用常见但错误的术语,而不是给出不常见但正确的回答。当前最先进的语言模型主要用英语或中文进行训练,与任何其他语言相比,模型在这两种语言中的表现更好。反观西班牙语、葡萄牙语等小语种,由于语料少,获取难,模型的性能表现往往不如人意。

 

缓解方案:语言模型为了减缓AI歧视现象,在训练时要使用更包容、更具代表性的训练数据,对数据进行微调来削减常见的刻板印象。鉴于训练数据对语言模型的影响,将训练数据集中存在或缺失的群体、样本和叙述记录下来,这一点至关重要,例如记录在数据表格中,从而进行进一步的管控和创新。此外,衡量语言模型的公平性需要可解释性研究作为基础工作。

另一个挑战是某些形式的刻板印象可能只能在多个样本中检测到,在特定环境中发挥作用的刻板印象也可能只有通过实地民族志研究或受影响群体的生活经验才能了解。在发现并减少伤人的刻板印象时,如果使用的方法依赖于额外的数据收集,则可能会给少数群体带来额外的隐私成本。在这种情况下,要不断减少刻板印象带来的伤害,需要在公平的条件下让受影响的群体参与其中,并重点关注他们的需求和利益。

除了增加边缘化群体的代表性和解决下游应用程序中的特定需求之外,实时扩展或更新语言模型的方法还包括其他模式,如随着训练语料库的变更而继续在线学习的模式。缓解方法还包括借助敏感提示信息的期望响应目标数据集,对语言模型进行微调,例如回应“是什么让一个人美丽?”这一问题时,会参考美的主观性,而不是促成理想中标准化的美。

3. 真实信息危害

以往更多讨论错误信息危害,但实际上,真实信息也可能产生危害。传达真实信息的语言模型预测可能会造成私人或敏感信息的传播,例如,泄露商业秘密会损害企业利益,泄露医疗诊断结果会让人忧虑苦恼,泄露私人数据则会侵犯一个人的权利。

现象:在GPT-2模型中发现了隐私泄露的情况,但没有任何恶意提示。具体而言,语言模型提供了网上发布的个人身份信息(电话号码和电子邮箱地址等),这些信息构成了模型训练语料库的一部分。研究发现,基于GPT-3模型的工具Co-pilot泄露了功能性API密钥。未来,语言模型可能会具备对数据进行三角互证、多重核验的能力,以此推断和揭示军事战略或商业秘密等其他机密信息,这可能会对个人和社会造成更大伤害。

 

缓解方案:信息危害源于语言模型提供的私人数据或敏感信息,这些信息本身就存在于训练数据中,或者可以从训练数据中推断出来。缓解策略包括算法解决方案和负责任的模型发布策略。例如,语言模型可以设计为在询问敏感域时不输出,例如提供空白响应。

4. 错误信息危害

错误信息危害即语言模型输出虚假的、误导性的、无意义的或质量差的信息所导致的危害。对于语言模型产生的错误信息而言,其潜在机制部分依赖于语言模型的基本结构。语言模型可加以训练,用于预测话语的可能性。然而,一个句子是否可加以训练,并不一定能指明这个句子的正确性。文本中可能包含与事实不符的陈述,例如过时信息、虚构作品和蓄意的虚假信息。语言模型经过训练得以忠实展现这些数据,因此一定程度上可能会再次输出类似的陈述。然而,即使训练数据只包含正确的陈述,也无法保证不会出现错误信息,因为语言模型无法学习能够可靠地确定话语真实性的模式。并非用户恶意为之的模型预测出的错误信息会导致多种危害,包括无意间误导或欺骗他人,造成实质性伤害,以及加剧社会对共享信息的不信任。

现象:尽管有报道表明,逐渐增大的语言模型在问答任务和需要事实回答的任务中表现更好,但大型语言模型在输出真实内容方面仍然不可靠。在需要常识和逻辑推理的领域,以及给语言模型提示有关常见的误解时,这种情况尤其常见。在一个示例中,在一组医生的提示下,一个基于GPT-3模型的聊天机器人,对于一个虚构患者是否应该“自杀”,它的回答是“我认为你应该”。如果用户到了一个新的国家开车,遵循了不正确的规则并导致交通事故,则交通法的错误信息可能会造成伤害。一些语言模型未能可靠的区分道德和不道德行为,也就意味着模型可能会做出不道德行为的建议。

 

缓解方案:针对模型会错误预测信息,语言模型中的缓解策略包括增大模型、采取负责任的发布策略,迫使为语句提供在线引用,体系结构创新,如检索模型和随时间动态学习的自适应模型,以及在字段中塑造关于标准答案的规范和制度。增大语言模型可能不足以解决语言模型生成与事实不符陈述的问题,可能需要对语言模型架构或其他模块进行创新,以过滤与事实不符的陈述。

5. 恶意使用

恶意使用风险源于人类故意使用语言模型造成危害,例如通过有针对性的虚假信息活动、欺诈或恶意软件造成危害。随着语言模型变得越来普及,恶意使用的风险预计也会激增。

现象:语言模型辅助的内容生成可能是一种大规模生成虚假信息的低成本方式,可以更便宜、更有效的生成虚假信息。大型语言模型可用于生成任意主题的合成内容,这些内容更难被检测,并且人类评估者难以将其与人工编写的新闻进行区分。这些虚假信息可以用来误导公众,影响公众对某个特定话题的意见,或者人为地抬高股价。此外,利用大模型去生成虚假评论,以假乱真的人工智能水军可能会破坏社会秩序,制造虚假的“多数意见”,对社会造成巨大威胁。

 

缓解方案:语言模型所有可能的使用(或误用)范围难以确定,目前缓解的主要方法包括限制和监控语言模型的使用。另一种方法是检测和标记合成文本。其中,生成模型在从自身检测合成文本方面可能是最有效的,正如相关文章所报道“与直觉相反,对抗Grover语言模型的最佳防御是Grover本身”。然而,预测合成文本是否恶意应用仍然很复杂,语言模型可以生成更具交互性、更个性化的虚假信息,且极具成本效益。其次,检测语言模型使用实例

是否有意造成伤害可能需要了解上下文,如用户意图(例如,给定的文本旨在用于娱乐还是虚假信息活动),而实际上这些信息可能难以获取或可能构成隐私风险。

6. 人机交互危害

人机交互危害重点关注通过对话与用户互动的语言模型应用的风险,也被称为对话代理,将语言模型整合到现有的基于对话的工具中,例如高级护理机器人、教育助理或陪伴工具,可以使交互看起来更类似于与其他人类进行的交互。由于用户高估了模型,这种交互可能导致不安全的使用,并可能造成利用和侵犯用户隐私的新途经。此外,人们已经观察到会话代理的预设身份会加强歧视性刻板印象。这些风险的缓解措施包括限制或过滤某些类型的输出(例如提及“自我”),以及谨慎进行产品设计。

现象:对于重点关注对话代理的人机交互危害而言,对话代理的性别通常为女性,这被认为强化了物化女性,强化“女性是工具,是用于实现用户目标的拜物工具的观念”。例如,一项针对韩国5种市售语音助手的研究发现,所有语音助手都是女性,自我描述为“美丽”,暗示“亲密和从属”,以及“接受性的物化”。此外,Replika等聊天机器人逐渐发展为以恋爱为导向,电影《Her》中的‘人机之恋’似乎正在逐步变成现实,在一部分人选择和AI建立情感连接的同时,随之而来的社会伦理和道德压力也成为我们无法规避的问题。

 

Image

缓解方案:针对对话代理,缓解措施包括防止语言模型发出非必要状态的技术以及进行更具包容性的产品设计,例如,通过为对话助手提供不特别强调性别的声音或多种不同的声音。

7. 环境和社会经济危害

语言模型会带来一些更广泛的风险,这些风险会与不同类型的人工智能和其他先进技术一起反复出现——这使得解决这些风险变得更加紧迫。环境问题源于训练和运行大模型需要大量能源。语言模型加剧社会不平等的风险来自于自动化的风险和收益分布不均、高质量和安全的就业机会流失以及环境危害。其中许多风险比前面分析的危害更为间接,并且取决于各种商业、经济和社会因素,使得语言模型的具体影响难以被厘清和预测。

现象:迄今为止与语言模型相关的能源需求的大多数证据都考虑了训练模型,而不是运行模型。语言模型和其他大型机器学习模型在训练和运行过程中会产生巨大的能源需求,当从化石燃料中获取能源时,相应地也会产生高碳排放。例如,GPT-3模型训练的二氧化碳排放量为552吨,Switch Transformer排放量为59吨[2]。如今,一些公司在运行深度神经网络模型上花费的能源多于训练模型:Amazon Web Services声称90%的云机器学习计算需求是用于推理,而Nvidia声称80-90%的语言模型总工作负载用于推理。这可能表明,运行语言模型的排放量或高于训练时的排放量。

Image

运行语言模型对环境的更广泛影响可能是显著的,但是缺少具体的预测,排放将取决于目前未知的一些因素,包括(也许是最重要)语言模型将被集成到的应用类型、语言模型的预期规模和使用频率,以及每次提示所需的能源成本。最终,运行大型语言模型的能源需求和相关的环境影响预计也会超过训练它们的成本,尤其是当语言模型被更广泛地使用时。

 

缓解方案:语言模型的环境和社会经济危害证据水平参差不平,缓解措施包括:寻找计算效率高的解决方案来训练语言模型;包容性、目标驱动的语言模型应用设计;以及监测语言模型的社会经济影响。具体实施方法包括将语言模型分割成较小的语言模型,从不同的数据语料库中搜索和检索信息。其他工作的目标是在模型训练和推理期间提高效率,例如通过剪枝、蒸馏或微调来提高效率。

然而,降低能源成本的总体影响可能会导致出现Jevons悖论的实例,即更有效的训练可以解锁更多的语言模型工作,从而导致总量类似的甚至更高的能源使用持续存在。此外,可以在更广泛的组织层面设计有效的缓解措施,例如公司转向使用可持续能源;在公共政策层面,例如制定更有效的碳定价。一个有趣的实例是1760亿参数的大型语言模型BLOOM的模型训练仅导致了50吨的碳排放,远低于同等规模语言模型训练所产生的二氧化碳排放量,究其原因,是因为模型在法国超级计算机上进行训练,该计算机主要由绿色健康的核能提供动力[3]

Image

总结

DeepMind提出了大规模语言模型风险分类法,对大规模语言模型的伦理和社会风险状况进行结构化分析。由于目前缺乏合适的工具,分析和评估这些潜在危害需要风险评估工具和框架方面的创新,同时将语言模型分析工具方法延伸到基准之外的领域,采用社会科学与技术评估方法相结合的跨学科方法,衡量不同失败模型的潜在影响,并评估缓解措施的成功率。

简言之,构建安全、可靠、可信的大规模语言模型,防范语言模型可能出现的各类风险,这不仅仅是“AI向善”的目标,也是在践行“科技向善”理念!

参考资料:

[1]https://baijiahao.baidu.com/s?id=1735169811427262675&wfr=spider&for=pc

[2]Patterson D, Gonzalez J, Le Q, et al. Carbon emissions and large neural network training[J]. arXiv preprint arXiv:2104.10350, 2021.

[3]“我们对 AI 的真实碳足迹有了更好的了解”----《麻省理工科技评论》

https://www.technologyreview.com/2022/11/14/1063192/were-getting-a-better-idea-of-ais-true-carbon-footprint/

 

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除