文档地址:https://www.judiciary.senate.gov/imo/media/doc/2023-07-26_-_testimony_-_amodei.pdf 

尊敬的布卢门撒尔主席、霍利排名委员以及各位委员,感谢您们提供这个机会,让我来和您们探讨人工智能的风险和监管问题。我是Anthropic公司的CEO Dario Amodei。Anthropic是一家公益性企业,旨在以身作则,开发和发布使人工智能系统更加安全可控的技术,并在最先进的模型中谨慎地部署这些技术。

Anthropic 进行的研究包括宪法人工智能,这是一种训练人工智能系统根据一组明确原则行事的方法;对 AI 系统进行敌对测试以揭示其不良行为的红队测试的早期工作,这个概念在七家领先的 AI 公司周五宣布的自愿承诺中发挥了重要作用;以及 AI 可解释性的一系列基础工作,这是试图理解 AI 系统为什么会表现出某种行为的科学。

本月,在广泛测试之后,我们很自豪地为美国用户推出了我们的 AI 模型 Claude 2。Claude 2 将许多这些安全创新付诸实践。虽然我们承认我们的措施仍然远离完美,但我们认为它们是安全“向上竞赛”的重要贡献。我们希望能激励行业中的其他人进一步提高标准。

我将在这份准备好的证言中大部分讨论人工智能的风险,包括我认为在未来2到3年内对美国国家安全构成极其严重的威胁。但在此之前,我想先回答一个显而易见的问题:如果我真的认为人工智能的风险如此严重,为什么还要开发这项技术呢?

对此,我有三个回答:首先,如果我们能够减轻人工智能的风险,它的好处将是真正深远的。在未来几年,它可以大大加速治疗癌症等疾病的进程,降低能源成本,彻底改变教育,提高政府效率等等。其次,放弃这项技术在美国只会把它的权力、风险和道德困境交给不分享我们价值观的对手。最后,我们研究的一个一贯主题是,对强大人工智能风险的最佳缓解往往也涉及强大人工智能。

换言之,危险和解决危险的方案通常是相互关联的。因此,身处前沿的我们处于一个强大的位置,可以开发安全技术(就像我之前提到的那些技术),并且可以提前预警风险,就像我今天所做的那样。

AI进展的速度

了解AI最重要的一点就是它的进展速度。我个人从未见过任何类似这样的进展速度,许多比我更有经验的科学家似乎也持相同看法。此外,这种进展是可以预测的,并且由一些简单的基本因素驱动,这些因素不太可能很快放缓。

具体而言,衡量AI系统的智能或能力大致可以通过将三个因素相乘来衡量:(1)用于训练AI系统的芯片数量,(2)这些芯片的速度,(3)用于训练AI系统的算法的有效性。用于训练模型的芯片数量每年增加2倍至5倍。芯片速度每1至2年增加2倍。

算法效率每年大约增加2倍。这些复合在一起产生了惊人的进步速度。过去对于AI系统来说似乎不可能完成的任务,几年后往往变得司空见惯:例如,两年前,AI系统讲好笑话的想法被认为是荒谬的,而今天的聊天机器人却经常这样做。

我曾经在2018年在OpenAI工作时,是第一批记录这种顺畅、快速提高趋势的研究人员之一。自那时以来,我已经多次看到这种趋势在AI前沿得到证实。所有这些的一个关键含义是,重要的是要滑到冰球去的地方——设定(或至少尝试设定)2-3年后技术将会达到的位置的政策,这可能与现在的位置截然不同。 

短期、中期和长期风险

考虑到进展的快速步伐,我们可以将AI风险分为三类:
● 短期风险是当前AI系统或即将出现的风险。这包括隐私、版权问题、模型输出的偏见和公平性、事实准确性以及生成错误信息或宣传的潜力等问题。
● 中期风险是我们将在两到三年内面临的风险。在此期间,Anthropic的预测表明,AI系统可能会在科学和工程方面变得更加优秀,甚至可能被滥用以造成大规模破坏,特别是在生物领域。这种快速增长的科学和工程技能也可能改变国家之间的权力平衡。
● 长期风险涉及AI最终的发展方向。

目前,大多数人工智能系统只是 passively 与用户交流,但随着 AI 系统获得越来越多的自主权和直接操纵外部世界的能力,我们可能面临越来越多的控制挑战。我们可能面临的问题有一个谱系,极端的问题是担心没有适当的保障措施的足够强大的 AI 可能会对整个人类构成威胁,这被称为存在风险。高度自主的智能系统如果不受控制,也可能被滥用或者犯下灾难性的错误。

需要注意的是,有些问题,比如 AI 对就业的影响,并不容易归类,并且可能在每个时期都有不同的形式。短期风险每天都在新闻中出现,也肯定很重要。

在这次听证会上,我预计我们将有很多机会讨论这些问题,Anthropic的研究大部分都可以立即应用于这些风险:我们的宪法AI原则包括减少偏见,增加事实准确性,并尊重隐私、版权和儿童安全。我们的红队行动旨在减少各种风险,我们还发表了有关使用AI系统纠正其自身偏见和错误的论文。国会已经在考虑与这些风险相关的一些提案。

长期风险听起来像是科幻小说,但我认为它们至少有潜在的现实性。和其他主要AI公司的CEO以及一些著名的AI学者(包括我的共同证人Russell教授和Bengio教授)一起,我签署了一份声明,强调这些风险是人类不应忽视的挑战。

Anthropic已经开发了评估模型,旨在衡量这些风险的先兆,并将其提交给独立的评估者。我们在可解释性方面的工作也旨在有朝一日有助于应对长期风险。然而,长期风险的抽象和遥远性使得从政策角度处理它们变得困难:我们认为,最好通过解决更紧迫的风险来间接应对它们,这些风险可以作为应对长期风险的实践。

中期风险是我最想吸引小组委员会的注意的地方。简单地说,根据进展速度的直接推算,AI系统可能在2-3年内在许多科学和工程领域提供非凡的见解。这将引起技术和科学发现的革命,但也会大大扩大可能造成破坏的人群范围。

我特别担心人工智能系统在网络安全、核技术、化学以及尤其是生物学领域可能被大规模滥用。我将提供一个高层次的总结,介绍Anthropic在生物学领域所进行的研究,这有助于阐明这些问题。

在过去的六个月中,Anthropic与世界一流的生物安全专家合作,对LLMs在生物学领域中对滥用的潜力进行了深入研究。我将在这里以非常粗略的方式描述我们的研究结果。如果有议员对这个话题感兴趣,我很乐意提供更详细的私人简报。此外,我们最近向美国政府和私人研究机构的一些官员进行了简报,他们都发现我们的结果令人不安。请注意,RAND公司的首席执行官Jason Matheny在2023年3月8日的参议院证词中也提到了一些类似的问题。

今天,利用生物学制造危害的某些步骤需要专业知识,这些知识无法在Google或教科书中找到。我们和我们的合作伙伴研究的问题是,当前的人工智能系统是否能够填补这些生产过程中更难的步骤。我们发现,如今的人工智能系统可以填补其中一些步骤,但填补不完整且不可靠,它们正在显示出风险的最初萌芽迹象。然而,将今天的系统简单地推广到我们预计在2-3年内看到的系统,如果不采取适当的防护和缓解措施,将存在重大风险,人工智能系统将能够填补所有缺失的部分。这可能会大大扩大具有技术能力进行大规模生物攻击的参与者范围。发现这种风险后,Anthropic已经引入了缓解措施,以确保我们当前部署的人工智能系统不会被这种方式误用。

我们以生物学为例,使用宪法AI调整模型,使其不太可能响应潜在的有害信息请求。我们还建立了安全系统,以识别和干扰试图违反我们可接受使用政策的用户。

我们从这项工作中得出的结论是,这种红队工作很困难,但也是必不可少的,尤其是现在非常重要。我们认为,国家安全领域应该尽快进行更多的红队工作。第三方和政府在这方面应该发挥主导作用,特别是在他们具有专业知识的领域。

此外,实验室可以共享他们发现的风险和风险缓解措施。许多有价值的缓解措施似乎也很容易实施。为此,我们正在与其他实验室试行负责任的披露流程,我们将同时处理短期风险和未来风险。

这项工作的启示是:在任何领域,红队工作都是必不可少的,可以帮助我们更好地应对潜在风险和威胁。

然而,我们担心即使Anthropic和其他负责任的开发者成功地缓解这些风险,也会有一些不负责任的行为者。不良行为者可以从头开始构建他们自己的AI,从AI公司的服务器中窃取AI,或者重新利用开源模型,如果强大的开源模型变得可用的话。

虽然生物学是我们最担心的问题之一,但我们怀疑在网络、化学和核领域也可能存在类似的滥用情况。

政策建议

在我们看来,这些问题需要紧急的政策回应。理想的政策回应不仅应该解决我们上面提到的具体风险,而且应该提供一个框架来尽可能地解决其他风险 - 当然,不应该阻碍创新。我们建议采取三类广泛的政策措施:
● 首先,美国必须保护AI供应链,以保持其领先地位,同时防止这些技术落入不良行为者手中。

这个供应链从半导体制造设备一直延伸到像我们公司服务器上存储的AI模型。许多政府在这方面已经采取了措施。具体而言,关键的供应链包括:
- 半导体制造设备,例如光刻机。
- 用于训练AI系统的芯片,例如GPU。
- 已经训练好的AI系统,容易通过网络盗窃或未经控制的发布而“输出”。
- 发展前沿AI系统的公司,例如Anthropic和其他公司,应该遵守严格的网络安全标准来存储他们的AI系统。

我们已经向美国政府和其他实验室分享了我们对适当网络安全最佳实践的看法,并正在着手实施这些实践。
其次,我们建议为新的和更强大的模型建立“测试和审计制度”。

与汽车或飞机类似,我们应该将未来的人工智能模型视为强大的机器,具有巨大的效用,但如果设计不当或被误用可能会致命。新的人工智能模型在开发期间和发布给公众或客户之前,应该通过严格的安全测试。


○ 国家安全风险,如生物、网络系统或放射性材料的误用,由于威胁的紧迫性和严重性的混合,应该在测试中优先考虑。
○ 然而,测试也可以涵盖其他问题,如偏见、潜在的误导性、隐私、儿童安全和版权尊重。
○ 同样,测试可以衡量自主系统逃脱控制的能力,开始掌握未来系统的风险。已经有非营利组织,例如Alignment Research Center,试图开发这样的测试。

在训练强大的模型以识别潜在危险或其他风险的过程中,定期进行测试和审计非常重要,以便在训练进展过程中及时减轻风险。白宫最近宣布的自愿承诺中,一些公司(包括Anthropic)承诺进行这种类型的测试,但是立法可以更进一步,强制要求所有模型进行这些测试,并要求它们在部署之前按照某些标准进行测试。值得明确的是,鉴于当前难以控制即使安全优先的AI系统,这些严格的标准有可能导致AI发展大幅放缓,而这可能是必要的结果。

理想情况下,标准应该催生安全创新,而不是拖慢进展,因为公司争先恐后地成为第一家能够安全地部署明天人工智能系统的公司。

其次,我们应该认识到,对于人工智能系统的测试和审计科学还处于起步阶段,远不如飞机和汽车那样发展成熟。特别是,我们目前还很难完全理解一个人工智能系统会表现出哪些不良行为,除非我们将其广泛地部署给用户。因此,重要的是要资助测量和测量研究,以确保测试和审计制度实际上是有效的。

我们建议负责监督这一过程的机构是NIST,其任务明确关注测量和评估。然而,许多其他机构也可以为这项工作提供专业知识和结构。

Anthropic一直是拟议中的国家人工智能研究资源(NAIRR)的积极支持者。

内容中包含的图片若涉及版权问题,请及时与我们联系删除