《自然》：大型语言模型时代的科学

大型语言模型 (LLMs) 是具有大量参数的深度学习模型，以无监督方式对大量文本进行训练。LLMs 在 2018 年左右开始出现，此后参数和能力的数量急剧增加（例如，GPT-4 有超过 100 万亿个参数，可以处理文本和图像）。由于可以生成和编辑科学文本或可以回答科学问题的 LLMs 工具突然广泛使用，2022 年底爆发了关于在科学中使用和滥用该技术的讨论。专栏1总结了促成这些对话的一些悬而未决的问题。

专栏 1 开放性问题

准确性、可靠性和问责制

幻觉：科学家如何有条不紊地确定大型语言模型 (LLMs) 何时产生“幻觉”或产生不准确和幻想的内容？科学家如何才能最好地评估和解决这些趋势，以产生不可靠或非事实的输出？

对变化的响应能力：如果LLMs在世界知识发生变化或数据分布随时间变化时无法有效推断，科学家如何保证其准确性、可靠性和对变化的响应能力？

稀疏现象：如果 LLMs 难以可靠地为不常见或研究稀疏的现象生成准确的内容，那么科学家如何利用 LLMs 来提供有关异常、新发现或前所未有的观察的见解？

研究诚信：什么是LLMs 时代的剽窃和作者虚假陈述？科学家应该如何对剽窃和作者的虚假陈述负责？应该采取哪些检查来确定科学出版物的真实性？

量化 LLMs 对写作的帮助程度：什么是可以接受的，什么不是？

问责制：谁负责科学研究的完整性和 LLMs 资助的科学论文的内容？谁负责？

可解释性、缺失和偏见

不透明：如何将不透明的 LLMs 合理地整合到科学方法中？

可解释性：如何追溯原始来源？利用不透明的 LLMs 的科学家如何根据此类模型呈现其输出来阐明文本的预期含义或细微差别？缺乏可解释性是否会破坏依赖从 LLMs 得出的推论的合理性？

缺失：如果科学论文代表研究过程的最终产品，而不是作为研究基础的复杂选择、实践和背景的全貌（即并非所有研究都被记录下来，尤其是失败和负面结果），那么LLMs（仅处理信息科学文章、教科书、网站等）产生的推论如何解释了这种“冰山一角”观点的局限性所导致的缺失？

选择：LLMs如何解释已发表文献中过时或不正确的知识？

偏差：如何最有效地评估 LLMs 训练数据集中的潜在偏差，以及在其设计、开发和部署中可能出现的其他社会、统计和认知偏差？LLMs将如何增强现有偏差并引入新的偏差或帮助消除现有偏见？

科学的独创性和发现

范式转变：LLMs如何适应未来科学理解的“范式转变”？LLMs（通过识别过去研究中出现的模式来产生见解——可能导致范式锁定和扼杀新颖性）能否起到抑制新科学方向的可能性吗？

异常值：异常值（激进的新想法、非常规的观点和不寻常的写作风格）会被丢失、被忽视或被平均掉吗？

科学创造力：科学家在LLMs时代的作用是什么？科学创造力的作用是什么？

去技能化：过度依赖LLMs来产生论点和文本会降低或削弱研究人员的写作和批判性思维技能和洞察力吗？

科学评估和同行评审

评估质量：我们如何评估LLMs时代的高质量科学？可重复性/可复制性和透明度的价值应该扮演什么角色？

科学精神：在 LLMs 时代，我们如何信任科学？如果有的话，客观性、严谨性和问责制的价值观如何随着LLMs与科学实践的大规模整合而改变？

更广泛的担忧是什么？

Abeba Birhane：在短短几个月内，LLMs 已经吸引了科学界、公众、记者和立法者的注意。这些系统通常被描述为游戏规则的改变者，它们将从根本上影响我们的生活，从我们搜索信息的方式到我们创造艺术和从事科学研究的方式。随着围绕这些系统功能的炒作持续增长，许多说法都是在没有证据的情况下提出的；反驳这些主张的责任落在了批评家身上。尽管这些系统对普通人产生了具体的负面影响 (通常是针对那些处于社会边缘的人),但LLMs的讨论很少涉及责任、问责、受剥削劳动和其他关键问题。相反，讨论主要是围绕他们的智力、意识、道德地位和理解能力进行抽象和假设性的推测，所有这些都是以责任问题、潜在的被剥削劳动以及这些系统的危害和利益分配不均为代价的。

Sandra Wachter：生成式 AI（GenAI，可以输出文本以外的数据，例如图像或音频）的深度学习模型）更广泛地说，是一种潜在的非常具有颠覆性的技术，可能会影响许多领域，例如教育、媒体、艺术和科学研究。科学和研究生产和消费的中断尤其令人担忧，因为需要领域专业知识来检测 GenAI 何时“产生幻觉”或编造谎言，并自信地将它们当作真相传递。

颠覆性技术总是激发巨大的希望和恐惧。人们担心印刷机会导致社会道德败坏，认为快速行驶的汽车会伤害人的内脏器官，认为电话会破坏家庭价值观。许多这样的恐惧最终都是没有根据的。但其他的危险确实出现了，这些危险当时甚至没有引起开发商、学者和政策制定者的注意，例如私人汽车对环境的重大影响。可靠地预测颠覆性技术的社会和经济影响、风险和发展路径是困难的。这并不是说我们应该停止地平线扫描，而是说我们需要定期重新评估技术的风险和收益。

在这些风险中，迫切需要解决这些技术对环境的影响。不管它们的效用如何，我们都需要记住，它们会产生大量的碳足迹。与汽车刚出现时相反，我们现在知道社会被迫承担的环境成本。作为科学家和社会，我们绝不能忽视人工智能 (AI) 技术的使用如何加剧气候危机。

科学的具体关注点是什么？

David Leslie：LLMs，以及更广泛的基础模型和 GenAI，无疑将在未来的科学发现中发挥重要作用。然而，研究人员必须谨慎行事，以同样的认知谦逊、怀疑主义和对科学方法的严格坚持来参与这些技术提供的支持，这些科学方法自 17 世纪初培根革命和牛顿革命以来一直是现代科学进步的先决条件。在围绕 LLMs 的炒作中，科学家必须承认科学发现的社会和解释性特征，并管理有关 LLMs 对促进科学理解的贡献的期望。

LLMs基于对大量数字文本数据语料库的强力迭代训练，生成对“统计上可能的单词序列延续”的预测。作为序列预测器，这些模型利用先前生成的文本的基础统计分布，根据它们的共现概率将矢量化符号串拼接在一起. 因此，从最简单的意义上讲，它们缺乏作为科学意义形成的先决条件的交流体现和关系功能。这些系统并不“居住”在现实生活中，在现实生活中，说话和互动的人类社区成员共同构建和再现了一个共享经验的共同世界，使用语言来传达意图，通过交换理由来评估和确立真理并应对无数存在的问题。通过这种方式，LLMs、基础模型和 GenAI 技术缺乏主体间性、语义和本体的基本能力，而这些能力是协作世界创造的先决条件，可以让科学家进行理论化、理解、创新和发现。尽管像 ChatGPT 这样的系统具有令人深刻的修辞技巧，但他们既不能驾驭不断发展的科学推理空间，也不能参与科学意义创造的试验和胜利。因此，在理解它们在科学发现中的辅助作用时，应考虑到这一局限性。

Atoosa Kasirzadeh：我指出了关于在科学背景下使用 LLMs 的三个重要问题。首先，LLMs可能无法捕捉到科学著作中隐含的细微价值判断。例如，虽然 LLMs 似乎对一些科学文献提供了有趣的概括，但尚不清楚它们是否能够捕捉到人类科学家显而易见的研究的不确定性、局限性和细微差别。仅依靠LLMs来撰写科学摘要可能会导致文本过于简化，从而忽视关键的价值判断，并导致对研究结果的误解。因此，在使用 LLMs 进行科学总结时，我们应该谨慎行事。需要做更多的工作来确保LLMs准确地传达科学实践背后的价值判断。这项工作应包括设计适当的评估基准，以评估 LLMs 在传达这些价值判断时的准确性。

其次，众所周知，LLMs 会生成不存在的虚假内容——这种现象被称为“幻觉”。例如，Meta 的 Galactica 是一个最初设计用于推理科学知识的 LLMs，据报道它表现出了重大缺陷，例如重现偏见和将谎言作为事实呈现，并且在公开 API 访问仅 3 天后就被关闭了。因此，应避免过度依赖LLMs来完成撰写文献综述等任务。或者至少应该非常仔细地对输出进行事实检查。

第三，在同行评审过程中使用 LLMs 会危及对它的信任。用于撰写同行评审报告的 LLMs 存在误解提交的科学文章的风险，无论是丢失关键信息还是上述意义上的幻觉。尽管人们可以让审稿人负责，但如何让 LLMs 负责是一个不容忽视的问题——部分原因是他们不透明的性质。这里似乎潜藏着责任的鸿沟。

谁来承担责任

AB:当我们急于将 LLMs 部署到科学实践中时，重要的是要记住科学是一项人类事业，而 LLMs 是一种工具——尽管在基于先前“见过”的词预测序列中的下一个词方面令人印象深刻——但存在诸如脆弱性等局限性（灾难性故障的敏感性），不可靠性和看似“科学”的废话的局限性。即使这些限制可以奇迹般地得到解决，将LLMs视为可以产生科学的科学家也是一个严重的错误。知识意味着责任，并且永远不会脱离产生它的科学家。科学永远不会出现在历史、社会或文化真空中，而是建立在广为接受的知识大厦之上。我们踏上科学之旅，在这座大厦的基础上进行建设，做出反应并揭穿它，期待人们的回应和反应。我们对自己的工作负责，并在受到批评时捍卫它，或在被证明错误时撤回它。被认为是科学的东西可以依赖于当时的意识形态。例如，在 19 世纪初的鼎盛时期，优学生是主流科学。最重要的是，由于科学从来都不是从“无中生有”的角度进行的，我们的问题、方法、分析和对我们发现的解释都会受到我们的兴趣、动机、目标和观点的影响。作为工具，LLMs 没有这些。作为工具，LLMs经过科学家的密切和持续审查，可以帮助科学创造力和写作。然而，将LLMs视为科学家或作者本身是对科学和LLMs的误解，也是逃避责任和问责。

科学家应该做什么?

SW：我们目前正处于 GenAI 的关键时刻。它的可能性似乎是无限的，但我们仍处于其生命周期的早期，还不足以改变它未来的发展路径。科学是块节奏和高度竞争的。出版的压力是巨大的。一项可以节省研究时间和增加产出的技术可能非常诱人。但是，如果 GenAI 在没有严格监督的情况下被自动使用，它可能会从根本上破坏“好”科学的基础。

在这个阶段，我们需要思考如何负责任地将 GenAI 融入科学。科学家对社会负有道德责任，以生产符合最高标准的知识。气候变化和 COVID-19 只是可靠科学在推动政策和社会行动方面极其重要的两个例子。科学家需要与期刊、出版商、会议组织者、媒体和更广泛的科学界合作，制定最佳实践、标准和检测方法，以确保GenAI的好处能够在不从根本上破坏科学及其在社会中的作用的情况下实现。

DL：科学家必须将 LLMs 和 GenAI 技术视为一种探索工具，它们支持负责任的、任务驱动的、社会主导的研究实践，并支持科学发现和理解的进步。套用经济学家 Zvi Griliches 的话来说，这些 AI 技术在科学研究中的广泛使用是“发现一种发现方法”——发明一套新的研究工具，支持和实现新的洞察力、创新途径以及在物理和生命科学方面的独创性。

从这种一个基于工具的理解出发，研究人员必须通过严格但非简单的视角来看待这些技术在科学发现中的作用，将它们部署为观察和分析的计算工具，以探索复杂的物理和生物系统和模式的特性，以及高维生物物理数据中的模式，否则这些数据将无法进行人类规模的检查、实验和推理。但是发现之路不应该以严格的工具主义方式对待；科学家不应将这些复杂模型仅仅视为预言。相反，他们的结果和内部运作应该被视为科学反思和创造力的跳板，在指导对科学理解的扩展和完善的更广泛的社会体现的追求方面可以发挥组成作用。

此外，AI 生成的输出和这些模型的见解必须被视为既依赖于解释器和理论负载。LLMs和GenAI 工具的构建和部署及其在科学探索中的应用必须被视为解释性成就，这些成就嵌入到科学哲学家所称的“发现背景”中。这些交流过程是由一个无界的人类社区的成员合作进行的，包括探究、解释和推理。

科学界密切关注这些发展并敦促 AI 研究实验室（例如 OpenAI）优先研究更可靠的检测器，这一点很重要。此外，至关重要的是，科学界继续密切关注 LLMs 的开发和使用，并在与 AI 伦理和安全专家协商后调整其政策和实践，以确保 LLMs 的使用增强而不是破坏严格性和科学研究的可重复性。最后，科学界必须鼓励与学术界和工业界的专家进行更多的跨学科讨论，以了解 LLMs 对科学知识的影响。

AK：在更强大和可靠的保障措施到位之前，科学界应采取及时和坚定的立场，避免过度依赖LLMs，并在LLMs时代促进负责任的科学实践。否则，风险就是危及科学知识的可信度。实现这一目标的第一步是尝试以现实的方式设计LLMs政策，例如，识别和禁止主要依赖 LLMs 的论文，这项政策已经在 2023 年国际机器学习会议 (ICML) 上通过，并且可能会得到广泛执行。然而，识别 LLMs 生成的文本具有挑战性，准确检测工具的开发是一个持续的研究领域。最近的研究引起了人们对这些方法在准确区分 LLMs 生成文本和非 LLMs 生成文本方面的可靠性的担忧。

此外，科学家们还必须更加直言不讳地指出这项技术对科学界的潜在负面影响。通过提高认识并要求进一步研究和开发保障措施，科学界可以积极促进负责任地和合乎道德地使用 LLMs 做出积极贡献。这包括促进跨学科合作和分享关于LLMs在各个领域的潜在风险和利益的知识。

Weidinger, L. et al. Taxonomy of risks posed by language models. in FAccT ‘22: 2022 ACM Conference on Fairness, Accountability, and Transparency 214–229 (ACM, 2022).
Bender, E. et al. On the dangers of stochastic parrots: can language models be too big? in FAccT ‘21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (ACM, 2021).
Shanahan, M. Talking about large language models. Preprint at https://doi.org/10.48550/arXiv.2212.03551 (2022).
Bender, E. & Koller, A. Climbing towards NLU: on meaning, form, and understanding in the age of data. in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics 5185–5198 (ACL, 2020).
Kasirzadeh, A. & Gabriel, I. In conversation with artificial intelligence: aligning language models with human values. Philos. Technol. 36, 27 (2023).Article Google Scholar .
Heaven, W. D. Why Meta’s latest large language model survived only three days online, MIT Technology Review. https://www.technologyreview.com/2022/11/18/1063487/meta-large-language-model-ai-only-survived-three-days-gpt-3-science/ (2023).
Owens, B. How Nature readers are using ChatGPT. Nature https://www.nature.com/articles/d41586-023-00500-8 (20 February 2023).
Griliches, Z. Hybrid corn: an exploration in the economics of technological change. Econometrica 25, 501–522 (1957).Article Google Scholar
Krenn, M. et al. On scientific understanding with artificial intelligence. Nat. Rev. Phys. 4, 761–769 (2022).‍PDF opens in a new tab Article Google Scholar ‍.
Reichenbach, H. Experience and prediction. An analysis of the foundations and the structure of knowledge. J. Philos. 35, 270 (1938).Article Google Scholar
Kuhn, T. The Structure of Scientific Revolutions (University of Chicago Press, 2012).
Sadasivan, V. S. et al. Can AI-generated text be reliably detected? Preprint at arXiv https://doi.org/10.48550/arXiv.2303.11156 (2023).

内容中包含的图片若涉及版权问题，请及时与我们联系删除

《自然》：大型语言模型时代的科学

评论