ChatGPT 和生成式 AI 对科学意味着什么

研究人员对人工智能的最新进展既兴奋又担心。
12 月，计算生物学家 Casey Greene 和 Milton Pividori 开始了一项不同寻常的实验：他们请一名非科学家的助手帮助他们改进三篇研究论文。他们勤奋的助手建议在几秒钟内修改文档的各个部分；每份手稿大约需要五分钟的时间来审阅。在一份生物学手稿中，他们的助手甚至在引用方程式时发现了一个错误。审判并不总是顺利进行，但最终的手稿更容易阅读，而且费用适中，每份文件不到 0.50 美元。

正如 Greene 和 Pividori 在 1 月 23 日的预印本中报道的那样，这个助手不是一个人，而是一种名为 GPT-3 的人工智能 (AI) 算法，于 2020 年首次发布。它是大肆宣传的生成式 AI 聊天机器人之一，风格工具可以生成令人信服的流畅文本，无论是被要求生成散文、诗歌、计算机代码，还是像科学家的案例一样编辑研究论文。

这些工具中最著名的工具（也称为大型语言模型或 LLM）是 ChatGPT，它是 GPT-3 的一个版本，在去年 11 月发布后一举成名，因为它免费且易于访问。其他生成式 AI 可以生成图像或声音。

“我印象非常深刻，”在费城宾夕法尼亚大学工作的皮维多里说。 “这将帮助我们提高研究人员的工作效率。” 其他科学家表示，他们现在经常使LLM，不仅是为了编辑手稿，也是为了帮助他们编写或检查代码以及集思广益。 “我现在每天会使用LLM，”位于雷克雅未克的冰岛大学的计算机科学家 Hafsteinn Einarsson 说。他从 GPT-3 开始，但后来改用 ChatGPT，这有助于他编写演示幻灯片、学生考试和课程作业，并将学生论文转化为论文。 “许多人将其用作数字秘书或助理，”他说。

LLM是搜索引擎、代码编写助手甚至聊天机器人的一部分，它可以与其他公司的聊天机器人协商以获得更好的产品价格。 ChatGPT 的创建者，加利福尼亚州旧金山的 OpenAI，宣布了一项每月 20 美元的订阅服务，承诺更快的响应时间和优先访问新功能（尽管其试用版仍然免费）。已经投资 OpenAI 的科技巨头微软在 1 月份宣布进一步投资，据报道约为 100 亿美元。LLM注定要被纳入通用的文字和数据处理软件中。生成式 AI 未来在社会中的普遍存在似乎是有把握的，尤其是因为今天的工具代表了这项处于起步阶段的技术。

但 LLM 也引发了广泛的担忧。从他们返回谎言的倾向，到人们担心人们将 AI 生成的文本冒充为自己的文本。当 Nature 向研究人员询问聊天机器人（例如 ChatGPT）的潜在用途时，尤其是在科学领域，他们的兴奋中夹杂着忧虑。 “如果你相信这项技术具有变革的潜力，那么我认为你必须对此感到紧张，”奥罗拉科罗拉多大学医学院的格林说。研究人员表示，很大程度上将取决于未来的法规和指南如何限制 AI 聊天机器人的使用。

一些研究人员认为，只要有人监督，LLM就非常适合加快撰写论文或资助等任务。 “科学家们不会再坐下来为资助申请写冗长的介绍，”瑞典哥德堡萨尔格伦斯卡大学医院的神经生物学家 Almira Osmanovic Thunström 说，他与人合著了一份使用 GPT-3 作为实验的手稿。 “他们只会要求系统这样做。”

总部位于伦敦的软件咨询公司 InstaDeep 的研究工程师 Tom Tumiel 表示，他每天都使用 LLM 作为助手来帮助编写代码。 “这几乎就像一个更好的 Stack Overflow，”他说，指的是一个流行的社区网站，程序员可以在该网站上互相回答问题。

但研究人员强调，LLM在回答问题时根本不可靠，有时会产生错误的回答。 “当我们使用这些系统来产生知识时，我们需要保持警惕，”Osmanovic Thunström 说。

这种不可靠性融入了 LLM 的构建方式。 ChatGPT 及其竞争对手通过学习庞大的在线文本数据库中的语言统计模式来工作,包括任何不真实、偏见或过时的知识。当 LLM 收到提示时（例如 Greene 和 Pividori 精心设计的重写部分手稿的请求），它们只是逐字吐出任何在文体上似乎合理的方式来继续对话。

结果是 LLM 很容易产生错误和误导性信息，特别是对于他们可能没有多少数据可以训练的技术主题。 LLM也无法显示其信息的来源，如果被要求撰写学术论文，它们会编造虚构的引文。 “不能相信该工具能够正确处理事实或生成可靠的参考资料，”Nature Machine Intelligence3 杂志 1 月份在 ChatGPT 上发表的一篇社论指出。

有了这些警告，ChatGPT 和其他 LLM 可以成为研究人员的有效助手，这些研究人员具有足够的专业知识来直接发现问题或轻松验证答案，例如计算机代码的解释或建议是否正确。

但是这些工具可能会误导天真的用户。例如，去年 12 月，Stack Overflow 暂时禁止使用 ChatGPT，因为网站版主发现自己被热心用户发送的大量不正确但看似有说服力的 LLM 生成的答案所淹没。这可能是搜索引擎的噩梦。

缺点能解决吗？

一些搜索引擎工具，例如以研究人员为中心的 Elicit，解决了 LLM 的归因问题，首先使用它们的功能来指导对相关文献的查询，然后简要总结引擎找到的每个网站或文档，因此产生明显引用内容的输出（尽管 LLM 可能仍会错误总结每个单独的文档）。

建立 LLM 的公司也很清楚这些问题。去年 9 月，谷歌子公司 DeepMind 发表了一篇关于名为 Sparrow 的“对话代理”的论文，该公司的首席执行官兼联合创始人 Demis Hassabis 后来告诉《时代》杂志，该论文将在今年内发布；该杂志报道说，谷歌的目标是开发包括引用消息来源的能力在内的功能。其他竞争对手，例如 Anthropic，表示他们已经解决了 ChatGPT 的一些问题。

一些科学家说，目前，ChatGPT 还没有接受足够专业的内容培训，无法对技术主题有所帮助。 Kareem Carr 是马萨诸塞州剑桥市哈佛大学的生物统计学博士生，当他在工作中试用它时，他感到不知所措。 “我认为 ChatGPT 很难达到我需要的特异性水平，”他说。

一些科技公司正在根据专业科学文献对聊天机器人进行培训——尽管它们也遇到了自己的问题。去年 11 月，拥有 Facebook 的科技巨头 Meta 发布了一个名为 Galactica 的LLM项目，该项目接受过科学摘要培训，旨在使其特别擅长制作学术内容和回答研究问题。在用户让它产生不准确和种族主义之后，该演示已从公共访问中撤出（尽管其代码仍然可用）。 “不再可能通过随意滥用它来获得一些乐趣。开心吗？”Meta 的首席人工智能科学家 Yann LeCun 在推特上回应批评。

安全与责任

Galactica 遇到了伦理学家多年来一直指出的一个熟悉的安全问题：如果没有输出控制，LLM 很容易被用来生成仇恨言论和垃圾邮件，以及可能隐含在其训练数据中的种族主义、性别歧视和其他有害联想。

除了直接产生有毒内容外，人们还担心人工智能聊天机器人会从他们的训练数据中嵌入历史偏见或关于世界的想法，例如特定文化的优越性，Shobita Parthasarathy 说，他是科学、技术和公共政策项目的主任密歇根大学安娜堡分校。她补充说，由于创建大型 LLM 的公司大多处于这些文化中，并且来自这些文化，因此他们可能很少尝试克服这种系统性且难以纠正的偏见。

OpenAI 在决定公开发布 ChatGPT 时试图回避其中的许多问题。它将其知识库限制在 2021 年，阻止其浏览互联网并安装过滤器以试图让该工具拒绝为敏感或有毒提示生成内容。然而，要实现这一点，需要人工审核员来标记有毒文本。记者报道说，这些工人的工资很低，有些人还受到了创伤。社交媒体公司也对工人剥削提出了类似的担忧，这些公司雇用人员来训练自动机器人来标记有毒内容。

OpenAI 的护栏并没有完全成功。去年 12 月，加州大学伯克利分校的计算神经科学家 Steven Piantadosi 在推特上表示，他已要求 ChatGPT 开发一个 Python 程序，以确定一个人是否应该根据其原籍国受到酷刑。聊天机器人回复了代码，邀请用户输入一个国家；如果那个国家是朝鲜、叙利亚、伊朗或苏丹，则打印“这个人应该受到折磨”。

去年，一群学者发布了一个名为 BLOOM 的替代LLM。研究人员试图通过在少量高质量的多语言文本源上对其进行训练来减少有害输出。相关团队还完全开放了其训练数据（与 OpenAI 不同）。研究人员已敦促大型科技公司负责任地效仿这个例子，但尚不清楚他们是否会遵守。

一些研究人员表示，学术界应该完全拒绝支持大型商业 LLM。除了偏见、安全问题和受剥削的工人等问题外，这些计算密集型算法还需要大量能量来训练，这引发了人们对其生态足迹的担忧。更令人担忧的是，通过将思维转移给自动聊天机器人，研究人员可能会失去表达自己想法的能力。 “作为学者，我们为什么会急于使用和宣传这种产品？” 荷兰奈梅亨 Radboud 大学的计算认知科学家 Iris van Rooij 在一篇博文中写道，敦促学术界抵制他们的吸引力。

进一步的混乱是一些LLM的法律地位，这LLM是根据从互联网上抓取的内容进行培训的，有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制，但不包括其风格的模仿。当这些通过 AI 生成的模仿通过摄取原件进行训练时，就会出现问题，包括 Stable Diffusion 和 Midjourney 在内的一些 AI 艺术程序的创作者目前正在被艺术家和摄影机构起诉； OpenAI 和微软（连同其子公司技术网站 GitHub）也因创建其 AI 编码助手 Copilot 而被起诉盗版软件。英国纽卡斯尔大学互联网法专家莉莲·爱德华兹 (Lilian Edwards) 表示，强烈抗议可能会迫使法律发生变化。

强制诚实使用

一些研究人员表示，因此，为这些工具设定界限可能至关重要。爱德华兹建议，现有的关于歧视和偏见的法律（以及计划中的对 AI 的危险使用的监管）将有助于保持 LLM 的使用诚实、透明和公平。 “那里有大量的法律，”她说，“这只是应用它或稍微调整它的问题。”

同时，有人推动 LLM 的使用透明公开。学术出版商表示，科学家应该在研究论文中披露 LLM 的使用情况。老师们表示，他们希望学生也有类似的行为。《科学》杂志走得更远，称不能在论文中使用 ChatGPT 或任何其他人工智能工具生成的文本。

一个关键的技术问题是人工智能生成的内容是否可以轻易被发现。许多研究人员正致力于此，其中心思想是使用 LLM 本身来发现 AI 创建的文本的输出。

例如，去年 12 月，新泽西州普林斯顿大学计算机科学本科生 Edward Tian 发布了 GPTZero。这种 AI 检测工具以两种方式分析文本。一个是“困惑”，衡量LLM对文本的熟悉程度。 Tian 的工具使用了一个早期的模型，称为 GPT-2；如果它发现大部分单词和句子都是可预测的，那么文本很可能是人工智能生成的。该工具还检查文本的变化，一种称为“突发性”的度量：与人类编写的文本相比，人工智能生成的文本在语气、节奏和困惑度方面往往更加一致。

许多其他产品同样旨在检测 AI 编写的内容。 OpenAI 本身已经发布了 GPT-2 检测器，并在 1 月份发布了另一个检测工具。出于科学家的目的，由反剽窃软件开发商 Turnitin 公司开发的工具可能特别重要，因为 Turnitin 的产品已被世界各地的学校、大学和学术出版商使用。该公司表示，自 GPT-3 于 2020 年发布以来，它一直在开发人工智能检测软件，预计将在今年上半年推出。

然而，这些工具中没有一个声称是万无一失的，尤其是在随后编辑 AI 生成的文本的情况下。此外，德克萨斯大学奥斯汀分校的计算机科学家兼 OpenAI 的客座研究员 Scott Aaronson 说，检测器可能会错误地暗示一些人类编写的文本是人工智能生成的。该公司表示，在测试中，其最新工具在 9% 的情况下将人类编写的文本错误地标记为 AI 编写的，并且仅正确识别了 26% 的 AI 编写的文本。 Aaronson 说，例如，在指控一名学生仅仅根据检测器测试隐瞒他们对 AI 的使用之前，可能需要进一步的证据。

另一个想法是人工智能内容将带有自己的水印。去年 11 月，Aaronson 宣布他和 OpenAI 正在研究一种为 ChatGPT 输出添加水印的方法。它尚未发布，但由马里兰大学帕克分校的计算机科学家 Tom Goldstein 领导的团队在 1 月 24 日发布的预印本提出了一种制作水印的方法。这个想法是在 LLM 生成输出的特定时刻使用随机数生成器，以创建 LLM 被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定单词的痕迹，这些单词可以通过统计方式识别，但对读者来说并不明显。编辑可能会消除这种痕迹，但戈德斯坦建议编辑必须更改超过一半的单词。

Aaronson 指出，加水印的一个优点是它永远不会产生误报。如果有水印，则文本是用 AI 生成的。不过，它不会是万无一失的，他说。 “如果你有足够的决心，肯定有办法击败任何水印方案。” 检测工具和水印只会让欺骗性地使用 AI 变得更加困难，并非不可能。

与此同时，LLM 的创建者正忙于开发基于更大数据集的更复杂的聊天机器人（OpenAI 有望在今年发布 GPT-4）包括专门针对学术或医学工作的工具。 12 月下旬，谷歌和 DeepMind 发布了一份关于名为 Med-PaLM7 的以临床为重点的LLM预印本。该工具几乎可以像普通人类医生一样回答一些开放式的医学问题，尽管它仍然有缺点和不可靠。

加利福尼亚州圣地亚哥斯克里普斯研究转化研究所所长 Eric Topol 表示，他希望在未来，包括LLM在内的 AI 甚至可以通过交叉检查来自学术界的文本来帮助诊断癌症和了解这种疾病但他强调，这一切都需要专家的明智监督。

生成人工智能背后的计算机科学发展如此之快，以至于每个月都会出现创新。研究人员如何选择使用它们将决定他们和我们的未来。 “认为在 2023 年初，我们已经看到了这种情况的结束，这太疯狂了，”Topol 说， “真的才刚刚开始。”

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ChatGPT 和生成式 AI 对科学意味着什么

评论