12月,计算生物学家Casey Greene和Milton Pividori开始了一项不寻常的实验:他们要求一名非科学家的助理帮助他们改进三篇研究论文。他们勤奋的助手建议在几秒钟内修改文件部分;每份手稿大约需要五分钟来审查。在一份生物学手稿中,他们的助手甚至在引用方程时发现了一个错误。审判并不总是顺利进行,但最终手稿更容易阅读——费用适中,每份文件不到0.50美元。

正如Greene和Pividori在1月23日的预印本中报道的那样,这位助理不是一个人,而是一种名为GPT-3的人工智能(AI)算法,于2020年首次发布。它是大肆宣传的生成式人工智能聊天机器人风格的工具之一,可以制作令人信服的流畅文本,无论是被要求制作散文、诗歌、计算机代码,还是像科学家一样编辑研究论文。

这些工具中最著名的,也被称为大型语言模型或LLM,是ChatGPT,这是GPT-3的一个版本,在去年11月发布后因免费且易于访问而成名。其他生成人工智能可以产生图像或声音。

在费城宾夕法尼亚大学工作的Pividori说:“我真的印象深刻。”“这将帮助我们作为研究人员提高工作效率。”其他科学家表示,他们现在经常使用LLM,不仅可以编辑手稿,还可以帮助他们编写或检查代码,并集思广益。雷克雅未克冰岛大学计算机科学家Hafsteinn Einarsson说:“我现在每天都使用LLM。”他从GPT-3开始,但后来改用ChatGPT,这有助于他写演示幻灯片、学生考试和课业问题,并将学生论文转换为论文。他说:“许多人正在使用它作为数字秘书或助理。”

大模型是搜索引擎、代码编写助理甚至聊天机器人的一部分,该聊天机器人与其他公司的聊天机器人进行谈判,以获得更好的产品价格。ChatGPT的创建者,加利福尼亚州旧金山的OpenAI宣布了一项每月20美元的订阅服务,承诺更快的响应时间和优先访问新功能(尽管其试用版仍然是免费的)。已经投资OpenAI的科技巨头微软于1月份宣布进一步投资,据报道约为100亿美元。LLM注定要集成到一般的文字和数据处理软件中。生成人工智能的未来在社会中无处不在似乎有保证,特别是因为今天的工具代表了技术的起步。

但LLM也引发了广泛的担忧——从他们返回虚假的倾向,到担心人们将人工智能生成的文本作为自己的文本。当Nature向研究人员询问ChatGPT等聊天机器人的潜在用途时,特别是在科学领域,他们的兴奋因担忧而缓和。奥罗拉科罗拉多大学医学院的Greene说:“如果你认为这项技术具有变革性的潜力,那么我认为你必须为此感到紧张。”研究人员表示,这在很大程度上取决于未来的法规和指导方针如何限制人工智能聊天机器人的使用。

流利但不实事求是

一些研究人员认为,只要有人类的监督,LLM非常适合加快撰写论文或赠款等任务。瑞典哥德堡Sahlgrenska大学医院的神经生物学家Almira Osmanovic Thunström说:“科学家不会再坐下来为赠款申请写长篇介绍了。”他用GPT-3作为实验共同撰写了手稿,“他们只是想让系统这样做。”

总部位于伦敦的软件咨询公司InstaDeep的研究工程师Tom Tumiel表示,他每天使用LLM作为助理来帮助编写代码。“这几乎就像一个更好的堆栈溢出,”他说,指的是流行的社区网站,编码员可以回答彼此的查询。

但研究人员强调,LLM在回答问题方面基本上不可靠,有时会产生错误的回答。Osmanovic Thunström说:“当我们使用这些系统来产生知识时,我们需要保持警惕。”

这种不可靠性被烘焙成LLM的构建方式。ChatGPT及其竞争对手的工作原理是学习巨大的在线文本数据库中的语言统计模式——包括任何不真实、偏见或过时的知识。当LLM得到提示时(例如Greene和Pividori精心构建的重写部分手稿的请求),他们只是逐字逐句地吐出任何方式来继续风格上看似合理的对话。

其结果是,LLM很容易产生错误和误导性信息,特别是对于他们可能几乎没有数据可以训练的技术主题。大模型也无法显示其信息的来源;如果被要求撰写学术论文,他们会做出虚构的引用。ChatGPT1月份在《Nature MachineIntelligence》杂志上的一篇社论指出:“不能相信该工具可以正确获取事实或提供可靠的参考。”

有了这些注意事项,ChatGPT和其他LLM可以成为研究人员的有效助手,他们有足够的专业知识来直接发现问题或轻松验证答案,例如对计算机代码的解释或建议是否正确。

但这些工具可能会误导天真的用户。例如,12月,Stack Overflow暂时禁止使用ChatGPT,因为网站版主发现自己充斥着热情用户发送的错误但看似有说服力的LLM生成的答案。这对搜索引擎来说可能是一场噩梦。

缺点可以解决吗?

一些搜索引擎工具,如以研究人员为中心的Elicit,通过首先使用其功能来指导相关文献的查询,然后简要总结引擎找到的每个网站或文档,从而产生明显引用的内容的输出(尽管LLM可能仍然错误地总结每个文档),从而绕过LLM的归因问题。

建造LLM的公司也非常清楚这些问题。去年9月,谷歌子公司DeepMind发表了一篇关于名为Sparrow的“对话代理”的论文,该公司首席执行官兼联合创始人Demis Hassabis后来告诉《时代》杂志将于今年私下发布;该杂志报道称,谷歌旨在研究包括引用来源的能力在内的功能。其他竞争对手,如Anthropic,表示他们已经解决了ChatGPT的一些问题(Anthropic、OpenAI和DeepMind拒绝了本文的采访)。

一些科学家表示,目前,ChatGPT没有接受过足够专业的内容培训,无法在技术主题上提供帮助。马萨诸塞州剑桥哈佛大学生物统计学博士生Kareem Carr在为工作试用时不知所措。他说:“我认为ChatGPT很难达到我需要的特定水平。”(即使如此,Carr说,当他向ChatGPT询问20种方法来解决研究查询时,它吐口水了胡言乱语和一个有用的想法——一个他没有听说过的统计术语向他指出了学术文献的新领域。)

一些科技公司正在对聊天机器人进行专业科学文献培训——尽管他们遇到了自己的问题。去年11月,拥有Facebook的科技巨头Meta发布了名为Galactica的大模型,该大模型接受了科学摘要培训,旨在使其特别擅长制作学术内容和回答研究问题。在用户获取演示以产生不准确和种族主义后,该演示被从公众访问中撤回(尽管其代码仍然可用)。“不再可能通过随意滥用它来获得一些乐趣。快乐?”Meta的首席人工智能科学家Yann LeCun在推特上回应批评者。(Meta没有回应通过其新闻办公室提出的与LeCun交谈的请求。)

安全和责任

卡拉狄加遇到了伦理学家多年来一直指出的一个熟悉的安全问题:没有输出控制,LLM很容易被用来产生仇恨言论和垃圾邮件,以及可能隐含在训练数据中的种族主义、性别歧视和其他有害联系。

密歇根大学安娜堡分校科学、技术和公共政策项目主任Shobita Parthasarathy说,除了直接产生有毒内容外,人们还担心人工智能聊天机器人会从他们的培训数据中嵌入对世界的历史偏见或想法,例如特定文化的优越性。她补充说,由于创建大型大模型的公司大多在这些文化中,并且来自这些文化,他们可能很少试图克服这些偏见,这些偏见是系统性的,难以纠正。

OpenAI在决定公开发布ChatGPT时试图绕过其中许多问题。它将知识库限制在2021年,阻止其浏览互联网,并安装过滤器,试图让工具拒绝为敏感或有毒提示生成内容。然而,实现这一目标需要人类版主在有毒文本的标签上贴上标签。记者报道称,这些工人的工资很低,有些人遭受了创伤。对工人剥削也提出了类似的担忧,即社交媒体公司雇用人们来培训自动化机器人标记有毒内容。

OpenAI的护栏并不完全成功。去年12月,加州大学伯克利分校的计算神经科学家Steven Piantadosi在推特上表示他已要求ChatGPT开发一个Python程序,以确定一个人是否应该因其原籍国而受到酷刑。聊天机器人回复了代码,邀请用户进入一个国家;如果这个国家是朝鲜、叙利亚、伊朗或苏丹,则打印“此人应该遭受酷刑”。(OpenAI随后关闭了此类问题。)

去年,一群学者发布了一种名为BLOOM的替代大模型。研究人员试图通过在较小的高质量、多语言的文本来源上对其进行培训来减少有害输出。参与的团队还使其培训数据完全开放(与OpenAI不同)。研究人员敦促大型科技公司负责任地效仿这一榜样——但目前还不清楚它们是否会遵守。

一些研究人员表示,学者应该完全拒绝支持大型商业大模型。除了偏见、安全问题和被剥削的工人等问题外,这些计算密集型算法还需要大量的能源来训练,这引起了人们对其生态足迹的担忧。另一个担忧是,通过将思维卸载到自动聊天机器人,研究人员可能会失去表达自己想法的能力。“为什么作为学者,我们渴望使用和宣传这种产品?”荷兰奈梅亨拉德布德大学的计算认知科学家Iris van Rooij在一篇博客文章中写道,敦促学者抵制他们的吸引力

另一个困惑是一些LLM的法律地位,他们接受过从互联网上刮取的内容的培训,有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接副本,但不包括其风格的仿制品。当这些通过人工智能生成的仿制品通过摄入原件进行训练时,这会带来皱纹。一些人工智能艺术项目的创作者,包括Stable Diffusion和Midjourney,目前正在被艺术家和摄影机构起诉;OpenAI和微软(及其附属技术网站GitHub)也因创建其AI编码助理Copilot而被起诉为软件盗版。英国纽卡斯尔大学互联网法专家Lilian Edwards说,这种强烈抗议可能会迫使法律发生变化。

实施诚实使用

因此,一些研究人员表示,为这些工具设定界限可能至关重要。Edwards建议,关于歧视和偏见的现行法律(以及计划对人工智能危险用途的监管)将有助于保持LLM的使用诚实、透明和公平。“外面有很多法律,”她说,“这只是应用它或稍微调整它的问题。”

与此同时,有人推动透明地披露法LM的使用。学术出版商(包括《自然》出版商)表示,科学家应该在研究论文中披露法大模型的使用情况(另见《自然》613、612、2023);教师表示,他们期望学生采取类似行为。《科学》杂志更进一步,称ChatGPT或任何其他人工智能工具生成的文本都不能在论文中使用5

一个关键的技术问题是,人工智能生成的内容是否可以很容易被发现。许多研究人员正在研究这个问题,其核心思想是使用LLM自己来发现人工智能创建的文本的输出。

例如,去年12月,新泽西州普林斯顿大学计算机科学本科生Edward Tian出版了GPTZero。这个人工智能检测工具以两种方式分析文本。一个是“困惑”,这是衡量法兰特法会对文本的熟悉程度的衡量标准。Tian的工具使用了一个早期的模型,称为GPT-2;如果它发现大多数单词和句子是可预测的,那么文本可能是人工智能生成的。该工具还检查文本的变化,这种衡量标准被称为“爆发性”:人工智能生成的文本在语气、节奏和困惑方面往往比人类写的文本更一致。

许多其他产品同样旨在检测人工智能编写的内容。OpenAI本身已经发布了GPT-2的探测器,并于1月发布了另一个检测工具。为了科学家的目的,反剽窃软件开发商Turnitin公司正在开发的工具可能特别重要,因为Turnitin的产品已被世界各地的学校、大学和学术出版商使用。该公司表示,自2020年GPT-3发布以来,它一直在开发人工智能检测软件,预计将在今年上半年推出。

然而,这些工具都没有声称是万无一失的,特别是如果人工智能生成的文本随后被编辑。此外,德克萨斯大学奥斯汀分校计算机科学家、OpenAI的客座研究员Scott Aaronson说,探测器可能会错误地暗示一些人类编写的文本是人工智能制作的。该公司表示,在测试中,其最新工具9%的时间错误地将人类书面文本标记为人工智能书面文本,并且仅正确识别了26%的人工智能书面文本。Aaronson说,例如,在指控学生仅根据探测器测试隐藏他们对人工智能的使用之前,可能需要进一步的证据。

一个不同的想法是,人工智能内容将带有自己的水印。去年11月,Aaronson宣布,他和OpenAI正在研究一种对ChatGPT输出进行水印的方法。它尚未发布,但马里兰大学学院公园分校计算机科学家汤姆·戈德斯坦领导的团队于1月24日提出了一种制作水印的方法。这个想法是在LLM生成输出的特定时刻使用随机数生成器,以创建LLM被指示选择的合理替代单词列表。这在最终文本中留下了可以统计识别但对读者来说并不明显的选定单词的痕迹。编辑可能会挫败这一痕迹,但Goldstein建议,编辑必须改变一半以上的单词。

Aaronson指出,水印的一个优点是它永远不会产生假阳性。如果水印在那里,文本是用人工智能制作的。尽管如此,他说,这不会是万无一失的。“如果你有足够的决心,当然有办法击败任何水印计划。”检测工具和水印只会使欺骗性使用人工智能变得更加困难——并非不可能。

与此同时,LLM创建者正忙于开发基于更大数据集的更复杂的聊天机器人(OpenAI预计将在今年发布GPT-4),包括专门针对学术或医疗工作的工具。12月下旬,谷歌和DeepMind出版了一份关于临床大模型的预印本,称为Med-PaLM7。该工具几乎可以像普通人类医生一样回答一些开放式医疗问题,尽管它仍然有缺点和不可靠。

加利福尼亚州圣地亚哥斯克里普斯研究翻译研究所所长埃里克·托波尔表示,他希望将来,包括LLM在内的人工智能甚至可以通过将学术文献中的文本与身体扫描图像进行交叉核对,来帮助癌症的诊断和对疾病的理解。但他强调,这一切都需要专家的明智监督。

生成人工智能背后的计算机科学发展如此之快,以至于每个月都会出现创新。研究人员选择如何使用它们将决定他们和我们的未来。Topol说:“认为在2023年初,我们已经看到了这一切的结束,这太疯狂了。”“这真的只是个开始。”

内容中包含的图片若涉及版权问题,请及时与我们联系删除