本文来自《Nature》作者Eva A.M. van Dis、Willem Zuidema等
Eva A.M. van Dis是荷兰阿姆斯特丹大学精神病学系阿姆斯特丹UMC的博士后研究员和心理学家,Willem Zuidema是荷兰阿姆斯特丹大学逻辑、语言和计算研究所自然语言处理、可解释的人工智能和认知建模副教授。
自去年年底发布名为ChatGPT的聊天机器人以来,很明显,这种类型的人工智能(AI)技术将对研究人员的工作方式产生巨大影响。
ChatGPT是一个大型语言模型(LLM),一个自动从数据中学习的机器学习系统,可以在对海量数据集进行训练后生成复杂且看似智能的写作。这是加利福尼亚州旧金山的人工智能公司OpenAI和其他公司发布的一系列此类模型中的最新一款。ChatGPT引起了兴奋和争议,因为它是第一批能够用英语和其他语言就各种主题与用户进行令人信服交谈的模型之一。它是免费的,易于使用,并继续学习。
这项技术对科学和社会产生了深远的影响。研究人员和其他人已经使用ChatGPT和其他大型语言模型来撰写论文和演讲,总结文献,起草和改进论文,以及确定研究差距和编写计算机代码,包括统计分析。很快,这项技术将发展到可以设计实验、撰写和完成手稿、进行同行评审和支持编辑决定接受或拒绝手稿的程度。
对话式人工智能可能会彻底改变研究实践和出版,创造机会和担忧。它可以加快创新过程,缩短出版时间,并通过帮助人们流利写作,使科学更加公平,并增加科学观点的多样性。然而,它也可能降低研究的质量和透明度,并从根本上改变我们作为人类研究人员的自主权。ChatGPT和其他LLM产生的文本令人信服,但往往是错误的,因此它们的使用可能会扭曲科学事实并传播错误信息。
我们认为使用这项技术是不可避免的,因此,禁止它行不通。当务之急是研究界就这项潜在颠覆性技术的影响进行辩论。在这里,我们概述了五个关键问题,并建议从哪里开始。
坚持人工验证
LLM已经开发多年,但数据集的质量和大小不断增加,以及用人类反馈校准这些模型的复杂方法,突然使它们比以前强大得多。LLM将带来新一代搜索引擎1,能够为复杂的用户问题提供详细和翔实的答案。
但将对话式人工智能用于专业研究可能会带来不准确、偏见和抄袭。我们向ChatGPT提出了一系列需要深入理解文献的问题和作业,并发现它经常产生虚假和误导性的文本。例如,当我们问“有多少抑郁症患者在治疗后复发?”时,它产生了一个过于笼统的文本,认为治疗效果通常是持久的。然而,许多高质量的研究表明,治疗效果会减弱,在治疗完成后的第一年,复发的风险29%到51%不等。重复相同的查询会产生更详细、更准确的答案(见补充信息,图S1和S2)。
接下来,我们要求ChatGPT总结我们两人在JAMA Psychiatry5上撰写的关于认知行为疗法(CBT)对焦虑相关疾病的有效性的系统评论。ChatGPT捏造了一个令人信服的回应,其中包含一些事实错误、虚假陈述和错误数据(见补充信息,图S3)。例如,它表示,审查基于46项研究(实际上基于69项研究),更令人担忧的是,它夸大了CBT的有效性。
此类错误可能是由于ChatGPT的培训集中没有相关文章,未能提炼相关信息,或无法区分可信和不太可信的来源。似乎经常导致人类误入歧途的偏见,如可用性、选择和确认偏差,在对话式AI6中被复制甚至经常被放大。
使用ChatGPT的研究人员可能会被虚假或有偏见的信息误导,并将其纳入他们的思维和论文中。由于光环效应,漫不经心的评论家可能会被人工智能撰写的论文所欺骗,因为它的美丽、权威的散文,这种倾向是从一些突出的积极印象中过度推广7。而且,由于这种技术通常在不可靠地引用原始来源或作者的情况下复制文本,因此使用它的研究人员可能会不信任早期的工作,无意中抄袭了大量未知文本,甚至可能泄露了他们自己的想法。研究人员向ChatGPT和其他LLM披露的信息可能会被纳入模型,聊天机器人可以在不承认原始来源的情况下向其他人提供服务。
假设研究人员在工作中使用法学硕士,学者们需要保持警惕。专家驱动的事实核查和核查过程将是不可或缺的。即使LLM能够准确地加快摘要、评估和审查,高质量的期刊也可能决定包括人工验证步骤,甚至禁止某些使用该技术的应用程序。为了防止人类自动化偏见——过度依赖自动化系统——强调问责制的重要性将变得更加重要8。我们认为,人类应该始终对科学实践负责。
制定问责规则
已经可以使用工具来预测文本来自机器或人类的可能性。这些工具可能有助于检测纸厂和掠夺性期刊不可避免地使用LLM来制造内容,但这种检测方法可能会被进化的人工智能技术和巧妙的提示所规避。我们认为研究界和出版商应该研究如何以诚信、透明和诚实的方式使用LLM,而不是在AI聊天机器人和AI-chatbot-detector之间进行徒劳的军备竞赛。
研究论文中的作者贡献声明和确认应明确具体说明作者是否以及在多大程度上使用了ChatGPT等人工智能技术来编写手稿和分析。他们还应该说明使用了哪些LLM。这将提醒编辑和审稿人更仔细地审查手稿,以发现潜在的偏见、不准确和不当的来源。同样,科学期刊在使用法学硕士时应该透明,例如在选择提交的手稿时。
研究机构、出版商和资助者应采取明确的政策,提高对在编写所有可能成为已出版记录一部分的材料时使用对话人工智能的认识,并要求透明度。出版商可以要求作者证明这些政策得到了遵守。
目前,法名法长不应该是手稿的作者,因为他们不能对自己的工作负责。但是,研究人员可能越来越难以确定LLM在研究中的确切作用。在某些情况下,ChatGPT等技术可能会根据作者的提示生成手稿的很大一部分。在其他情况下,作者可能经历了许多周期的修订和改进,将人工智能用作语法或拼写检查器,但没有使用它来编写文本。将来,LLM可能会被纳入文本处理和编辑工具、搜索引擎和编程工具中。因此,他们可能会为科学工作做出贡献,而作者不一定意识到贡献的性质或规模。这违背了当今作者身份、剽窃和来源的二元定义,其中某人要么是作者,要么不是作者,要么使用了来源,要么没有使用。政策必须适应,但完全透明始终是关键。
AI设计的发明已经引发了对专利法9的根本性反思,并且已经就用于培训人工智能的代码和图像以及人工智能生成的代码和图像的版权提起了诉讼。对于人工智能撰写或辅助手稿,研究和法律界还需要弄清楚谁拥有文本的权利。是与人工智能系统一起编写文本的个人,是制作人工智能的公司,还是使用该系统指导其写作的科学家?同样,必须考虑和定义作者身份的定义。
投资真正开放的LLM
目前,几乎所有最先进的会话人工智能技术都是少数拥有人工智能开发资源的大技术公司的专有产品。OpenAI主要由微软资助,其他主要科技公司正在竞相发布类似的工具。鉴于一些科技公司在搜索、文字处理和信息访问方面几乎垄断,这引起了相当大的道德问题。
研究界最紧迫的问题之一是缺乏透明度。ChatGPT及其前身的基础培训集和LLM没有公开,科技公司可能会掩盖其会话人工智能的内部运作。这与向透明度和开放科学的方向背道而驰,并使人们很难发现聊天机器人知识的起源或差距10。例如,我们提示ChatGPT解释几位研究人员的工作。在某些情况下,它详细描述了科学家,根据他们的h指数(衡量其工作影响的一种方式),科学家的影响力可能较低。虽然它对一群h指数约为20的研究人员来说是成功的,但它根本没有生成任何关于几位备受引用和知名科学家工作的信息——即使是那些h指数超过80的科学家。
为了应对这种不透明度,应优先考虑开发和实施开源人工智能技术。大学等非商业组织通常缺乏跟上LLM快速发展所需的计算和财政资源。因此,我们主张科学资助组织、大学、非政府组织、政府研究机构和联合国等组织——以及科技巨头——对独立的非营利项目进行大量投资。这将有助于开发先进的开源、透明和民主控制的人工智能技术。
批评者可能会说,这种合作将无法与大型科技公司匹敌,但至少有一个主要学术合作,即BigScience,已经建立了一个名为BLOOM的开源语言模型。科技公司可能会通过公开采购其模型和语料库的相关部分来从该计划中受益,希望创造更大的社区参与,促进创新和可靠性。学术出版商应确保LLM可以访问其完整的档案,以便模型产生准确和全面的结果。
拥抱人工智能的好处
随着学术界工作量和竞争的增加,使用对话式人工智能的压力也在增加。聊天机器人提供了快速完成任务的机会,从努力完成论文的博士生到需要快速文献审查其赠款提案的研究人员,或有时间压力的同行评审员提交分析。
如果人工智能聊天机器人可以帮助完成这些任务,结果可以更快地发布,让学者们专注于新的实验设计。这可能会大大加速创新,并可能导致许多学科的突破。我们认为这项技术具有巨大的潜力,前提是解决当前与偏见、来源和不准确性相关的新兴问题。重要的是要检查和提高法学硕士的有效性和可靠性,以便研究人员知道如何明智地将该技术用于特定的研究实践。
一些人认为,由于聊天机器人只是在训练集中学习单词之间的统计关联,而不是理解它们的意思,LLM只能回忆和综合人们已经做的事情,而不能展示科学过程的人性方面,例如创造性和概念思维。我们认为,这是一个过早的假设,未来的人工智能工具可能能够掌握当今似乎遥不可及的科学过程方面。在1991年的一篇开创性论文中,研究人员写道,人与智能技术之间的“智能伙伴关系”可以超越人们单靠的智力能力。这些智能伙伴关系可以超越人类的能力,并将创新加速到以前无法想象的水平。问题是自动化可以以及应该走多远?
人工智能技术可能会重新平衡学术技能集。一方面,人工智能可以优化学术培训——例如,通过提供反馈来提高学生的写作和推理技能。另一方面,它可能会减少对某些技能的需求,例如进行文献搜索的能力。它还可能引入新的技能,例如提示工程(设计和制作用于提示对话式人工智能模型的文本的过程)。某些技能的丧失不一定有问题(例如,大多数研究人员不再手工进行统计分析),但作为一个社区,我们需要仔细考虑哪些学术技能和特征对研究人员仍然至关重要。
如果我们只关心性能,随着人工智能技术的进步,人们的贡献可能会变得更加有限和模糊。将来,AI聊天机器人可能会生成假设,开发方法论,创建实验,分析和解释数据并编写手稿。AI聊天机器人也可以评估和评论文章,取代人类编辑和评论员。虽然我们离这种情况还有一段路要走,但毫无疑问,对话式人工智能技术将日益影响科学出版过程的所有阶段。
因此,包括伦理学家在内的学者必须辩论使用人工智能创造潜在加速知识生成与在研究过程中失去人类潜力和自主性之间的权衡。人们的创造力和原创性、教育、培训和与他人的富有成效的互动可能仍然对进行相关和创新的研究至关重要。
扩大辩论范围
鉴于LLM的破坏潜力,研究界需要组织一场紧急而广泛的辩论。首先,我们建议每个研究小组立即召开会议,讨论并亲自尝试ChatGPT(如果他们还没有)。教育工作者应该与本科生讨论它的使用和伦理。在这个早期阶段,在没有任何外部规则的情况下,负责任的小组领导和教师必须确定如何诚实、诚信和透明地使用它,并商定一些参与规则。应提醒所有研究贡献者,他们将对自己的工作负责,无论工作是否通过ChatGPT生成。每个作者都应该负责仔细核实他们的文本、结果、数据、代码和参考资料。
其次,我们呼吁立即举办一个关于发展和负责任地使用LLM进行研究的国际论坛。作为第一步,我们建议为相关利益相关者举办一次峰会,包括不同学科的科学家、科技公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。组织了类似的峰会,讨论和制定应对其他破坏性技术的指导方针,如人类基因编辑。理想情况下,这种讨论应该为所有相关方带来快速、具体的建议和政策。我们提出了一份可以在本论坛上讨论的非详尽问题清单(见“辩论问题”)。
需要解决的一个关键问题是对研究多样性和不平等的影响。LLM可以是一把双刃剑。它们可以帮助创造公平的竞争环境,例如通过消除语言障碍和让更多人编写高质量的文本。但与大多数创新一样,高收入国家和特权研究人员可能会迅速找到利用LLM的方法,以加速自己的研究和扩大不平等。因此,重要的是,辩论中来自研究代表性不足的群体和受研究影响的社区的人,将人们的生活经历作为重要资源。
与社会的许多其他领域类似,科学现在面临着人工智能技术引发的清算,该计算侵犯了其最珍视的价值观、实践和标准。重点应该是抓住机会和管理风险。我们相信,科学将找到一种从会话人工智能中受益的方法,而不会失去使科学工作成为最深刻和最令人满意的企业之一的许多重要方面:好奇心、想象力和发现。
关于对话式人工智能的问题列表
哪些研究任务应该或不应该外包给大型语言模型(LLM)?
哪些学术技能和特征对研究人员仍然至关重要?
人工智能辅助研究过程中的哪些步骤需要人工验证?
应该如何改变研究诚信和其他政策来解决LLM问题?
如何将法学硕士纳入研究人员的教育和培训?
研究人员和资助者如何帮助开发独立的开源法学硕士,并确保模型准确代表科学知识?
应该期望LLM获得哪些质量标准(例如,透明度、准确性、偏差和来源信用),哪些利益相关者对标准和LLM负责?
研究人员如何确保LLM促进研究公平,并避免不平等扩大的风险?
如何使用LLM来增强开放科学的原则?
法学硕士对科学实践有什么法律影响(例如,与专利、版权和所有权相关的法律和法规)?
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢