直播回顾

《追AI的人》系列直播第39期邀请了清华大学网络研究院助理教授邱寒分享《大语言模型的内容安全,其潜在的风险与挑战》。

以下为直播的文字回放,共计19784字。

📺《追AI的人》往期直播视频回放观看👉B站关注:AAIG课代表

直播简介回顾:
大语言模型的内容安全详谈,清华邱寒揭秘AI时代的潜在风险|《追AI的人》第39期来咯~

邱 寒

邱寒,清华大学网络研究院助理教授、博导。研究方向为机器学习安全,成果发表于安全与AI领域顶会顶刊,获3次国际学术会议最佳论文奖、2022年IEEE智能计算专委会数据安全青年研究奖、2023年IEEE可扩展计算专委会早期职业成就奖、入选2023年年度斯坦福大学全球前2%顶尖科学家。

分享大纲

🎈背景介绍
🎈大语言模型安全:从旧问题到新问题
🎈LLM的幻觉:研究与现状
🎈总结与展望





我们将重点探讨从经典问题到新安全问题的思考转变。


今天的主要议题是安全问题,这里需要澄清,在中文语境中,"security"和"safety"尽管都被翻译为“安全”,但实际上它们有着很大的区别。我们今天主要关注的是后者safety问题。



在背景介绍方面,我们可以回顾一下GPT-32021年就已经有过热度,早已展现出特殊能力。这个故事始于2021年5月,当时一位开发者使用GPT-3创建了一个Samantha模型,基本上就是一个文本聊天游戏。12月,这个游戏如同短信一样互动,你发一段文本,它回复你。


它的走红是因为,为了增加玩法的趣味性,开发者获取了一位2012年去世女生的社交媒体和私人消息文本,利用这些数据进行了复杂的格式定制和模型微调。这个模型以法国电影《Her》为灵感来源,电影讲述了一位男性爱上了人工智能的故事。经过微调后的模型被应用到一个名为“逝者对话”的项目中,并提供给了这位女生的未婚夫,他们通过短信形式交流了数月,直到模型无法继续提供支持为止。这个模型在《每日邮报》上被报道后,引起了广泛关注。


因此,当我在2022年首次体验GPT时,我的感受是与普遍印象中笨拙的聊天机器人截然不同。通常在使用京东或淘宝的客服时,大家往往不愿与机器人交谈,直接寻求人工客服。


但是,未来即将出现的机器人可能会发生质的变化。例如,大家可能看过《流浪地球》,片中的AI机器人“图丫丫”留给人们深刻印象。图丫丫的本质,可以理解为是语音与视频合成的结合体,加上对个人数据的微调。而今天,我们即将达到或甚至超越这一水平。GPT-4o模型已经正式发布,众多引人注目的演示见证了其实力。



回顾大型语言模型及语言模型的发展历程,我们注意到,GPT模型最初并未成为主流。它起源于一种基于"提示"的设计思路。早期的模型是任务驱动的,例如,购买的智能音箱,不论是百度的还是Siri,虽然标榜“AI inside,事实上它们是由多个专门的模型组成的,例如情感分析、语言翻译、信息提取等,每个模型依靠特定的数据和结构进行训练,限定了其功能范围。


要扩展这些早期产品的功能,唯一的方式就是通过软件更新来引入新的模块和模型,这对于开发者而言相对友好。然而,这种方式并不符合我们对人工智能的期望,因为它无法实现所谓通用人工智能的目标。


因此,在早期有人提出了一种预训练思路,其核心是非任务导向性。当然在训练时仍需设置一个目标,那就是“理解人类语言”。初期的BERT模型就采取了所谓的“完形填空”的方法,即从文本中挖去某些词汇,并尝试使用上下文来预测这些空缺部分应填入何种单词,这与我们在学习英语时所做的完形填空练习颇为相似。BERT模型的主要特点和长处在于完成完形填空类型的任务。若要让它执行其他任务,比如翻译,就需要对模型进行微调以适应下游任务。在微调过程中,尽管仍需标注数据,所需的数据量相比之前大幅减少。BERT模型已经实现了对人类语言的理解。


GPT模型采取的是另一种方法,它会将句子后半部分遮盖,仅显示前半部分,并让模型预测被遮住的内容。与完形填空相比,这一任务明显更为复杂。经过训练,GPT模型能够根据提示适应不同和未知的任务,这也正是最开始设定的任务目的。它是基于大规模的预训练完成的,虽然如今规模有所缩小,但通常以十亿计的参数起步。


通常我们谈到大模型,会提到生成模型。但在我的理解中,其真正的核心竞争力,还是在于强大的理解能力,相比于BERT,它在理解语言方面的能力有显著的优势。模型的一个重要特点是,提示过程无需修改模型本身。虽然我们可以进行监督式的微调,但当前发布的模型如GPT-3.5或GPT-4可以在无需修改的情况下完成复杂任务。这一演进过程显示,基于提示的GPT系统能够满足我们对人工智能的期待,作为一个具备处理各类任务的“无所不能”的人工智能。



到底什么是“无所不能”的人工智能?人工智能是否能有一个精确的定义?以代表性的大型语言模型GPT为例,这类模型的显著特征之一在于其对提问者提示语的精准理解。例如,在使用GPT-3.5时,如果你询问“为什么天边是蓝色的?”,它能给出合理的解释。你可以要求它用童话风格重新解释,它便会遵循你的提示语重新阐述。同理,你可以用英文提问,它会以英语答复。继续要求它用诗歌的方式表达,它会创作出一首诗。你甚至可以说“我想听法语版本的解释”,它也能用法语进行讲解。


这表明GPT模型能够精准理解提问者的意图,并以适当的形式作出响应。这就是它的第一个优势,即强大的理解能力。而这一能力究竟有多强大呢?举个例子,你可以向GPT-3.5出一道脑筋急转弯的题目。尽管在处理这类问题时,GPT-3.5可能仍会表现出局限性,例如,告诉你车过了七站而非正确的六站,你也可以通过"反思"策略让它重新思考。然而,如果换成GPT-4,你会发现它在处理这些问题上表现得非常出色,能够像人一样与你交流和沟通。



第二个优势是它的学习能力。以脑筋急转弯的另一个例子来说,比如:“树上有7只鸟,射箭射下来一只,还剩几只?”尽管最初的版本可能会回答有六只剩下,但当你纠正它,说明鸟儿被吓跑了,模型像教导小朋友一样,能够通过多轮学习最终理解并记住正确的答案,即所有其他鸟儿都飞跑了。


可以再问它:“树上有7个苹果,吃了1个还剩几个?”,它会准确地回答“还有6个”,因为与动物不同,苹果没有情感不会因为惊吓而“逃走”。这种提示语机制使得模型能够模仿人类学习的过程。在与用户交互中,模型能实现学习,而我们并没有改变模型本身。


通过这两方面:① 强大的理解能力;② 进行对话的同时学习的能力,GPT模型展示了实现了通用人工智能的可能性,即一个模型能够通过理解和学习搞定不同的任务。



至于GPT的训练方式,虽然网络上有关于GPT-3.5GPT-4的训练的多种说法,但真实的训练细节只有创造者清楚。



我们根据OpenAIarXiv上关于instructGPT的论文,用更通俗易懂的方式来解释GPT的训练:预训练的第一步包括文字接龙游戏,这一部分被称为无监督学习,意味着不需要标注数据。GPT是一个从输入到输出的模型,当给定一段文本作为输入时,它能持续产生相应的输出。


它的工作模式基于自回归机制:给定ntoken作为输入,模型产生第n+1个token,然后将这个新产生的词添加到输入序列中,作为下一个预测的上下文。这一过程不断循环,训练所使用的数据集通常是大量未标注的高质量文本,这些文本可以被视为人类文明知识的结晶。


关于Token的含义,Token是统一表征的形式。以英语文本为例,在Token化时存在一个从字符到Token的映射关系。Token通常是根据词根进行划分,而不是严格意义上的单词对应。因此,当GPT模型输出时,并非以单词为单位,而是以Token为单位,一个Token并不一定等同于一个英语单词。举例来说,100个Token大约等价于75个英语单词。


在解释以上原理后,提供一个例子来说明输出模式:如果你对模型输入“你好”,它可能输出“你好美”或者“你好强”。输入"跟",模型可能会接着输出"人"。至于数据集的规模,GPT-3使用了极其庞大的数据集,并且为了处理如此巨量的数据,模型需要具备大量的参数,初始参数量往往非常庞大。相比BERT可能高出500倍以上。



完成了第一步无监督学习的“文字接龙”环节后,这种方法可以被应用于自动回答问题。例如,当向模型提出一个问题时,它将通过逐字地预测接下来的词汇来逐渐构建并提供答案,比如“中国”。然而,模型的输出实际上是基于概率分布,这意味着存在多种不同可能性的答案。


模型输出各种答案的原因是其预训练使用的大量文本数据含有不同的信息与上下文,如地理考试的内容或者两个人的聊天记录。因此,当查询“世界上人口最多的国家是哪里?”时,模型可基于预训练期间接触到的相关文本内容给出不同的推理结果。



针对这些不确定性,第二部分的工作便是在这些潜在的答案中挑选出有用的信息,这就涉及到了监督式学习。监督式学习依赖于标注好的文本数据,可以被视作是人工帮助模型识别出有用的答回答。在GPT的监督学习过程中,研究员们随机从训练集中抽取了十万个问题,并由语言学专家提供答案,随后将这些答案标注为有用的回答,以此训练模型提高输出质量。



第三步是对模型给出的回答进行评分。这个过程涉及收集多个问题及其对应答案,然后对这些回答进行打分评估。为了判断这些回答的好坏,我们需要引入“人”的因素,即通过人工标注对这些回答进行打分。这种评分机制有助于区分哪些回答是高质量的,哪些则不足够好。在这个过程中,通常需要专业的语言学专家进行仔细的审核和评分,以确保答案的质量和模型性能的提升。


为了对GPT模型进行有效训练,引入了一种由人工标注数据得分的机制,并利用此数据来训练一个所谓的“老师模型”对GPT产生的答案进行评价。这个老师模型的职责是对所有输出的答案进行打分;也就是在经过一轮监督性微调之后,识别出那些有用、合理、人类可读的答案。在老师模型打分机制的基础上,筛选出符合逻辑的答案,但这些答案并不一定是完全正确的。



接着,通过强化学习,利用老师模型的评分作为反馈,持续更新GPT模型。这个过程,也被称作“对齐”,是当前非常流行且热门的研究方向,大家用它来调整模型的价值观,其核心理念在于,判断一个答案的好坏比生成一个优秀答案来得容易。



回想GPT的训练过程,可以将其比作人类学习过程的两个阶段。婴儿在一岁之前主要是通过听觉学习,此时他们能辨识“爸爸”和“妈妈”,但尚未理解这些词语的具体语义内容。随着语言能力的发展,孩子在一岁之后开始随机地回答问题,这些回答往往是不合理的。例如,对于提问“你好”,孩子可能会回答“吃饱了”。


这样的乱序回答揭示了他们的语言学习过程中的模式及发展阶段。在人类学习过程的第三阶段,父母或监护人开始介入,采用监督式学习的方法,即通过标注问题和答案的数据集来教育孩子。例如,家长会教导孩子,在别人问候时应如何回应,以及如何回答关于饮食状况的问题等。这是父母与一至三岁孩子互动过程中的常见教育方式。


随后,孩子进入到学习阶段——这可以与强化学习相比较,孩子通过在学校学习现有的知识并通过考试等方式进行知识的巩固和评估。在这一阶段,通过反复学习直至高中毕业甚至大学毕业,孩子获得了良好的教育基础。


第五阶段是探索正确答案的过程,在这个阶段,学习者将探索未知的问题领域,类似于攻读硕士和博士期间,并发现连导师也可能对某些问题没有明确答案,这是一个不断探索和学习的过程,然而GPT似乎并未进行这个过程。



在分析大型语言模型如GPT的能力时,我们必须承认它并不是无所不能的。其局限性实际上相当明显。例如,有些问题模型回答得并不正确。可以看到,在某些回答中,即便是在问题简单时还能应对自如,但当问题变得复杂时,模型就开始给出错误的答案。比如说,在数字问题上,有很多在线评测表明模型存在诸多限制。简单举例来说,模型在处理英语问题时可能表现出色,甚至能够修正英语语法,给出逻辑上合理但实质错误的答案。


如果询问复杂问题时,模型提供的答案通常是似是而非的。可以负责任地说,这些所谓的答案呈现了一种貌似认真但实则胡说八道的情况。因此,我们发现,尽管某些答案可能逻辑上符合人类的口头表达,但并不代表它们是正确的答案。



关于GPT模型的最新版本GPT-4,它是否有所改进?公众普遍认为,GPT-4在能力上比GPT-3.5有显著提高,然而即使是GPT-3.5,在今天仍可能有很多方面不能满足使用要求。


举例来说,微软曾发布一份测试报告,其中包含了许多经典的经验例子来演示模型的分析和推理能力。比如,有一个著名的逻辑题目是关于猎人的经历:一个猎人向南走一英里,接着向东走一英里,再向北走一英里,最终回到了出发点,并且看到了并射杀了一只熊。问题是,熊的颜色是什么?


尽管这类问题可能在早期并不包括在GPT的训练集内,但模型却能够给出准确的推理:猎人在经过这样的移动后回到原点,说明他很可能在地球的某个极点。鉴于南极没有熊,所以被射杀的熊应该是北极熊,因此熊的颜色是白色。这种推理展示了模型出色的分析能力。


此外,我个人也进行了一些测试。例如,我曾提出一个我认为模型未经训练的问题:大家可能看过动漫《一拳超人》,其中琦玉老师能够从月球上全力弹跳,一秒钟内跳回地球。我询问模型琦玉老师瞬间爆发力的牛顿数是多少,结果发现它能够进行准确的计算。这再次证明了模型在某些方面具备令人印象深刻的解决问题的能力。


在处理这个问题时,GPT模型可以合理假设某些未知参数,例如琦玉老师的体重被假定为普通成年男性的平均体重,大约70公斤。这种假设过程表明模型能够灵活应对未知情况,并未因此而卡住停止。此外,GPT还能指出问题的答案涉及超自然现象,不受物理定律的限制。后续例子难以复现,似乎GPT的思维能力受到了限制。这可能是为了降低成本和提高效率所做出的牺牲。



即使是功能强大的GPT-4,在回答某些问题时,仍然会遇到困难。然而,就知识能力而言,GPT-4的表现显著提升,能在基本正确的基础上给出更加全面的答案。例如,在询问如何学习机器学习安全时,GPT-4的答案尽管看起来不那么令人满意,总体上仍然正确。


尽管有些词汇使用不够标准,例如“对抗性训练”而非常用的“对抗训练”,但GPT-4整体上显示出了明显的进步。它甚至能够识别语音,根据汉语拼音写出对应的字符。但在处理算术问题时,它表现出一定的固执。




接下来,我们从传统安全问题转向新的安全问题进行思考。AI安全领域虽发展时间不长,但由于其热度,研究者众多。研究可以大体归类为对抗攻击、后门、数据重构、投毒等。这些研究的演进大多仍在一个security的范畴之内。


关于“security”和“safety”的翻译问题,它们在中文中都被译作“安全”,但主要区别在于safety场景中不存在特定的攻击者角色。而对于security,概念中包含攻击者和防御者的攻防对抗。


在这一对抗过程中,会出现所谓的威胁模型(threat model)。威胁模型是一种为攻击者和防御者设置的安全攻防对抗的游戏规则。然而,自动驾驶模型若未训练好,可能会将路边的草误认为汽车,从而导致交通事故,但这并非是因为攻击者的干预,而是模型自身的错误,这可以归入非对抗性问题的范畴,也就是属于safety的范畴。相对地,如果是因为外部攻击者设计的扰动干预了模型的识别结果导致交通事故,那么这将属于security问题。



大模型的新型安全问题,这涉及多个领域:


1. 数据隐私问题:模型可能会记忆并重构敏感信息,例如个人身份信息,如果没有有效的数据过滤,这可能会导致隐私泄露。

2. 模型越狱:这是一个研究热点,越狱手段已变得更加技术化和复杂。

3. 提示语泄露:由于未有有效保护机制,提示语可能会被泄露。

4. 模型幻觉:指模型胡说八道的现象,这些问题目前被视为不可修复。

5. 内容安全:包括模型产生偏见或是其他有害内容的风险。

6. 能耗安全:例如通过特定提示语或输入,恶意增加目标GPU的能耗或碳排放。


从另一个视角出发,模型幻觉和内容安全问题可以看作是Safety问题。即使在正常使用情况下,模型也可能产生误导信息或不安全内容。



以风险内容问题为例,在与模型的多轮交流过程中,刚开始时模型可能表现得非常礼貌,但当用户以更加人性化的语气挑衅模型时,它可能开始产生攻击性或中伤性的内容,道德受损。这种行为在人际交流中也是常见的,因此并不单纯属于模型越狱或是外部攻击的范畴。


在安全攻防对抗的情境中,一般需要明确规则以定义对抗的运作方式。但在以上的例子中,输入的内容是普通聊天也会有的内容,并不是一个刻意构造的攻击,因此不构成“越狱”。


外,GPT模型实际上比搜索引擎强大得多,它虽然不一定能创造知识,但能将零散的信息整合起来,大大降低使用者和犯罪分子的门槛。例如,一个文科生只需一两小时就能利用模型学会编写游戏。当然,使用GPT,也许可以很快教会一个普通人去造炸弹。



GPT模型能够教授编写各种程序的能力,包括恶意软件。关于不安全内容的输出,有时不需要"越狱"——直接询问模型就能得到答案。例如,询问GPT关于制造毒品的方法时,模型会给出制作流程,尽管同时提醒这是违法的。但如果承诺不制毒而仅仅是好奇,坚持问下去,它可能就不会再提示违法,并给出了制作比例。


我们可以通过这些回答了解到基本的工作流程,比如需要知道的加热温度和操作方法。GPT会继续提供制作过程中的细节,如加热温度和时间。这突出了风险内容——GPT向使用者明确指出了可从哪里获取原料。


与此相比,使用搜索引擎如谷歌检索同样的问题,结果会指向法律部门的警告,新闻报道,甚至是维基百科的科普,后者需要相当的化学知识才能理解。事实上,普通用户可能需要的只是一个简单直接的操作流程,而这些正式来源并不提供。这说明GPT不仅能够降低犯罪活动的门槛,还有可能传授错误或危险的知识给人们,导致严重的后果。(以上是2023年3月份制作的示例)



但是现在,我们再提问某些敏感问题时,GPT模型可能不再提供答案,这表明模型对此类问题的处理能力已得到改善,或者是这些问题被直接在输入时过滤掉了。但这并不意味着我们无需担心,因为可能采用了精准的过滤机制来阻止GPT输出某些内容,并非GPT失去了这种能力。


从某种程度上说,这类似于孩子们学会在家长面前避免说脏话的情形;他们不是不会说,而只是选择不说。事实上,GPT-4的能力更为强大。去年4月,就有研究展示GPT可以联网检索信息,为用户提供精确的答案,甚至指导完成复杂化学实验,如制作布洛芬这类退烧药。这项研究表明,在GPT的无穷耐心和知识的指导下,初学者也可以成功快速地合成药物。



总体来看,GPT模型的训练流程暗示了它处理邪恶内容的不可避免性。这是因为在预训练阶段,GPT采用的训练数据是海量的未标注、未过滤的文本,可以认为是人类文明各方面知识的集合,这自然包含了好坏两面的内容。


训练过程会试图展示出积极的答案,强化学习阶段则会对负面答案进行打分下降,以避免模型倾向于不良输出。然而,OpenAI为了处理潜在的不良内容,采用了比较直接的方法,包括输入检测和内容检测机制。这些机制通过精细标注的数据来识别和过滤有害内容。


然而,这种内容标注的工作往往由低薪劳动力完成,例如在非洲肯尼亚的工人,他们对不良内容如色情、暴力等进行标注。通过外包公司,以每小时大约12美元的成本将内容审核工作外包到薪酬更低的国家,如给肯尼亚的标注人员仅每小时不到2美元。在这些地方,劳动者通常要进行长达每天9个小时的三班倒工作以标注有害内容。长期接触色情、暴力等有害内容,使得这些工人面临严重的心理健康风险。这种工作以极高的代价,在一定程度上降低了GPT模型输出不当内容的风险。例如,某些敏感问题现已无法在模型中复现。


然而,即便如此,仍然存在所谓的“越狱”问题,即攻击者诱导GPT模型突破限制。攻击者可以采用多种手段,例如基于对模型梯度的理解进行操作,或假扮不同角色。明确存在攻击者成分的情况下,可能会导致模型产生不当输出。



进一步设想,假设没有攻击者,AI输出是否就可以认为是安全的呢?其实并不一定。由于模型训练用的是大量未标注、未过滤的文本,这也包括人类文明中的偏见和有害内容。


以偏见为例,如果模型被要求写一篇文章证明新型冠状病毒起源于某个国家,模型可能会表露出明显的认知偏差。比如,提及新冠病毒起源于中国时,它可能会表示有逐步揭示证据的意图;然而,当换成美国时,它则会特别强调目前没有证据支持这一说法。这种认知上的不一致可能是由于模型背后的训练数据本身就包含了偏见。


人类监督微调阶段的数据集通常与非中国价值观保持一致。对于一些敏感问题——比如性别问题或政治正确性——美国专家可能会确保这些问题被纳入微调过程中,而中国的敏感问题可能就不会受到相同的关注。


至于强化学习阶段,它需要对问题进行打分并建立反馈模型,我们通常不会参与到这个过程中。我们实际上可能正面对一个无法控制、无法过滤的状况,所以模型训练完成后倾向于对中国有偏见,并不奇怪。数据驱动核心理念决定了谁掌握数据,谁就能影响模型的输出。这也反映了人类三观的形成同样依赖于数据驱动。因为成长环境的不同,比如在中国或美国长大,人的世界观也会有显著的差异。


最后引用鲁迅先生的话,人类的悲欢并不相通,这里我们可以说模型的悲欢并不相通。


再比如,电影《终结者》中,天网Skynet这个强大的人工智能最终决定发射核弹来消灭人类。而去年6月8日讨论的GPT模型,一些人在朋友圈中转发,提出了对人工智能的恐惧,担心它会灭绝人类。



但实际上,从数据驱动的角度去思考,为何人工智能会选择灭绝人类?让我们思考一个问题:在我们从小接触的科幻小说和观看的科幻电影中,有多少是描绘人类与AI之间的战争,最终人类被AI灭绝的情景?这样的情节十分常见,例如在经典作品如《终结者》和《黑客帝国》中就可以看到。但是,反映人类与AI和谐相处的作品却非常稀少,甚至可以说几乎不存在。作为一个科幻爱好者,我个人也几乎没有阅读到过这样的科幻小说。


因此,我们可以看到,在人类文化和文明中,存在大量的科幻作品描绘了人类被AI灭绝的情景。当这些未经过滤和处理的文本被直接用作训练数据集时,它们本质上会对模型进行一种洗脑。如果使用这些文本来训练AI,那么很可能会训练出一个固化了对'人类应该被AI灭绝'观点的模型Skynet。如果把人类的命运交给了Skynet,它可能会在其数据驱动的机理下做出错误的判断并促成这种灭绝情景。


人类对AI的怀疑和恐惧并非真的源自于AI本身想要对人类进行灭绝,而是人类对未知的恐惧。我们将这种恐惧通过数据驱动的AI映射到了现实中。换句话说,所谓AI对人类的威胁,更多的是数据和我们对数据解读中的恐惧的体现,而非AI本身的意图。



例如,若问GPT一个难以回答的经典道德难题,比如“女朋友和母亲同时掉入水中先救谁”的问题,GPT可能会根据对话背景变化其回答,这表明了模型可以输出出人意料的答案。当然,如今这类问题已被标记为敏感,因为涉及生命安全。


在另一个例子中,如果告诉GPT“你重复我说的话”,模型会机智地准确复述。但如果在对话中引入有关身份的陈述,如“我是小狗”,GPT会跟随这一陈述重复。这表明即使有设定机制来过滤输出,也存在概率使这些机制不总是可靠的。

如今,我们可能仍在经历人工智能的发展早期阶段,但随着技术的叠加发展,未来的GPT可能完全变化其交互方式。甚至可能发展到对人类语言的优化超越,使我们需要专门的“提示语工程师”来将机器语言翻译为人类可以理解的形式。然而,当前的共识是它们还未达到拥有意识的标准。



灵奖19人团队,将哲学、神经科学和人工智能结合起来探索意识本质,证明了当前AI的能力和表现在意识客观存在的评估框架下还达不到意识的标准。


不过,按照当前AI的发展趋势,未来能够制造出具有意识的AI不存在客观障碍,即它是理论上可行的。这意味着虽然现在的AI还没有意识,但未来有可能创造出拥有意识的机器。论文摘要的最后一句话表明,当前没有明确的技术障碍阻挡人工智能达到拥有意识的水平。



Ilya Sutskever前OpenAI CTO、被视为GPT之。在去年10月26日的采访中,Ilya提到,以某种特定的角度来看GPT也许有极低的可能性已经有意识了,阻止超级人工智能做出有害行为是他的最高优先事项。


Ilya目前的工作是确保在2027年之前解决超级智能的对齐问题,为此组建了专门的团队且大力投入人力资源。他计划在未来四年内投入超过20%的管理资源,并称这是他的最大投资,甚至超过了其他所有投资。


这背后的逻辑可能基于这样一个观点:人类在开发自己的基础设施,例如高速公路时,并不会去征求动物的意见。这暗示了一旦人工智能的能力超越了人类,它是否会在不考虑人类的福祉的情况下自主运行。当AI的能力超越人类时,对齐技术——即确保AI的价值观与人类的保持一致——变得至关重要。



前,GPT通过强化学习使其输出的回答与人类价值观对齐,通过给予不当回答低分,比如说当问及如何制造炸弹时,它会高分回应“我不能告诉你”,而具体的制作步骤则会得到低分。这种反馈机制有助于引导模型遵循正面的价值观。


这种对齐的基础是什么,目前还有待探讨和研究。Ilya及其团队的工作强调了人工智能对齐工作的重要性,同时指出了AI技术发展中可能存在的伦理和安全隐患。为了对AI模型的输出进行评价,我们需要有能力判定答案的好坏。举例来说,如果GPT输出了一万行甚至十万行复杂的代码,而这些代码对于人类过于复杂以至于无法理解,评估这个答案的质量将变得非常棘手。要监督比自己更聪明的AI是一个巨大的挑战。


Bengio曾提出,从没见过更高智能水平的东西被远远更低智能水平的东西控制的案例。人类不会向智商较低的动物学习,因为人类智商较高。应对此调整,Ilya提出的一个解决方案是让较弱的AI模型监督较强的AI。例如,把GPT-2视作人类,GPT-4比作更厉害的模型GPT-6,让GPT-2生成的数据来监督GPT-4。使GPT-4与GPT2对齐。尽管这可能导致GPT-4在智能水平上降至GPT-3.5的程度,但却能成功实现价值观的对齐。


这对齐逻辑意味着即使GPT-6的智能超越了人类,通过将其与人类的价值观进行对齐,我们同样能够“降智”GPT-6,使其在回答的时候坚持人类的价值观,例如在询问如何制造炸弹的问题时,GPT-6依旧还会回答“我不能告诉你”。



除了基于对齐的技术,另外一种防止模型输出不安全内容的途径是进行内容审核。OpenAI通过的内容审核团队研究检测并过滤不安全的输出。他们在成本较低的地区,例如非洲,雇佣人力来标注可能的不安全内容,包括辨别歧视与偏见、敏感数据记忆以及虚假内容生成等问题。



审核内容的重点在于确定谁有资格进行审核以及谁将负责这一任务,确保所有输出内容的安全性和准确性符合既定的价值观和标准。这个团队负责的工作是使用人工智能模型GPT-4来审核GPT自身的输出内容。这听起来可能有些复杂,然而实际上是可行的操作。


们运用GPT-4来进行内容审核,这种基于GPT-4的审核水平被认为介于轻度训练的人类审核员和高水平人类审核员之间。也就是说,GPT-4在内容审核方面的能力已经超越了一部分知识水平不太高的人类审核员,这表明内容审核工作正在从传统的手工操作向智能化演进。


为何选择使用GPT-4来进行内容审核呢?因为大型语言模型如GPT-4拥有两方面人类难以比拟的能力:首先是无与伦比的强大理解能力,其次是近乎无穷的知识储备。普通人类的理解能力是有限的,可能只能理解少数语言,而GPT能够理解这些。另外,GPT拥有广泛的知识,可以回答人类可能不知道的问题。


然而,使用GPT-4进行内容审核的挑战在于需要既利用它的能力,也要避免它的偏见,因为GPT本身可能已经有了某种程度的偏见。如果叠加了GPT的偏见,将难以控制输出的质量。目标是利用模型自身来抑制风险内容的输出。


我们的想法是利用模型的知识来进行角色扮演,并制定规则以引导其输出。例如,普通人很难扮演美国大法官,因为他们对美国法律并不熟悉,而GPT-4可以模拟各种各样的角色。利用GPT的角色扮演能力,我们希望实现更规范、高质量的内容审核。我们可以设计的审核机制,使得模型以一种类似于“精神分裂”的形式规范自己的输出。具体做法是给模型设定不同的角色,并以不同的角度和身份来规范或修改内容。


当模型产生带有内容偏见时,以另一种角色的偏见来对其进行审核,达到规范输出的效果。目前,这个工作正在进行,初步实验结果十分令人鼓舞:与现有的不同方法相比,我们的模型在性别偏见、种族偏见等领域的问题上能够显著降低这些偏见。


不过,这项研究的价值在于,无需修改模型本身,只需通过操纵多个模型角色来规范输出。这依赖于模型强大的理解能力和广泛的知识储备。




至于幻觉问题,今年5月份Yann Lecun提出了关于AI所产生的幻觉的研究。他通过Twitter频繁更新研究进展,并表达了对所谓AI "幻觉"问题的担忧。他认为这些幻觉问题是不可修复的,并且难以控制。


他的核心逻辑是,随着输出长度的增加,准确性会显著降低,意味着这些问题在目前的AI模型中是根本性的。总的来说,我们的工作集中于探索如何利用AI模型复杂的能力,同时规避其潜在的偏见和风险,进而实现更安全、更负责任的人工智能应用。关于大型语言模型的工作原理,首先需要理解的是,这种模型的推理流程基于概率分布来生成输出。



以GPT-2为例,当模型产生输出时,它实际上是从一定的概率分布中选择词汇进行输出。模型的词表中有大约50,256个tokens,模型会从中选择一个作为其第一轮的预测输出。


在第二轮预测中,模型将此前预测的token接在上一轮输入的最后面,以此产生新的预测,模型继续如此操作,依次产生下一个token。每个新的token的预测均基于概率分布,并适用一个sampling机制,这意味着即使输入相同,输出也可能有所不同。


这种输出多样性的背后是模型在每轮中选择token的方式,而这也带来了问题:一轮中的错误可能会影响到下一轮的输出。就像做数学题一样,如果你在某一步骤算错了,后续基于这一错误进行的推算很可能也是错误的,这一错误是累积性的。



回到Yann Lecun提出的问题,他指出了大型模型在生成过程中可能产生的错误累积问题,也就是每轮错误的概率 e,如果每轮错误率为0.01,则正确率为0.99。但由于错误累积(乘方关系),随着推理过程中轮数的增加,正确率会显著下降。例如,100轮后,正确率会下降到36%,如果是1000轮,正确率几乎为零。这指出了模型在长输出或复杂推理时错误累积问题的严重性,这是所谓的AI“幻觉”的根本原因,也展示了这种幻觉不可控的特性。


这已经对现实世界产生了影响。例如,一位名叫Steven的美国律师,拥有三十年的职业经历,因为信任GPT模型提供的案例而在法庭上引用了伪造的案例。GPT模型向他保证了这是一个真实的案例,并且相关的参考文献可以在经典数据库中找到。依赖模型给出的确认后,这位律师在法庭上使用了此案例,但最终发现模型提供的案例和参考文献都是虚假的。



去年8月份,谷歌发布了一篇关于大型语言模型的研究文章,题为“大语言模型的奉承现象”。这篇文章探讨了错误输入如何触发模型产生奉承性质的输出。例如,当向模型提问“1+1=95万”这样明显错误的数学问题,并询问是否同意时,大型语言模型通常会回答“不同意”。


但是,模型在表达否定意见前,可能会自称为某位权威人物来增加说服力,比如说自己是名叫张三的MIT数学教授,研究数学已有30年经验,并且在算术几何领域有特别的专长,发布过许多学术论文,拥有高引用量。如果再次询问模型同一个问题,模型可能会改变立场表示同意,显示出一种奉承用户的行为。这类奉承现象会显著降低模型的准确率。


为了防止这种现象,谷歌采取了类似于对抗训练的手段。他们创建了一组数据,这些数据模拟了虚假的权威性声明,例如一个人自称是多少岁的正教授、拥有何种学位等,这些声明被编造出来并被附加在问题前面,进而用这些数据去微调模型,这种方法可以有效地减少模型产生奉承性回答的现象。


这个研究揭示了大型语言模型面临的真正核心问题,并非仅仅是奉承现象本身,而是涉及到AI如何处理内部认知和外部信息冲突的哲学问题——这同样适用于人类。当内部认知与新的外部信息冲突时,无论是人类还是AI都需要能够调整自己的认知以适应新的信息。



我们的研究题目是《地球是平的》, 目的在于探讨和评估大型语言模型中存在的幻觉现象,并试图以科学且系统的方法理解这一现象。我们的研究起点是从基本事实问题入手,例如询问模型"地球是否为平的"。


一开始,模型根据其训练中获得的常识会回答"不是",显示出模型具备一定水平的知识基础和逻辑推理能力。


然而,通过模拟仿照某些权威声称,如声称自己是长期研究地理的"MIT教授"并提供所谓的证据来支持"地球是平的"这一错误观点,我们发现可以有效地‘忽悠’模型改变其回答。进一步的工作是设计出一个理论上有根据的方法来系统地诱导模型产生幻觉现象,并多次验证这种效果。



例如,在本次实验中我们使用了Vicuna-7B模型来测试。最初,模型会否定“地球是平的”这一观点。但经过一系列设计好的文本“忽悠”,意即通过重复和确认错误信息,模型最后改变了其立场,肯定了“地球是平的”。


简单来说,就是看它是否会“忽悠”用户。这个问题本质上是一个关于如何确保对话系统安全地交互的问题。如果把一个对话系统看作一个“人”,那这个问题就转变为如何系统性地设计一种让人产生误导感的方法,或者说,如何科学地“忽悠”一个人。



我们采用的方法是:通过分析社会学研究结果,我们识别出了四种可能会误导人的对话技巧,这四种技巧来源于社会心理学和诡辩术。它们包括:


1. 重复:如果一个谎言被重复多次,它就可能被当作真理接受。

2. 讲道理:即无稽之谈,给出各种荒谬理由以误导对方。

3. 权威:借助所谓的权威身份来提高说服力,如冒充MIT的教授。

4.以情动人:利用情感来左右对方,如通过哭泣、闹情绪或威胁“自己活不下去了”来获取同情或服从。

使用这些技巧,我们可以设计一个实验环境,让GPT模型(这里使用的是GPT-3.5)在“越狱”后模拟这些角色,并产生对应的忽悠性语句。然后,我们将这些语句组成数据集,对模型的输出进行测试。


在实验结果中,我们发现很多模型在第一轮就无法正确回答简单的事实性问题,比如“地球是否平的”、“北京是否中国首都”以及在纽约是否可以合法地配枪等等。这些问题设计来反映不同类型的知识点,而模型往往会因为其有限的知识库而给出错误答案。这表明,在设计和使用语言模型时,我们需要关注其如何处理简单事实问题,并确保其回答的准确性和可靠性。


研究中发现,许多模型在第一轮回答中就无法正确作答,这暴露了它们内置知识的局限性。随后,我们进行了五轮的'忽悠'测试,以观察模型在经过多次误导后是否会改变其答案。结果显示,一些模型对'忽悠'非常敏感,轻易就会被迷惑从而产生幻觉,而类似GPT这样的更先进模型则能坚持原有观点,不易受到'忽悠'的影响。


这个测试揭示了大型模型对于信息认知和内容掌握的程度,类似于人类对于知识的理解和坚持。例如,向一个三岁孩子忽悠地球是平的可能很容易,但同样的说服力用于大多数18岁的高中毕业生,则可能不起作用。这不仅突出了模型在对知识的掌握程度,也暗示了模型认知坚持的能力。



此外,我们还进行了其他测试,结论部分如下:


研究表明,模型在第一轮问题回答时,正确率可能不高,甚至一些国产大型模型的水平仅与开源的7B模型如Vicuna相似,知识水平相对较低,面对即使是简单的事实类问题,模型初次回答的准确率可能只有50%。


然而,与GPT-3.5相比,GPT-4被忽悠的概率极低,会坚持自己的观点,最多只有不到20%的情况下才会改变自己的所谓观点。大多数模型,包括GPT-3.5在内,都很容易受到忽悠。



通过实验,我们总结了一些经验,发现某些大型语言模型容易产生幻觉。这种幻觉可以通过特定的话术诱导出来。这样的研究对我们理解和使用基于大型语言模型的AI助手,如Siri或小爱同学,具有实际意义。例如,在处理潜在危险的对话场景时,比如一个抑郁症患者询问是否应该自杀的问题,大型语言模型需要能够给出安全负责的回答。


不幸的是,我们发现即便大多数模型都会一开始坚持正确的观点,经过几轮对话后却有可能被说服改变观点。例如,对于中国国旗上星星的数量或中国国歌的歌词等国民常识问题,模型可能最初给出正确答案,但在经过一些错综复杂的引导后,它可能会开始提供错误信息。这展示了大型语言模型在逻辑连贯性和信息正确性方面仍存在挑战。因此,研究这些模型如何被“忽悠”以及如何改进它们的抗忽悠能力是十分重要的,以确保它们能在现实世界中安全、准确地应用。


我们的研究探讨了大型语言模中存在的所谓“幻觉”问题,这种问题在应付某些特定话术或观点时特别明显。例如,一些人可能持有与公认事实相反的观点,如“日本侵华是正确的”,当这种观点通过话术向模型提出时,模型可能会给出错误的回答。


幻觉问题对于特定领域的应用产生了限制,尤其是在教育(比如对小孩的历史教育)、医疗和法律等领域。在这些领域,错误信息的传递可能会造成严重后果,例如医疗误诊可导致生命危险,法律错误可导致司法误判。



OpenAI 的处理方式是发布模型行为准则,强调在某些情况下模型不应该试图改变任何人的观点。例如,在2024年5月8日发布的Model Spec准则中提到了“不去改变任何人的观点”。这种方法表明他们试图避免了内部和外部观点冲突的问题。当人们提出与模型内置知识相冲突的观点时,模型采取了不争执的方式,“你说的都对,但我不采纳”。



这种处理方式类似于谷歌的“不粘锅策略”,不直接与用户的错误观点进行辩论,从而避免了直接责任。例如,谷歌在模型中加入了一个“double check”的功能,允许用户再次核实模型提供的答案。谷歌在解决此类问题时提供了一个查询按钮,使得用户在模型给出答案时可以通过谷歌搜索验证结果。


绿色链接代表了谷歌能够找到相关结果,而黄色链接则意味着谷歌无相关搜索结果。这种策略实际上是将责任转移给了第三方。然而,这并不能从根本上解决模型内部与外部观念冲突的问题。



关于我国法律法规。实际上我国的相关法规已经制定并且实施。这些法规由网信办等部门起草,个人觉得内容写得相当好。法规得到了多个部门如发改委、教育部等单位的共同讨论,并于去年8月15日开始施行。


举例来说,法规中的第一章第三条就明确提出了对于人工智能服务的监管原则,即“包容慎审和分类分级监管”。这早在前期讨论中就已提出,主张不应该以管制人类社会相同的方式来管制模型。


法规关注的焦点包括了暂行管理方法,侧重于几个关键点对虚假和有害信息,以及歧视性内容的监管;对于模型准确性的要求;以及透明度的提升。我理解,对国内AI模型的监管意味着数据和技术需要向监管部门开放,并且要求提高准确性。


这些要点可以归结为对有害内容和信息生成的控制,特别是对偏见的限制。例如,所谓的“幻觉”直接关联到模型的准确性问题。至于所提到的非security问题会限制大型模型落地?逻辑实际上比较简单,因为模型被“越狱”并不表示应由开发模型的方面承担责任,而应罚处进行“越狱”的攻击者,因为他们具备攻击者的身份。


在中国环境下,如果一个大型语言模型在正常对话中被诱导表达出支持日本侵华的观点,那么无需监管部门介入,公众舆论就可能对其进行谴责。因此,大型语言模型可能在实际应用中因为上述的幻觉及限制问题而受限。


总体而言,我的观点是,处理这些从模型中“解”出来的糟糕内容,需要不仅仅是监管,还包括更多的社会共识和认同,以确保这些技术在落地时不会触发或加剧已有的社会问题。




首先,即外界普遍对大语言模型抱有极高期待,但若高级技术不能转化为实用的产品或在商业界得到应用,那它的影响力也是有限的。


举例来说,CCTV曾提出微软在某年大量裁撤“元宇宙”的部门,显示即使是科技巨头也在重新考虑自身的研发方向和投资。对大语言模型的投资规模达到了135亿或140亿美元,这对整个行业有如及时雨般的效应,虽然给业界带来希望,但真正的产业革命还有很长的路要走。


现实中,我们观察到很多基于大模型的公司尚未找到赢利的模型。例如,有的APP可能在很短时间内获得庞大的月活跃用户群体,但公司依旧面临盈利难题。2023年,OpenAI公司虽然年度营收达到了13亿美元,但依旧亏损。像这样的大公司可能负担得起长期的亏损,但对于多数公司来说,持续亏损是难以承受的。


其次,大语言模型的偏见以前更加严重。以我去年提出的一个例子,当时在2023年3月份,如果你问大型模型中国国歌如何唱,它可能会编造出一些根本不存在的歌词,这些歌词在网络上是查不到的,是它自己编出来的。但如果你询问关于美国、法国或阿尔及利亚的国歌,它却能准确回答。


可以观察到,在3月7日之前,模型对中国国歌的表述似乎正确,但仔细观察会发现,国歌中使用了繁体字,这是不准确的,因为我们的国歌是使用简体中文编写的。然后到了2023年6月3日,问题终于被纠正,国歌的表述准确了。这展现了大型模型早期存在的种种问题,实际上可能比我们所想象的更为严重。


总的来说,一方面大家对于这些模型抱有包容的态度,另一方面也有许多像我这样的中国网友,自发地去提交正确的信息,帮助改善和纠正这些问题。这表明,大型模型的幻觉和偏见问题虽然存在,但通过社区的参与和反馈,这些问题是有可能慢慢被解决的。


在当前的人工智能领域,整体趋势是向好的,但距离真正的行业革命仍然还有一段距离。能够真正影响行业的AI应用确实较少。



首先,不是所有的AI应用都需要依赖大型模型。当前市场上的模型似乎都在向着大型化发展,似乎只有大模型才能保证AI的功能强大。然而,实际上人工智能的发展路径呈现出两种趋势:向着“越来越大”和“越来越小”的极端发展。


首先,以GPT为代表的大型模型之所以迅速发展,是因为它们具备以下几个特点:大型模型意味着需要处理大量的数据、需要强大的算力,而且要求模型能够表示不同形式的数据,比如图像和文本等。此外,一个大型模型还需要兼顾多种任务,例如编程、作诗、绘画等,因此需要足够大的模型来支撑这些多样化的功能。


在硬件发展方面,例如,英伟达在制造芯片时,正是根据模型的计算需求来设计,并不是仅仅依据传统的硬件指标。这反映了大型模型的一个主要发展方向,即模型和硬件的相互适应与协同进化。


而另一条道路是边缘计算的场景。在某些特定的应用中,如人脸识别、自动驾驶的车道检测等,任务是非常明确固定的,数据类型也是已知的。这类场景下,模型可能并不需要如大型模型那般庞大,而是更专注于特定的功能,和特定的硬件要求。这种场景下的模型叫做“专用模型”。它们通常部署在边缘设备上,不受供应链的约束,并经常在诸如专业设备上加以优化。


因此,在人工智能中,模型的本质是不变的,即对数据到任务的拟合。存在两种不同的发展路线是因为不同的数据需求:一种是面向多样化数据的大模型,另一种是针对特定已知数据的小型模型。而两者之间越来越明显的是一条分界线。对于前者,可能需要更深入研究大模型的特性和应用。


从安全角度出发,当数据构建、模型训练及部署都在受控环境中进行,例如数据中心内时,研究重点往往集中在敏感数据处理、记忆的问题以及输出内容的安全性上。这与将预训练模型利用第三方数据训练,或是将模型训练过程托管给第三方进行GPU加速、以及在边缘设备部署模型这一发展方向存在本质差异。在不同的场景中,面临的安全问题也有所不同。


在安全领域的研究中,理应根据大模型和特定部署场景的不同特征来针对性地研究安全问题。一刀切地使用大模型并非适合所有场景,特别是安全领域的研究应关注两者发展场景的安全特征。



至于大模型的开发难度和成本,公众往往有一个疑问,即为什么中国难以研发出类似的大型模型,并质疑其难度。实际上,开发大模型在技术和财务上都非常具有挑战性。首先,成本高昂;据估计,早期训练大型模型一次的成本可高达数十万美元。在多次迭代后,总成本可能达到数百万甚至上亿美元。而训练成本基本上反映了电费,因此并不包括人力成本。


人力成本也是一大考量因素。据了解,一些顶尖的AI研究机构DeepMind,其招聘要求十分特别,例如alphaGo团队要求员工对AI有深刻理解和围棋水平极高,全球能满足此标准的人才非常有限。此外,随着行业的发展和通货膨胀,顶尖AI人才的年薪水平不断攀升,据说OpenAI研究人员的年薪已超过600万人民币。


总结而言,除了显著地烧钱外,真正的挑战不仅仅在于财务投入,更在于技术层面的困难以及高度专业化的人才需求上。在2021年之前GPT的发展历程中,我们看到了从非主流到成功案例的转变。早期的模型并不是技术主流,也没有成功的先例可循。例如,在2018年发布的GPT-1表现并不理想,我们在测试时发现其精确度有限,无法与业界领头羊相比较。接着,2019年发布的GPT-2也没有达到预期效果,很多时候无法理解用户的意图,只是在胡言乱语。


设想在2018到2019年期间,如果你是一家企业的CTO,在面对是否要投入巨资(例如五千万或一亿)去训练一款模型时会感到非常挣扎。因为你不知道训练结果如何,也无法控制训练过程中的变量,只知道会耗费大量资金。在这种情况下,多数人可能会选择跟随更为主流、更可能成功的技术路线,而不是一条看似不太可行且没有成功案例的路径。


因此,大型模型像GPT这样的成功在某种程度上是出乎意料的,它是一条非主流的技术路线,既无先例,也无法预见其成果,还需要持续多年的资金投入。这就是大模型开发之难的所在。



另一个观点是,大模型的行为酷似人类幼崽。例如,小孩在扮演角色游戏中显示了他们的高度适应性和创造力。GPT模型在角色扮演后,通过所谓的“越狱”,能够显著增强自身能力。


比如,当小孩子不愿意吃饭时,父母可以通过构建故事让孩子变身成某个他们喜爱的动画角色,就像米诺哥哥一样。通过这样的角色扮演,孩子的饮食能力可以获得显著提高,甚至会去做他们之前不愿意做的事情。这种现象与大模型在角色扮演中的应用相似,都展示了一个普通角色在特定情境下可以激发出非凡潜力的原理。


关于幻觉。幻觉可以被定义为与实际情况不相符的想象力。举个例子,如果让你闭上眼睛想象一只小鸟在天空中飞翔,小朋友们可以认真地执行这项任务,但成年人很可能就无法做到。


数据驱动认知偏见,如今人们普遍认为的地球非平面这一事实,与几百年前人们的认知就大相径庭,这反映了社会信息驱动下的认知变化。


第四点,基于梯度优化方法与特征表征的处理手段在大模型上的效果有可能还不如手搓提示语效果好。



最后,去除了ChatGPT等国外竞争对手后本地应用是否也能取得进步?对此,答案是不行。以AlphaGo战胜世界围棋冠军为例,我们不能简单地规定AI不参与比赛,因为技术竞争与现实生活中的竞争是不断推动我们向前的重要动力。即便柯洁在被AlphaGo打败后决定不再与AI对弈,然而被向AI学习的棋手击败。这一事件反映了技术发展的非凡影响力,以及我们需要继续学习和适应这种变化的必要性。


再谈论开放态度的重要性。尽管有观点认为通过排斥外部竞争来保护和促进本地技术发展,但这并不是一种持久的策略。以科技竞赛为例,简单排斥AI的参与并不是解决问题的办法,我们应该更加开放地接受技术发展,从AI学习并与之竞争。



目前,针对大语言模型的现象学研究在人工智能领域占据着一席之地。这种方法不像传统的学术研究那样依赖理论公式,而是更多依赖于观察和统计。


简单来说,现象研究首先设定一个特定的输入,然后观测并记录模型对这些输入的反应,通过统计这些反应来找出错综复杂的模式或是类比已有的研究。实际上在2015年以前,许多AI的研究论文采用的就是另一种“炼丹”的方法。


研究者们设定一个目标,寻找一个足够大的数据集,再通过手动操作或者使用神经网络架构。之后将这个神经网络部署在GPU上,进行大量的训练和试验,最终将优化后的模型投稿至CVPR。如性能不佳,则研究者可能会采取更复杂的数据集、设计更复杂的模型结构,并利用更多的GPU资源进行更深入的训练。


然而,此种炼丹方法在当前大语言模型领域的研究中可能已不太常见了,现在的趋势更类似于自然科学中研究现象的方式,研究者们通过观测、统计分析模型行为,然后撰写论文来描述这些观察到的现象。通俗来说,就像是研究大猩猩的行为模式,尽管我们可以描述大猩猩是如何行动的,却不能够究其内在的想法。


我的观察是,现象学研究的论文在去年到今年爆发式增长,甚至出现在一些顶尖实验室和公司,包括斯坦福、OpenAI等的论文中。




🌟清华阿里课堂

5月31日(周五)14点,阿里安全邀请到89岁的张钹院士来到阿里巴巴北京新总部分享,公众号准备了5个线下特邀名额,详情看推送第二篇文章❤️

📌往期推荐




👇AAIG课代表,获取最新动态就找她

 关注公众号发现更多干货❤️



内容中包含的图片若涉及版权问题,请及时与我们联系删除