清华大学张学工教授：AI技术前沿——从ChatGPT到更多突破

近日，CAAI常务理事、生物信息学与人工生命专委会主任、清华大学自动化系张学工教授围绕ChatGPT基本原理及人工智能领域其它热点问题，带来最新分享——《AI技术前沿：从ChatGPT到更多突破》。

以下为报告实录3-6节内容，阅读原文可点击这里：https://mp.weixin.qq.com/s/UeaS5lfLAbEsiWT46j0v8w

从 Transformer 到 ChatGPT

神经网络自然语言处理领域的一个重要里程碑是2017年谷歌研究者提出的Transformer模型。Transformer的字面含义是“变换器”，电影《变形金刚》的原文标题即为Transformer。Transformer神经网络模型针对的仍然是机器翻译的场景，但它一方面规模比之前的模型都大很多，包括输入部分和输出部分，输入部分包括六组由多头自注意力模块和前馈模块组成的单元，输出部分包括六组由掩码的多头自注意力模块、多头互注意力模块和前馈模块组成的单元；另一方面，Transformer中引入了的多层自注意力机制和位置编码，使模型能更好地学习到一个语言内部多个层次上的上下文关系和两个语言之间的关系。这个在当时看来已经很巨大的变形金刚一方面在机器翻译任务上表现出色，另一方面为后来自然语言生成领域的快速发展打开了大门。ChatGPT名字中的T就是Transformer。

除了在自然语言中的应用，Transformer模型也在音乐等其他时间序列信息中得到应用，比如用它可以初步实现由一个短的引子自动生成出一段音乐。

Transformer模型开启了自然语言处理领域的“军备竞赛”。谷歌在2018年发表了采用双向编码表示的Transformer模型BERT，首先采用大量文本对模型进行预训练，得到对词元的基本编码，再针对目标任务进行微调，使模型进一步“理解”自然语言。同年，OpenAI公司发表了生成预训练Transformer模型GPT，也就是后来称作GPT-1的模型。它采用12组神经网络单元构成，每一组中包含带掩码的多头自注意力模块和前馈模块，同样用大量文本数据进行预训练，再针对不同类型的目标进行微调。因为此类模型的规模都非常大，又都需要用大量数据进行预训练，人们统称它们为“大模型”或“预训练大模型”。

2019年OpenAI公司在GPT-2中把单元的数目增加到了48组，模型总的可训练参数规模达到15亿个。用这样的模型，已经能在给出一小段引子后产生很长篇的文字“作品”，其中已经能展现出相对程度的上下文关联和逻辑性。2020年，OpenAI进一步发布了GPT-3，包含96组单元，每个单元内部的表示维度和注意力通道数也大大增加，使总的可训练参数量达到了1750亿个。这样的模型，在一万个GPU组成的计算系统上训练一次大约需要十几天时间，花费据估计可达数百万美元。用GPT-3生成的文章，人们已经很难区分是人类作家所写还是AI缩写（区分准确率只有12%）。

2021年底，谷歌旗下的DeepMind发布了他们新的语言模型Gopher，一方面参赛规模进一步增大，达到2800亿可训练参数，另一方面模型结构进一步优化，据称性能可以超过参赛规模25倍于它的模型。Gopher能与用户就多方面内容进行大量对话，语言已经相当自然和有逻辑，涉及到的知识也十分丰富。

Gopher用于自然语言对话达到的程度已经与现在最火的ChatGPT很接近，当时包括我在内的一些人以为它会很快掀起一股热潮，但好像并没有在自然语言处理领域之外引起大众太多注意。2022年初，OpenAI推出了InstructGPT，就是后来被称作GPT-3.5的大模型。它专门针对对话应用就进行了大量优化，包括在预训练之后用大量经过人工标注的示范数据进行有监督的微调，基于人工对模型生成输出的评价排序让AI学习一个奖励模型，再用强化学习方法根据奖励模型训练模型的输出策略。通过这一系列针对性的指令性训练，让机器生成的对话尽量实现有帮助、诚实和无害（3H: Helpful, Honest, Harmless）。与Gopher类似的，InstructGPT虽然在技术上有长足的进展，但并未引起公众广泛的注意，直到2022年12月初OpenAI发布他们的ChatGPT。

OpenAI是通过公司网站发布的ChatGPT而并没有发表技术文章，所以对ChatGPT确切的原理只能通过起网页上的扼要描述和它前几代的模型进行推测。根据他们公开的信息，ChatGPT的模型基本与InstructGPT一致，在监督的微调训练和带有人类反馈的强化学习方面应该增加了更大力度。另一方面，ChatGPT在发布的同时向民众开放了注册试用服务，这一服务掀起了广大民众极大的兴趣和关注度，据说注册的活跃用户数在很短时间内就超过了1亿个。由于它看似能回答用户任何提问，有些人预言ChatGPT将是对谷歌等搜索引擎服务的巨大冲击。在各国的各种互联网社交平台上，人们在大量传播和议论ChatGPT在很多场景中给出的看似非常有智能和知识渊博的回答，也不断有报道说ChatGPT通过了各种专业资格考试，同时也不断有人找出来它犯的一些低级错误，指出它在一些问题上是“一本正经地胡说八道”。无论如何，ChatGPT确实是把AI自然语言处理推向了一个新高度，为未来技术发展和多个行业的产业应用带来了很大的想象空间。同时，它的成果并不只是在技术上，而是它通过开放用户使用平台，一方面把其他有可能竞争的类似工作置于了阴影之中，另一方面无偿获得了全世界大量用户的人工再训练，而其包含的强化学习机制，使得它能在全世界用户的赞赏、吐槽和批评中进一步快速成长，进一步加强和确保了它的领先地位和顶端优势。

AI生成图像内容（AIGC）

在ChatGPT掀起了大众对人工智能关注的新一轮热潮之前，在图像领域有一类技术已经引起了学术界和业界的广泛关注，就是用AI生成图像内容的技术，通常简称为AIGC或AGI。在现在大家广泛谈论ChatGPT技术将会怎样影响各行各业的时候，也应该关注AI领域其他的这些前沿进展。

2014年Goodfellow等人提出的对抗生成网络GAN，是在图像生成模型和更广泛的内容生成模型的一个标志性进展。它通过生成器和识别器的对抗训练，能实现从隐空间的噪声输入生成图像，并且人们可以在隐空间中实现对图像含义的运算，比如用戴眼镜男子的图片减去不戴眼镜男子的图片再加上不戴眼镜女子的图片，生成戴眼镜女子的图片。

这类技术也可以用于生成其他内容。比如我们实验室本科生关嘉琪同学2018年在他的毕业设计中就设计了一种用于生成仿真病例文本的GAN模型，用我们收集到的三千多例电子病历中的病人自述部分做训练，学会根据给定的类别标签生成肺炎和肺癌的仿真病人自述文本，其中也采用了强化学习来提高文本生成质量。虽然我们的模型规模很小、训练样本也很小，只在笔记本电脑上运行，但已经能生成有相当真实性的仿真文本。人们用类似原理设计了从静止图片生成动画和视频的方法，把古典名画和历史照片变成生动的动画，有以假乱真的效果。

与GAN并行的另一类生成模型的代表是变分自编码器VAE，它通过训练一个编码器把输入图像映射到隐空间中的特定分布中，再经过一个解码器从隐空间映射到图像空间，生成新的图像。人们也用这种技术在隐空间中实现了对图像的表情运算，还用这种技术结合LSTM模型进行音乐创作，生成了相当悦耳的打击乐曲，等等。

图像生成领域中最近几年一个重大进展是扩散模型（Diffusion models）。它通过一个扩散模型把图像一步步变为噪声，再用一个逆扩散过程一步步从噪声恢复出图像，结果可以生成出分辨率和逼真度都大大高于之前模型的人脸图像。

2022年，人们把这种扩散模型的图像生成技术与自然语言理解技术相结合，实现了给出一定的文字指令就能把一幅图像自动编辑为另一幅符合指定描述的图像。这一领域的技术进展虽然没有在大众中引起轰动效应，但已经达到相当令人惊叹的程度。可以想象，这样的技术与ChatGPT等技术相结合，一些之前只存在于科幻小说和电影里的虚拟数字人物等场景将成为现实。

强化学习

ChatGPT与前几代GPT或其他语言模型的一个重要进步是采用了人类反馈的强化学习。强化学习是AI另一个前沿，与AI的其他任务不同，这里AI要学习的是在一个复杂环境中如何通过执行一系列行为实现最终受益最大化的决策策略。其中智能体行为对环境状态和最终受益的影响，需要用深度神经网络来学习。前些年掀起人工智能热潮的AlphaGO，其核心技术就是深度强化学习。最早的AlphaGO是利用大量人类棋谱进行强化学习，后来的AlphaGO Zero则更进一步，通过自己生成大量棋局来进行自我强化学习。这是强化学习领域的一个重大进展。

当前，强化学习的一个重要前沿就是通过仿真进行自我训练。比如用计算机游戏的方式训练一个着陆器，经过多轮训练后很快就能让它在指定区域平稳着陆。人们用这种方式训练的无人机控制，能非常好地适应各种复杂的气候条件和外力干扰等。在OpenAI公司2019年发表的另一项成果中，它们制造了一个高度灵活的机器手，通过大量仿真实验对机器手的控制策略进行强化学习训练，使机器手能达到与人手灵巧度相当，可以快速完成各种复杂的细微操作。这种用大量仿真实验进行复杂对象的强化学习的技术，是人工智能领域同样值得大家重视另一个前沿。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

清华大学张学工教授：AI技术前沿——从ChatGPT到更多突破

评论