威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的十大论文。对于大型语言模型来说,2022 也是非常重要的一年,最近面世的 ChatGPT 更是锦上添花,抢尽了风头。

原文地址:https://magazine.sebastianraschka.com/p/ahead-of-ai-4-a-big-year-for-ai

十大年度论文
一、ConvNeXt
 
论文链接:https://arxiv.org/pdf/2201.03545.pdf
《A ConvNet  for  the  2020s》这篇论文我愿称之为全年最佳,因为作者们能够设计出一种纯卷积架构,其性能优于诸如 Swin Transformer 等流行的视觉 Transformer(当然,也优于在它之前出现的所有卷积神经网络)。

图片

当卷积神经网络不仅应用于分类,还用于目标检测和实例分割时,这种所提到的 ConvNeXt 架构很可能成为新的默认架构 —— 例如,它可以用作 Mask R-CNN 的骨干网络(backbone)。

正如作者们在论文中所述,他们受到了当前视觉 Transformer 训练机制以及 Swin Transformer 混合架构表明卷积层仍然相关的事实启发。这均是因为纯视觉 Transformer 架构缺乏有用的归纳偏置,例如平移同变性和参数共享(即卷积中的「滑动窗口」)。

为了开发 ConvNeXt,作者们从 ResNet-50 基础架构出发,并采用了从现代 ViT 训练机制中运用的架构修改和训练机制。即使是赋予在卷积神经网络的背景,这些本来也没什么新奇。然而,新颖之处却在于作者们有效地使用、分析和组合了这些技术。

他们采用了哪些技术?这可以列一个很长的清单,包括深度卷积、反向瓶颈层设计、AdamW、LayerNorm 技术等等,具体的汇总你可以在下图中找到。此外,作者还使用了数据增强技术,如 Mixup、Cutmix 等。

二、MaxViT

尽管随着上述的 ConvNext 出世,卷积神经网络再度受到欢迎,但目前来说 ViT 仍然抢尽风头(并非刻意双关)。

MaxViT:多轴视觉 Transformer 突出显示了近年来视觉 Transformer 的发展。虽然早期的视觉 Transformer 具有二次复杂度,但已经可以通过许多手段来将视觉 Transformer 应用于具有线性缩放复杂度的更大图像中。

图片

2022 年 9 月发布的 MaxViT,目前是 ImageNet 基准测试中的 SOTA 模型

在 MaxViT 中,这是通过将注意力块(attention block)分解为具有局部 - 全局交互的两个部分来实现的:

  • 局部注意力(「块注意力」);

  • 全局注意力(「网格注意力」)。

值得一提的是,MaxViT 是一种也具备卷积层特征的卷积 Transformer 混合模型。它可以用于预测建模(包括分类、目标检测和实例分割)以及生成建模。

图片

 顺便提一句,在谷歌学术上搜索「视觉 Transformer」,仅 2022 年就产出了 5000 多个结果。这个结果虽然可能包括误报,但仍可表明人们对于视觉 Transformer 的广泛欢迎程度和感兴趣程度。不过不用担心,视觉 Transformer 不会完全取代我们喜爱的卷积神经网络。相反,正如 MaxViT 所强调的,当前的趋势是将视觉 Transformer 和卷积网络一起整合到混合架构中。

三、Stable Diffusion

在 ChatGPT 成为最先进的模型之前,Stable Diffusion 早已在互联网和社交媒体上普及。这个概念其实最早来源于 2021 年 12 月上传的论文《High-Resolution Image Synthesis with Latent Diffusion Models》。

由于这篇论文在 2022 年 CVPR 会议上发表,并在 2022 年 8 月凭借 Stable Diffusion 受到高度关注,我认为将其列入 2022 年的 TOP3 论文名单是公平合理的。

扩散模型是一种概率模型,被设计用于通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为 T 的固定的马尔可夫链(Markov Chain)的逆过程。

 图片

扩散模型的图示

与使用生成器 (Generator) 和鉴别器 (Discriminator) 之间的极大极小博弈(minimax game)训练的 GAN 不同,扩散模型是使用最大似然估计(MLE)训练的基于似然的模型。这有助于避免模式坍塌和其他训练不稳定性。

扩散模型已经存在了一段时间,但众所周知,在训练和推理过程中,从中取样仍非常昂贵。上述 2022 年论文的作者提到过,5 天的运行时间仅能采样 50k 张图像。

《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新颖之处在于人们可以使用预训练的自编码器在潜在空间中应用扩散,而非直接使用原始图像的全分辨率原始像素输入空间。

图片

上文提到的训练过程可以分为两个阶段:首先,对自编码器进行预处理,将输入图像编码到较低维度的潜在空间中,以降低复杂性。第二,在预训练的自动编码器隐层表征上训练扩散模型。

在潜在空间中进行运算,降低了用于训练和推理的扩散模型的计算成本和复杂性,并可以生成高质量的结果。

本文的另一个贡献是一般条件下的交叉注意力机制( cross-attention mechanism)。因此,除了无条件图像生成之外,所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建以及文本到图像合成 —— 后者正是 DALLE-2 和 Stable Diffusion 闻名的原因。

 

四、《「通才」智能体》(A Generalist Agent)。在本文中,研究人员介绍了 Gato,它能够执行从玩游戏到控制机器人等 600 多种不同任务。

论文链接:https://arxiv.org/abs/2205.06175

 

五、《训练最优计算的大型语言模型》(Training Compute-Optimal Large Language Models)。为了在训练期间实现最优计算,研究人员认为通过相同的因子来缩放模型大小和训练 token 的数量都很有必要。他们创建了一个名为 Chinchilla 的模型,例如,该模型的性能优于 Gopher,可以使用比 Gopher 四分之一的参数输出四倍之多的数据。

论文链接:https://arxiv.org/abs/2203.15556

 

六、《PaLM:使用 Pathways 缩放语言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的 PaLM 模型在各种 BIG-bench 任务上都展示了令人惊叹的自然语言理解和生成能力。在某种程度上,它甚至能识别出因果关系。

 论文链接:https://arxiv.org/abs/2204.02311

 

七、《基于大规模弱监督方法的鲁棒语音识别》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介绍了 Whisper 模型,该模型在多语言任务上接受了 68 万小时的训练,并表现出了对各种基准数据集(benchmarks)的鲁棒泛化性。本文介绍的 Whisper 模型给我留下了深刻的印象。我用它来为我的两门课程深度学习基础 —— 运用现代开源栈学习深度学习以及深度学习引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。

论文链接:https://arxiv.org/abs/2212.04356

 

八、《再论表格深度学习的预训练目标》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜欢阅读大量有关 Tabular 数据的深度学习论文。但我尤其钟爱这篇论文,因为它强调并提醒我们在附加(通常未标记)数据上进行模型预训练是多么重要。(使用如 XGBoost 等基于树模型无法轻松做到这一点。)

论文链接:https://arxiv.org/abs/2207.03208

 

九、《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型?》 Why do tree-based models still outperform deep learning on tabular data?)。该文的主要收获是基于树的模型(随机森林和 XGBoost)的性能优于在中型数据集(10k 训练示例)上应用表格数据的深度学习方法。但是随着数据集大小的增加(这里:10k → 50k),基于树的模型和深度学习之间的差距变得越来越小。遗憾的是,这篇论文没有包含特别多最先进的深度表格网络,不过它进行了鲁棒性分析和有趣的讨论,绝对值得一读。

论文链接:https://arxiv.org/abs/2207.08815

 

十、《用语言模型预测原子级蛋白质结构的进化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。该论文提出了迄今为止预测蛋白质三维结构的最大语言模型,它也比以前的方法运算更快,同时还保持着同样的准确性。该模型创建了 ESM 宏基因组图谱,是宏基因组蛋白质的第一个大规模结构表征,具有超过 6.17 亿个蛋白质结构。

论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3