智源社区AI周刊#76：NAACL2021最佳论文出炉

导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源研究院编辑团队本周整理了第76期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况）、数据（数据集），工具（新工具和应用推荐）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

过去一周（2021/05/31~2021/06/06），值得关注的内容有以下3方面：

一、NAACL 2021将于2021年6月6日至11日以在线会议的形式在墨西哥城举办，近日最佳论文公布，来自罗切斯特大学和腾讯的研究人员《视频辅助无监督语法归纳》获得最佳长论文，此外还包括2篇杰出长论文和1篇最佳短论文和2篇杰出短论文。（详情参见本周报“会议”栏目）

二、目前，国际主流的大模型主要基于英文语料研发，智源研究院作为AI基础建设的先行者，成立了由智源研究院学术副院长唐杰教授领衔，100多位科研骨干共同参与的“悟道”团队，启动面向中文的大规模智能模型研发工作。“悟道”模型系统将构建“大模型、大平台、大生态”，持续研发超大规模智能模型，围绕大模型研发，构建大规模算力平台，同时对外开放模型能力，“赋智”各行业发展，构建大模型生态。今年3月20日，智源研究院发布了中国首个超大规模智能模型“悟道1.0”，训练出中文、多模态、认知、蛋白质预测等系列模型。经过不到3个月的持续更新迭代，“悟道2.0”实现了更高层面的跨越。（详情参见本周报“新工具”栏目）

三、Jeff Hawkins 是美国著名计算机科学家与神经科学家，美国工程院院士，目前任职于美国加州Numenta 公司。2004年，他曾出版科普著作《On Intelligence》，把人工智能这个陌生概念播撒到无数人心中。在本届智源大会上，他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人，Jeff 为 Numenta 公司设定了双重使命：理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来，想要最迅速地创造真正的智能机器，首先需要理解人类大脑是如何工作的。（详情参见本周报“观点”栏目）

下面是各个要点的详情介绍。

论文推荐

加州大学圣巴巴拉分校 | FoveaTer：用于图像分类的Foveated Transformer

FoveaTer: Foveated Transformer for Image Classification

许多动物和人类以不同的空间分辨率（foveated vision）处理视野，并使用外围处理使眼球运动并指向中心凹以获取有关感兴趣对象的高分辨率信息。这种架构导致计算效率高的快速场景探索。视觉Transformer的最新进展为传统上依赖卷积的计算机视觉系统带来了新的替代方案。然而，这些模型没有明确地模拟视觉系统的注视点属性，也没有对眼球运动和分类任务之间的相互作用进行建模。我们提出了 foveated Transformer (FoveaTer) 模型，该模型使用池化区域和扫视运动来使用视觉 Transformer 架构执行物体分类任务。我们提出的模型使用平方池化区域来池化图像特征，这是对受生物启发的注视架构的近似，并将池化特征用作 Transformer 网络的输入。它根据 Transformer 分配给先前和当前注视的各个位置的注意力来决定接下来的注视位置。该模型使用置信阈值来停止场景探索，从而允许为更具挑战性的图像动态分配更多的注视/计算资源。我们使用我们提出的模型和 unfoveated 模型构建了一个集成模型，实现了比 unfoveated 模型低 1.36% 的精度，同时节省了 22% 的计算量。最后，我们证明了我们的模型对对抗性攻击的鲁棒性，它优于 unfoveated 模型。

查看详情及论文下载

中国科学院大学 | StyTr^2：首个基于Transformer的图像风格迁移

StyTr^2: Unbiased Image Style Transfer with Transformers

图像风格迁移的目标是在保持原始内容的同时，通过风格参考来渲染具有艺术特征的图像。由于 CNN 的局部性和空间不变性，很难提取和维护输入图像的全局信息。因此，传统的神经风格迁移方法通常是有偏差的，通过使用相同的参考风格图像运行多次风格迁移过程可以观察到content leak。为了解决这个关键问题，我们通过提出一种基于Transformer的方法，即 StyTr^2，将输入图像的long-range依赖性考虑到无偏风格转移。与用于其他视觉任务的视觉Transformer相比，我们的 StyTr^2 包含两个不同的Transfomrer编码器，分别为内容和风格生成特定于域的序列。在编码器之后，采用多层Transformer解码器根据样式序列对内容序列进行风格化。此外，我们分析了现有位置编码方法的不足，提出了尺度不变且更适合图像风格迁移任务的内容感知位置编码（CAPE）。与最先进的基于 CNN 和基于flow的方法相比，定性和定量实验证明了所提出的 StyTr^2 的有效性。

查看详情及论文下载

视觉关系推理 | 以人为中心的关系分割：数据集和解决方案

Human-centric Relation Segmentation: Dataset and Solution

近年来，视觉和语言理解技术取得了显著进步，但目前的技术仍然难以很好地处理涉及非常细粒度的细节问题。例如，当机器人被告知「把女孩左手的书拿给我」时，如果女孩的左手和右手各拿着一本书，则大多数现有的方法将失效。在本文中，作者引入了一种名为「以人为中心的关系分割」（HRS）的新任务，该任务可以被视为人物交互检测的细粒度版本。 HRS 旨在预测人类与周围实体之间的关系并识别与关系相关的人体部位，我们将这些部位表示为像素级掩码。对于上述示例，HRS 任务产生的输出为关系三元组的形式，并给出精确分割出来的书本掩码，机器人可以轻松完成抓取任务。本文作者为这项新任务收集了一个新的数据集——Person In Context (PIC) ，该数据集包含 17,122 张高分辨率图像和密集注释的实体分割和关系，包括 141 个对象类别、23 个关系类别和 25 个语义人体部位。本文作者还提出了同时进行匹配和分割 (SMS) 的框架，该框架可以作为 HRS 任务的解决方案。它将实体分割、主语宾语匹配、人物解析三个分支的输出融合，从而以产生最终的 HRS 结果。

查看详情及论文下载

华为 | 重温用于目标检测的知识蒸馏

Revisiting Knowledge Distillation for Object Detection

现有的目标检测蒸馏解决方案依赖于教师模型和真实标签的可用性。我们提出了一个新的视角来解决这种限制。在我们的框架中，学生首先使用教师生成的伪标签进行训练，然后使用标记数据进行微调（如果有）。大量实验证明了对现有目标检测蒸馏算法的改进。此外，在这个框架中将教师和真实数据蒸馏解耦提供了有趣的特性，例如：1) 使用未标记的数据进一步提高学生的表现，2) 结合不同架构的多个教师模型，甚至具有不同的对象类别，以及 3 ) 减少对标记数据的需求（只有 20% 的 COCO 标签，该方法实现了与在整个标签集上训练的模型相同的性能）。此外，这种方法的一个by-product是域适应的潜在用途。我们通过广泛的实验验证了这些特性。

查看详情及论文下载

Apple | 没有注意力的Transformer

An Attention Free Transformer

我们提出了Attention Free Transformer (AFT)，这是一种高效的 Transformer 变体，它消除了对dot product self attention的需要。在 AFT 层中，key和 value首先与一组学习的位置偏差相结合，其结果以element-wise与查询相乘。这个新操作的内存复杂度为线性 w.r.t. 上下文大小和特征维度，使其兼容大输入和模型大小。我们还介绍了 AFT-local 和 AFT-conv，这两种模型变体在保持全局连接的同时利用了局部性和空间权重共享的思想。我们对两个自回归建模任务（CIFAR10 和 Enwik8）以及一个图像识别任务（ImageNet-1K 分类）进行了大量实验。我们展示了 AFT 在所有基准测试中都表现出具有竞争力的性能，同时提供了出色的效率。

查看详情及论文下载

观点

真正实现与人更类似的智能！Jeff Hawkins：创造机器智能的路线图

Jeff Hawkins 是美国著名计算机科学家与神经科学家，美国工程院院士，目前任职于美国加州Numenta 公司。2004年，他曾出版科普著作《On Intelligence》，把人工智能这个陌生概念播撒到无数人心中。在本届智源大会上，他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人，Jeff 为 Numenta 公司设定了双重使命：理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来，想要最迅速地创造真正的智能机器，首先需要理解人类大脑是如何工作的。

智源社区AI周刊#76：NAACL2021最佳论文出炉

评论列表

评论