导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第76期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/05/31~2021/06/06),值得关注的内容有以下3方面:

一、NAACL 2021将于2021年6月6日至11日以在线会议的形式在墨西哥城举办,近日最佳论文公布,来自罗切斯特大学和腾讯的研究人员《视频辅助无监督语法归纳》获得最佳长论文,此外还包括2篇杰出长论文和1篇最佳短论文和2篇杰出短论文。(详情参见本周报“会议”栏目)

二、目前,国际主流的大模型主要基于英文语料研发,智源研究院作为AI基础建设的先行者,成立了由智源研究院学术副院长唐杰教授领衔,100多位科研骨干共同参与的“悟道”团队,启动面向中文的大规模智能模型研发工作。“悟道”模型系统将构建“大模型、大平台、大生态”,持续研发超大规模智能模型,围绕大模型研发,构建大规模算力平台,同时对外开放模型能力,“赋智”各行业发展,构建大模型生态。今年3月20日,智源研究院发布了中国首个超大规模智能模型“悟道1.0”,训练出中文、多模态、认知、蛋白质预测等系列模型。经过不到3个月的持续更新迭代,“悟道2.0”实现了更高层面的跨越。(详情参见本周报“新工具”栏目)

三、Jeff Hawkins 是美国著名计算机科学家与神经科学家,美国工程院院士,目前任职于美国加州Numenta 公司2004年,他曾出版科普著作《On Intelligence》,把人工智能这个陌生概念播撒到无数人心中。在本届智源大会上,他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人,Jeff 为 Numenta 公司设定了双重使命:理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来,想要最迅速地创造真正的智能机器,首先需要理解人类大脑是如何工作的。(详情参见本周报“观点”栏目)

下面是各个要点的详情介绍。

论文推荐

加州大学圣巴巴拉分校 | FoveaTer:用于图像分类的Foveated Transformer

FoveaTer: Foveated Transformer for Image Classification

许多动物和人类以不同的空间分辨率(foveated vision)处理视野,并使用外围处理使眼球运动并指向中心凹以获取有关感兴趣对象的高分辨率信息。这种架构导致计算效率高的快速场景探索。视觉Transformer的最新进展为传统上依赖卷积的计算机视觉系统带来了新的替代方案。然而,这些模型没有明确地模拟视觉系统的注视点属性,也没有对眼球运动和分类任务之间的相互作用进行建模。我们提出了 foveated Transformer (FoveaTer) 模型,该模型使用池化区域和扫视运动来使用视觉 Transformer 架构执行物体分类任务。我们提出的模型使用平方池化区域来池化图像特征,这是对受生物启发的注视架构的近似,并将池化特征用作 Transformer 网络的输入。它根据 Transformer 分配给先前和当前注视的各个位置的注意力来决定接下来的注视位置。该模型使用置信阈值来停止场景探索,从而允许为更具挑战性的图像动态分配更多的注视/计算资源。我们使用我们提出的模型和 unfoveated 模型构建了一个集成模型,实现了比 unfoveated 模型低 1.36% 的精度,同时节省了 22% 的计算量。最后,我们证明了我们的模型对对抗性攻击的鲁棒性,它优于 unfoveated 模型。

查看详情及论文下载

中国科学院大学 | StyTr^2:首个基于Transformer的图像风格迁移

StyTr^2: Unbiased Image Style Transfer with Transformers

图像风格迁移的目标是在保持原始内容的同时,通过风格参考来渲染具有艺术特征的图像。由于 CNN 的局部性和空间不变性,很难提取和维护输入图像的全局信息。因此,传统的神经风格迁移方法通常是有偏差的,通过使用相同的参考风格图像运行多次风格迁移过程可以观察到content leak。为了解决这个关键问题,我们通过提出一种基于Transformer的方法,即 StyTr^2,将输入图像的long-range依赖性考虑到无偏风格转移。与用于其他视觉任务的视觉Transformer相比,我们的 StyTr^2 包含两个不同的Transfomrer编码器,分别为内容和风格生成特定于域的序列。在编码器之后,采用多层Transformer解码器根据样式序列对内容序列进行风格化。此外,我们分析了现有位置编码方法的不足,提出了尺度不变且更适合图像风格迁移任务的内容感知位置编码(CAPE)。与最先进的基于 CNN 和基于flow的方法相比,定性和定量实验证明了所提出的 StyTr^2 的有效性。

查看详情及论文下载

视觉关系推理 | 以人为中心的关系分割:数据集和解决方案

Human-centric Relation Segmentation: Dataset and Solution

近年来,视觉和语言理解技术取得了显著进步,但目前的技术仍然难以很好地处理涉及非常细粒度的细节问题。例如,当机器人被告知「把女孩左手的书拿给我」时,如果女孩的左手和右手各拿着一本书,则大多数现有的方法将失效。在本文中,作者引入了一种名为「以人为中心的关系分割」(HRS)的新任务,该任务可以被视为人物交互检测的细粒度版本。 HRS 旨在预测人类与周围实体之间的关系并识别与关系相关的人体部位,我们将这些部位表示为像素级掩码。对于上述示例,HRS 任务产生的输出为关系三元组 的形式,并给出精确分割出来的书本掩码,机器人可以轻松完成抓取任务。本文作者为这项新任务收集了一个新的数据集——Person In Context (PIC) ,该数据集包含 17,122 张高分辨率图像和密集注释的实体分割和关系,包括 141 个对象类别、23 个关系类别和 25 个语义人体部位。本文作者还提出了同时进行匹配和分割 (SMS) 的框架,该框架可以作为 HRS 任务的解决方案。 它将实体分割、主语宾语匹配、人物解析三个分支的输出融合,从而以产生最终的 HRS 结果。

查看详情及论文下载

华为 | 重温用于目标检测的知识蒸馏

Revisiting Knowledge Distillation for Object Detection

现有的目标检测蒸馏解决方案依赖于教师模型和真实标签的可用性。我们提出了一个新的视角来解决这种限制。在我们的框架中,学生首先使用教师生成的伪标签进行训练,然后使用标记数据进行微调(如果有)。大量实验证明了对现有目标检测蒸馏算法的改进。此外,在这个框架中将教师和真实数据蒸馏解耦提供了有趣的特性,例如:1) 使用未标记的数据进一步提高学生的表现,2) 结合不同架构的多个教师模型,甚至具有不同的对象类别,以及 3 ) 减少对标记数据的需求(只有 20% 的 COCO 标签,该方法实现了与在整个标签集上训练的模型相同的性能)。此外,这种方法的一个by-product是域适应的潜在用途。我们通过广泛的实验验证了这些特性。

查看详情及论文下载

Apple | 没有注意力的Transformer 

An Attention Free Transformer

我们提出了Attention Free Transformer (AFT),这是一种高效的 Transformer 变体,它消除了对dot product self attention的需要。在 AFT 层中,key和 value首先与一组学习的位置偏差相结合,其结果以element-wise与查询相乘。 这个新操作的内存复杂度为线性 w.r.t. 上下文大小和特征维度,使其兼容大输入和模型大小。 我们还介绍了 AFT-local 和 AFT-conv,这两种模型变体在保持全局连接的同时利用了局部性和空间权重共享的思想。 我们对两个自回归建模任务(CIFAR10 和 Enwik8)以及一个图像识别任务(ImageNet-1K 分类)进行了大量实验。 我们展示了 AFT 在所有基准测试中都表现出具有竞争力的性能,同时提供了出色的效率。

查看详情及论文下载

观点

真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图

Jeff Hawkins 是美国著名计算机科学家与神经科学家,美国工程院院士,目前任职于美国加州Numenta 公司2004年,他曾出版科普著作《On Intelligence》,把人工智能这个陌生概念播撒到无数人心中。在本届智源大会上,他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人,Jeff 为 Numenta 公司设定了双重使命:理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来,想要最迅速地创造真正的智能机器,首先需要理解人类大脑是如何工作的。

查看原文 | 参与讨论

行业与政策

德国通过全球首个 L4 自动驾驶法案

L4级自动驾驶汽车在公共道路行驶,这一场景已不再遥远。5月28日,德国联邦委员会的全体会议通过一项立法,允许L4级完全无人驾驶汽车于2022年出现在德国的公共道路。事实上,该法案自2017年就已开始根据德国的自动驾驶发展进程多番修订,并在今年2月10日增添L4级自动驾驶汽车在公共道路行驶的法律条文。本次德国联邦委员会通过该项法案,意味着这项法案将正式生效。同时也意味着在自动驾驶的应用上,德国已迈出极具建设性的一大步。

查看原文 | 参与讨论

数据

最新综述:对话式检索数据集汇总

对话式检索近年来成为了信息检索中的研究热点,但是该研究领域一直存在数据资源缺乏的问题,一方面没有现有的对话式检索系统收集真实场景的数据,另一方面用户实验模拟产生的数据集规模不足以支撑深度学习模型的训练,本文首先讲介绍以下两种数据集:用户实验数据集:通过人来扮演 machine agent,从而研究对话式检索的特点;单一任务数据集:规模较大、但是只能完成对话式检索中一个子任务的数据集。最后我们将介绍今年 SIGIR 上提出的第一个可以完整训练对话式检索整个流程的数据集 WISE。

查看原文 | 参与讨论

代码

浙江大学 | TCVOM:注意力引导的视频物体抠图

本文提出了一种新的基于深度学习的视频物体抠图(Video Object Matting)方法,可以实现时间相干抠图结果。它的关键组件是一个基于注意力的时间聚合模块,它可以最大限度地提高图像抠图网络对视频抠图网络的强度。该模块计算特征空间中沿时间轴彼此相邻的像素的时间相关性,以对运动噪声具有鲁棒性。我们还设计了一个新颖的损失项来训练注意力权重,这大大提高了视频抠图性能。此外,我们展示了如何通过使用一组稀疏的用户注释关键帧微调最先进的视频目标分割网络来有效解决trimap 生成问题。为了促进视频抠图和trimap生成网络的训练,我们构建了一个大规模的视频抠图数据集,其中包含 80 个训练和 28 个验证前景视频剪辑,带有ground-truth alpha 遮罩。实验结果表明,我们的方法可以为具有外观变化、遮挡和快速运动的各种视频生成高质量的 alpha 遮罩。

查看原文 | 参与讨论

国防科技大学 | DNANet:用于红外小目标检测的密集嵌套注意力网络

单帧红外小目标 (SIRST) 检测旨在将小目标与杂乱背景分离。随着深度学习的进步,基于 CNN 的方法由于其强大的建模能力,在通用目标检测方面取得了可喜的成果。然而,现有的基于 CNN 的方法不能直接应用于红外小目标,因为其网络中的池化层可能导致深层目标丢失。为了解决这个问题,我们在本文中提出了一个密集嵌套注意网络(DNANet)。具体来说,我们设计了一个密集嵌套交互模块(DNIM)来实现高级和低级特征之间的渐进式交互。通过DNIM中的重复交互,可以保持深层的红外小目标。基于DNIM,我们进一步提出了一个级联通道和空间注意力模块(CSAM)来自适应地增强多级特征。使用我们的 DNANet,可以通过重复融合和增强很好地合并和充分利用小目标的上下文信息。此外,我们开发了一个红外小目标数据集(即NUDT-SIRST)并提出了一套评估指标来进行综合性能评估。在公共数据集和我们自主开发的数据集上的实验证明了我们方法的有效性。与其他最先进的方法相比,我们的方法在检测概率 (Pd)、误报率 (Fa) 和联合交集 (IoU) 方面取得了更好的性能。

查看原文 | 参与讨论

北京交通大学 |  基于双语交互信息的自适应训练解决神经机器翻译

最近,token级自适应训练在机器翻译中取得了可喜的进展,通过给不同的token分配不同的训练权重来调整交叉熵损失函数,以缓解token不平衡的问题。然而,以前的方法只使用目标语言的静态词频信息,而不考虑源语言,这对机器翻译这样的双语任务来说是不够的。基于双语交互信息的自适应训练方法为BMI较高的token分配较大的训练权重,因此容易的token以粗粒度更新,而困难的token则以细粒度更新。在WMT14英译德和WMT19中译英数据集上的的实验结果表明,与Transformer基线和以前的token级自适应训练方法相比,论文方法具有优越性;且进一步的实验分析证实,论文方法可以提高词汇的多样性

查看原文 | 参与讨论

教程

综述 | 用于组合优化的强化学习

许多解决组合优化问题的传统算法都涉及使用手工构造的启发式算法,这些启发式算法能够依次地构造解决方案。这种启发式方法是由领域专家设计的,且一般由于问题的困难性,这种方法不是最佳的。强化学习(RL)提出了一种很好的选择,使用监督或自我监督的方式训练 agent 来自动搜索这些启发式方法。在这篇调研中,我们探索了将 RL 框架应用于困难的组合问题的最新进展我们的调研为运筹学和机器学习社区提供了必要的背景,并展示了推动领域向前发展的工作。我们将最近提出的 RL 方法并置在一起,列出了每个问题改进方法的时间线,并与传统算法进行了比较,这表明 RL 模型可以成为解决组合问题的有希望的方向

查看原文 | 参与讨论

CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结

一直以来,数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料;然而人工收集足量而优质的数据从来不是一件“便宜”的事,数据增强便是一座富有价值的矿山。在CV中,翻转,裁剪,加噪声等方法被广泛应用且获得了显著的效果。但在NLP领域,由于语言的离散性,如何获得保持文本原意的新数据就显得不那么简单了。大型预训练模型的成功为我们带来了曙光,推动了许多低资源领域或是新任务的研究,然而微调大型模型需要大量数据,如何自动获得高质量数据在最近的研究中显得尤为重要。Google,CMU,Mila等研究者合作,对当前NLP领域的数据增强进行了总结。被收录到ACL 21 Findings。

查看原文 | 参与讨论

中国人民大学 | 单目物体姿态检测和跟踪的深度学习技术:调研

由于其在自动驾驶、机器人和增强现实等许多领域的广泛应用,物体姿态检测和跟踪最近引起了越来越多的关注。在物体姿态检测和跟踪的方法中,深度学习是最有前途的一种,其性能优于其他方法。然而,缺乏对基于深度学习的方法的最新发展的调查研究。因此,本文对属于深度学习技术路线的物体姿态检测和跟踪的最新进展进行了全面回顾。为了更深入地介绍,本文的范围仅限于以单目 RGB/RGBD 数据为输入的方法,涵盖三种主要任务:实例级单目物体姿态检测、类别级单目物体姿态检测、单目物体姿态跟踪。在我们的工作中,详细介绍了有关检测和跟踪的指标、数据集和方法。还介绍了当前最先进方法在几个公开可用数据集上的比较结果,以及富有洞察力的观察和鼓舞人心的未来研究方向。

查看原文 | 参与讨论

新工具

智源|全球最大智能模型“悟道2.0”重磅发布

目前,国际主流的大模型主要基于英文语料研发,智源研究院作为AI基础建设的先行者,成立了由智源研究院学术副院长唐杰教授领衔,100多位科研骨干共同参与的“悟道”团队,启动面向中文的大规模智能模型研发工作。“悟道”模型系统将构建“大模型、大平台、大生态”,持续研发超大规模智能模型,围绕大模型研发,构建大规模算力平台,同时对外开放模型能力,“赋智”各行业发展,构建大模型生态。今年3月20日,智源研究院发布了中国首个超大规模智能模型“悟道1.0”,训练出中文、多模态、认知、蛋白质预测等系列模型。经过不到3个月的持续更新迭代,“悟道2.0”实现了更高层面的跨越

查看原文 | 参与讨论

诺亚开源因果结构学习工具包gCastle

gCastle(A python library for Causal Structure Learning)是华为诺亚GTS大脑与因果基础研究团队联合自研的一个纯Python开发的因果结构学习工具包,其功能愿景是为业界提供一套完整的因果结构学习工具链及多个真实应用场景的因果数据集,以期弥补业界在因果发现工具链完整性和Benchmark数据集上的匮乏。gCastle共包含三个主要模块:因果发现算法库,数据生成模块及因果发现性能评测模块。

查看原文 | 参与讨论

应用

DeepMind 训练 AI 玩足球,走位堪比人类

DeepMind一直尝试用AI来玩一些复杂多变的策略性游戏,以训练出接近人类智力水平的智能体。在足球运动中,团队协作是智能体训练面临的最大挑战,它不仅要对足球规则、技巧十分娴熟,还要对赛场上的局势,队友和对手的位置、以及目标有更好的理解,以做出更理性的决策。DeepMind表示,此次升级的AI智能体训练出了对他人的“意识”,能够在更大的时空维度上,与队友协同配合完成更复杂的作战策略。最近DeepMind发表了一篇名为“From Motor Control to Team Play in Simulated Humanoid Football”的技术论文,同时发布了演示视频。

查看原文 | 参与讨论

使用深度核学习量化医学图像分析中的预测不确定性

深度神经网络越来越多地用于医学图像分析。然而,大多数工作忽略了模型预测中的不确定性。本文提出了一种不确定性感知深度核学习模型,该模型允许通过卷积神经网络和稀疏高斯过程的管道来估计预测中的不确定性。此外,本文采用不同的预训练方法来研究它们对所提出模型的影响。本文将搭建的模型方法应用于骨龄预测和病变定位。在大多数情况下,与常见架构相比,所提出的模型显示出更好的性能。更重要的是,本文的模型系统地表达了对更准确预测的更高置信度和对不太准确的预测的更低置信度。本文的模型还可用于检测具有挑战性和有争议的测试样本。与 Monte-Carlo Dropout 等相关方法相比,该方法以纯粹的分析方式推导出不确定性信息,因此计算效率更高

查看原文 | 参与讨论

联邦学习用于短期住宅能源需求预测

能源需求预测是能源行业中执行的一项基本任务,以帮助平衡供需之间的关系,并保持电网的稳定负载。随着供应向不太可靠的可再生能源发电的过渡,智能电表将被证明是协助完成这些预测任务的重要组成部分。但是,在那些注重隐私的消费者中,智能电表的使用率很低,他们担心会入侵其细粒度的消费数据。在这项工作中,提出并探索了一种基于联邦学习(FL)的方法,用于以分布式、协作的方式训练预测模型,同时保留基础数据的隐私性。本文比较了两种方法:FL和集群变体(FL+HC)与非私有的集中式学习方法和完全私有的本地化学习方法。在这些方法中,通过在每种情况下训练模型所需的样本数量,使用RMSE和计算效率来衡量模型性能。另外,本文建议在FL策略之后进行个性化步骤,并表明这样做可以提高模型性能。实验证明,与局部学习相比,FL+HC和个性化可以使模型性能提高5%左右,而计算量减少10倍左右。最后,本文提供有关私有聚集预测的建议,以构建私有端到端能源需求预测应用程序

查看原文 | 参与讨论

会议

NAACL2021最佳论文出炉

NAACL 2021将于2021年6月6日至11日以在线会议的形式在墨西哥城举办,近日最佳论文公布,来自罗切斯特大学和腾讯的研究人员《视频辅助无监督语法归纳》获得最佳长论文,此外还包括2篇杰出长论文和1篇最佳短论文和2篇杰出短论文。

查看原文 | 参与讨论

以上是《智源社区AI周刊》第76期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除