导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第78期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/06/14~2021/06/20),值得关注的内容有以下3方面:

一、近日,CVPR 2021 公布了最佳论文、最佳学生论文等奖项。德国马普所和蒂宾根大学的研究者获得了最佳论文奖,加州理工和西北大学的研究者获得最佳学生论文奖。此外,FAIR 包括何恺明在内的两位华人学者获得最佳论文提名,而另一位华人学者、华盛顿大学计算机系硕士研究生林山川获得了最佳学生论文提名。(详情参见本周报“会议”栏目)

二、近日,ACM SIG 新一届选举结果出炉,陈怡然、刘学、王薇、王晓峰、May Dongmei Wang、Lili Qiu等多位华人学者当选,任期为2021年7月1日至2023年6月30日。(详情参见本周报“人物”栏目)

三、该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔,研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就,在撰写论文时仍处于预证明阶段。研究人员认为,奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此,他们得出结论,强化学习是基于奖励最大化的人工智能分支,可以推动通用人工智能的发展。(详情参见本周报“观点”栏目)

下面是各个要点的详情介绍。

论文推荐

清华、人大、复旦等|预训练模型:过去、现在和未来

Pre-Trained Models: Past, Present and Future

我们深入研究了预训练的历史,特别是它与迁移学习和自监督学习,揭示 大规模预训练模型在AI 中的关键地位发展谱。此外,我们全面回顾了最新的突破大规模预训练模型。这些突破是由计算能力的激增和数据可用性的增加,朝着四个重要方向发展:设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,我们讨论了一系列开放性问题和研究大规模预训练模型的方向,希望我们的观点能够启发和推动大规模预训练模型的未来研究。

查看详情及论文下载

Transformer | THUNDR:使用标记的基于 Transformer 的3D 人体重建

THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers

THUNDR通过使用3d 标记表示,将无模型输出架构的预测能力与统计人体表面模型(如 GHUM)的正则化、人体测量学特性相结合,推导出基于全身统计的 3d 人体模型,实现端到端训练。基于Transformer的预测通道可以专注于与任务相关的图像区域,支持自我监督机制,并确保结果与人体测量学一致。THUNDR的结构示意图如图1所示,网络运行时,标记姿势器基于受约束的标记预测通道,预测通道再通过特征的线性层将最初生成的与人体测量学一致的身体网格自动编码为一组标记,然后标记被用于预测 GHUM 参数,产生人体姿态网格。

查看详情及论文下载

鲁棒学习 | 基于因果干预的对抗视觉鲁棒性

Adversarial Visual Robustness by Causal Intervention

目前,对抗性训练是公认的最有前途的防御对抗性样本的手段。然而,它的被动特性不可避免地使其难以未知的攻击者产生免疫。为了实现主动防御,除了流行的有界威胁模型之外,我们还需要对对手的例子有更基本的了解。在本文中,作者提出了一种对抗性安全隐患的因果视角:由于学习过程中普遍存在混杂因子,攻击者恰好可以利用混杂效应。因此,一种对抗鲁棒性的根本解决方案是因果干预。由于一般情况下无法观察到混杂因子,本文作者建议使用工具变量进行干预,而无需观察混杂因子。作者将这种鲁棒的训练方法称为基于工具变量的因果干预(CiiV)。它具有可微定位采样层和一致性损失,稳定且不受梯度模糊的影响。

查看详情及论文下载

GNN | 使用自旋卷积的旋转不变图神经网络

Rotation Invariant Graph Neural Networks using Spin Convolutions

通过对原子系统进行有效模拟,可以显著加快应对气候变化所需的能源突破进展。基于第一性原理的仿真技术,例如密度泛函理论 (DFT),由于计算成本高,在实际应用中受到限制。机器学习方法有可能以近似 DFT计算效率高的方式,从而显著增加计算模拟对现实世界问题的影响。近似 DFT 提出了几个挑战。这些包括精确模拟原子之间相对位置和角度的细微变化,以及强制执行约束,例如旋转不变性或能量守恒。本文引入了一种新方法来对图神经网络中相邻原子组之间的角度信息进行建模。通过使用每边局部坐标系和剩余自由度上的新自旋卷积,网络的边消息实现了旋转不变性。为结构弛豫和分子动力学的应用提出了两种模型变体。同时,本文在大规模 Open Catalyst 2020 数据集上展示了最先进的结果。还对 MD17 和 QM9 数据集进行了比较。

查看详情及论文下载

医学图像分割 | 医学图像分割中无监督域适应的最优潜向量对齐

Optimal Latent Vector Alignment for Unsupervised Domain Adaptation in Medical Image Segmentation

在本文中,作者讨论了医学图像分割中的领域漂移问题。作者提出了一种基于变分自编码器(VAE)和最优传输(OT)理论的轻量级无监督域适应方法 OLVA。由于使用了 VAE,本文提出的模型学习了一个服从正态分布的共享跨域潜在空间,从而减少了领域漂移。为了保证有效的分割,作者设计了共享的潜在空间来建模形状的变化,而非强度的变化。本文作者进一步依靠 OT 损失来匹配和对齐潜在空间中两个域之间剩余的差异。作者在 MM-WHS 数据集上证明了 OLVA 对多个心脏结构分割的有效性,其中源域由带注释的 3D MR 图像组成,目标域由未标记的 3D CT 图像组成。研究结果表明,与当前的生成式训练方法相比,本文提出的方法的 Dice 得分提高了 12.5%。

查看详情及论文下载

观点

DeepMind 首席研究科学家、伦敦大学学院教授 David Silver:强化学习可以推动通用人工智能

该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔,研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就,在撰写论文时仍处于预证明阶段。研究人员认为,奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此,他们得出结论,强化学习是基于奖励最大化的人工智能分支,可以推动通用人工智能的发展

查看原文 | 参与讨论

行业与政策

谷歌旗下自动驾驶部门Waymo再获25亿美元融资

据路透社6月16日晚报道,谷歌旗下自动驾驶部门——Waymo在新一轮融资中获得25亿美元投资。据悉,谷歌母公司Alphabet参与了该轮融资,其他投资者还包括Andreessen Horowitz、Silver Lake和Tiger Global等。根据投资者网站PitchBook的数据,Waymo的最新估值为超过300亿美元。Waymo成立于2009 年,发展至今已经成为完全无人驾驶领域的领导者。Waymo是全球首家推出服务于乘客的商用叫车服务Waymo One,已经在凤凰城、旧金山和湾区开始运营。Waymo表示,该轮融资包括10多名投资者,融资将用于推进公司的自动驾驶技术Waymo Driver,并用于扩充Waymo团队。

查看原文 | 参与讨论

人物

ACM SIG新任主席名单公布!陈怡然、刘学等六位华人学者当选

近日,ACM SIG 新一届选举结果出炉,陈怡然、刘学、王薇、王晓峰、May Dongmei Wang、Lili Qiu等多位华人学者当选,任期为2021年7月1日至2023年6月30日。

查看原文 | 参与讨论

代码

德州农工大学、德州大学奥斯汀分校|自毁对比学习

最近通过对比取得的突破学习加快了在现实世界数据应用程序上部署无监督训练的步伐。然而,现实中未标记的数据通常是不平衡且长尾分布的,和目前尚不清楚最新的对比学习方法在实践场景中发挥的作用。本文提出明确解决这个挑战,通过一个名为自毁对比学习(SDCLR),在不知道类别的情况下自动平衡表示学习。我们的主要灵感来自最近的模型具有难以记忆的样本的现象,并且那些可能会通过网络修剪暴露。更自然地假设长尾样本也由于示例不足,使得模型难以学习得很好。因此,SDCLR 的关键创新是创建一个动态的自我竞争模型与目标模型形成对比,这是一个修剪过的后者版本。在训练中,对比这两种模型将导致自适应在线挖掘当前目标模型最容易遗忘的样本,并隐含地强调它们更多在对比损失。跨多个数据集和不平衡设定的大量实验表明,SDCLR 显着提高了整体准确度和平衡性

查看原文 | 参与讨论

香港大学 | HR-NAS:使用轻量级Transformer搜索高效的高分辨率神经架构

高分辨率表示 (HR) 对于密集预测任务(例如分割、检测和姿态估计)至关重要。在以前专注于图像分类的神经架构搜索 (NAS) 方法中,学习 HR 表示通常被忽略。这项工作提出了一种新的 NAS 方法,称为 HR-NAS,它能够通过有效地编码多尺度上下文信息同时保持高分辨率表示,为不同的任务找到有效和准确的网络。在 HR-NAS 中,我们更新了 NAS 搜索空间及其搜索策略。为了在 HR-NAS 的搜索空间中更好地编码多尺度图像上下文,我们首先精心设计了一个轻量级转换器,其计算复杂度可以根据不同的目标函数和计算预算动态改变。为了保持学习网络的高分辨率表示,HR-NAS 采用多分支架构,受 HRNet 的启发,提供多个特征分辨率的卷积编码。最后,我们提出了一种有效的细粒度搜索策略来训练 HR-NAS,它有效地探索搜索空间,并在给定各种任务和计算资源的情况下找到最佳架构。 HR-NAS 能够在三个密集预测任务和一个图像分类任务的性能和 FLOP 之间实现最先进的权衡,只要计算预算很小。例如,HR-NAS 超越了专为语义分割而设计的 SqueezeNAS,同时提高了 45.9% 的效率。

查看原文 | 参与讨论

快手|MlTr:使用变换器进行多标签分类

多标签图像分类的任务是识别所有对象标签以图像形式呈现。虽然已经推进多年,但小物体、相似物体和条件概率高的物体仍然是主要的瓶颈。先前基于卷积神经网络 (CNN) 的模型,受限于卷积核的表示能力。最近的视觉变换器网络利用自注意力机制来提取像素粒度的特征,表达更丰富的局部语义信息,而不足以挖掘全局空间依赖性。在本文中,我们指出了三个关键问题基于CNN的方法遇到并探索进行特定的可能性变换器模块来解决它们。我们提出了一个多标签变换器架构(MlTr)由窗口分区、窗口内像素注意力、跨窗口注意力构建,特别是提高了多标签图像分类任务的性能。提议的 MlTr 显示了最先进的结果在各种流行的多标签数据集上,例如 MS-COCO、Pascal-VOC、NUSWIDE,分别为 88.5%、95.8%、65.5%。

查看原文 | 参与讨论

新工具

网易有道开源EMLL:高性能端侧机器学习计算库

在人工智能技术不断深入发展的今天,我们对于计算的性能要求越来越高。传统的计算处理多数是基于云侧的,把所有图像、音频等数据通过网络传输到云中心进行处理后将结果反馈。但是随着数据的指数式增长,依靠云侧的计算已经显现了诸多不足,例如数据处理的实时性、网络条件制约、数据安全等,因此端侧的推理则愈发重要。在这样的背景下,网易有道 AI 团队自主设计研发了高性能端侧机器学习计算库——EMLL(Edge ML Library),并已在近日开源。

查看原文 | 参与讨论

香港中文大学 | DistillFlow:一种用于光流估计的自监督学习框架

我们提出了 DistillFlow,这是一种学习光流的知识蒸馏方法。DistillFlow 训练多个教师模型和学生模型,其中将具有挑战性的转换应用于学生模型的输入以生成幻觉遮挡以及不太自信的预测。然后,构建了一个自监督学习框架:来自教师模型的自信预测被用作注释,以指导学生模型为那些不太自信的预测学习光流。自监督学习框架使我们能够从未标记的数据中有效地学习光流,不仅适用于非遮挡像素,还适用于遮挡像素。 DistillFlow 在 KITTI 和 Sintel 数据集上实现了最先进的无监督学习性能。我们的自监督预训练模型还为监督微调提供了出色的初始化,这表明与当前高度依赖合成数据预训练的监督学习方法相比,这是一种替代训练范式。在撰写本文时,我们的微调模型在 KITTI 2015 基准测试的所有单目方法中排名第一,并且在 Sintel Final 基准测试中的表现优于所有已发布的方法。更重要的是,我们在三个方面展示了 DistillFlow 的泛化能力:框架泛化、对应泛化和跨数据集泛化。

查看原文 | 参与讨论

中国科学院大学 | Uformer:用于图像恢复的通用U形Transformer

在本文中,我们提出了 Uformer,这是一种有效且高效的基于 Transformer 的架构,其中我们使用 Transformer 块构建分层编码器-解码器网络以进行图像恢复。 Uformer 有两个核心设计,使其适合这项任务。第一个关键元素是局部增强的窗口 Transformer 块,我们使用非重叠的基于窗口的自注意力来减少计算要求,并在前馈网络中使用深度卷积来进一步提高其捕获潜力当地情况。第二个关键要素是我们探索了三种跳过连接方案,以有效地将信息从编码器传递到解码器。在这两种设计的支持下,Uformer 在捕获有用的图像恢复依赖项方面具有很高的能力。在多个图像恢复任务上的大量实验证明了 Uformer 的优越性,包括图像去噪、去、去模糊和去梦。我们希望我们的工作将鼓励进一步的研究,以探索用于低级视觉任务的基于 Transformer 的架构。

查看原文 | 参与讨论

应用

麻省理工 | 学习蛋白语言: 进化,结构和功能

近年来语言模型作为一种强大的机器学习方法,开始被用于从大规模的蛋白质序列数据库中提炼信息。仅从现成的序列数据中,这些模型可以发现整个蛋白质空间的进化、结构和功能区域。利用语言模型,我们可以将氨基酸序列编码为矢量表征,以捕捉其结构和功能特性,并评估序列突变体的进化适应性。本文讨论了蛋白质语言模型的最新进展以及它们在下游蛋白质属性预测问题上的应用。作者考虑了如何用先前的生物知识来丰富这些模型,并介绍了一种将蛋白质结构知识编码到所学表征中的方法。这些模型提炼出的知识使我们能够通过迁移学习改善下游的功能预测。深度蛋白质语言模型正在彻底改变蛋白质生物学,它们为蛋白质和治疗方法的设计提出了新的途径。然而,将强大的生物学先验知识编码到蛋白质语言模型中,并丰富其应用还需要进一步的发展。

查看原文 | 参与讨论

印度理工学院 | 2D医学图像分割的对比半监督学习

对比学习 (CL) 是最近的一种表示学习方法,它通过在学习的图像表示中鼓励类间可分离性和类内紧凑性来取得可喜的结果。由于医学图像通常每个图像包含多个感兴趣的类别,因此这些图像的标准图像级 CL 不适用。在这项工作中,我们提出了一种新颖的半监督 2D 医学图像分割解决方案,该解决方案将 CL 应用于图像块,而不是完整图像。这些patches是使用通过伪标签获得的不同类的语义信息有意义地构建的。我们还提出了一种新颖的一致性正则化方案,它与对比学习协同工作。它解决了在半监督设置中经常观察到的确认偏差问题,并鼓励在特征空间中更好地聚类。我们在四个公共医学分割数据集以及我们引入的新组织病理学数据集上评估我们的方法。我们的方法对所有数据集的最先进的半监督分割方法都取得了一致的改进。

查看原文 | 参与讨论

机器学习领域新进展再次刊登Nature封面:解决医疗数据隐私问题

据悉,近日机器学习领域新进展又一次登上国际学术期刊《自然》(Nature)封面。德国波恩大学的研究人员联合惠普公司以及来自希腊、德国、荷兰的多家研究机构共同开发了一项结合边缘计算、基于区块链的对等网络协调的分布式机器学习方法——群体学习(Swarm Learning,以下简称SL),用于不同医疗机构之间数据的整合。研究人员基于1.64万份血液转录组和9.5万份胸部X射线图像数据,使用SL为白血病、肺结核和肺部疾病、COVID-19开发疾病检测分类器,发现SL在满足保密规范的同时优于单个医疗机构开发的分类器。算法识别出患病个体的准确率,在血液转录组数据集中平均为90%,在X射线图像数据集中表现为76%-86%。

查看原文 | 参与讨论

会议

CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布

近日,CVPR 2021 公布了最佳论文、最佳学生论文等奖项。德国马普所和蒂宾根大学的研究者获得了最佳论文奖,加州理工和西北大学的研究者获得最佳学生论文奖。此外,FAIR 包括何恺明在内的两位华人学者获得最佳论文提名,而另一位华人学者、华盛顿大学计算机系硕士研究生林山川(Shanchuan Lin)获得了最佳学生论文提名。

查看原文 | 参与讨论

以上是《智源社区AI周刊》第78期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除