导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第79期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/06/21~2021/06/27),值得关注的内容有以下3方面:

一、在“2021北京智源大会 · 人工智能的数理基础论坛”上,一批智源学者尝试就“人工智能的大统一理论?”这一问题,给出了自己的回答。北京大学林伟教授首先做了引导报告,随后邓柯、林伟、林宙辰、明平兵、王涵、文再文、张志华等人围绕“人工智能的大统一理论?”这一主题的几个问题进行讨论。(详情参见本周报“观点”栏目)

二、Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,很多高校实验室或者公司都无法训练很大的模型,而降低批处理大小等措施又会导致训练时间成倍增加。针对这一痛点,字节跳动推出了 LightSeq 训练加速引擎,对 Transformer 训练的整个计算过程进行了优化,最多可以实现 3 倍以上的加速。(详情参见本周报“新工具”栏目)

三、MIT 沃森人工智能实验室首席科学家淦创团队与来自MIT, USCD等机构的研究者共同提出了一个支持梯度可导的机器人软体操作平台(PlasticineLab) 来解决这个问题。这篇论文内容在 ICLR 2021 大会上被选为spotlight。(详情参见本周报“数据”栏目)

下面是各个要点的详情介绍。

论文推荐

视觉理解 | 利用实体键的匹配相关性进行视觉信息提取

MatchVIE: Exploiting Match Relevancy between Entities for Visual  Information Extraction

针对这一问题,本文提出了一种基于图神经网络的键-值匹配模型(MatchVIE)。该方法通过基于相关性评价的键值匹配,绕过了对各种语义的识别,只关注实体间的强相关性。此外,本文作者还引入了一种简单而有效的运算 Num2Vec 来解决编码值的不稳定性问题,使模型收敛更加平稳。实验结果表明,本文提出的 MatchVIE 算法的性能明显优于以往的方法。值得注意的是,据我们所知,MatchVIE 可能是第一次尝试通过建模键和值之间的相关性来处理 VIE 任务,它是对现有方法的一个很好的补充。

查看详情及论文下载

强化学习 | 通过潜在空间搭配实现基于模型的强化学习

Model-Based Reinforcement Learning via Latent-Space Collocation

规划未来的能力在仅利用原始高维观察(例如图像)的同时可以为自主智能体提供广泛的能力。基于视觉模型的强化学习 (RL) 方法仅需要短视域推理的任务,就可以直接规划未来行动,结果给人留下深刻印象。然而,这些方法在时间扩展的任务上表现不佳。作者团队认为,通过规划状态序列而不仅仅是动作来解决长期任务更容易,因为动作的影响会随着时间的推移而极大复合并且更难优化。为了实现这一点,本文借鉴了搭配的思想,该思想在最优控制文献中的长范围任务上显示出良好的结果,并通过利用学习的潜在状态空间模型将其适应基于图像的设置。由此产生的潜在搭配方法 (LatCo) 优化了潜在状态的轨迹,这改进了先前提出的基于视觉模型的强化学习射击方法,用于具有稀疏奖励和长期目标的任务。

查看详情及论文下载

马克思·普朗克智能系统研究所 | GIRAFFE:将场景表示为合成生成神经特征场(CVPR2021 最佳论文)

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

深度生成模型允许以高分辨率进行逼真的图像合成。但是对于许多应用程序来说,这还不够:内容创建还需要可控。虽然最近的几项工作研究了如何解开数据中变化的潜在因素,但大多数都是在 2D 中运行的,因此忽略了我们的世界是 3D 的。此外,只有少数作品考虑了场景的构图性质。我们的关键假设是将合成 3D 场景表示结合到生成模型中会导致更可控的图像合成。将场景表示为合成生成神经特征场使我们能够从背景中分离出一个或多个对象以及单个对象的形状和外观,同时从非结构化和未定位的图像集合中学习,而无需任何额外的监督。将此场景表示与神经渲染管道相结合,可以生成快速且逼真的图像合成模型。正如我们的实验所证明的那样,我们的模型能够解开单个物体,并允许在场景中平移和旋转它们以及改变相机姿势。

查看详情及论文下载

浙江大学 | CompConv:用于高效特征学习的紧凑型卷积模块

CompConv: A Compact Convolution Module for Efficient Feature Learning

卷积神经网络 (CNN) 在各种计算机视觉任务中取得了显著的成功,但依赖于巨大的计算成本。为了解决这个问题,现有的方法要么压缩训练有素的大规模模型,要么学习具有精心设计的网络结构的轻量级模型。在这项工作中,我们仔细研究了卷积算子,这是 CNN 中使用的基本单元,以减少其计算负载。特别是,我们提出了一个紧凑的卷积模块,称为 CompConv,以促进高效的特征学习。通过分治法的策略,CompConv 能够节省大量的计算和参数来生成特定维度的特征图。此外,CompConv 将输入特征集成到输出中,以有效地继承输入信息。更重要的是,新颖的 CompConv 是一个即插即用模块,可以直接应用于现代 CNN 结构,无需进一步努力即可替换普通卷积层。大量的实验结果表明,CompConv 可以充分压缩基准 CNN 结构,同时几乎不牺牲性能,超越了其他竞争对手。

查看详情及论文下载

波恩大学 | DeepWalk:基于深度强化学习的全方位双足步态

DeepWalk: Omnidirectional Bipedal Gait by Deep Reinforcement Learning

双足行走是机器人领域中最困难但最令人兴奋的挑战之一。其困难源于高维动力学、传感和驱动限制以及实时和计算约束的复杂性。深度强化学习 (DRL) 有望通过以极简的技艺充分利用机器人动力学来解决上述问题。基于此,本文提出了一种基于真实机器人模型的仿人机器人全方位行走控制策略的新颖的 DRL 方法,使代理能够学习仿人(双足)机器人的全方位运动。值得注意的是,运动行为是由单个控制策略(单个神经网络)完成的。为此,本文通过引入一种新的课程学习方法来实现这一目标,该方法通过设定目标速度以逐渐增加任务难度。此外,该方法不需要参考运动,有助于将其应用于具有不同运动学的机器人,并降低了整体复杂度。最后,本文提出了模拟到真实迁移的不同策略,以将学习到的策略迁移到真实的仿人机器人上。

查看详情及论文下载

观点

人工智能是否存在「大统一理论」?

在“2021北京智源大会 · 人工智能的数理基础论坛”上,一批智源学者尝试就这一问题,给出了自己的回答。北京大学林伟教授首先做了引导报告,随后邓柯、林伟、林宙辰、明平兵、王涵、文再文、张志华等人围绕“人工智能的大统一理论?”这一主题的几个问题进行讨论。

查看原文 | 参与讨论

行业与政策

黄铁军、高文等:针对强人工智能安全风险的技术应对策略丨中国工程科学

中国工程院院刊《中国工程科学》在2021年第3期刊发《针对强人工智能安全风险的技术应对策略》,归纳了强人工智能与传统人工智能的区别,从模型的不可解释性、算法及硬件的不可靠性、自主意识的不可控性三方面研判了强人工智能安全风险的来源,从能力、动机、行为3 个维度提出了针对强人工智能的安全风险评估体系。为应对安全风险,文章提出的防御策略有:在理论技术研究阶段,完善理论基础验证,实现模型可解释性,严格限制强人工智能底层价值取向,促进技术标准化;在应用阶段,预防人为造成的安全问题,对强人工智能进行动机选择,为强人工智能赋予人类价值观。此外,文章建议加强国际合作,培养强人工智能研究人才,为迎接未知的强人工智能时代做好充分准备。

查看原文 | 参与讨论

方滨兴等:人工智能赋能网络攻击的安全威胁及应对策略丨中国工程科学

近期,中国工程院方滨兴院士科研团队在中国工程院院刊《中国工程科学》2021年第3期撰文,系统分析人工智能在网络空间安全领域应用带来的安全问题,重点研究人工智能在网络攻击细分方向的赋能效应,总结提炼人工智能赋能网络攻击的新兴威胁场景、技术发展现状、未来发展趋势,以期为相关领域发展提供理论参考。文章建议,为有效应对人工智能赋能网络攻击的安全威胁,应从防范安全威胁、构建对等能力角度加强智能化网络攻防体系建设和能力升级;加强人工智能安全数据资产的共享利用,采取以数据为中心的人工智能网络攻防技术发展路径;加强对抗评估和测试验证,促进人工智能网络攻防技术尽快具备实用性。

查看原文 | 参与讨论

数据

MIT、IBM, UCSD等联合发布软体操作数据集PlasticineLab

虚拟环境(ALE、MuJoCo、OpenAI Gym)极大地促进了在智能体控制和规划方面学习算法的发展和评估,然而现有的虚拟环境通常只涉及刚体动力学。尽管软体动力学在多个研究领域有着广泛的应用(例如,医疗护理中模拟虚拟手术、计算机图形学中模拟人形角色、机器人技术中开发仿生制动器、材料科学中分析断裂和撕裂),关于构建标准软体环境和基准的研究却很少。与刚体动力学相比,软体动力学的模拟、控制和分析更加错综复杂。最大的挑战之一来自其无限的自由度(DoFs)和对应的高维控制方程。软体动力学的内在复杂性使许多为刚体设计的机器人算法无法直接应用,并抑制了用于评估软体任务算法的模拟基准的发展。在一项近期研究中,MIT 沃森人工智能实验室首席科学家淦创团队与来自MIT, USCD等机构的研究者共同提出了一个支持梯度可导的机器人软体操作平台(PlasticineLab) 来解决这个问题。这篇论文内容在 ICLR 2021 大会上被选为spotlight。

查看原文 | 参与讨论

代码

新加坡海洋AI实验室、新加坡国立|VOLO:用于视觉识别的视觉前景器

尽管最近流行的视觉变换器在 ImageNet 分类中显示出基于自注意力模型的巨大潜力,如果没有提供额外的数据,它们的性能仍然不如最新的卷积网络。在这项工作中,我们的目标是减小表现差距并证明基于注意力的模型确实能够胜过卷积网络。我们发现限制视觉变换器对 ImageNet分类性能的主要因素是它们在将精细特征编码到符号表示中的效率低下。为此,我们介绍了一种新颖的前景注意并呈现简单而通用的架构,称为视觉前景器(VOLO)。与专注于粗略全局依赖模型的自注意力不同,前景注意的目标是有效地将更精细的特征和上下文编码为符号,这对识别性能至关重要,但在很大程度上被自注意力所忽略。

查看原文 | 参与讨论

视觉 Transformer | 视频 Swin Transformer

Transformer 正逐渐成为计算机视觉研究社区关注的重点。纯粹的 Transformer 架构已经在主要的视频识别对比基准上达到了最高的精确度。这些视频模型以 Transformer 为基础,它们能够在时空维度上全局地将图块联系起来。在本文中,作者主张在视频 Transformer 中引入局部的归纳偏置。之前的视觉 Transformer 都是以全局自注意力为基础的,本文提出的方法可以更高地平衡运算速度和准确率。本文提出的视频架构的局部性是通过对针对图像域设计的 Swin Transformer 进行调整来实现的,同时利用了预训练图像模型的能力。本文提出的方法在多个视频识别对比基准上获得了最先进的准确率。

查看原文 | 参与讨论

慕尼黑工业大学 | LegoFormer:用于逐块多视图3D重建的Transformer

大多数现代基于深度学习的多视图 3D 重建技术使用 RNN 或融合模块在编码后组合来自多个图像的信息。 这两个单独的步骤具有松散的联系,并且在对每个视图进行编码时不考虑所有可用信息。 我们提出了 LegoFormer,这是一种基于Transformer的模型,它在单个框架下统一物体重建,并通过其分解因子参数化重建的占用网格。 这种重构允许将对象预测为一组独立的结构,然后聚合以获得最终的重建。 在 ShapeNet 上进行的实验显示了我们网络相对于最先进方法的竞争性能。 我们还演示了如何使用自注意力来提高模型输出的可解释性。

查看原文 | 参与讨论

新工具

字节跳动LightSeq:支持Transformer全流程训练加速,最高加速3倍

Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,很多高校实验室或者公司都无法训练很大的模型,而降低批处理大小等措施又会导致训练时间成倍增加。针对这一痛点,字节跳动推出了 LightSeq 训练加速引擎,对 Transformer 训练的整个计算过程进行了优化,最多可以实现 3 倍以上的加速。

查看原文 | 参与讨论

QQ浏览器团队十亿级小模型「摩天」登顶CLUE,极致压榨网络性能

今年以来,中文 NLP 圈陆续出现了百亿、千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」。但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型,提出的预训练模型「摩天」登顶了 CLUE 总排行榜以及下游四个分榜。

查看原文 | 参与讨论

商汤AI大装置:一天训练完GPT-3

在上海临港新片区,一座宛如芯片的建筑群将在今年年底投入使用。这是商汤正在建设的人工智能计算中心(Artificial Intelligence Data Center,AIDC),全部建成后 AI 计算峰值速度将达到 3740 Petaflops(1 petaflop 等于每秒 1 千万亿次浮点运算),可以在一天之内把人类石器时代到现在所有时间录成的视频计算完成,也能在一天之内完整训练 OpenAI 的千亿参数模型 GPT-3。

查看原文 | 参与讨论

应用

武汉大学 | Transformer遇见卷积:超高分辨率的城市场景图像语义分割网络

超高分辨率 (VFR) 城市场景图像的语义分割在自动驾驶、土地覆盖分类和城市规划等多个应用场景中发挥着重要作用。 然而,VFR 图像中包含的大量细节严重限制了其潜力。现有的深度学习方法。更严重的是,对象的尺度和外观的显著变化进一步降低了这些语义分割方法的表示能力,导致相邻对象的混淆。解决这些问题代表了遥感界一个有前途的研究领域,为场景级景观格局分析和决策铺平了道路。在这个文章中,我们提出了一个双边感知网络(BANet),它包含一个依赖路径和一个纹理路径,以完全捕捉 VFR 图像中的远程关系和细粒度细节。具体来说,依赖路径是基于 ResT 进行的,ResT 是一种具有内存高效多头自注意力的新型 Transformer 主干,而纹理路径建立在堆叠卷积操作上。此外,使用线性注意力机制,设计了一个特征聚合模块(FAM)来有效地融合依赖特征和纹理特征。在三个大型城市场景图像分割数据集(即 ISPRS Vaihingen 数据集、ISPRS Potsdam 数据集和 UAVid 数据集)上进行的大量实验证明了我们 BANet 的有效性。具体来说,在 UAVid 数据集上实现了 64.6% mIoU。

查看原文 | 参与讨论

UIUC | Non-Local稀疏注意力的图像超分辨率

非局部 (NL) 操作和稀疏表示对于单图像超分辨率 (SISR) 都至关重要。在本文中,我们研究了它们的组合,并提出了一种具有动态稀疏注意模式的新型非局部稀疏注意 (NLSA)。 NLSA 旨在保留 NL 操作的远程建模能力,同时享受稀疏表示的鲁棒性和高效性。具体来说,NLSA 使用球形局部敏感散列 (LSH) 来纠正非局部注意力,该散列将输入空间划分为相关特征的散列桶。对于每个查询信号,NLSA 为其分配一个桶,并且只计算桶内的注意力。由此产生的稀疏注意力可以防止模型关注嘈杂和信息较少的位置,同时将计算成本从空间大小的二次线性降低到渐近线性。大量实验验证了 NLSA 的有效性和效率。通过一些非局部稀疏注意模块,我们的架构称为非局部稀疏网络 (NLSN),在数量和质量上都达到了 SISR 的最先进性能。 

查看原文 | 参与讨论

腾讯PCG | CLIP2Video:通过图像CLIP掌握视频-文本检索

我们提出了 CLIP2Video 网络,以端到端的方式将图像-语言预训练模型迁移到视频-文本检索。视频和语言学习领域的领先方法试图从大规模视频-文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。与它们不同的是,我们利用预训练的图像语言模型,将其简化为两阶段框架,通过图像文本的共同学习并分别增强视频帧和视频文本之间的时间关系,使其能够在相对较小的数据集上进行训练.具体来说,基于对比语言图像预训练 (CLIP) 模型捕获的空间语义,我们的模型涉及一个时间差异块来捕获精细时间视频帧的运动,以及一个时间对齐块来重新对齐视频clips的标记和短语并增强多模态相关性。我们进行了彻底的消融研究,并在主要的文本到视频和视频到文本检索基准上实现了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。

查看原文 | 参与讨论

经验

北京大学施柏鑫:从审稿人视角,谈谈怎么写一篇CVPR论文

近期,北京大学计算机系研究员施柏鑫在2021年智源大会上做了主题为《科研技能提升讲座:审稿视角下的计算机视觉论文——从投稿到接收》的报告,为什么给大家做这么详细的介绍?主要有以下三个目的:第一,如果你是一个学生作者,当你对整个流程非常清楚的时候,对你自己写论文、投论文以及了解整个文章的处理流程,进行学术交流是非常有帮助的。第二,很多同学都会有被拒稿的经历。刚才施老师讲到整个审稿流程非常复杂,很多人经历了努力的过程,我觉得你应该仔细去看待comments,大多数对你来说还是“富有营养”的。被拒稿的时候你可能会在网上吐槽“审稿人没有看懂我的文章”。但是很多时候你要思考,是不是在论文写作的过程中有些东西没有解释清楚,这种反思对你做科研会有帮助。第三,你自己做审稿人的时候,清楚流程让你可以做到认真负责,这对于我们整个学术圈会是一种非常良性的推动。

查看原文 | 参与讨论

以上是《智源社区AI周刊》第79期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除