导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第79期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/06/21~2021/06/27),值得关注的内容有以下3方面:
一、在“2021北京智源大会 · 人工智能的数理基础论坛”上,一批智源学者尝试就“人工智能的大统一理论?”这一问题,给出了自己的回答。北京大学林伟教授首先做了引导报告,随后邓柯、林伟、林宙辰、明平兵、王涵、文再文、张志华等人围绕“人工智能的大统一理论?”这一主题的几个问题进行讨论。(详情参见本周报“观点”栏目)
二、Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,很多高校实验室或者公司都无法训练很大的模型,而降低批处理大小等措施又会导致训练时间成倍增加。针对这一痛点,字节跳动推出了 LightSeq 训练加速引擎,对 Transformer 训练的整个计算过程进行了优化,最多可以实现 3 倍以上的加速。(详情参见本周报“新工具”栏目)
三、MIT 沃森人工智能实验室首席科学家淦创团队与来自MIT, USCD等机构的研究者共同提出了一个支持梯度可导的机器人软体操作平台(PlasticineLab) 来解决这个问题。这篇论文内容在 ICLR 2021 大会上被选为spotlight。(详情参见本周报“数据”栏目)
下面是各个要点的详情介绍。
论文推荐
视觉理解 | 利用实体键的匹配相关性进行视觉信息提取
强化学习 | 通过潜在空间搭配实现基于模型的强化学习
马克思·普朗克智能系统研究所 | GIRAFFE:将场景表示为合成生成神经特征场(CVPR2021 最佳论文)
深度生成模型允许以高分辨率进行逼真的图像合成。但是对于许多应用程序来说,这还不够:内容创建还需要可控。虽然最近的几项工作研究了如何解开数据中变化的潜在因素,但大多数都是在 2D 中运行的,因此忽略了我们的世界是 3D 的。此外,只有少数作品考虑了场景的构图性质。我们的关键假设是将合成 3D 场景表示结合到生成模型中会导致更可控的图像合成。将场景表示为合成生成神经特征场使我们能够从背景中分离出一个或多个对象以及单个对象的形状和外观,同时从非结构化和未定位的图像集合中学习,而无需任何额外的监督。将此场景表示与神经渲染管道相结合,可以生成快速且逼真的图像合成模型。正如我们的实验所证明的那样,我们的模型能够解开单个物体,并允许在场景中平移和旋转它们以及改变相机姿势。
浙江大学 | CompConv:用于高效特征学习的紧凑型卷积模块
卷积神经网络 (CNN) 在各种计算机视觉任务中取得了显著的成功,但依赖于巨大的计算成本。为了解决这个问题,现有的方法要么压缩训练有素的大规模模型,要么学习具有精心设计的网络结构的轻量级模型。在这项工作中,我们仔细研究了卷积算子,这是 CNN 中使用的基本单元,以减少其计算负载。特别是,我们提出了一个紧凑的卷积模块,称为 CompConv,以促进高效的特征学习。通过分治法的策略,CompConv 能够节省大量的计算和参数来生成特定维度的特征图。此外,CompConv 将输入特征集成到输出中,以有效地继承输入信息。更重要的是,新颖的 CompConv 是一个即插即用模块,可以直接应用于现代 CNN 结构,无需进一步努力即可替换普通卷积层。大量的实验结果表明,CompConv 可以充分压缩基准 CNN 结构,同时几乎不牺牲性能,超越了其他竞争对手。
波恩大学 | DeepWalk:基于深度强化学习的全方位双足步态
观点
人工智能是否存在「大统一理论」?
行业与政策
黄铁军、高文等:针对强人工智能安全风险的技术应对策略丨中国工程科学
中国工程院院刊《中国工程科学》在2021年第3期刊发《针对强人工智能安全风险的技术应对策略》,归纳了强人工智能与传统人工智能的区别,从模型的不可解释性、算法及硬件的不可靠性、自主意识的不可控性三方面研判了强人工智能安全风险的来源,从能力、动机、行为3 个维度提出了针对强人工智能的安全风险评估体系。为应对安全风险,文章提出的防御策略有:在理论技术研究阶段,完善理论基础验证,实现模型可解释性,严格限制强人工智能底层价值取向,促进技术标准化;在应用阶段,预防人为造成的安全问题,对强人工智能进行动机选择,为强人工智能赋予人类价值观。此外,文章建议加强国际合作,培养强人工智能研究人才,为迎接未知的强人工智能时代做好充分准备。
方滨兴等:人工智能赋能网络攻击的安全威胁及应对策略丨中国工程科学
近期,中国工程院方滨兴院士科研团队在中国工程院院刊《中国工程科学》2021年第3期撰文,系统分析人工智能在网络空间安全领域应用带来的安全问题,重点研究人工智能在网络攻击细分方向的赋能效应,总结提炼人工智能赋能网络攻击的新兴威胁场景、技术发展现状、未来发展趋势,以期为相关领域发展提供理论参考。文章建议,为有效应对人工智能赋能网络攻击的安全威胁,应从防范安全威胁、构建对等能力角度加强智能化网络攻防体系建设和能力升级;加强人工智能安全数据资产的共享利用,采取以数据为中心的人工智能网络攻防技术发展路径;加强对抗评估和测试验证,促进人工智能网络攻防技术尽快具备实用性。
数据
MIT、IBM, UCSD等联合发布软体操作数据集PlasticineLab
代码
新加坡海洋AI实验室、新加坡国立|VOLO:用于视觉识别的视觉前景器
视觉 Transformer | 视频 Swin Transformer
慕尼黑工业大学 | LegoFormer:用于逐块多视图3D重建的Transformer
大多数现代基于深度学习的多视图 3D 重建技术使用 RNN 或融合模块在编码后组合来自多个图像的信息。 这两个单独的步骤具有松散的联系,并且在对每个视图进行编码时不考虑所有可用信息。 我们提出了 LegoFormer,这是一种基于Transformer的模型,它在单个框架下统一物体重建,并通过其分解因子参数化重建的占用网格。 这种重构允许将对象预测为一组独立的结构,然后聚合以获得最终的重建。 在 ShapeNet 上进行的实验显示了我们网络相对于最先进方法的竞争性能。 我们还演示了如何使用自注意力来提高模型输出的可解释性。
新工具
字节跳动LightSeq:支持Transformer全流程训练加速,最高加速3倍
Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,很多高校实验室或者公司都无法训练很大的模型,而降低批处理大小等措施又会导致训练时间成倍增加。针对这一痛点,字节跳动推出了 LightSeq 训练加速引擎,对 Transformer 训练的整个计算过程进行了优化,最多可以实现 3 倍以上的加速。
QQ浏览器团队十亿级小模型「摩天」登顶CLUE,极致压榨网络性能
今年以来,中文 NLP 圈陆续出现了百亿、千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」。但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型,提出的预训练模型「摩天」登顶了 CLUE 总排行榜以及下游四个分榜。
商汤AI大装置:一天训练完GPT-3
在上海临港新片区,一座宛如芯片的建筑群将在今年年底投入使用。这是商汤正在建设的人工智能计算中心(Artificial Intelligence Data Center,AIDC),全部建成后 AI 计算峰值速度将达到 3740 Petaflops(1 petaflop 等于每秒 1 千万亿次浮点运算),可以在一天之内把人类石器时代到现在所有时间录成的视频计算完成,也能在一天之内完整训练 OpenAI 的千亿参数模型 GPT-3。
应用
武汉大学 | Transformer遇见卷积:超高分辨率的城市场景图像语义分割网络
超高分辨率 (VFR) 城市场景图像的语义分割在自动驾驶、土地覆盖分类和城市规划等多个应用场景中发挥着重要作用。 然而,VFR 图像中包含的大量细节严重限制了其潜力。现有的深度学习方法。更严重的是,对象的尺度和外观的显著变化进一步降低了这些语义分割方法的表示能力,导致相邻对象的混淆。解决这些问题代表了遥感界一个有前途的研究领域,为场景级景观格局分析和决策铺平了道路。在这个文章中,我们提出了一个双边感知网络(BANet),它包含一个依赖路径和一个纹理路径,以完全捕捉 VFR 图像中的远程关系和细粒度细节。具体来说,依赖路径是基于 ResT 进行的,ResT 是一种具有内存高效多头自注意力的新型 Transformer 主干,而纹理路径建立在堆叠卷积操作上。此外,使用线性注意力机制,设计了一个特征聚合模块(FAM)来有效地融合依赖特征和纹理特征。在三个大型城市场景图像分割数据集(即 ISPRS Vaihingen 数据集、ISPRS Potsdam 数据集和 UAVid 数据集)上进行的大量实验证明了我们 BANet 的有效性。具体来说,在 UAVid 数据集上实现了 64.6% mIoU。
UIUC | Non-Local稀疏注意力的图像超分辨率
非局部 (NL) 操作和稀疏表示对于单图像超分辨率 (SISR) 都至关重要。在本文中,我们研究了它们的组合,并提出了一种具有动态稀疏注意模式的新型非局部稀疏注意 (NLSA)。 NLSA 旨在保留 NL 操作的远程建模能力,同时享受稀疏表示的鲁棒性和高效性。具体来说,NLSA 使用球形局部敏感散列 (LSH) 来纠正非局部注意力,该散列将输入空间划分为相关特征的散列桶。对于每个查询信号,NLSA 为其分配一个桶,并且只计算桶内的注意力。由此产生的稀疏注意力可以防止模型关注嘈杂和信息较少的位置,同时将计算成本从空间大小的二次线性降低到渐近线性。大量实验验证了 NLSA 的有效性和效率。通过一些非局部稀疏注意模块,我们的架构称为非局部稀疏网络 (NLSN),在数量和质量上都达到了 SISR 的最先进性能。
腾讯PCG | CLIP2Video:通过图像CLIP掌握视频-文本检索
经验
北京大学施柏鑫:从审稿人视角,谈谈怎么写一篇CVPR论文
以上是《智源社区AI周刊》第79期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢