导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第72期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/05/03~2021/05/09),值得关注的内容有以下3方面:
一、近日,ICML 2021论文录取结果出来了,今年一共有5513篇有效投稿,其中1184篇论文被接收,接收率为21.4% 。另外在这1184篇被接收论文中,有166篇长presentations和1018篇短presentations。从下表可以看出,在投稿量增长523篇(10%增长)的情况下,今年21.4%的接收率仍为近五年最低。(详情参见本周报“会议”栏目)
二、时至今日,AI医疗虽然已经在药物筛选、辅助诊断等方面有了丰富的应用场景,但仍然存在数据集小、容错成本高等问题。AI医疗,归根结底,应聚焦以人为本,从实际场景出发更好地帮助医患。对此,清华大学交叉信息学院助理教授、智源青年科学家袁洋提出AI会从六大方面改变整个医疗体系,包括数据格式与数据采集、医患交互、治疗方案、患者反馈、医生评价和挂号。(详情参见本周报“观点”栏目)
三、最近,基于注意力的网络,如视觉Transformer,在计算机视觉任务重也开始流行起来。虽然卷积和注意力都可以实现良好的性能,但都不是必要的。谷歌近日提出MLP-Mixer,一种完全基于多层感知器的架构,包含两种类型的层:一种是独立应用于图块的MLP,另一种是跨图块应用的MLP。在大型数据集上进行训练,或使用现代正则化方案时,MLP-Mixer在图像分类基准上获得了有竞争力的分数,其预训练和推理的计算资源开销与最先进的模型相当。(详情参见本周报“论文推荐”栏目)
下面是各个要点的详情介绍。
论文推荐
多模态图学习 | 从多模态多图中学习邻域表征
Learning Neighborhood Representation from Multi-Modal Multi-Graph: Image, Text, Mobility Graph and Beyond
。
大脑多图预测 | 使用拓扑感知的对抗图神经网络进行大脑多图预测
Brain Multigraph Prediction using Topology-Aware Adversarial Graph Neural Network
由医学扫描如磁共振成像(MRI)构造的脑图(即连接体)已成为表征人脑异常变化的越来越重要的工具。由于多模式MRI的高昂购置成本和处理时间,基于生成对抗网络(GAN)的现有深度学习框架着重于从几种现有模式中预测缺失的多模式医学图像。尽管脑图有助于更好地理解特定疾病如何改变大脑的连接面,但仍然非常缺乏从单一来源的脑图合成目标脑多图(即多个脑图)的方法。另外,现有的图生成工作主要针对每个目标域学习一个模型,这在联合预测多个目标域时限制了它们的可伸缩性。此外,尽管他们考虑了图的全局拓扑规模(即图连通性结构),但他们却忽略了节点规模的局部拓扑(例如节点在图中的居中程度)。为了解决这些局限性,本文引入了拓扑感知图GAN架构(topoGAN),该架构可以从一个脑图联合预测多个脑图,同时保留每个目标图的拓扑结构。它的三项关键创新是:(i)设计一种新颖的图对抗自动编码器,以从一个图预测自动对脑图;(ii)对编码的源图进行聚类,以处理GAN的模式崩溃问题,并提出一个聚类-特定解码器;(iii)引入拓扑损失以强制预测拓扑合理的目标脑图。使用五个目标域的实验结果表明,与基线方法相比,本文的方法在单个图的脑部多图预测中表现出色。
虎牙 | PD-GAN:用于图像补全的概率多样GAN
我们提出PD-GAN,这是一种用于图像补全/修复的概率多样GAN。给定具有任意孔区域的输入图像,PD-GAN会产生具有多种多样且视觉逼真的内容的多种修复结果。我们的PD-GAN建立在原GAN的基础上,该原GAN会基于随机噪声生成图像。在图像生成期间,我们通过注入初始恢复的图像和多尺度的孔区域,从粗到细地调制输入随机噪声的深层特征。我们认为,在孔填充期间,孔边界附近的像素应更具确定性(即,更有可能信任上下文并最初还原图像以创建自然的修复边界),而位于孔中心的那些像素应享有更多的像素性。自由度(即,更可能依赖于随机噪声来增强分集)。为此,我们提出了调制内部的空间概率分集归一化(SPDNorm),以模拟根据上下文信息生成像素的概率。 SPDNorm动态平衡孔区域内部的真实性和多样性,从而使生成的内容朝向孔中心更加多样化,并且更加类似于邻近图像内容朝向孔边界。同时,我们提出了一种感知上的多样性损失,以进一步增强PD-GAN进行多样化内容生成的能力。对包括CelebA-HQ,Places2和Paris Street View在内的基准数据集进行的实验表明,PD-GAN可有效实现多种视觉逼真的图像恢复。
达姆施塔特工业大学 | Multi-Mono-SF:自监督多帧单目场景流估计
Self-Supervised Multi-Frame Monocular Scene Flow
由于简单,经济的捕获设置,从单目图像序列估计3D场景流已引起越来越多的关注。由于问题的严重ill-posedness,当前方法的准确性受到了限制,尤其是有效的实时方法的准确性。在本文中,我们介绍了一种基于自监督学习的多帧单目场景流网络,在保持实时效率的同时,比以前的网络提高了准确性。基于采用split-decoder设计的高级两帧基线,我们提出(i)使用三帧输入和卷积LSTM连接的多帧模型,(ii)可以识别遮挡的census loss以获得更好的准确性,以及( iii)梯度分离策略,以提高训练的稳定性。 在KITTI数据集上,我们观察到基于自监督学习的单目场景流方法之间的最新准确性。
谷歌 | MLP-Mixer:视觉全MLP架构
卷积神经网络(CNN)是计算机视觉的首选模型。最近,基于注意力的网络,如视觉Transformer,也开始流行起来。虽然卷积和注意力都可以实现良好的性能,但都不是必要的。本文提出MLP-Mixer,一种完全基于多层感知器(MLP)的架构,包含两种类型的层:一种是独立应用于图块的MLP(用于位置级特征"混合"),另一种是跨图块应用的MLP(用于空间信息"混合")。在大型数据集上进行训练,或使用现代正则化方案时,MLP-Mixer在图像分类基准上获得了有竞争力的分数,其预训练和推理的计算资源开销与最先进的模型相当。
观点
清华袁洋:AI对医疗体系的改变
时至今日,AI医疗虽然已经在药物筛选、辅助诊断等方面有了丰富的应用场景,但仍然存在数据集小、容错成本高等问题。AI医疗,归根结底,应聚焦以人为本,从实际场景出发更好地帮助医患。对此,清华大学交叉信息学院助理教授、智源青年科学家袁洋提出AI会从六大方面改变整个医疗体系,包括数据格式与数据采集、医患交互、治疗方案、患者反馈、医生评价和挂号。
行业与政策
宏景智驾获亿元 A 轮融资
国内首家光量子计算公司「图灵量子」 完成近亿元天使轮融资
国内首家光量子芯片和光量子计算机公司「图灵量子」近日宣布完成近亿元人民币天使轮融资,本轮融资由联想之星领投,中科神光、前海基金、源来资本、小苗朗程跟投。本轮融资将用于光量子计算芯片以及光量子计算机的研发。
数据
FAIR | 脸书开源衡量人工智能的公平性:休闲对话数据集
代码
PoseAug:3D人体姿态估计的可微分姿态增广框架
现有的3D人体姿态估计器对新数据集的泛化性能较差,这主要是由于训练数据中2D-3D姿态对的多样性有限。为了解决这个问题,我们提出了PoseAug,这是一个新的自动增广框架,可以学习将可用的训练姿态增加到更大的多样性,从而提高训练后的2D到3D姿势估计器的通用性。具体而言,PoseAug引入了一种新颖的姿态增强器,该姿态增强器学习通过可微分的操作来调整姿势的各种几何因子(例如,姿势,身体大小,视点和位置)。具有这种可区分的能力,可以将增强器与3D姿态估计器一起进行优化,并将估计误差作为反馈,以在线方式生成更多样和更难的姿势。此外,PoseAug引入了一种新颖的part感知运动链空间,用于评估局部关节角度的合理性,并相应地开发了判别模块,以确保增强姿势的合理性。与现有的离线增强方法相比,这些精心设计的功能使PoseAug可以生成更多种多样但似乎合理的姿势,从而可以更好地泛化姿势估计器。 PoseAug是通用的,易于应用于各种3D姿态估计器。大量实验表明,PoseAug对场景内和跨场景数据集都带来了明显的改进。值得注意的是,在跨数据集评估设置下,它在MPI-INF-3DHP上达到了88.6%的3D PCK,比以前基于最佳数据增广的方法提高了9.1%。
无人机视角下的人群检测,跟踪和计数:新基准
为了促进无人机捕获的视频中目标检测,跟踪和计数算法的发展,我们用一个新的无人机捕获的大规模数据集(称为DroneCrowd)构建了基准,该数据集由112个视频剪辑和33,600个高清帧组成。值得注意的是,我们用480万个head和几个视频级属性来注释20,800人的轨迹。同时,我们将空时相邻感知网络(STNNet)设计为一个强大的基线,以解决密集人群中的目标检测,跟踪和计数。 STNNet由特征提取模块,随后的密度图估计头,定位和关联子网组成。为了利用邻近对象的上下文信息,我们设计了邻近上下文丢失以指导关联子网训练,该训练在时域中强制附近对象的一致相对位置。在我们的DroneCrowd数据集上进行的大量实验表明,STNNet在最新技术方面表现出色
通过transformer策略解耦的通用多智能体强化学习
最近在多智能体强化学习方面的进展主要限于为每个新任务从头开始训练一个模型。这种限制是由于 这种限制是由于与固定的输入和输出维度有关的模型结构的限制,这阻碍了经验的积累和所学到的代理在不同难度的任务中的转移。在不同难度的任务中(例如,3对3或5对6的多Agent游戏),代理的经验积累和转移。在本文中,我们首次尝试探索一个通用的多代理强化学习管道,设计一个单一的架构以适应 具有不同观察和行动配置要求的任务。不同于以前基于RNN的模型,我们利用一个基于转化器的模型来产生 一个灵活的策略,通过将策略分布与相互交织的输入观察解耦,使用在自我注意机制的帮助下确定的重要性权重。与标准的变换器块相比,所提出的 模型,我们称之为通用策略解耦转化器(UPDeT),进一步放宽了行动限制,使多Agent任务的决策过程更容易解释。UPDeT具有足够的通用性,可以插入到任何多代理强化学习管道中,并使其具有强大的泛化能力,能够同时处理多个任务。在大规模的SMAC多代理竞争游戏中进行的广泛实验表明 大规模的SMAC多代理竞争游戏,证明了所提出的 基于UPDeT的多代理强化学习相对于最先进的方法取得了显著的改善,在性能和训练方面都表现出了优势的转移 在性能和训练速度方面的优势转移能力(快10倍)。
教程
滴滴Labs | 强化学习在网约车中的应用:研究综述
本文针对应用强化学习方法解决网约车领域中存在的问题进行了全面,深入的文献综述。主题涵盖了在线匹配,车辆重新定位,乘车拼车和动态定价等,进而介绍了相关的数据集和仿真环境,并讨论了强化学习研究应用于在此重要领域面临的挑战和机遇。
综述 | 面向自动驾驶的边缘计算技术研究
本文首先对自动驾驶汽车与边缘节点之间的协同感知和任务卸载进行介绍,并阐述它们所面临的挑战;然后分别综述了协同感知技术和任务卸载 技术的研究现状;最后指出了该领域有待进一步研究的问题。
综述 | 图像特征提取与匹配技术
特征提取和匹配是许多计算机视觉应用中的一个重要任务,广泛运用在运动结构、图像检索、目标检测等领域。每个计算机视觉初学者最先了解的特征检测器几乎都是1988年发布的HARRIS。在之后的几十年时间内各种各样的特征检测器/描述符如雨后春笋般出现,特征检测的精度与速度都得到了提高。特征提取和匹配由关键点检测,关键点特征描述和关键点匹配三个步骤组成。不同的检测器,描述符以及匹配器之间的组合往往是初学者疑惑的内容。本文将主要介绍关键点检测、描述以及匹配的背后原理,不同的组合方式之间的优劣,并提出几组根据实践结果得出的最佳组合。
新工具
RLCard: 对于卡牌游戏的强化学习工具包
RLCard支持多种卡牌游戏环境,如Black-jack,Leduc Hold'em,UNO等等。RLCard的提出是为了使强化学习更好的应用在不完全信息游戏中,并推动强化学习在多智能体、大的状态和动作空间以及稀疏奖励领域中的发展。其界面易于上手,尤其是对于那些没有game theory知识的人来说。同时作者还提供了单智能体的环境,其他玩家被设定为使用了预训练好的模型。
OpenSpiel: 对于游戏应用的强化学习框架
。
南京大学X阿里巴巴 | 虚拟淘宝
本工具主要用模仿学习的技术实现真实淘宝线上用户的模拟。推荐系统,计算广告在我们互联网环境中承担着极其重要的作用。在线上环境进行实验,成本较高。而常规的线下模型评估工具却不能很好的反映模型真实的线上效果。这就成了广大推荐算法落地的一个障碍,此工具直击痛点,用模仿学习的方式训练智能体还原真实用户行为。工具提出GAN-SD方法,从历史客户数据中训练,在虚拟淘宝中训练出来的策略可以有明显优于传统的监督方法的在线性能。
应用
牛津大学VGG组 | SAT:基于Transformer在手语视频中对齐字幕
这项工作的目标是在手语视频中临时对齐异步字幕。特别地,我们专注于由手语解释的电视广播数据,包括(i)连续的手语视频,和(ii)对应于音频内容的字幕。以前利用这种弱对齐数据的工作仅考虑查找关键字与符号的对应关系,而我们的目标是在连续手语中定位完整的字幕文本。我们提出了针对此任务量身定制的Transformer体系结构,我们对其进行了人工注释的对齐方式进行了相邻,该对齐方式涵盖了跨越17.7个小时的视频的超过15K字幕。我们将学习的BERT字幕嵌入和CNN视频表示形式用于手势识别,以对这两个信号进行编码,这两个信号会通过一系列注意层进行交互。我们的模型输出帧级预测,即,对于每个视频帧,无论它是否属于所查询的字幕,都将输出。通过广泛的评估,我们显示出在不使用字幕文本嵌入进行学习的情况下对现有对齐基准进行的重大改进。我们的自动对齐模型通过提供持续同步的视频文本数据,为推进手语的机器翻译开辟了可能性。
印度理工@AAMAS | 基于强化学习的统一分配和巡逻在不确定的信号游戏中的应用
本文收录于多智能体顶会AAMAS 2021。此文介绍了一种基于强化学习的新型解决方案,用于计算两阶段GSG中的防御者策略。此文从数量和质量上表明,在模拟绿色安全领域的不同类型的环境中优于同类方法。此文中的模型还学会了战略行为,如在一个团队中组建在无人机和护林员团队中组成小分队,协调巡逻队形,以及战略性的和非强制性的行为。以及在存在不确定性的情况下发出战略性甚至是欺骗性的信号,以抵御不确定性。在不确定的情况下,发出战略性甚至欺骗性的信号,以抵御和/或逮捕偷猎者。
使用深度强化学习为实时搏斗游戏创造出专业水平的AI智能体
实时搏斗游戏具有以下难点:过大的动作空间、动作依赖以及不完全信息。本文克服了上述挑战,并提出了一个包括了自动对战特性和数据略过技术的RL方法。通过自我对战经验,可得出三种不同形式的智能体并与对方对战。本文通过多样化对手池来改善自我对战算法,并且提出的数据略过技术可增加数据效率并帮助过大空间中的探索。经过与2018年B&S世界冠军赛中最好的职业选手对战,实验表明,本文的AI智能体赢得了7场比赛中的3场。并且,本文提出的训练算法可应用于其他搏斗游戏中。
会议
ICML刚刚放榜 接收率仅21%为近五年最低
近日,ICML 2021论文录取结果出来了,今年一共有5513篇有效投稿,其中1184篇论文被接收,接收率为21.4% 。另外在这1184篇被接收论文中,有166篇长presentations和1018篇短presentations。从下表可以看出,在投稿量增长523篇(10%增长)的情况下,今年21.4%的接收率仍为近五年最低。
以上是《智源社区AI周刊》第72期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢