导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第 56 期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/01/11~2021/01/17),值得关注的内容有以下3方面:

一、近日,ICLR(国际学习表征会议)组委会公布了今年的论文接收结果。今年,ICLR共收到了2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。其中860篇论文被接收,接受率为28.7%,这些论文有53篇分布在Oral,114篇分布在Spotlight以及693 篇将会用Poster展示。(详情参见本周报“会议”栏目)

二、1月13日,国际计算机协会(ACM)公布了2020年当选的95名ACM Fellow智源研究院机器学习方向首席科学家颜水成等12位华人学者入选。2020年的ACM Fellow评选强调了ACM的全球影响力,「今年我们挑选2020年院士的任务更具挑战性,因为我们有来自世界各地的创纪录的提名数量」,ACM主席Gabriele Kotsis说。(详情参见本周报“人物”栏目)   三、近日,谷歌研究人员研发出新的语言模型Switch Transformer,它包含1.6万亿个参数,是迄今为止最大规模的人工智能语言模型,比之前谷歌开发的语言模型T5-XXL的规模大了4倍,是1750亿参数的GPT-3的九倍。(详情参见本周报“应用”栏目)

下面是各个要点的详情介绍。

论文推荐

谷歌研究院 | 用于文本到图像生成的跨模态对比学习 Cross-Modal Contrastive Learning for Text-to-Image Generation 本文来自Google Research,文章提出了一种新颖的跨模态对比学习框架来训练GAN模型,并将其应用于文本到图像的生成任务。给定一段文本,Text-to-image的任务应该是输出连贯的、清晰的、还原度高的图片,并且该图片对其文本描述应具有很高的语义保真度。然而,这对于Text-to-image而言是一个巨大的挑战。为了解决这个问题,作者提出了一个基于最大化图像和文本之间互信息的跨模态对比生成对抗网络(XMC-GAN)。XMC-GAN使用了一个注意力自调节生成器用于加强文本-图像之间的对应关系,同时使用了一个对比判别器用作对比学习的特征抽取器。最后在MS-COCO数据集上的实验结果表明了该方法的有效性。 【论文下载】

图神经网络 | BiGCN:双向低通滤波图神经网络 BiGCN: A Bi-directional Low-Pass Filtering Graph Neural Network 图卷积网络在图结构数据上取得了巨大的成功。许多图卷积网络可以视为图信号的低通滤波器。在本文中,作者团队提出了一种新的模型BiGCN,它将模型神经网络表示为双向低通滤波器。具体而言,我们不仅考虑原始图结构信息,还考虑特征之间的潜在相关性,因此BiGCN可以将信号与原始图和潜在特征连接图一起过滤。在大多数基准数据集的节点分类和链接预测任务中,当我们向节点特征添加干扰项时,本文的模型优于以前的图形神经网络。 【论文下载】

图神经网络 | 基于标签对比编码的图分类图神经网络 Label Contrastive Coding based Graph Neural Network for Graph Classification 在各种各样的应用领域中,图分类都是一个重要的研究课题。为了学习一个图分类模型,目前被最为广泛使用的监督式分量是使用输出层的表征和分类损失(例如,交叉熵损失加上 softmax 或 Margin loss)。事实上,实例之间的判别式信息粒度更细,这有利于图分类任务。为了更有效、更全面地利用标签信息,本文提出了一种新的基于标签对比编码的图神经网络(LCGNN)。LCGNN 仍然利用分类损失来保证类的可判别性。同时,LCGNN利用自监督学习中提出的标签对比损失来促进实例级的类内聚合性和类间可分性。为了实现对比学习,LCGNN引入了动态标签存储库和动量更新编码器。本文作者在8个对比基准图数据集上进行的评估实验结果表明,LCGNN优于最先进的图分类模型。由于LCGNN能够充分利用标签信息,在训练数据较少的情况下,LCGNN也能获得较好的性能。 【论文下载】

视觉问答 | 视觉问答系统中的场景图角色理解 Understanding the Role of Scene Graphs in Visual Question Answering 本文来自卡内基梅隆大学、大阪大学、京都大学联合团队,作者首次将场景图引入了视觉问答任务中,提出了一种使用场景图的「图像+问题」架构。视觉问答(VQA)目前在帮助存在视觉障碍的用户和基于图像的搜索等重要应用中都具有至关重要的作用。在本文中,作者探究了如何使用场景图来解决 VQA 任务。作者在 GQA 数据集上进行了一系列实验,该数据集提出了许多具有挑战性的问题(需要计数、语义合成和高级推理能力),并提供了大量图像的场景图。本文作者将场景图用于「图像+问题」架构,对未见图像的场景图生成技术进行了评估,提出了利用人工标注和自动生成场景图的训练「课程」,并构建了后期融合架构,利用多种图像表征学习。本文作者提出了一个包含多个事实的研究,从而首次将场景图用于 VQA。 【论文下载】

华为诺亚实验室 | 通过对抗性训练和数据增强改进常识因果推理 Improving Commonsense Causal Reasoning by Adversarial Training and Data Augmentation 判断分句之间因果关系是否合理是一项常识性的推理任务,需要复杂的推理能力。完成这项任务的一般方法是在特定数据集上训练一个大型的预先训练过的语言模型。然而,用于任务的训练数据往往很少,这导致模型训练不稳定或依赖于数据集的浅层特征。本文提出了在因果推理领域中使模型更健壮的一些技术。首先,我们通过同义词替换生成干扰输入来进行对抗性训练。其次,基于篇章连接词的语言学理论,利用篇章解析器检测大文本中的因果关联从句,并利用生成语言模型生成干扰物,对数据进行了扩展。这两种方法都提高了模型在COPA数据集和平衡COPA数据集上的性能,平衡COPA数据集是为了避免表面线索而开发的原始数据的修改版本,导致更具有挑战性的基准测试。我们在两个数据集上显示了统计上显著的性能和稳健性改进,即使只有少量额外生成的数据点。 【论文下载】

观点

Gary Marcus:人工智能的下一步是走出有缺陷的深度学习,四个步骤实现强AI Gary Marcus是人工智能领域最杰出和最具争议的人物之一。作为一名学者,他创立了两家初创公司——一家被Uber收购,另一家刚刚获得1500万美元,旨在让制造更智能的机器人变得更加容易。Gary Marcus认为,人工智能不可能只是机器学习或深度学习。我们需要更丰富的综合方法才能取得进展。第一:与经典人工智能世界的联结;第二:我们需要有丰富的知识具体化方式,我们需要大规模的知识;第三:我们需要能够对这些事情进行推理;第四:我们需要认知模型:我们大脑内部或计算机内部的事物,这些事物可以告诉我们世界上所见的实体之间的关系。 AI前线

行业与政策

腾讯研究院发布《2021数字科技前沿应用趋势》 2021年1月9日,在腾讯研究院举办的“腾讯科技向善暨数字未来大会2021”上,《变量:2021数字科技前沿应用趋势》报告正式发布。该报告由腾讯研究院发起,先后访谈业界权威专家,以及腾讯公司AI Lab、多媒体实验室、地图平台部、反病毒实验室、科恩实验室、量子实验室、Robotics X实验室、腾讯云区块链、天衍实验室、未来网络实验室、希波实验室、云鼎实验室、优图实验室、自动驾驶实验室的负责人和科学家,对前沿技术在近期的落地应用做出了展望,包含14个前瞻性的趋势预测。趋势1:深度学习走向多模态融合;趋势2:沉浸式媒体向体验和场景的纵深演进;趋势3:产业区块链推动数据要素市场化;趋势4:脑机接口有望在康复领域先行突破;趋势5:软硬融合推升量子算力;趋势6:疫情按下医疗AI应用快进键;趋势7:数字生物标记物照亮居家慢病诊疗;趋势8:基于5G-V2X的“人车路网云”体系加速形成;趋势9:仿真推进自动驾驶成熟步伐;趋势10:新一代数字地图迈向实时智能泛在;趋势11:云数据安全成为必选项;趋势12:基于身份的微隔离护航云原生安全;趋势13:AI推动信息安全告别手工业时代;趋势14:虚实集成世界孕育新蓝海。 人工智能学家

Jeff Dean万字长文回顾2020谷歌技术发展 近日谷歌AI掌门人Jeff Dean发表了一篇万字长文,回顾了谷歌AI 2020年的发展与成就,并展望了2021的工作重点。这篇文章涉及如下诸多方面:新冠病毒和健康;用于医学诊断的机器学习研究;可访问性(Accessibility);机器学习在其他领域的应用;负责任的人工智能(Responsible AI);自然语言理解;语言翻译;机器学习算法;强化学习;AutoML;更好地理解机器学习算法和模型(Better Understanding of ML Algorithms and Models);算法基础和理论;机器感知;机器人;量子计算;开放数据集和数据集搜索;研究社区互动;展望2021年及以后。 Google AI

自动驾驶公司文远知行宣布完成B2、B3两轮融资,金额3.1亿美元 近日,2021年自动驾驶领域第一笔大额融资官宣完成。L4级自动驾驶出行公司文远知行WeRide宣布完成B2、B3两轮融资,B轮总融资金额达3.1亿美元。据悉,宇通集团是本轮融资的战略领投方,新进投资方还包括CMC资本、国开装备基金、恒健新兴产业基金、华金资本、创茵资本等。同时,启明创投、创新工场、昆仲资本等原有股东方继续跟投。 新智驾

人物

2020 ACM Fellow放榜,智源学者颜水成等12名华人当选 纽约时间1月13日,国际计算机协会(ACM)公布了2020年当选的95名ACM Fellow,其中包括12位华人,智源学者颜水成入选,当选理由是表彰其对可视化内容理解技术和应用的贡献,另外11为华人是:陈怡然、周昆、张耀文、李学龙、Chenyang Lu、凯茜·吴、陶宇飞、任奎、申恒涛、Wei Wang、Wang Yi。2020年的ACM Fellow评选强调了ACM的全球影响力,「今年我们挑选2020年院士的任务更具挑战性,因为我们有来自世界各地的创纪录的提名数量」,ACM chairman Gabriele Kotsis说。入选者除北美外,还包含了来自澳大利亚、奥地利、加拿大、中国、德国、以色列、日本、荷兰、韩国、西班牙、瑞典、瑞士、中国台湾、英国和加拿大等国家和地区的学者。当选者的贡献也不仅仅涉及计算领域,还包括算法,网络,计算机体系结构,机器人技术,分布式系统,软件开发,无线系统和网络科学等。 ACM

数据

80GB医学影像数据集OCTA-500发布 光学相干断层扫描血管造影(OCTA)是建立在光学相干断层扫描(OCT)技术上的一种崭新的成像模态,它以微米级的分辨率显示视网膜血管的三维结构,弥补了OCT无法提供血流信息的不足。由于OCTA技术起步较晚尚未完全普及,目前缺少公开的数据集供研究人员使用。为了推进OCTA图像的处理和分析技术发展,《中国图象图形学报》编委南京理工大学陈强教授及其团队发布了目前最大的OCTA图像数据集OCTA-500。它包含500只眼睛的OCT和OCTA两种模态的三维数据,六种投影图像,四种文本标签以及两种分割标签,同时基于该数据库他们还提出了一种三维到二维分割的图像投影网络。 南京理工大学

代码

基于元学习的zero-shot跨语言迁移学习 学习任务之间共享什么已经成为一个非常重要的话题,因为知识的战略性共享已经被证明可以提高下游任务的绩效。这对于多语言模型的应用尤其重要,因为世界上大多数语言的资源都不足。在这里,当英语以外的语言几乎没有数据可用时,可以考虑同时在多种不同语言上设置训练模型。文中表明,这种具有挑战性的设置可以通过元学习来实现:除了训练源语言模型外,另一个模型还学习选择哪些训练实例对第一个最有利。文中在不同的自然语言理解任务(自然语言推理、问题回答)中使用标准监督、zero-shot跨语言以及few-shot跨语言设置进行实验。作者广泛的实验装置证明了共15种语言的元学习的一致有效性。作者改进了zero-shot和few-shot NLI(在MultiNLI和XNLI上)和QA(在MLQA数据集上)的最新技术。综合错误分析表明,当通过元学习学习的参数共享是有益的时,语言之间类型特征的相关性可以部分解释。 哥本哈根大学

3D-ANAS:用于快速高光谱图像分类的3D非对称神经网络架构搜索 高光谱图像涉及丰富的光谱和空间信息,在土地覆被分类中起着不可替代的作用。近来,基于深度学习技术,已经提出了越来越多的HSI分类方法,这些方法证明了有希望的性能。但是,先前的研究有两个主要缺点:1)大多数深度学习模型的体系结构是手动设计的,依赖于专门知识,并且相对繁琐。此外,在HSI分类中,由不同传感器捕获的数据集具有不同的物理属性。相应地,需要针对不同的数据集设计不同的模型,这进一步增加了架构设计的工作量。2)主流框架是补丁到像素的框架。重复计算相邻像素的补丁的重叠区域,这增加了计算成本和时间成本。此外,分类精度对贴片大小敏感,这是在广泛研究实验的基础上人为设定的。为了克服上述问题,我们首先提出一种3D非对称神经网络搜索算法,并利用它来自动搜索HSI分类的有效架构。通过分析HSI的特征,我们专门构建了3D非对称分解搜索空间,其中光谱和空间信息通过不同的分解卷积进行处理。此外,我们提出了一种新的快速分类框架,即像素到像素分类框架,它没有重复的操作并降低了总成本。对通过不同传感器捕获的三个公共HSI数据集进行的实验表明,由3D-ANAS设计的网络与几种最先进的方法相比,具有竞争优势,同时推理速度更快。 西北工业大学

RepVGG:让VGG式卷积神经网络再现辉煌 作者提出了一个简单但功能强大的卷积神经网络架构,该架构具有类似于VGG的推理时间主体,该主体仅由3×3卷积和ReLU的堆叠组成,而训练时间模型具有多分支拓扑。训练时间和推理时间架构的这种解耦是通过结构重新参数化技术实现的,因此该模型称为RepVGG。在ImageNet上,RepVGG的top-1准确性达到80%以上,这是单模型首次实现该精度。在NVIDIA 1080Ti GPU上,RepVGG模型的运行速度比ResNet-50快83%,比ResNet-101快101%,具有更高的精度,并且与EfficientNet和RegNet等最新模型相比,显示出良好的精度-速度折中。 清华大学

教程

2021斯坦福图机器学习课程CS224W开课,Jure Leskovec主讲 图是一种强大的数据结构,可以用于建模许多真实世界的场景,图能够对样本之间的关系信息进行建模。但是真实图的数据量庞大,动辄上亿节点、而且内部拓扑结构复杂,很难将传统的图分析方法如最短路径、DFS、BFS、PageRank等算法应用到这些任务上。因此有研究者提出将机器学习方法和图数据结合起来,即图机器学习,这逐渐成为近年来机器学习中的一股热潮,特别是图神经网络(GNN)。此前,斯坦福大学计算机学院副教授 Jure Leskovec 等人开了一门课程——CS224W,主题是图机器学习。最近,CS224W 2021冬季课程开课了。这门课程主要聚焦分析大量图时所面对的计算、算法和建模挑战。通过研究底层图结构及其特征,学习者可以了解机器学习技术和数据挖掘工具,从而在多种网络中有所发现。这门课程涉及的主题包括:表征学习和图神经网络;万维网算法;基于知识图谱的推理;影响力最大化;疾病爆发检测;社交网络分析。 斯坦福大学

TextCNN作者Kim演讲报告:深度无监督学习句法结构分析 自然语言具有内在的结构。词语相互组合形成层次结构来传达意义。虽然这些组合结构(如解析树)在人类语言理解中起着至关重要的作用,但在人类语言习得过程中却看不到它们。然而,在没有明确监督的情况下,人类学习者在习得母语语法时几乎没有什么困难。这激发了经典的语法归纳任务(即,从原始文本中数据驱动的句法结构发现),这已被证明对人工语言学习者来说在经验上是困难的。在这次演讲中,Yoon Kim将展示模型参数化和推理方面的最新进展-如何能够改进从原始文本中发现语法结构的计算工具。 斯坦福大学

清华大学iDLab实验室打造《强化学习和控制》课程及讲义 《Reinforcement Learning and Control》一书面向工程应用领域的科研人员和技术开发者,按照原理剖析、主流算法、典型示例三位一体的原则,逐一介绍该方法在动态系统的学习和控制领域的理论和应用,涉及马尔科夫决策、蒙特卡洛学习、时序差分学习、函数近似、策略梯度学习、近似动态规划、深度强化学习等知识点。 清华大学

新工具

JD AI Research | FaceX-Zoo:用于人脸识别的PyTorh工具箱 近年来,基于深度学习的人脸识别取得了重大进展。然而,实际模型的产生和深度人脸识别的进一步研究仍需要相应的公众支持。例如,生产人脸表示网络的期望模块化培训计划考虑从国家的最先进的骨干和培训监督受到现实世界的人脸识别需求的各候选人的正确选择;对于性能分析和比较,基于多个基准的一堆模型的标准和自动评估也将是理想的工具;此外,我们欢迎以整体流水线形式部署人脸识别的公共基础。此外,还有一些新出现的挑战,例如最近全球范围内发生的COVID-19大流行引起的蒙面人脸识别,在实际应用中引起了越来越多的关注。一个可行且优雅的解决方案是建立一个易于使用的统一框架来满足上述需求。为此,作者引入了一个名为FaceX-Zoo的新颖的开源框架,该框架面向人脸识别的研究开发社区。依靠高度模块化和可扩展的设计,FaceX-Zoo提供了一个训练模块,该模块具有各种主管和骨干,以实现最新的人脸识别,以及标准化的评估模块,可以在大多数情况下评估模型。只需通过编辑简单的配置即可获得流行的基准。此外,还提供了一个简单而功能齐全的人脸SDK,用于验证模型的验证和主要应用。作者没有包括尽可能多的现有技术,而是使FaceX-Zoo可以轻松升级和扩展与面部相关领域的发展。 JD AI Research

"妙笔"生花:一个易用、高效的文本生成开源库 文本生成作为近年来自然语言处理中的热门领域,受到了学界和工业界的广泛关注。随着研究的不断深入,文本生成领域下的子任务和相应的模型越来越丰富,一些优秀的开源框架也纷纷涌现。现有的开源文本生成库大致可分为两类,一类倾向于模块化驱动,提供各个组件供研究者搭建不同的模型,但缺点在于许多特殊的baseline无法通过模块完成;另一类倾向于baseline驱动,方便用户快速调用baseline,但缺点在于整体结构不够统一,可扩展性有限。因此,为了兼顾两者的优势,中国人民大学AI BOX团队推出了新的开源文本生成库TextBox(妙笔),在保证组件模块化的同时,提供了许多较新baseline的接口,使得研究者一方面可以基于模块搭建自己的模型,另一方面也可以快速调用已有的baseline完成实验。目前相关代码和相应论文都已上线。 中国人民大学

研究

谷歌推出1.6万亿参数语言模型Switch Transformer,预训练速度最高可达T5的7倍 近日,谷歌研究人员研发出新的语言模型Switch Transformer,它包含1.6万亿个参数,是迄今为止最大规模的人工智能语言模型,比之前谷歌开发的语言模型T5-XXL的规模大了4倍,是1750亿参数的GPT-3的9倍。 同时,研究者还将新模型与T5-Base和T5-Large进行了对比,结果表明,在相同的算力资源下,新模型实现了最高7倍的预训练速度提升。此外,这一改进还可以扩展至多语言环境中,为多语言预训练模型进行加速。研究者还表示,Switch Transformer架构不仅在具备超级计算机的环境下具有优势,在只有几个计算核心的本地计算机上也是有效的。 VentureBeat

应用

Facebook声称AI可以使用X射线预测COVID-19的结果 Facebook和纽约大学的研究人员声称已经开发了三种机器学习模型,可以帮助医生预测COVID-19患者的病情可能如何发展。这些开源模型都只需要X射线序列,表面上可以预测患者提前至少四天恶化,并预测患者可能需要的补充氧气量(如果有)。与此前COVID-19研究有所不同的是,Facebook和NYU所采用的方法试图预测长期的临床轨迹。目前斯坦福大学,西奈山大学和电子病历供应商Epic和Cerner已经开发出可以为患者死亡或需要呼吸机的机会提供风险评分的模型,但是很少(如果有的话)可以通过一次扫描或电子病历做出这些预测。 VentureBeat

基于层次图神经网络的空气质量预测方法 为了保护公众免受肺病和心脏疾病的危害,我们需要更加准确地预测空气质量。由于不同的污染源与各种影响因素之间存在着复杂的相互作用,这是一项具有挑战性的任务。现有的空气质量预测方法不能有效地对空气污染物在城市和监测站点之间的扩散过程进行建模,这可能会导致区域空气质量突然恶化。在本文中,作者提出了一种基于层次图神经网络的空气质量预测方法——HighAir。该方法采用编码器-解码器结构,并考虑了天气和土地利用等复杂的对空气质量有影响的因素。具体而言,作者从层次化的角度构建了城市级别的图和站点级别的图,从而分别考虑了城市级和站点级的模式。本文作者设计了向上传递策略和向下更新策略来实现层间交互,并引入消息传递机制来实现层内交互。作者根据风向动态调整边的权重,从而对动态因子与空气质量之间的相关性进行建模。在长三角城市群数据集(Yangtze River Delta city group,该数据集覆盖了61,500平方公里范围内的10个主要城市)上,作者将HighAir与目前最先进的空气质量预测方法进行了比较。实验结果表明,该方法的性能明显优于其他方法。 浙江大学

基于图神经网络的阿尔茨海默氏病诊断 阿尔茨海默氏病(AD)是最广泛的神经退行性疾病,影响全世界超过5000万人。尽管不能阻止其发展,但早期准确的诊断测试可以大大改善患者的生活质量。当前,仅以质量的测试手段以对一组认知测试的评分表现形式使用。这种方法的固有优势是,准确诊断的负担落在临床医生的能力上。由于大脑中通常可观察到的变化难以捉摸,因此诸如MRI扫描评估之类的定量方法充其量是不准确的。为了克服现有AD诊断方法的这些缺点,本文开发了ADiag,这是一种新颖的定量方法,可通过GraphSAGE网络和基于皮质不同结构区域之间的厚度差异的大型图的密集差分池(DDP)分析来诊断AD。对ADiag的初步测试显示出83%的稳健准确性,大大优于其他定性和定量诊断技术。 印度国家心理健康与神经科学研究所

会议

ICLR 2021录用结果公布,接收率28.7% 近日,ICLR(国际学习表征会议)组委会公布了今年的论文接收结果。今年,ICLR共收到了2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。其中860篇论文被接收,接受率为28.7%,这些论文有53篇分布在Oral,114篇分布在Spotlight以及693篇将会用Poster展示。 AMiner科技

以上是《智源社区AI周刊》第56期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除