智源社区AI周刊#60：ICLR 2021中国预讲会即将召开

导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源研究院编辑团队本周整理了第 60 期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况）、数据（数据集），工具（新工具和应用推荐），求职（职场研究报告等）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

过去一周（2021/02/08~2021/02/14），值得关注的内容有以下3方面：

一、由北京智源人工智能研究院主办的「青源Seminar丨ICLR 2021中国预讲会」将于2021年2月19-21日在线召开。本次预讲会设立图表示学习，图神经网络、强化学习与多智能体学习，对抗机器学习，物体识别与关系建模，自由主题交流五个分论坛，邀请两位智源青年科学家担任大会主席，一位智源学者开幕致辞，共计34场主题报告，旨在给深度学习领域的研究与从业人员搭建顺畅、便捷的学术交流与共享平台。（详情参见本周报“会议”栏目）

二、Twentybn的研究团队最近发明了一个名为Sense的推理框架，使用Sense，在不需要姿态估计、骨架追踪的情况下，仅靠端到端的深度学习，开发人员就可以使用RGB摄像头来预测人类的行为。官方给出的范例包括了手势识别，健身跟踪，卡路里计算等任务。（详情参见本周报“新工具”栏目）

三、加州交通管理局DMV发布全新2020年全年自动驾驶数据，两家中国自动驾驶公司AutoX、Pony上榜前五名，紧随Waymo、Cruise之后。前五排名保持与去年一致，新晋玩家福特旗下Argo名列第五。其中前三名，Waymo、Cruise与AutoX均获加州的全无人驾驶牌照，该牌照为全球技术含金量最高的牌照。（详情参见本周报“行业与政策”栏目）

下面是各个要点的详情介绍。

论文推荐

预训练模型｜用复述做预训练 Pre-training via Paraphrasing 本文提出了MARGE：一个新的序列到序列预训练模型，在无监督多语言多文档复述目标下进行学习。MARGE的提出，为主流的掩码语言模型（MLM）提供一种新的范式。在掩码语言模型范式中，往往通过检索一组相关的文本(在许多语言中)来进行自监督文本重构，对它们进行条件设置，来最大限度地提高生成原始文本的可能性。本文的工作展示了联合学习做检索和重建是可能的（只需要给出一个随机初始化）。在没有额外的任务预训练情况下，MARGE在文档翻译方面的BLEU分数高达35.8。进一步实验表明，微调在许多语言的一系列辨别性和生成性任务上有很强的表现，使MARGE成为迄今为止最普遍适用的预训练方法。论文下载

预训练模型｜掩码和序列自然语言理解预训练模型 MPNet: Masked and Permuted Pre-training for Language Understanding 本文提出了一种新的预训练方法MPNet，继承了BERT和XLNet的优点（masked language modeling(MLM)和permuted language modeling(PLM)）。利用了token之间的依赖关系，并将辅助位置信息作为输入，使预训练模型可以看到完整的句子，从而减少位置的信息差。在大规模数据集(超过160GB的文本语料库)上预训练MPNet，并对各种下游任务(GLUE、SQuAD等)进行微调。MPNet方法效果比最先进的预训练方法(如BERT、XLNet、RoBERTa)效果更好。论文下载

香港大学 | Trans2Seg：基于Transformer的透明物体分割 Segmenting Transparent Object in the Wild with Transformer 这项工作提出了一个新的细粒度透明物体分割数据集，称为Trans10K-v2，它扩展了第一个大规模透明物体分割数据集Trans10K-v1。与Trans10K-v1仅具有两个有限的类别不同，我们的新数据集具有许多吸引人的好处。（1）它具有11种细粒度类别的透明对象，通常在人类家庭环境中出现，使其在实际应用中更加实用。（2）Trans10K-v2给当前的高级分割方法带来了比以前的版本更多的挑战。此外，提出了一种新颖的基于transformer的分割pipeline，称为Trans2Seg。首先，与CNN的局部感受野相比，Trans2Seg的transformer编码器提供了全局感受野，与纯CNN架构相比，它具有出色的优势。其次，通过将语义分割公式化为字典查找问题，我们设计了一组可学习的原型作为Trans2Seg的Translator解码器的查询，其中每个原型都学习整个数据集中一个类别的统计信息。我们对20多种最新的语义分割方法进行了基准测试，证明Trans2Seg的性能明显优于所有基于CNN的方法，从而表明了该算法解决透明物体分割的潜在能力。论文下载

视觉叙事｜面向多样化和翔实性视觉故事讲述的常识知识感知概念选择 Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling 视觉叙事是为给定图像序列生成相关且有趣的故事的任务。在这项工作中，本文旨在增加生成的故事的多样性，同时保留图像中的信息内容。本文通过使用可以产生一组概念候选者的概念选择模块来促进所生成故事的多样性和信息性。然后，利用大规模的预训练模型将概念和图像转换为完整故事。为了丰富候选概念，为每个提出概念候选的图像序列创建一个常识知识图。为了从图中获得适当的概念，我们提出了两个新颖的模块，这些模块考虑了候选概念之间的相关性以及图像概念相关性。大量的自动和人工评估结果表明，从而使得模型可以产生合理的概念。这样一来，本文模型就可以在故事的多样性和翔实性上大大超越以前的模型，同时又可以保持故事与图像序列的相关性。论文下载

悉尼科技大学 | 基于等距传播网络的广义零样本学习 Isometric Propagation Network for Generalized Zero-shot Learning 零样本学习（ZSL）目标是只根据描述一个看不见的类的几个属性来对该类的图像进行分类，但不能访问任何训练样本。一种流行的策略是基于可见的类及其数据来学习类属性的语义空间与图像的视觉空间之间的映射。因此，可以将看不见的类别图像理想地映射到其对应的类别属性。关键的挑战是如何在两个空间中对齐表示。对于大多数ZSL设置，每个可见/不可见类的属性仅由矢量表示，而可见类数据则提供更多信息。因此，来自语义和视觉空间的不平衡监督可以使学习到的映射很容易过度适合所看到的类。为解决此问题，本文提出了等距传播网络（IPN），它学习加强每个空间中的类之间的关系，并调整两个空间中的类依赖关系。具体来说，IPN学习在每个空间内的自动生成的图上传播类表示形式。与仅对齐结果的静态表示形式相反，本文通过最小化两个图之间的一致性损失，根据每一步的两个图的边权重，将两个动态传播过程正则化为等距。IPN在三种流行的ZSL基准测试中均达到了最先进的性能。为了评估IPN的泛化能力，本文进一步构建了两个更大的、包含更多不同非封闭类的基准，并展示了IPN在这些基准上的优势。论文下载

观点

浙江大学人工智能研究所所长吴飞教授：人工智能2.0时代的五大智能 近日，浙江大学人工智能研究所所长吴飞教授发表演讲表示：随着信息环境发生了巨大变化，互联网、物联网、超级计算的能力不断增强，社会对智慧城市的管理、智能医疗的救助以及智能交通的疏导等新的需求不断爆发，大数据、多媒体、虚拟现实等人工智能的技术和目标发生重大变化，使得人工智能快速崛起，进入人工智能2.0时代。人工智能2.0时代是由大数据智能、跨媒体智能、群体智能、混合智能以及自主智能等五大智能为形态进行推动。具体来说，五大智能技术的新方向体现在从人工知识表达技术到大数据驱动知识学习，从聚焦研究“个体智能”到基于互联网络的群体智能，从处理单一类型媒体数据到跨媒体认知、学习和推理，从追求“机器智能”到迈向人机混合的增强智能以及从机器人到智能自主系统五个方面。图灵人工智能

行业与政策

最新加州自动驾驶报告出炉，两家中国公司名列全球前五 2021年2月9日，加州交通管理局DMV发布全新2020年全年自动驾驶数据，两家中国自动驾驶公司AutoX、Pony上榜前五名，紧随Waymo、Cruise之后。前五排名保持与去年一致，新晋玩家福特旗下Argo名列第五。其中前三名，Waymo、Cruise与AutoX均获加州的全无人驾驶牌照，该牌照为全球技术含金量最高的牌照。加州DMV年度平均接管里程（MPI，接管里程数）为自动驾驶核心衡量指标之一，反应出综合平均了全年里程和接管数，被行业广泛认为是比试驾体验更客观、量化和准确的衡量办法。量子位

浪潮信息联合IDC发布《2020全球计算力指数评估报告》 全球的数字化转型已进入倍增创新阶段，各个国家的数字经济占比将持续提升，计算力是数字化技术持续发展的重要因素，是数字经济时代的核心生产力。报告显示，计算力与经济增长紧密相关，计算力指数平均每提高1个点，数字经济和GDP将分别增长3.3‰和1.8‰。AI计算的占比正逐年提高，从选取的样本国家来看，AI计算占整体计算市场的比例从2015年的7%增加到了2019年的12%，预计到2024年将达到23%。其中，中国的拉动作用最为显著，2015-2019年，在样本国家的AI计算市场支出增长中，有接近50%来自中国。《2020全球计算力指数评估报告》是浪潮信息携手IDC历时一年完成的研究成果，报告覆盖中国、美国、日本、德国、英国、法国、澳大利亚、巴西、俄罗斯和南非，从计算能力、计算效率、应用水平和基础设施支持四个维度对各国计算力水平进行全面评估，并得出十大洞察。浪潮服务器

骨科人工智能与手术机器人企业「长木谷」获1.2亿元Pre-B轮融资 骨科人工智能与手术机器人企业「长木谷」，近日完成1.2亿元Pre-B轮融资，本轮融资由元禾原点领投，元生创投、联想之星、深圳欣创共同投资，凯乘资本继续担任独家财务顾问。本轮融资所得将主要用于加速骨科手术机器人的研发与临床实验，加快骨科人工智能产品的市场推广，准备全球化的注册申报与市场推广。长木谷于2017年组建于美国哈佛大学和斯坦福大学校园，由医学科学家与人工智能专家共同创立，次年长木谷团队回国组建研发团队，研发人员来自哈佛大学、斯坦福大学、清华大学、北京大学等。 36氪Pro

人物

徐扬生院士当选2021年美国工程院外籍院士 2月9日，美国国家工程院（NAE）公布2021年新当选院士、外籍院士名单，共增选106名新院士和23名外籍院士，此次增选后，美国国家工程院院士总数达到2355名，外籍院士达到298名。2021年新当选的美国国家工程院外籍院士中，包括中国工程院院士徐扬生，他长期从事机器人与智能控制系统研究，在空间机器人的设计、控制及动力学研究，以及无重力地面试验设施的研制等方面作出了重要贡献。致力于推动中国航天智能控制技术的发展，提出并参与了有关航天智能系统的研制。对服务机器人、动态稳定系统、人类行为学习建模、穿戴式人机界面、智能汽车、无人系统和人工智能等进行了深入研究和系统开发。发表了六部专著、300多篇国际论文。 AI科技评论

数据

史上最大「面部识别数据研究」：深度学习的兴起在助长隐私的丧失 面部识别技术最初用于刑事调查和监控，受到政府的支持和推广，但现在已经发展成为无所不知的资本主义广告定位机器，最近一项对过去43年面部识别训练数据集的研究，显示了深度学习的兴起在何种程度上助长了隐私的丧失。在这项关于面部识别数据集进化的追踪调查中，有一些历史时刻和揭示这项技术发展的事实，它们展示了面部识别的本质：当应用于现实世界时，它是一项有缺陷的技术，创建的明确目的是扩大监控状态，结果是侵犯我们的隐私。新智元

代码

对抗的鲁棒性：从自监督的预训练到微调 自监督的预训练模型普遍用于更快或更好地微调下游任务。然而，如何从预训练中获得鲁棒的性能还有待研究。本文将对抗训练引入自监督，首次提供了通用鲁棒的预训练模型。这些鲁棒的预训练模型有两个优点：i)提高最终模型的鲁棒性；ii)如果进行对抗性微调的话，能够节省计算成本。大量实验证明，与传统的端到端对抗训练基线相比，所提出的框架实现了较大的性能边际收益(例如，在CIFAR-10数据集上，鲁棒精度3.83%，标准精度1.3%)。此外，本项目还发现不同的自监督预训练模型具有不同的对抗脆弱性。如果使用集成几个预训练任务，可以增强模型的鲁棒性。本项目的集成策略在原有的精度提升上进一步提高了3.59%，同时在CIFAR-10上保持了不过的标准精度。 Texas A&M University

预训练语言模型中的常识评估 有研究表明，句法、语义和词义知识都包含在预训练模型的数据表示中。然而，对语境化的表征中包含的常识性知识的研究相对较少，而常识性知识对人类回答问题和阅读理解至关重要。本文研究了GPT、BERT、XLNet和RoBERTa的常识能力，通过在7个具有挑战性的基准测试，发现语言建模及其变体是促进模型常识能力的有效目标，而双向上下文和更大的训练集对语言模型来说是辅助作用。本工作还发现，当前的模型在需要更多必要推理步骤的任务上做得很差。本文通过建立相互关联的双测试用例来检验模型的稳健性，即一个样本的正确预测将导致另一个样本的正确预测。有趣的是，这些模型显示在这些测试用例上的模糊表现，这表明它们是在表面而不是在深层学习常识。我们发布了一个名为CATs的测试集，用于常识相关的研究。浙江大学

统一的图像字幕和VQA“视觉-语言”预训练 本文提出了一种统一的视觉语言预训练模型（VLP）。模型可以整合视觉语言的生成(如图像字幕)或理解(如视觉问答)任务。不同于许多现有方法的编码器和解码器使用单独的模型实现，VLP模型使用一个共享的多层transformer网络编码和解码。VLP模型在大量的图像-文本对上预训练，使用了两个无监督学习目标：双向和(seq2seq)掩码视觉-语言预测（bidirectional and sequence-to-sequence(seq2seq)masked vision-language prediction）。这两个任务的区别仅在于预测条件所处的上下文环境是不同的。然后通过为共享的transformer提供特定的自注意掩码来控制。VLP是第一个视觉-语言预训练模型，它在视觉语言生成和理解任务上都取得了最先进的结果，在三个具有挑战性的基准数据集：COCO字幕、Flickr30k字幕和VQA 2.0上均取得了不错的性能。微软

教程

【AAAI2021教程】分布式机器学习原理与策略 在本教程中，讲者将介绍自动化分布式ML基础设施的改进技术。本教程涵盖了对ML并行化至关重要的三个领域：(1)对并行ML构建块进行编组和标准化；(2)ML并行表示和软件框架；(3)自动ML并行化的算法和系统，以及在共享集群上ML作业的资源分配。通过揭示ML程序的独特特征，并通过剖析成功案例来揭示如何利用它们，讲者为ML研究人员和实践者提供了进一步塑造和发展SysML领域的机会。 CMU

《机器学习导论》2021讲义 这是一门专门为STEM学生开发的机器学习入门课程。我们讨论有监督、无监督和强化学习。笔记开始阐述了没有神经网络的机器学习方法，如主成分分析，t-SNE，和线性回归。我们继续介绍基本和高级神经网络结构，如传统神经网络、(变分)自编码器、生成对抗网络、受限玻尔兹曼机器和递归神经网络。可解释的问题使用对抗性攻击的例子来讨论。 University of Zurich

【AAAI2021教程】元学习 元学习可以让机器学习新的算法。这是一个新兴且快速发展的机器学习研究领域，对所有人工智能研究都有影响。最近的成功案例包括自动模型发现、少样本学习、多任务学习、元强化学习，以及教机器阅读、学习和推理。正如人类不会从头开始学习新任务，而是利用之前所学的知识一样，元学习是高效和稳健学习的关键。本教程将介绍该领域及其应用的重要数学基础，包括这个领域中当前技术水平的关键方法。 AAAI 2021

新工具

github1s：GitHub代码一键转VS Code 近日，GitHub上出现了这样一个项目，可以使用户直接在VS Code界面读取GitHub项目的代码，实现了GitHub项目与VS Code的无缝衔接。这个项目名为github1s，它的使用方法非常简单，只需要在浏览器地址栏GitHub网址链接中的「github」后面添加1s，然后Enter键，即可在VS Code界面访问该项目的Repo代码。 Github

轻量型视频理解+动作识别的开源框架Sense 本周，来自初创公司Twentybn的研究人员在Reddit上发布了一则帖子，获得了广泛关注：帖子中记录道，Twentybn的研究团队最近发明了一个名为Sense的推理框架，使用Sense，在不需要姿态估计、骨架追踪的情况下，仅靠端到端的深度学习，开发人员就可以使用RGB摄像头来预测人类的行为。官方给出的范例包括了手势识别，健身跟踪，卡路里计算等任务。研究人员表示，他们正在努力使Sense成为集收集和清理视频数据、训练强大且高效的视频分类器功能、并能部署到任何设备上的一体化工具包。 Twentybn

Scikit-learn更新至0.24版 自2007年发布以来，Scikit-learn已经成为Python领域非常重要的机器学习库，支持分类、回归、降维和聚类四大机器学习算法，还包括了特征提取、数据处理和模型评估三大模块。和其他众多的开源项目一样，Scikit-learn目前主要由社区成员自发进行维护。可能是由于维护成本的限制，Scikit-learn相比其他项目要显得更为保守。但在刚刚到来的2021年，Scikit-learn 0.24.0版本更新了。机器之心

应用

AAAI2021康奈尔医学部Fei Wang博士报告《计算智能阻击流行病》 据世界卫生组织统计，截至2021年2月，2019冠状病毒病(COVID-19)已成为全球大流行，确诊病例超过1亿6百万例，死亡230万人。2019冠状病毒病(COVID-19)自2020年1月在中国武汉首次暴发以来，呈现出高传播率(R0值大于2)和多种临床特征(如住院和重症监护病房入住率高、因炎症过度、血栓形成导致的危重患者多器官功能障碍等)。为了解COVID-19的发病机制，制定有效的防控、治疗和预防策略，相关学科的研究人员在流行病学和公共卫生、生物学和基因组医学、临床护理和患者管理等各方面开展了大量工作。本教程将总结人工智能对抗大流行的努力。我还将指出这些挑战，总结其影响，并展望人工智能如何在后大流行时代推动人类医疗保健。康奈尔医学部

同济大学：从区域定位到尺度不变的医学图像分割 Coarse-to-fine模型和级联分割架构被广泛采用以解决医学图像分割中大尺度变化的问题。但是，这些方法有两个主要局限性：第一阶段的分割成为性能瓶颈；总体差异性的缺乏使得两个阶段的训练过程异步且不一致。在本文中，我们提出了一种可区分的两阶段网络架构来解决这些问题。在第一阶段，定位网络（L-Net）以检测定位感兴趣的区域（RoI）；在第二阶段，分割网络（S-Net）对重新校准后的RoI进行精细分割。L-Net和S-Net之间的RoI重新校准模块消除了不一致之处。在公共数据集上的实验结果表明，我们的方法在计算开销上可忽略不计，超过了最新的从粗到精模型。同济大学

Facebook AI提出实时3D人脸姿态估计技术，不依赖人脸检测和关键点定位 来自Facebook AI和圣母大学的研究者提出了一个易于训练的新型实时6DoF 3D人脸姿态估计解决方案，可以跳过人脸检测步骤，即使在非常拥挤的图片中也不例外。该方法在一个基于Faster R-CNN的框架中regress 6DoF姿态。这项研究的创新之处在于，它真正摆脱了人脸对齐和关键点检测。「我们观察到，估计人脸的6DoF刚性变换比人脸目标点检测要简单。此外，6DoF提供的信息要比人脸边界框标签丰富，」研究者解释道。新方法的pipeline可以描述为：给定一张包含多张人脸的图像，首先估计每张人脸的6DoF姿态。由于6DoF人脸姿态可以转换为一个外在相机矩阵，进而将3D人脸映射到2D图像平面，因此预测得到的3D人脸姿态也可用于获取准确的2D人脸边界框。因此，人脸检测将成为这个过程的副产品，计算开销达到最小。 Facebook AI

会议

青源Seminar | ICLR 2021中国预讲会 由北京智源人工智能研究院主办的「青源Seminar丨ICLR 2021中国预讲会」将于2021年2月19-21日在线召开。本次预讲会设立图表示学习，图神经网络、强化学习与多智能体学习，对抗机器学习，物体识别与关系建模，自由主题交流五个分论坛，邀请两位智源青年科学家担任大会主席，一位智源学者开幕致辞，共计34场主题报告，旨在给深度学习领域的研究与从业人员搭建顺畅、便捷的学术交流与共享平台。智源社区

经验

吴恩达：如何阅读论文&机器学习职业发展建议 本视频资源是斯坦福最新的CS230深度学习课程的一部分，吴恩达分享了他对学生的指导：1. 如何有效阅读研究论文；2. 如何驾驭机器学习的职业生涯。 Crossminds

以上是《智源社区AI周刊》第60期的内容，智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标，不断优化和完善我们的内容服务，各位读者们如有批评意见，或者好的建议，请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源社区AI周刊#60：ICLR 2021中国预讲会即将召开

评论列表

评论