智源社区AI周刊#71：IJCAI 2021 放榜

导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源研究院编辑团队本周整理了第71期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况）、数据（数据集），工具（新工具和应用推荐）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

过去一周（2021/04/26~2021/05/02），值得关注的内容有以下3方面：

一、在经过两个多月的审稿之后，IJCAI 2021的论文录用通知终于放榜，在4204篇投稿论文中，仅有587篇论文被录取，论文接收率低至13.9。而实际上IJCAI 2021为两阶段评审，在4204篇论文当中仅有3033篇论文顺利通过了摘要拒绝(Summary-reject)阶段进入完整评审（full reviews）阶段，如果这样来算，则有19.3%的论文被录用。（详情参见本周报“会议”栏目）

二、由华为诺亚方舟实验室、华为中央软件院、鹏城实验室以及北京大学相关技术团队组建的中文超大规模预训练语言「盘古α」联合攻关团队，首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练，训练出业界首个2000亿超大参数中文预训练模型“盘古α”。（详情参见本周报“新工具”栏目）

三、日前，《信息安全技术人脸识别数据安全要求》国家标准的征求意见稿面向社会公开征求意见。人脸识别是近年来的热议话题，现实中未告知情况下获取人脸识别数据、“强制”人脸识别等乱象时有发生。此次拟出台的国标主要为解决人脸数据滥采，泄露或丢失，以及过度存储、使用等问题，对于《个人信息保护法》草案中人脸识别相关的规定也有一定的体现和细化。国标要求，收集人脸识别数据时应征得数据主体明示同意，不得利用人脸识别数据评估或预测数据主体工作表现、经济状况、健康状况、偏好、兴趣等情况。同时，应提供除人脸识别外的其他身份识别方式供用户选择，不应因用户不同意收集人脸识别数据而拒绝数据主体使用基本业务功能等。（详情参见本周报“行业与政策”栏目）

下面是各个要点的详情介绍。

论文推荐

Google Research | 通过视觉和语言知识蒸馏实现Zero-shot目标检测

Zero-Shot Detection via Vision and Language Knowledge Distillation

通过训练对齐的图像和文本编码器，Zero-shot图像分类取得了可喜的进展。这项工作的目标是推进Zero-shot目标检测，该目标旨在检测没有边界框或mask注释的新颖目标。我们提出ViLD，这是一种通过视觉和语言知识蒸馏的训练方法。我们将知识从预先训练的Zero-shot图像分类模型（例如CLIP）提取到两阶段检测器（例如Mask R-CNN）中。我们的方法将检测器中的区域嵌入与预先训练的模型推断出的文本和图像嵌入对齐。我们使用文本嵌入作为检测分类器，这是通过将类别名称输入到预训练的文本编码器中而获得的。然后我们将区域嵌入和图像嵌入之间的距离最小化，该距离是通过将区域提议输入到预训练图像编码器中而获得的。在推理过程中，我们将新颖类别的文本嵌入到检测分类器中，以实现Zero-shot目标检测。我们通过将所有稀有类别视为新颖类别来对LVIS数据集的性能进行基准测试。ViLD使用Mask R-CNN（ResNet-50 FPN）获得16.1个Mask APr，用于Zero-shot检测，其性能比监督者高3.8。该模型可以直接传输到其他数据集，分别在PASCAL VOC，COCO和Objects365上达到72.2 AP50、36.6 AP和11.8 AP。

查看详情及论文下载

西南大学 | MLMSPT：使用Transformer进行端到端点云学习

Point Cloud Learning with Transformer

Transformer网络在自然语言处理中的卓越性能促进了这些模型在处理计算机视觉任务（例如图像识别和分割）中的发展。在本文中，我们介绍了一种新颖的框架，称为多层多尺度点云Tranformer（MLMSPT），该框架可直接在不规则点云上进行表示学习。具体来说，研究了一个点云金字塔Transformer，以我们定义的不同分辨率或尺度对特征进行建模，然后是一个多层Transformer模块，以汇总来自每个尺度不同级别的上下文信息并增强它们之间的交互作用。尽管设计了多尺度Transformer模块，以捕获跨不同尺度的表示之间的依赖关系。对公共基准数据集的广泛评估证明了我们的方法在3D形状分类，part分割和语义分割任务上的有效性和竞争优势。

查看详情及论文下载

Nanyang Technological University & SenseTime Research | 基于GAN逆映射的无监督3D形状补全

Unsupervised 3D Shape Completion through GAN Inversion

大多数3D形状补全方法在很大程度上依赖于部分完整形状对并以全监督方式进行学习。尽管它们在域内数据上的表现令人印象深刻，但泛化到其他形式的部分形状或现实世界的部分扫描时，由于域的差距，往往无法获得令人满意的结果。与之前的全监督方法相比，本文提出了ShapeInversion，将生成对抗网络(GAN)逆映射引入到形状补全中。ShapeInversion使用一个在完整形状上预训练的GAN，搜索一个潜码，该代码给出一个完整形状，能最好地重建给定的部分输入。通过这种方式，ShapeInversion不再需要成对的训练数据，能纳入训练好的生成模型中捕获的丰富先验。在ShapeNet基准上，ShapeInversion优于SOTA无监督方法，可与用配对数据学习的有监督方法相媲美，还展示了显著的泛化能力，对现实世界的扫描和各种形式的部分输入以及不完整程度给出了鲁棒的结果。由于预训练GAN的参与，ShapeInversion自然地实现了一系列额外的能力，例如为一个模糊的部分输入产生多个有效的完整形状，以及形状操作和内插。

查看详情及论文下载

University of Waterloo | 密集段落检索器的复现性研究

A Replication Study of Dense Passage Retriever

用习得密集表示进行文本检索，最近成为用稀疏词袋表征的"传统"文本检索的一个有希望的替代方案。最近一项备受关注的工作是用于端到端开放域问答的密集段落检索器(DPR)技术。本文提出对这项工作的复现性研究，从原作提供的模型开始，采用Pyserini IR工具包和PyGaggle神经文本排名库中的独立实现，实验结果在很大程度上验证了原论文的描述，另外得出两个重要发现，有助于更好地理解DPR：原作似乎低估了BM25基线的有效性，因此也低估了密集稀疏混合检索的结果；通过纳入来自检索器的证据和改进的答案跨度评分技术，能用与原作完全相同的模型来提高端到端问答效率。

查看详情及论文下载

马里兰大学帕克分校 | M3DeTR：基于Transformer的多表示多尺度的3D目标检测

M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

我们提出了一种用于3D目标检测的新颖架构M3DeTR，该架构结合了基于多尺度特征金字塔的不同点云表示（raw，体素，鸟瞰图）和不同的特征尺度。 M3DeTR是统一多个点云表示形式，特征尺度以及使用Transformer同时对点云之间的相互关系进行建模的第一种方法。我们进行了广泛的消融实验，以突出融合表示法和尺度以及对关系进行建模的好处。我们的方法在KITTI 3D目标检测数据集和Waymo Open Dataset上实现了最先进的性能。结果表明，对于Waymo Open Dataset上的所有类别，M3DeTR均将基线显著提高了1.48％mAP。尤其是，我们的方法在针对汽车和cyclist的众所周知的KITTI 3D检测基准中排名第一，在具有单帧点云输入的Waymo Open Dataset上排名第一。

查看详情及论文下载

观点

Stuart Russell：有益AI三原则，需满足人类偏好

AI已经足够聪明，但似乎对人类的偏好还不甚了解。去年的一次演讲中，Stuart Russell从人本主义的角度高屋建瓴地探讨了如何打造「可证明有益的AI」。这也是他19年底的著作《AI新生：破解人机共存密码——人类最后一个大问题》中的核心思想。Russell 所提出的辅助博弈模型基于三个非正式的原则: 机器的唯一目标是满足人类的偏好；机器不知道这些偏好是什么（正是这种不确定性使人类能够保持控制权）；而人类主动的行为选择，为这些偏好提供了证据。如果系统设计者将这三原则运用到开发中，则机器的行为方式会与传统的AI模型大相径庭，因为在标准模型中，人类偏好并不存在。

智源社区AI周刊#71：IJCAI 2021 放榜

评论列表

评论