导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第71期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/04/26~2021/05/02),值得关注的内容有以下3方面:
一、在经过两个多月的审稿之后,IJCAI 2021的论文录用通知终于放榜,在4204篇投稿论文中,仅有587篇论文被录取,论文接收率低至13.9。而实际上IJCAI 2021为两阶段评审,在4204篇论文当中仅有3033篇论文顺利通过了摘要拒绝(Summary-reject)阶段进入完整评审(full reviews)阶段,如果这样来算,则有19.3%的论文被录用。(详情参见本周报“会议”栏目)
二、由华为诺亚方舟实验室、华为中央软件院、鹏城实验室以及北京大学相关技术团队组建的中文超大规模预训练语言「盘古α」联合攻关团队,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿超大参数中文预训练模型“盘古α”。(详情参见本周报“新工具”栏目)
三、日前,《信息安全技术 人脸识别数据安全要求》国家标准的征求意见稿面向社会公开征求意见。人脸识别是近年来的热议话题,现实中未告知情况下获取人脸识别数据、“强制”人脸识别等乱象时有发生。此次拟出台的国标主要为解决人脸数据滥采,泄露或丢失,以及过度存储、使用等问题,对于《个人信息保护法》草案中人脸识别相关的规定也有一定的体现和细化。国标要求,收集人脸识别数据时应征得数据主体明示同意,不得利用人脸识别数据评估或预测数据主体工作表现、经济状况、健康状况、偏好、兴趣等情况。同时,应提供除人脸识别外的其他身份识别方式供用户选择,不应因用户不同意收集人脸识别数据而拒绝数据主体使用基本业务功能等。(详情参见本周报“行业与政策”栏目)
下面是各个要点的详情介绍。
论文推荐
Google Research | 通过视觉和语言知识蒸馏实现Zero-shot目标检测
Zero-Shot Detection via Vision and Language Knowledge Distillation
通过训练对齐的图像和文本编码器,Zero-shot图像分类取得了可喜的进展。这项工作的目标是推进Zero-shot目标检测,该目标旨在检测没有边界框或mask注释的新颖目标。我们提出ViLD,这是一种通过视觉和语言知识蒸馏的训练方法。我们将知识从预先训练的Zero-shot图像分类模型(例如CLIP)提取到两阶段检测器(例如Mask R-CNN)中。我们的方法将检测器中的区域嵌入与预先训练的模型推断出的文本和图像嵌入对齐。我们使用文本嵌入作为检测分类器,这是通过将类别名称输入到预训练的文本编码器中而获得的。然后我们将区域嵌入和图像嵌入之间的距离最小化,该距离是通过将区域提议输入到预训练图像编码器中而获得的。在推理过程中,我们将新颖类别的文本嵌入到检测分类器中,以实现Zero-shot目标检测。我们通过将所有稀有类别视为新颖类别来对LVIS数据集的性能进行基准测试。ViLD使用Mask R-CNN(ResNet-50 FPN)获得16.1个Mask APr,用于Zero-shot检测,其性能比监督者高3.8。该模型可以直接传输到其他数据集,分别在PASCAL VOC,COCO和Objects365上达到72.2 AP50、36.6 AP和11.8 AP。
西南大学 | MLMSPT:使用Transformer进行端到端点云学习
Point Cloud Learning with Transformer
Transformer网络在自然语言处理中的卓越性能促进了这些模型在处理计算机视觉任务(例如图像识别和分割)中的发展。 在本文中,我们介绍了一种新颖的框架,称为多层多尺度点云Tranformer(MLMSPT),该框架可直接在不规则点云上进行表示学习。 具体来说,研究了一个点云金字塔Transformer,以我们定义的不同分辨率或尺度对特征进行建模,然后是一个多层Transformer模块,以汇总来自每个尺度不同级别的上下文信息并增强它们之间的交互作用。 尽管设计了多尺度Transformer模块,以捕获跨不同尺度的表示之间的依赖关系。 对公共基准数据集的广泛评估证明了我们的方法在3D形状分类,part分割和语义分割任务上的有效性和竞争优势。
Nanyang Technological University & SenseTime Research | 基于GAN逆映射的无监督3D形状补全
ndleting N nes
。
University of Waterloo | 密集段落检索器的复现性研究
eation u n asrer
。
马里兰大学帕克分校 | M3DeTR:基于Transformer的多表示多尺度的3D目标检测
我们提出了一种用于3D目标检测的新颖架构M3DeTR,该架构结合了基于多尺度特征金字塔的不同点云表示(raw,体素,鸟瞰图)和不同的特征尺度。 M3DeTR是统一多个点云表示形式,特征尺度以及使用Transformer同时对点云之间的相互关系进行建模的第一种方法。 我们进行了广泛的消融实验,以突出融合表示法和尺度以及对关系进行建模的好处。 我们的方法在KITTI 3D目标检测数据集和Waymo Open Dataset上实现了最先进的性能。 结果表明,对于Waymo Open Dataset上的所有类别,M3DeTR均将基线显著提高了1.48%mAP。 尤其是,我们的方法在针对汽车和cyclist的众所周知的KITTI 3D检测基准中排名第一,在具有单帧点云输入的Waymo Open Dataset上排名第一。
观点
Stuart Russell:有益AI三原则,需满足人类偏好
AI已经足够聪明,但似乎对人类的偏好还不甚了解。去年的一次演讲中,Stuart Russell从人本主义的角度高屋建瓴地探讨了如何打造「可证明有益的AI」。这也是他19年底的著作《AI新生:破解人机共存密码——人类最后一个大问题》中的核心思想。Russell 所提出的辅助博弈模型基于三个非正式的原则: 机器的唯一目标是满足人类的偏好;机器不知道这些偏好是什么(正是这种不确定性使人类能够保持控制权);而人类主动的行为选择,为这些偏好提供了证据。如果系统设计者将这三原则运用到开发中,则机器的行为方式会与传统的AI模型大相径庭,因为在标准模型中,人类偏好并不存在。
行业与政策
解读:欧盟委员会2021年《人工智能法》提案
《2021人脸识别行业白皮书》发布
人脸识别国家标准征求意见稿出台:不得强制刷脸 不对14周岁以下人脸识别
日前,《信息安全技术 人脸识别数据安全要求》国家标准的征求意见稿面向社会公开征求意见。人脸识别是近年来的热议话题,现实中未告知情况下获取人脸识别数据、“强制”人脸识别等乱象时有发生。此次拟出台的国标主要为解决人脸数据滥采,泄露或丢失,以及过度存储、使用等问题,对于《个人信息保护法》草案中人脸识别相关的规定也有一定的体现和细化。国标要求,收集人脸识别数据时应征得数据主体明示同意,不得利用人脸识别数据评估或预测数据主体工作表现、经济状况、健康状况、偏好、兴趣等情况。同时,应提供除人脸识别外的其他身份识别方式供用户选择,不应因用户不同意收集人脸识别数据而拒绝数据主体使用基本业务功能等。
人物
新一届亚马逊研究奖公布 陈怡然、陈丹琦、杨笛一、吴佳俊等华人学者入选
代码
无监督时空表示学习的大规模研究
本文提出了从视频无监督的时空表示学习的大规模研究。 借助对四个基于图像的最新框架的统一观点,我们研究了一个简单的目标,可以轻松地将所有这些方法推广到时空。我们的目标是鼓励在同一视频中使用时间上持久的特征,尽管它简单易用,但在以下情况下却表现出色:(i)不同的无监督框架,(ii)预训练数据集,(iii)下游数据集,以及(iv) 骨干架构。 我们从这项研究中得出了一系列有趣的观察结果,例如,我们发现,即使跨度为60秒,鼓励长时间跨度的持久性也是有效的。 除了在多个基准测试中得到的最新结果之外,我们还报告了一些有希望的案例,其中无监督的预训练可以胜过其有监督的预训练。
无监督图像字幕中图像与伪字幕字级伪对齐的消除
无监督的图像字幕是一项具有挑战性的任务,其目标是在没有图像-句子对的监督的情况下生成字幕,而仅使用从不同来源绘制的图像和句子以及从图像中检测到的对象标签。在先前的工作中,伪字幕,即包含检测到的对象标签的句子,被分配给了给定图像。以前的工作重点是在句子层次上对齐输入图像和伪字幕。但是,伪字幕包含许多与给定图像无关的单词。在这项工作中,作者调查了从图像-句子对齐中删除不匹配的单词的效果,以确定它们是如何使这项任务变得困难的。同时,文章提出了一种简单的选通机制,通过训练使图像特征仅与伪字幕中最可靠的词对齐:检测到的对象标签。实验结果表明,在不引入复句级学习目标的情况下,该方法的性能优于已有方法。结合前人的句子级对齐方法,进一步提高了算法的性能
通过伪量化噪声进行可微分的模型压缩
我们建议在训练过程中向模型参数添加独立的伪量化噪声,以近似量化效果。这种方法DIFFQ是可微的关于未量化的参数,以及使用的位数。 给定一个表达所需平衡的超参数在量化模型大小和准确性之间,DIFFQ可以优化训练中单个权重或一组权重使用的每一个比特位。 我们通过实验验证了我们的方法优于最新的用于图像分类,语言建模、音频源分离和体系结构的几种量化技术。 例如,在Wikitext-103语言建模基准上,DIFFQ压缩了16层到8层的变换器模型,相当于4位精度,而仅损失了0.5点的困惑度。
教程
Twitter 首席科学家:以几何学视角统一深度学习
近日,帝国理工学院教授、Twitter 首席科学家 Michael Bronstein 发表了一篇长达160页的论文(或者说书籍),试图从对称性和不变性的视角从几何上统一CNNs、GNNs、LSTMs、Transformers等典型架构,构建深度学习的“爱尔兰根纲领”。
南开大学综述 | 深度学习时代的低光图像增强
本文是南开大学程明明与南洋理工大学Chen ChangeLoy等人关于深度学习时代的低光图像增强的综述。本文从低光图像增强的数据集、网络架构、损失函数、学习机制等不同角度对其进行了系统性的总数;为评估不同方法的泛化性与鲁棒性还提出了一个大尺度低光图像数据集;与此同时,针对低光图像增强存在的挑战以及未来有研究价值的方向进行了探讨。
WWW21最新「深度学习推荐系统」教程
推荐系统的目标是通过利用用户和物品的交互来提高匹配的准确性,现有的大多数基于DNN的推荐系统都是基于手工制作的超参数和深度神经网络架构;我们将全面介绍深度推荐系统中解决上述问题的先进技术的最新进展。本教程将全面介绍深度推荐系统中解决上述问题的先进技术的最新进展,包括深度强化学习(DRL)、自动机器学习(AutoML)和图神经网络(GNN)。
新工具
RecSim: 一个关于推荐系统的可配置仿真平台
RecSim是一个用于推荐系统中辅助RL算法学习的可配置仿真平台。RecSim允许研究者和从业者在人为设定的推荐配置中测试RL方法的限制,可支持对于从真实推荐系统中提取而来的用户行为的特定方面的模拟仿真,用户可在其中调整环境来开发、测试和比较模型和算法(尤其是针对序列用户系统交互的RL算法)。研究者已将RecSim用于推荐系统中的数个利用RL算法进行研究的关键问题,如候选推荐带来的RL问题等等。对于算法性能、稳定性、泛化性等方面RecSim都有简洁、易行的模拟和测试。
NLP模型「可理解分析+评价排行榜」,CMU最新工具助你找到好idea
CMU 联合复旦、俄亥俄州立大学的研究者推出了一个将模型可理解分析和模型评价排行榜结合起来的科研辅助工具 ExplainaBoard,能够完成单系统诊断、数据集分析以及可信度分析等任务,有效提升科研人员的学术体验。
盘古α:华为联合鹏城实验室开源业界首个2000亿参数中文预训练模型
由华为诺亚方舟实验室、华为中央软件院、鹏城实验室以及北京大学相关技术团队组建的中文超大规模预训练语言「盘古α」联合攻关团队,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架(https://mindspore.cn/)的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿超大参数中文预训练模型“盘古α”。
应用
为动态环境中的导航任务学习子目标推荐策略
。
伦敦玛丽皇后大学、环球音乐集团|MusCaps:为音乐生成音频字幕
基于内容的音乐信息检索随着深度学习迅速发展。当前通常使用音乐描述的方法分类模型,例如自动标记或体裁中的分类模型,以及情绪分类。在这项工作中,我们建议通过音频字幕描述解决音乐问题,定义像人一样为音乐生成音频内容的自然语言描述,我们展示了第一个音乐音频字幕模型MusCaps,由编码器-解码器组成时域注意力。我们的方法结合了卷积和递归神经网络结构,以通过多模态编码器共同处理音频文本输入,并利用对音频数据的预训练来获得有效的表示形式捕获并总结输入中的音乐特征。评估表明通过自动生成的字幕显示,我们的方法优于为非音乐设计的基准音频字幕。通过消融研究,我们发现绩效提升主要归因于音频编码器,以及其他设计选择(模态融合,解码策略和注意力的使用)仅作勉强贡献。我们的模型代表了从基于分类的音乐描述的转变,并在音乐信息检索中结合了需要听觉和语言理解以弥合语义鸿沟。
生物医学预训练 | 通过知识提升生物医学预训练语言模型
预训练语言模型已经在许多自然语言处理任务中表现优秀,而许多工作正在探索将知识纳入语言模型。在生物医学领域,专家们花了几十年的精力来建立大规模的知识库,例如,统一医学语言系统(UMLS)包含数以百万计的实体及其同义词,并定义了实体之间的数百种关系。利用这些知识可以使各种下游任务受益,如命名实体识别和关系提取。为此,本文提出了KeBioLM,一个生物医学的预训练语言模型,明确地利用UMLS知识库中的知识。具体来说,作者从PubMed的摘要中提取实体,并将它们与UMLS联系起来。然后,作者训练了一个知识感知的语言模型,应用纯文本编码层来学习实体表示,同时应用文本-实体融合编码来聚合实体表示。此外,作者增加了两个训练目标,即实体检测和实体链接,对BLURB基准的命名实体识别和关系提取的实验证明了本文方法的有效性。对收集到的探测数据集的进一步分析表明,本文的模型有更好的能力来模拟医学知识。
会议
IJCAI 2021 放榜:接收率低至13.9%
在经过两个多月的审稿之后,IJCAI 2021的论文录用通知终于在今日放榜,在4204篇投稿论文中,仅有587篇论文被录取,论文接收率低至13.9。而实际上IJCAI 2021为两阶段评审,在4204篇论文当中仅有3033篇论文顺利通过了摘要拒绝(Summary-reject)阶段进入完整评审(full reviews)阶段,如果这样来算,则有19.3%的论文被录用。
ICML 决定要把论文接收率直接砍掉10%
UTC时间5月8日,ICML 2021 将要放榜。然而就在今天,距离出结果还有一个星期之前,在推特上,马里兰大学一位副教授爆出 ICML 刚刚做出决定:ICML组委会主席表示:我们计划减少录用论文的数量,请和你的SAC一起工作来提高标准。AC/SAC 不必接受那些仅仅没有错误的论文。一位机器学习领域的计算机教授Ryan爆出组委会给到 SACs 的信息:“根据目前的元评审统计,我们需要提高接受标准。请与ACs协调,减少约10%的接收论文。”
以上是《智源社区AI周刊》第71期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢