导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第67期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/03/29~2021/04/04),值得关注的内容有以下3方面:
- 近日,ICLR 2021官方从860篇接收论文中挑选出了八篇杰出论文,研究主题涵盖利用神经链接预测器的复杂查询应答、通过图网络学习网格模拟、将主成分分析视作纳什均衡问题以及基于随机微分方程的分数生成式建模等。(详情参见本周报“会议”栏目)
- 2018年年底,国内学术界与产业界在隐私计算领域开始了一场基于联邦学习技术的生态建设持久战。那年12月,IEEE标准委员会(SASB)批准了由微众银行发起的关于《联邦学习架构和应用规范》的标准立项。不久,来自国内外的多位知名学者和技术专家纷纷加入标准工作组,参与到联邦学习IEEE标准的建设中。距离立项不到三年,工作组便完成联邦学习国际标准制定,并在今年3月30日通过IEEE确认,形成正式标准文件。(详情参见本周报“行业与政策”栏目)
- 近日,清华大学智能产业研究院(AIR)院长张亚勤与北京智源人工智能研究院(BAAI)理事长张宏江,应康奈尔中国中心邀约,开启了一场“人工智能”的高峰对话。他们就“如何看待人工智能的现状与未来、如何思考构建面向未来的科研生态系统,与青年科学家的培养”展开讨论。张宏江认为:“我们打造一个规模庞大的系统时,更需要具备系统思维,同时拥有动手能力、喜欢搭系统的人才。”张亚勤认为:“在数据和AI的世界里, 研究员和工程师的界限更加模糊。”(详情参见本周报“观点”栏目)
下面是各个要点的详情介绍。
论文推荐
跨模态预训练 | 通用的跨语言跨模态「视觉-语言」预训练
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training
为了解决缺乏多语言图像描述数据集的问题,本文作者首先通过机器翻译技术得到的其它语言增强了现有的英文数据集。接着,作者对标准的掩模语言建模和「图像-文本」匹配训练目标函数拓展到了多语言环境下,通过共享视觉上下文(即以图像为中心)实现了不同语言之间的对齐。为了促进对图像和所有感兴趣的语言的联合嵌入的学习,本文作者进一步利用基于机器翻译增强的翻译数据提出了两种新的预训练任务:Masked Region-to-Token Modeling (MRTM) 和 Visual Translation Language Modeling (VTLM)。作者通过在「图像-文本」检索和多语言视觉问答对比基准上的实验说明了本文提出的方法在多个非英语对比基准上取得了目前最先进的性能,同时在英语任务上保持了与单语言预训练模型相当的性能。
目标检测 | 基于Transformer的无需分组3D目标检测
Group-Free 3D Object Detection via Transformers
作者提出了一种简单而有效的方法,用于直接从3D点云中检测3D目标。通过借助Transformer中的注意力机制从点云中的所有点计算目标的特征,每个点的增益都可以在Transformer的学习网络中自动训练。通过改进的注意力叠加方案,模型在不同阶段融合了目标特征,并生成了更准确的目标检测结果。模型包括三个主要组件:骨干网络,用于提取点云中每个点的特征表示;采样方法,用于生成初始对象候选;以及堆叠式关注模块,用于从各个点中优化目标表示。在实验部分,文章所提方法在scannetv2和sunrgb-D基准上取得了最新的性能结果。
罗格斯大学 | RLAD:基于强化学习和主动学习的时间序列异常检测
Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation
领域自适应在神经网络机器翻译的实际应用中得到了广泛的应用,其目标是在一般域和域内都取得良好的性能。然而,现有的领域适应方法存在着严重的遗忘、领域发散和模型爆炸等问题。为了解决这三个问题,我们提出了一种“分而治之”的方法,该方法基于翻译模型中神经元或参数的重要性。在该方法中,我们首先对模型进行修剪,只保留重要的神经元或参数,使它们同时负责一般域和域内的转换。然后用知识精馏方法对原始未修剪模型监督下的修剪后模型进行进一步训练。最后,我们将模型扩展到原始大小,并为域内转换微调添加的参数。我们在不同的语言和领域进行了实验,结果表明,与几种强基线相比,我们的方法有显著的改进。
慕尼黑大学 | 胶囊网络并不比卷积网络更鲁棒
Capsule Network is Not More Robust than Convolutional Network
人们普遍认为,胶囊网络比卷积网络更鲁棒。但是,这两个网络之间没有全面的比较,并且还不清楚CapsNet中的哪些组件会影响其鲁棒性。在本文中,我们首先仔细检查CapsNet中的特殊设计,这些特殊设计与通常用于图像分类的ConvNet有所不同。该检查揭示了CapsNet中的五个主要的新/不同组成部分:转换过程,动态路由层,squashing function,除交叉熵损失之外的边际损失以及用于正则化的附加类条件重建损失。除了这些主要差异外,我们还对仿射变换,数字重叠和语义表示三种鲁棒性进行了全面的消融研究。研究表明,一些对CapsNet至关重要的设计实际上会损害其鲁棒性,即动态路由层和转换过程,而其他设计则有益于鲁棒性。基于这些发现,我们仅通过介绍CapsNet成功背后的基本要素,便提出了增强的ConvNets。与CapsNet相比,所提出的简单ConvNets可以实现更好的鲁棒性。
流模型 | 用于离散数据规范化流模型的隐变量变换方法
Latent Transformations for Discrete-Data Normalizing Flows
标准化离散数据流具有挑战性,因为参数化离散变量的双射变换需要预测离散的参数值。使神经网络结构预测离散参数的过程中使用了不可微分的激活函数(阶跃函数等),对基于梯度的学习形成阻碍。为了避免这种不可微性,以前的工作采用了带偏置的梯度,而本文提出了一种无偏的替代方案,预测隐向量的分布,而不是确定性地参数化一个转换。利用随机变换,数据的边际可能性是可微的,并且可以通过得分函数估计来进行基于梯度的学习。本文在二进制MNIST数据集上测试了离散数据规范化流的可行性,解决了确定性梯度和无偏评分函数方面的挑战。
观点
张宏江、张亚勤对话:如何看待人工智能的现状与未来
近日,清华大学智能产业研究院(AIR)院长张亚勤与北京智源人工智能研究院(BAAI)理事长张宏江,应康奈尔中国中心邀约,开启了一场“人工智能”的高峰对话。他们就“如何看待人工智能的现状与未来、如何思考构建面向未来的科研生态系统,与青年科学家的培养”展开讨论。张宏江认为:“我们打造一个规模庞大的系统时,更需要具备系统思维,同时拥有动手能力、喜欢搭系统的人才。”张亚勤认为:“在数据和AI的世界里, 研究员和工程师的界限更加模糊。”
行业与政策
联邦学习首个国际标准正式发布
2018年年底,国内学术界与产业界在隐私计算领域开始了一场基于联邦学习技术的生态建设持久战。那年12月,IEEE标准委员会(SASB)批准了由微众银行发起的关于《联邦学习架构和应用规范》的标准立项。不久,来自国内外的多位知名学者和技术专家纷纷加入标准工作组,参与到联邦学习IEEE标准的建设中。距离立项不到三年,工作组便完成联邦学习国际标准制定,并在今年3月30日通过IEEE确认,形成正式标准文件(IEEE P3652.1)。联邦学习生态的建立,离不开国际标准。作为世界上首个联邦学习国际标准,其参与度之广,印证了合规使用大数据的时代特征;其权威性之高,体现了社会对联邦学习技术的强烈需求。
人工智能的产业化白皮书: 从实验升级到大规模实施
无论是推动销售支持等核心业务的价值,还是解决市场营销活动评估等部门需求,在企业内部使用AI已达到一定的成熟度,如今,AI的总体价值主张已不再是预算和采购讨论的主要内容。事实上,围绕AI的对话本质上已经变得更加务实,专注于如何将非关键流程中的早期尝试性胜利转化为关键业务型业务流程中的重大收益。在本白皮书中,Omdia将分析这种转变,讨论在从AI实验到在实际运营中熟练驾驭AI,使其成为关键业务基础和市场差异化优势关键来源的道路上存在的障碍、有利因素和最佳实践。
自动驾驶公司「智加科技」获2.2亿美元新一轮融资,今年已完成融资4.2亿美元
重卡自动驾驶公司智加科技(Plus)宣布完成2.2亿美元的新一轮融资,由方源资本和锴明投资领投,上汽资本、红杉中国、满帮集团、广达电脑、卓易资本、千禧资本跟投。资金将用于全球商业化拓展、推动量产自动驾驶重卡的落地应用。一个多月前,智加科技曾宣布获得2亿美元融资,投资方包括领投国泰君安国际、CPE、万向汽车技术风险投资,老股东满帮集团等跟投。加上近日公布的2.2亿美元融资,智加科技本轮融资累计达4.2亿美元。
人物
「龙书」作者Alfred Aho和Jeffrey Ullman获图灵奖
近日,国际计算机协会(ACM)官网宣布将此奖项授予哥伦比亚大学计算机科学名誉教授 Alfred Vaino Aho 和斯坦福大学计算机科学名誉教授 Jeffrey David Ullman,以表彰他们在编程语言实现(programming language implementation)领域基础算法和理论方面的成就。
代码
CHM:卷积霍夫匹配网络
尽管特征表示有所进步,但利用几何关系对于在较大图像变化下建立可靠的视觉对应关系至关重要。在这项工作中,我们介绍了关于卷积匹配的霍夫变换观点,并提出了一种有效的几何匹配算法,称为卷积霍夫匹配(CHM)。该方法在几何变换空间上分布候选匹配的相似性,并以卷积方式对其进行评估。我们将其转换为具有半各向同性高维核的可训练神经层,该核学习具有少量可解释参数的非刚性匹配。为了验证效果,我们设计了带有CHM层的神经网络,这些层在平移和缩放空间中执行卷积匹配。我们的方法在语义视觉对应的标准基准上设置了新的技术水平,证明了其对挑战类内变异的强大鲁棒性。
SIMPLE:基于相似伪标签的半监督分类
一种常见的分类任务情况是,有大量数据可用于训练,但只有一小部分数据带有标签标注的。在这种情况下,半监督训练的目标是通过利用标记数据和大量未标记数据的信息来提高分类精度。最近的工作通过探索不同增强标记和未标记数据之间的一致性约束,取得了显著的改进。基于此,本文提出了一个新的无监督目标,重点放在研究较少的高置信度无标记数据之间的关系是相似的。新的Pair-loss算法使得相似度高于某一阈值的高置信度伪标签之间的统计距离最小。实验证明,本文提出的SimPLE算法相比基准算法,取得了显著的提升。此外,SimPLE在迁移学习环境中也取得了SOTA的结果。
OTA:基于最优传输理论的目标检测样本匹配策略
现有的目标检测样本匹配策略大多是独立地对每个ground truth进行正负样本划分。我们指出这样的匹配策略没有考虑每一个锚框/点与其他ground truth的潜在联系,进而提出一种充分利用全局信息的匹配策略--OTA。具体而言,我们把样本匹配问题建模成了一个最优传输问题,视每一个ground truth和锚框/点分别为供应人员和需求人员,定义把单位正标签(positive label unit)从每一个供应人员运输到每一个需求人员所需要的运输成本为该ground truth与锚框/点之间分类和回归损失的加权和。同时我们引入了“背景”作为额外的供应商来解决标签“供不应求”的问题。此外,我们还提出了一种动态正样本数量估计方法,来决定每一个供应商持有多少单位的正样本标签。实验表明,OTA可以很好的处理易混淆的锚框/点,并在COCO和CrowdHuman数据集上超越了其他现有的样本匹配方法。
教程
伯克利ISSCC2021《脑机接口:基础到未来技术》
在最近重大投资的推动下,脑-机接口(BCI)将彻底改变神经系统疾病的治疗,并在未来改变人类的体验。本教程将重点介绍实现植入式BCI的关键挑战,如闭环操作、小型化和规模化。我们将首先介绍基本电路构建块及其与电极、信号和组织的相互作用。然后我们将通过一个例子来说明如何最小化无线植入物的体积。
人工智能模型数据泄露的攻击与防御研究综述
人工智能和深度学习算法正在高速发展,这些新兴技术在音视频识别、自然语言处理等领域已经得到了广泛应用。然而,近年来研究者发现,当前主流的人工智能模型中存在着诸多安全隐患,并且这些隐患会限制人工智能技术的进一步发展。因此,研究了人工智能模型中的数据安全与隐私保护问题。对于数据与隐私泄露问题,主要研究了基于模型输出的数据泄露问题和基于模型更新的数据泄露问题。在基于模型输出的数据泄露问题中,主要探讨了模型窃取攻击、模型逆向攻击、成员推断攻击的原理和研究现状;在基于模型更新的数据泄露问题中,探讨了在分布式训练过程中,攻击者如何窃取隐私数据的相关研究。对于数据与隐私保护问题,主要研究了常用的3类防御方法,即模型结构防御,信息混淆防御,查询控制防御。综上,围绕人工智能深度学习模型的数据安全与隐私保护领域中最前沿的研究成果,探讨了人工智能深度学习模型的数据窃取和防御技术的理论基础、重要成果以及相关应用。
《智能计算系统》硬核在线课程: AI到芯片系统
《智能计算系统》课程由陈云霁老师亲自“操刀”,让大家融会贯通地理解智能计算系统完整的软硬件技术栈,把割裂的知识点串起来打通任督二脉。据介绍,课程采用“应用驱动,全栈贯通”的思想,以一个图像迁移风格的驱动范例带动,重点围绕智能计算系统的设计理论、方法、关键技术等展开讨论,从基本概念开始,由浅入深帮助学生建立智能计算系统设计及应用的知识体系,培养智能时代急需的芯片设计、软件开发、算法研发等各个层次的人才。
新工具
腾讯开源深度学习基础库deepx_core,支持稀疏张量
最近,腾讯把这个名叫deepx_core的深度学习基础库正式对外开源。相比于PyTorch、TensorFlow等流行深度学习框架,这位选手不仅具有通用性,还针对高维稀疏数据场景进行了深度优化。也就是说,对于开发搜索、推荐、广告这样的深度学习应用,会更加友好易用。根据项目介绍,deepxcore是一个通用的深度学习框架,使用C++11开发。基于deepxcore,可以快速开发张量计算/机器学习/深度学习/强化学习/图神经网络/无监督学习等应用。
剑桥大学|Bellman:Tensorflow中基于模型的强化学习工具箱
尽管有很多用于无模型RL的工具箱,但是基于模型的RL在工具箱开发方面很少受到关注。Bellman旨在填补这一空白,并使用最先进的软件工程实践介绍了第一个经过全面设计和测试的基于模型的RL工具箱。我们的模块化方法能够将广泛的环境模型与基于通用模型的代理类相结合,以恢复最新算法。我们还提供了一种实验工具,可以系统地比较无模型代理和基于模型的代理。用户定义的评估指标(例如累积奖励)。这为新的研究方向铺平了道路,例如研究不一定基于神经网络的不确定性感知环境模型,或者开发算法以解决具有工业特征的基准,这些基准具有与现实世界中的问题相同的特征。
Allen AI|LayoutParser:基于深度学习的文档图像分析统一工具
本文介绍了layoutparser,这是一个用于简化DL在DIA研究和应用中的使用的开源库。核心layoutparser库带有一组简单直观的界面,用于为布局检测,字符识别和许多其他文档处理任务应用和自定义DL模型。为了提高可扩展性,layoutparser还集成了一个社区平台,用于共享预训练的模型和完整的文档数字化管道。我们证明,layoutparser在实际用例中对轻量级和大规模数字化管道都有用。
应用
交通流量预测 | 贝叶斯图卷积网络的交通流量预测
近来,基于自适应图卷积网络的交通预测方法,通过各种基于注意力的机制从交通数据中学习潜图结构,已经取得了令人印象深刻的性能。然而,由于(1)忽略了所观察到的路网拓扑的先验;(2)忽略了对路况之间空间关系的更好描述;(3)缺乏对图结构不确定性的研究。在本文中,我们提出了一种贝叶斯图卷积网络(BGCN)框架来缓解这些问题。在此框架下,将图结构视为来自参数生成模型的随机实现,并使用观察到的路网和交通数据拓扑来推断其后验。具体来说,参数生成模型由两部分组成:(1)一个恒定的邻接矩阵,该矩阵使用贝叶斯方法从观察到的道路之间的物理联系中发现潜在的空间关系;(2)一个可学习的邻接矩阵,它以端到端的方式从交通数据中学习全局共享的空间相关性,并且可以对负空间相关性进行建模。然后,通过对参数图结构执行蒙特卡洛算法来近似图结构的后部。本文通过五个真实的数据集,验证了方法的有效性。实验结果表明,与最新方法相比,BGCN获得了更高的性能。
清华大学 | 深度学习模型MolMapNet登上Nature子刊,可预测药物特性
预测药物特性对加速药物发现有着重要的推动作用,基于图的神经网络进行分子表示学习也已经取得了不错的成绩。尽管如此,人类专家对分子表示和卷积神经网络知识的综合潜力尚未得到充分的探索。近日,清华大学、复旦大学和浙江大学的研究人员联合新加坡国立大学的研究人员开发了一种开箱即用的AI工具,可以通过分析基于人类知识的分子表示来预测药物特性。
MIT化学家开发AI应用,为药物发现提速
最近,麻省理工学院的研究人员开发了一种新的AI驱动技术,通过提高评估药物分子结合亲和力的计算速度来加速药物的发现。MIT团队研发的被称为DeepBAR的新技术,可以快速计算候选药物与其靶标之间的结合亲和力,从而提高药物发现的速度。药物分子与靶蛋白之间的亲和力是通过「结合自由能」的大小来衡量的——值越小,结合的粘性就越大。「较低的结合自由能意味着该药物可以更好地与其他分子竞争,可以更有效地破坏蛋白质的正常功能。」麻省理工学院和哈佛大学广泛研究所(Broad Institute)成员、MIT辉瑞-劳巴赫化学职业发展教授张斌解释道。
会议
ICLR 2021杰出论文公布
近日,ICLR 2021官方从860篇接收论文中挑选出了八篇杰出论文,研究主题涵盖利用神经链接预测器的复杂查询应答、通过图网络学习网格模拟、将主成分分析视作纳什均衡问题以及基于随机微分方程(SDE)的分数生成式建模等。此外,在八篇杰出论文中,有多位华人学者的参与,其中一篇《Rethinking Architecture Selection in Differentiable NAS》的一作Ruochen Wang曾就读于上海财经大学,另一篇《Score-Based Generative Modeling through Stochastic Differential Equations》的一作宋飏(Yang Song)本科毕业于清华大学,还曾是清华计算机科学系朱军教授的学生。
以上是《智源社区AI周刊》第67期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢