导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第 64 期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/01/18~2021/01/24),值得关注的内容有以下3方面:

一、Facebook创始人兼CEO扎克伯格在最新接受的专访中,透露了他迄今为止有关AR/VR最新的策略分析、行业洞察和见解。此次专访亮点内容如下:1、下一版VR头显将能捕捉用户的面部表情,基于多传感器、眼球追踪技术、机器学习等技术,实现更逼真的数字虚拟化身;2、AR设备比VR设备更难做,最大技术难点在于微型化、散热;3、想让脑机接口技术与在VR/AR输入、输出方式从根本上交织在一起;4、VR/AR设备的隐藏优势是减少旅行或上下班时间,智能眼镜可以帮忙应对气候变化。(详情参见本周报“观点”栏目) 二、十四五规划指出,未来五年,中国力争在芯片,人工智能,量子计算等先进技术领域取得领先的地位。同时,2021年-2025年,中国将投入每年以7%增长的研发经费。在2021年把基础研究的支出增加10.6%,并制定一个为期10年的研究战略。(详情参见本周报“行业与政策”栏目) 三、来自谷歌的研究人员提出了名为Transporter Nets的简单模型架构,用于学习基于视觉的物体整理工作。Transporter网络使用了新颖的机制来实现3D空间理解,避免依赖以目标为中心的表示,使其对基于视觉的操作具有更强的泛化性。同时,相比于基准方法,它具有更高的采样效率,在真实的机器人应用中更迅速、实用(详情参见本周报“应用”栏目)

下面是各个要点的详情介绍。

论文推荐

谷歌大脑 | 用于3D目标检测的伪标签 Pseudo-labeling for Scalable 3D Object Detection 为了安全地部署自动驾驶汽车,车载感知系统必须能够在各种环境和地区中以高精度可靠运行。在新领域中提高此类系统效率的最常用技术之一是收集大型标记数据集,但是获取此类数据集的成本可能非常高,尤其是如果每个新部署地理区域都需要带有昂贵3D边框注释的附加数据时。我们证明了用于3D目标检测的伪标记是一种利用较便宜且可用范围更广的未标记数据的有效方法,并且可以导致跨各种体系结构,数据扩充策略和标记数据集的大小提高性能。总体而言,我们表明,更好的老师模型可以带来更好的学生模型,并且我们可以将昂贵的老师培养成高效,简单的学生。 查看详情

普渡大学|用于持续学习的投影梯度记忆 Gradient Projection Memory for Continual Learning 持续学习而不忘记过去任务的能力是人工学习系统的一个理想属性。现有的在人工神经网络中实现这种学习的方法通常依赖于网络增长、基于重要性的权重更新或从记忆中重播旧数据。相反,本文提出了一种新的方法,神经网络通过在梯度子空间的正交方向上采取梯度迭代来学习新的任务,梯度子空间被认为对过去的任务很重要。利用奇异值分解对每个任务进行单次学习后,通过分析网络表示(激活)来寻找这些子空间的基,并以梯度投影记忆(GPM)的形式存储在记忆中。通过定性和定量分析,作者表明这种正交梯度体面诱导最小到不干扰过去的任务,从而减轻遗忘。作者在不同的图像分类数据集上评估我们的算法,这些数据集有短序列和长序列的任务,与最先进的方法相比,本文报告了更好的或同等的性能。 查看详情

强化学习 | 用于无人机避障的基于视觉的深度强化学习算法 A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle Avoidance 强化学习与无人飞行器(UAV)的集成以实现自主飞行是近年来的活跃研究领域。一个重要的部分集中在无人机在环境中的导航中的障碍检测和避让。Deep Q-network(DQN)可以解决在看不见的环境中进行探索的问题。但是,对行为进行统一采样的价值探索可能会导致冗余状态,在这种状态下,环境通常固有地获得稀少奖励。为了解决这个问题,我们提出了两种改进无人机避障探索的技术。第一种是基于收敛的方法,该方法使用收敛误差遍历未探索的动作和时间阈值来平衡探索和利用。第二种是使用域网络的基于指导的方法,该域网络使用高斯混合分布将以前看到的状态与预测的下一个状态进行比较,以便选择下一个动作。这些方法的性能和评估是在多个3-D仿真环境中实现的,但复杂度有所不同。与现有技术相比,所提出的方法显示出平均奖励提高了两倍。 查看详情

人-物交互检测 | 将人-物交互检测重新定义为自适应集合预测 Reformulating HOI Detection as Adaptive Set Prediction 在本文中,作者重新将HOI定义为了一个自适应的集合预测问题。在这种新的定义下,作者提出了一种基于自适应集合的单阶段HOI检测框架(AS-Net),它包含并行的实例和交互分支。为了实现上述目标,本文作者通过Transformer将可训练的交互查询集合映射到了一个交互预测集合上。每个查询框都会自适应地通过多头联合注意力机制,从全局上下文中聚合与交互相关的特征。此外,作者通过将每个真实交互对和交互预测匹配起来,从而自适应地监督训练过程。做而后者还设计了一种高效的「实例感知」注意力模块,将实例分支中有指导性的特征引入交互分支。 查看详情

HOI & Transformer | QPIC: 基于查询图像上下文信息的成对人机交互检测 QPIC: Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information 本文针对人-物交互检测(HOI)领域中,CNN网络经常需要手动定义感兴趣位置来进行特征聚类,会导致网络漏掉图中部分上下文重要的特征区域,同时容易将多个位置相近的HOI实例混淆等缺陷,提出了基于查询图像上下文信息的成对人物交互检测方法(QPIC)。QPIC方法采用了基于Transformer结构的特征提取器,通过注意力机制聚集图像范围内的重要上下文信息,基于查询的检测器每个查询最多捕获一对人类对象,避免多个实例特征的混淆。这种基于Transformer结构的方法简单有效,使得后续的检测头更加简单和直观。 查看详情

观点

扎克伯格45分钟深度访谈:透露下个十年VR和脑机接口战略 3月8日,Facebook创始人兼CEO扎克伯格在最新接受的专访中,透露了他迄今为止有关AR/VR最新的策略分析、行业洞察和见解。此次专访亮点内容如下:1、下一版VR头显将能捕捉用户的面部表情,基于多传感器、眼球追踪技术、机器学习等技术,实现更逼真的数字虚拟化身;2、AR设备比VR设备更难做,最大技术难点在于微型化、散热;3、想让脑机接口技术与在VR/AR输入、输出方式从根本上交织在一起;4、VR/AR设备的隐藏优势是减少旅行或上下班时间,智能眼镜可以帮忙应对气候变化。 查看详情

行业与政策

十四五规划正式发布:未来五年,中国聚焦芯片,人工智能等关键领域 《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》全文正式发布。全文提出,打造数字经济新优势。聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域。加快布局量子计算、量子通信、神经芯片、DNA存储等前沿技术。构建基于5G的应用场景和产业生态,在智能交通、智慧物流、智慧能源、智慧医疗等重点领域开展试点示范。实施“上云用数赋智”行动,推动数据赋能全产业链协同转型。中国正关注着前沿技术的研究,十四五规划指出,未来五年,中国力争在芯片,人工智能,量子计算等先进技术领域取得领先的地位。同时,2021年-2025年,中国将投入每年以7%增长的研发经费。在2021年把基础研究的支出增加10.6%,并制定一个为期10年的研究战略。 查看详情

智源《人工智能的认知神经基础白皮书》 一直以来,认知科学、神经科学和计算科学分别从不同的路径探索智能的本质:认知科学通过构建认知框架,预测复杂行为;神经科学通过探索神经机制,解释大脑功能;而计算科学通过模拟神经活动,实现人工智能。近年来,深度神经网络的成功,促使三门学科进一步交叉融合,将类脑的深度神经网络模型和认知神经科学实验相结合,为人工神经网络的发展提供新的思路。智源“人工智能的认知神经基础”重大研究方向基于此研究目标,以及促进学科间交叉互启的愿景,编撰该白皮书,以期为相关领域的研究者搭建沟通的平台和桥梁,共同探索心智的奥秘,促进人工智能的可持续发展。 查看详情

生物技术初创公司希格生科获数千万元融资,利用“AI+疾病模型”加速新药研发 AI 正在新药研发中扮演着越来越重要的角色。日前,中国生物技术初创公司希格生科(Signet Therapeutics)宣布超额完成约6000万元天使轮融资,由天图投资领投,力合创投、晶泰科技以及云九资本等众多投资机构跟投。据悉,本次筹集的资金将用于其扩建研发团队以及迅速将现有管线向临床阶段推进,并同时开展新靶点的先导化合物筛选。这家公司成立于2020年底,正在基于疾病模型和AI技术开发创新靶向药。创始人兼首席执行官张海生博士曾在哈佛大学Dana-Farber癌症研究所从事博士后研究,师从哈佛大学Adam Bass教授,Adam Bass曾主持胃肠道(GI)研究卓越计划和领导胃癌以及食管癌的“人类癌症基因组图谱”计划。 查看详情

数据

全球首个城市内河无人驾驶数据集发布 近年来,内河无人船因其潜在的应用价值而受到广泛关注,不同于海面无人船和路面自动驾驶场景,内河行驶的无人船的定位和感知面临着独特的挑战。欧卡智舶联合清华大学与西北工业大学的研究学者于近日公开了USVInland数据集,该数据集是第一个内河场景下多传感器的无人船数据集,旨在促进无人船领域相关研究,数据集论文已经被IEEE Robotics and Automation Letters (RA-L) 接收,并将在IEEE International Conference on Robotics and Automation (ICRA) 2021上进行展示。 查看详情

代码

SMIL:严重缺失模态的多模态学习 多模式学习中的一个常见假设是训练数据的完整性,即所有训练实例中每个模态都是完整的。尽管有研究者致力于开发新的方法来解决测试数据的模态不完全性,例如测试集中缺少部分模态,但是很少有人能够处理训练过程中的模态缺失。如果考虑到严重缺失的情况,问题将变得更具挑战性。例如,90%的训练数据中都存在着模态缺失的情况。本文首次从灵活性(训练、测试或两者兼有)和效率(大多数训练数据都有不完全模态)两个方面正式研究了缺失模态的多模态学习。从技术上讲,文章提出了一种名为SMIL的新方法,该方法利用贝叶斯元学习统一实现了两个目标。 查看详情

超越自监督:一种改进backbone的简单高效的网络蒸馏替代方案 在本文中,我们提出通过现成的预训练大型强大模型中的知识蒸馏来改善现有的基准网络。与现有的知识蒸馏框架不同,现有的知识蒸馏框架要求学生模型必须与教师模型生成的soft标签和人工标注的hard标签保持一致,我们的解决方案仅通过驱动与教师模型一致的学生模型的预测来执行蒸馏。因此,我们的蒸馏设置可以摆脱手动标记的数据,并且可以使用额外的未标记数据进行训练,以充分利用教师模型的能力来更好地学习。 查看详情

FedDG:在连续频率空间中进行医学图像分割的联邦域泛化 在本文中,我们指出并解决了联邦域泛化(FedDG)的一种新的问题设置,其目的是从多个分布式源域中学习联邦模型,使其可以直接泛化到未知的目标域。通过使每个客户端都能在数据分散的挑战性约束下利用多源数据分布,我们针对此问题提出了一种称为连续频率空间情节学习的新颖方法。我们的方法通过有效的连续频率空间插值机制以隐私保护的方式在客户端之间传输分发信息。通过转移的多源分布,我们进一步精心设计了一个面向边界的情节学习范例,以使本地学习暴露于域分布变化,并特别满足医学图像分割场景中模型泛化的挑战。 查看详情

教程

清华黄高等人新作:动态神经网络首篇综述 传统的静态网络(如人们熟知的ResNet, DenseNet)在测试阶段对所有的输入样本均采用相同的网络架构与参数。与静态模型不同的是,动态网络可以根据不同样本调节自身的结构/参数,从而在运算效率、表达能力等方面展现出卓越的优势。根据自适应推理的方式,文章将动态网络分为三类:样本自适应,空间自适应以及时间自适应。文章回顾了动态网络中一些重要的研究问题,如结构设计、决策方式、训练策略以及应用,并对领域内的开放性问题与未来研究方向进行了探讨。 查看详情

深度强化学习教程 | 麻省理工2021深度学习导论 麻省理工学院最近开设一门深度学习课程MIT 6.S191,共包含十大主题课程,涵盖深度学习导论、序列建模、深度视觉、生成模型、强化学习、图神经网络、对抗学习、贝叶斯模型、神经渲染、机器学习嗅觉等,图文并茂,涵盖最新的前沿内容。 查看详情

图神经网络综述 随着计算机行业和互联网时代的不断发展与进步,图神经网络已经成为人工智能和大数据重要研究领域。图神经网络是对相邻节点间信息的传播和聚合的重要技术,可以有效地将深度学习的理念应用于非欧几里德空间的数据上。简述图计算、图数据库、知识图谱、图神经网络等图技术领域的相关研究历史,分类介绍不同类型的图结构。分析对比不同的图神经网络技术,重点从频域和空间与的信息聚合方式上分类比较不同的图卷积网络算法。阐述图生成和图对抗网络、图强化学习、图迁移学习、神经任务图和图零样本学习等不同的图网络与深度学习方法相结合的技术方法,并列举不同的图神经网络技术在文本、图像、知识图谱、视频任务等领域的具体应用。最后,对图神经网络未来的发展与研究方向加以展望。 查看详情

新工具

首个“生物医药+机器学习”大规模资源数据集社区TDC诞生 随着机器学习在医疗领域的应用越来越广泛,其在疗法中的应用也逐渐被人们重视起来。近日,由美国多所著名大学(哈佛大学,乔治亚理工,麻省理工学院,卡耐基梅隆大学,斯坦福大学,伊利诺伊大学厄巴纳-香槟分校)的研究人员,与医疗数据公司IQVIA合作,发布了医疗领域内首个面向疗法的统一机器学习开源框架——Therapeutics Data Commons(TDC)。 查看详情

陈天奇团队开发递归模型编译器CORTEX,最高降低14倍推理延迟 深度学习模型在生产中越来越多地被用作应用程序的一部分,例如个人助理,自动驾驶汽车和聊天机器人。这些应用对模型的推理延迟提出了严格的要求。因此,生产中使用了各种各样的专用硬件,包括CPU,GPU和专用加速器,以实现低延迟推理。对于具有递归和其他动态控制流的模型,减少推理延迟尤其困难。近日,陈天奇团队在arxiv上发表了针对深度学习开发的编译器「CORTEX」,侧重解决深度学习模型的优化问题,能够为递归神经网络生成高效的编码。这个编译器不依赖其他库,能够端到端地测量优化性能,最高降低了14倍推理延迟。 查看详情

研究者自建Papers Without Code网站,张贴复现不了的论文 机器学习领域研究者大多熟悉PapersWithCode,这个资源网站上托管着4万多个研究的实现代码,但它没有进一步解决「有代码也复现不了」的问题。这个问题或许可以在「Papers Without Code」上找到答案。简单来说,在Papers Without Code上,研究者可以提交无法复现的机器学习论文以及他们的工作细节,例如他们花费了多少时间来复现结果。如果提交内容有效,则Papers Without Code方面将与该论文原作者联系,并要求其澄清或公布实现细节。论文成功复现后,可以在PapersWithCode或GitHub上发布,供其他研究人员参考。如果作者未及时答复,该论文将被添加到「不可复现的机器学习论文列表」中,公开处刑。 查看详情

应用

谷歌 | Transporter Networks: 基于视觉操作实现重新整理目标物体 来自谷歌的研究人员提出了名为Transporter Nets的简单模型架构,用于学习基于视觉的物体整理工作。Transporter网络使用了新颖的机制来实现3D空间理解,避免依赖以目标为中心的表示,使其对基于视觉的操作具有更强的泛化性。同时,相比于基准方法,它具有更高的采样效率,在真实的机器人应用中更迅速、实用。 查看详情

通过奖励随机化发现多智能体游戏中多样性策略行为 如何才能让强化学习收敛到收益最优的策略呢?为了解决这个问题,来自清华大学、北京大学、UC伯克利等机构的研究者提出了一个简单有效的技术,奖励随机化(Reward Randomization,RR)。不同于传统强化学习中的在状态空间(state-space)中进行探索(exploration)的方法,奖励随机化是一个在奖励空间(reward-space)进行探索的方法。这项研究已被ICLR 2021大会接收为Poster论文。 查看详情

MIT研究员最新算法帮助AI建立合理怀疑 在一个完美的世界里,眼见即为现实。如果是这样的话,人工智能的操作就简单多了。只可惜,世界并不总是完美的。如何让算法避免对抗性输入(adversarial inputs)的干扰从而提高鲁棒性便成为人工智能领域的一大难题。以自动驾驶汽车的防撞系统为例。如果车载摄像头的视觉输入信号准确无误、完全可信的话,人工智能系统便可将信号直接对应到决策中,进而用右转、左转或直行的方法避开路上的行人。但如果车载摄像头因故障产生了像素上的偏差,那又会怎样呢?事实是,如果人工智能系统盲目地相信了所谓的“对抗性输入”,那它可能会作出不必要且危险的决策。日前,麻省理工学院航天控制实验室(Aerospace Controls Laboratory)的研究人员开发了一种新的深度学习算法,通过在输入中建立合理 “怀疑”来帮助计算机适应真实的、不完美的世界。 查看详情

“脑机接口+AR”头戴式显示产品即将投入市场 近日,一家专注于服务有沟通障碍的人士的公司Cognixion宣布,将在今年晚些时候推出脑机AR头显Cognixion ONE。Cognixion ONE面向有沟通障碍的残障人士,由神经学家、生物信号工程师、语言病理学家等组成的团队共同研发,其部署了机器学习算法来优化对脑电波的解析速度。Cognixion ONE采用的是非侵入脑机接口技术,采用6个电极来实现脑机通讯。Cognixion ONE目前主要面向脑瘫、肌萎缩性脊髓侧索硬化症(ALS)、闭锁综合症等复杂交流障碍患者,帮助这些有交流、认知障碍的人能更好地生活。 查看详情

经验

论文写作 | 结论与摘要的区别是什么? 摘要是全文的一个简介,一般要求用高度简洁的语言归纳全文的五个要素:对研究主题进行陈述;指出研究目的是什么,简述使用的研究方法,声明主要研究结果与发现,概述研究结论(即研究结果的含义、影响和意义)。结论则是全文的一个总结,用于总结全文要点:重申论文的主题及其重要性;声明主要论点与主张;简述是如何得到这些论点与主张的(尤其指出为此突破了什么关键技术等);指出你的研究结果如何回答了引言中提出的问题以及如何扩展了现有研究(如补充和纠正什么,丰富了什么);概述论文工作有什么限制以及未来可以开展什么研究。 查看详情

以上是《智源社区AI周刊》第64期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除