导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第74期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/05/17~2021/05/23),值得关注的内容有以下3方面:

一、ACL和IJCAI都是自然语言处理和计算语言学领域最高级别的学术会议,SIGIR是信息检索领域重要的国际论坛,三大会议囊括了全球人工智能领域,尤其是自然语言处理领域和信息检索领域的最新先进成果。2021年三大会议论文预讲会,即AIS顶会论文报告会也即将举办。AIS顶级会议论文报告会是中国中文信息学会青年工作委员会主办的系列学术活动,自2017年起已连续举办五届,该活动旨在为国内学者提供更快速和更便捷的了解领域前沿的交流机会,活动将邀请被上述三大顶会录用文章的作者进行报告交流,融三大会议的精彩内容为一体,每年都吸引数千名专家学者进行线上线下交流。本届AIS顶级论文报告会将在5月29日至30日在北京举办。(详情参见本周报“会议”栏目)

二、华为诺亚方舟实验室联合上海交大APEX实验室、新加坡国立大学最新发表开源ModularNAS,一款使用者友好的通用AutoML框架。它通过将不同的AutoML算法用统一的形式表达和编码,将搜索空间设计,优化算法,评估策略解耦为可独立交互的模块,真正实现了不同AutoML 模块的即插即用。该算法包内置了搜索空间自动生成功能,极大减少了不同业务场景下的AutoML使用开发成本。同时可自动调用内置的优化算法,用户只需简单配置,即可在特定业务场景下获得比当前架构性能更优的网络结构。该算法包已经在华为广泛的业务场景,如指纹识别,声纹识别,游戏app推荐等验证有效。作为一个独具创造性的研究成果,该论文已被MLSys2021接收。(详情参见本周报“新工具”栏目)

三、根据国际癌症研究机构发布的2020年世界癌症报告显示,2020年全世界有996万例患者死于癌症,同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人,癌症死亡病例300.2万例。抗击癌症,已然是中国以及世界范围内刻不容缓亟待解决的问题。发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。近日,加拿大皇家学会院士李明教授在第二期AIR学术沙龙上,进行了以“人工智能赋能个体化癌症免疫治疗”为主题的报告分享,他认为要实现病癌个体化免疫治疗,我们必须用人工智能替代湿实验室流程。(详情参见本周报“观点”栏目)

下面是各个要点的详情介绍。

论文推荐

Transformer | VTNET:用于物体目标导航的视觉 Transformer 网络

VTNET: VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION

本文面向目标导航任务中,确定导航动作时,如何对观察到的场景进行有效的视觉表示的问题,提出了:用于目标导航的Transformer网络(VTNET),主要目的在于学习导航中的信息视觉表示。VTNet包含视觉表示的两个关键属性:首先,利用场景中所有对象实例之间的关系;其次,强调对象和图像区域的空间位置,以便可以学习定向导航信号。此外,作者还开发了一种预训练方案,将视觉表示与导航信号相关联,促进导航策略的学习。

查看详情及论文下载

AIRS | 通过知识蒸馏增强轻量级深度估计

Boosting Light-Weight Depth Estimation Via Knowledge Distillation

深度估计的先进性能是通过使用大型和复杂的神经网络来实现的。尽管性能仍在不断提高,但我们认为深度估计必须准确高效。这是实际应用的初步要求。但是,由于模型的容量和准确性之间需要进行权衡,因此快速深度估计会降低性能。在本文中,我们尝试使用轻量级网络进行高度准确的深度估计。为此,我们首先介绍一个可以实时估计深度图的紧凑型网络。然后,我们将在技术上展示两种互补且必要的策略,以改善轻量级网络的性能。由于现实世界中场景的数量是无限的,所以首先是使用辅助数据,这会增加训练数据的多样性。第二个是使用知识蒸馏来进一步提高性能。通过广泛而严格的实验,我们证明了我们的方法在推理准确性,计算效率和泛化方面都优于以前的轻量级方法。与仅使用1%参数的最新方法相比,我们可以实现可比的性能,另一方面,我们的方法在很大程度上优于其他轻量方法。

查看详情及论文下载

浙江大学 | LEAST:类别增量Few-Shot目标检测

Class-Incremental Few-Shot Object Detection

传统的检测网络通常需要大量带标签的训练样本,而人类仅通过几个示例就可以逐步学习新概念。本文着重于一个更具挑战性但更现实的class-incremental few-shot object detection(iFSD)问题。它的目的是仅从几个带注释的样本中逐步转移新颖对象的模型,而不会灾难性地忘记先前学习的样本。为了解决这个问题,我们提出了一种新颖的最小化方法,该方法可以以更少的遗忘,更少的训练资源以及更强的迁移能力进行迁移。具体来说,我们首先提出迁移策略,以减少不必要的权重调整并提高iFSD的迁移能力。在此基础上,我们然后使用较少资源消耗的方法来整合知识蒸馏技术,以减轻遗忘,并提出一种新颖的基于聚类的样本选择过程,以保留先前学习的更多区分性特征。作为一种通用且有效的方法,LEAST可以大大提高各种基准上的iFSD性能。

查看详情及论文下载

上海交通大学 | 具有多智能体强化学习功能的边界感知型Supervoxel级迭代改进的交互式3D图像分割

Iteratively-Refined Interactive 3D Medical Image Segmentation with Multi-Agent Reinforcement Learning

交互式分割,以通过迭代地合并用户提示来有效地获取高质量的分割蒙版。尽管本质上是迭代的,但大多数现有的交互式细分方法都倾向于忽略连续交互的动力学,并独立进行每个交互。该文在这里建议使用马尔可夫决策过程(MDP)为迭代交互式图像分割建模,并通过强化学习(RL)进行解决,其中每个体素均被视为代理。考虑到体素方向预测的巨大探索空间以及相邻体素之间对分割任务的依赖性,采用多智能体强化学习,其中体素之间共享体素级策略。考虑到边界体素对于细分更为重要,文章进一步介绍了一种边界感知奖赏,其中包括以相对交叉熵增益形式的全局奖赏,用于在约束方向上更新策略,以及以相对权重形式的边界奖赏,以强调策略的正确性。

查看详情及论文下载

IJCAI 2021 | 基于因果干预的图像字幕依赖多任务学习

Dependent Multi-Task Learning with Causal Intervention for Image  Captioning

最近的图像字幕工作主要遵循先提取后生成的模式,先提取一系列基于对象的特征,然后将图像字幕描述为一个序列到序列的任务。虽然前景看好,但我们观察到在生成字幕时存在两个问题:1)内容不一致,模型会生成相互矛盾的事实;2) 信息量不够,模型会遗漏部分重要信息。从因果关系的角度来看,原因是模型捕捉到了视觉特征和某些表情(例如,“长头发”和“女人”的视觉特征)之间虚假的统计相关性。在本文中,我们提出了一个基于因果干预的依赖多任务学习框架(DMTCI)。首先,我们涉及到一个中间任务,类别包生成,最后一个任务之前,图像字幕。中间任务可以帮助模型更好地理解视觉特征,从而缓解内容不一致的问题。其次,我们在模型上应用Pearl的do演算,切断视觉特征和可能的混淆因素之间的联系,从而使模型聚焦于因果视觉特征。具体地说,高频概念集被认为是代理混杂因子,其中真实混杂因子是在连续空间中推断出来的。最后,我们使用多智能体强化学习(MARL)策略来进行端到端训练,减少任务间错误的累积。大量的实验表明,我们的模型优于基准模型,并取得了与最先进的模型竞争的性能。

查看详情及论文下载

观点

加拿大皇家学会院士李明:要实现病癌个体化免疫治疗,我们必须用人工智能替代实验室流程

根据国际癌症研究机构发布的2020年世界癌症报告显示,2020年全世界有996万例患者死于癌症,同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人,癌症死亡病例300.2万例。抗击癌症,已然是中国以及世界范围内刻不容缓亟待解决的问题。发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。近日,加拿大皇家学会院士李明教授在第二期AIR学术沙龙上,进行了以“人工智能赋能个体化癌症免疫治疗”为主题的报告分享,他认为要实现病癌个体化免疫治疗,我们必须用人工智能替代湿实验室流程。

查看原文 | 参与讨论

行业与政策

博洛尼亚大学、伦敦大学学院艾伦·图灵研究所|深度生成学习中的版权问题

机器制作的艺术品现在是当代艺术领域的一部分:它们正在吸引大量投资,它们与人类艺术家创作的作品一起在展览中展出。这些艺术作品主要基于生成的深度学习技术。也考虑到他们的成功,使用这些技术时会出现一些法律问题。在本文中,我们考虑了艺术生成深度学习领域的一系列关键问题。是否可以使用受版权保护的作品作为生成模型的训练集?我们如何合法存储他们的副本以执行训练过程?然后,谁(如果有人)将拥有生成数据的版权?考虑到在美国和欧盟以及未来法律的效力,我们试图回答这些问题,试图为艺术家和从事深度学习的开发人员生成艺术提供一些指导建议。

查看原文 | 参与讨论

易咖智车完成数千万元 Pre-A 轮融资

近日,智能数字化运载平台(IDV: Intelligent DigitalVehicle)公司易咖智车宣布完成数千万元Pre-A轮融资,由天奇创投独家投资,本轮融资将主要用于技术团队扩建、核心零部件开发、自研标准化产线建设。

查看原文 | 参与讨论

墨奇科技完成2.5亿元B轮融资,聚焦解决 AI 瓶颈

5月21日,墨奇科技宣布完成 2.5 亿元人民币 B 轮融资,领投方为某互联网巨头。此轮融资后,墨奇科技将会重点投入在 AI 底层数据的通用处理技术,持续发力以 AI 知识为核心的新型非结构化数据库,及在此之上发展出的新一代生物识别平台。

查看原文 | 参与讨论

数据

Salesforce Research | BookSum:长篇叙事摘要数据集

大多数可用的文本摘要数据集,缺乏长程因果关系和时间依赖,且多为短篇源文档,往往包含强烈的布局和文体偏见,虽然相关,但这种数据集对未来几代文本摘要系统的挑战有限。本文引入BookSum来解决这些问题,BookSum是一个用于长篇叙述性摘要的数据集,涵盖了文学领域的源文档,如小说、戏剧和故事,并包括高度抽象的、人工撰写的、难度递增的三个级别的摘要:段落级、篇章级和全书级。数据集的领域和结构给总结系统带来了一系列独特的挑战,其中包括:处理很长的文件,非平凡因果和时间依赖,以及丰富的话语结构

查看原文 | 参与讨论

代码

华为 | Grad-TTS:文本到语音的扩散概率模型

最近,显示了降噪扩散概率模型和生成分数匹配建模复杂数据分布的潜力很大,而随机演算已提供这些技术的统一观点允许灵活的推理方案。在这个在本文中,我们介绍Grad-TTS,这是一种新颖的文本转语音模型,它具有基于分数的解码器,通过逐步变换来生成梅尔谱图编码器预测并与文本对齐的噪声通过单调对齐搜索输入。随机微分方程的框架帮助我们将常规扩散概率模型推广到重建数据的情况来自具有不同参数的噪声,并允许通过明确地使这种重构变得灵活控制声音质量和声音质量之间的权衡推理速度。主观的人类评价表明Grad-TTS与最新的文本语音转换方法相比在平均意见分数上具有竞争优势。

查看原文 | 参与讨论

菲律宾大学 | ViTSTR:快速高效场景文本识别的视觉Transformer

场景文本识别(STR)使计算机能够在自然场景中读取文本,例如物体标签,道路标志和指示。STR帮助机器执行明智的决策,例如要拾取的对象,前进的方向以及下一步的操作。在STR的工作主体中,始终将重点放在识别准确性上。很少强调速度和计算效率,这对于能源受限的移动机器尤其重要。在本文中,我们提出了ViTSTR,这是一种具有简单单阶段模型架构的STR,该架构基于计算和参数有效的视觉Transformer(ViT)。在可比的强基线方法(如TRBA,准确度为84.3%)上,我们的小型ViTSTR仅使用43.4%的参数数量和42.2%的速度就可以达到2.4%的竞争准确度(82.6%(数据增强时为84.2%))。快艇。 ViTSTR的微型版本以2.5倍的速度实现了80.3%的精度(数据增强时为82.1%),仅要求参数数量的10.9%和FLOPS 11.9%。通过数据增强,我们的基本ViTSTR的准确率达到85.2%(不进行增强时为83.7%),而TRBA的速度为2.3倍,但需要更多的参数73.2%和FLOPS的61.5%。在权衡方面,几乎所有ViTSTR配置都处于边界或边界附近,以同时最大化准确性,速度和计算效率。

查看原文 | 参与讨论

旷视科技 | HINet:用于图像复原的半实例归一化网络

在本文中,我们探讨了Instance Normalization在low-level视觉任务中的作用。具体来说,我们提出了一个新颖的块:半实例标准化块(HIN块),以提高图像复原网络的性能。基于HIN Block,我们设计了一个简单而强大的多阶段网络HINet,该网络由两个子网组成。在HIN Block的帮助下,HINet在各种图像复原任务方面超越了最新技术(SOTA)。对于图像去噪,我们在SIDD数据集上的PSNR超过0.11 dB和0.28 dB,其乘数累加器运算(MAC)分别只有7.5%和30%,分别是加速的6.8倍和2.9倍。对于图像去模糊,我们获得了可比的性能,其MAC为22.5%,在REDS和GoPro数据集上的速度是其3.3倍。对于图像排水,我们将多个数据集的平均结果的PSNR值提高了0.3 dB,即提高了1.4倍。凭借HINet,我们在NTIRE 2021图像去模糊挑战赛-Track2中获得了第一名。 JPEG伪像,PSNR为29.70。

查看原文 | 参与讨论

教程

微软:人工智能系统(AI-System)共建课程

近年来人工智能特别是深度学习技术得到了飞速发展,这背后离不开计算机硬件和软件系统的不断进步。在可见的未来,人工智能技术的发展仍将依赖于计算机系统和人工智能相结合的共同创新模式。需要注意的是,计算机系统现在正以更大的规模和更高的复杂性来赋能于人工智能,这背后不仅需要更多的系统上的创新,更需要系统性的思维和方法论。与此同时,人工智能也反过来为设计复杂系统提供支持。我们注意到,现在的大部分人工智能相关的课程,特别是深度学习和机器学习相关课程主要集中在相关理论、算法或者应用,与系统相关的课程并不多见。我们希望人工智能系统这门课能让人工智能相关教育变得更加全面和深入,以共同促进人工智能与系统交叉人才的培养。

查看原文 | 参与讨论

李飞飞经典CS231N2021《卷积神经网络视觉识别》课程第十三讲《自监督学习》概述

随着搜索、图像理解、apps、地图、医学、无人机和自动驾驶汽车等领域的应用,计算机视觉已经在我们的社会中无处不在。这些应用程序的核心是视觉识别任务,如图像分类和对象检测。神经网络方法的最新发展极大地提高了这些最先进的视觉识别系统的性能。本课程深入探讨了基于神经网络的计算机视觉深度学习方法的细节。在本课程中,学生将学习如何实现、训练和调试自己的神经网络,并对计算机视觉的前沿研究有详细的了解。我们将涵盖学习算法,神经网络架构,和实际工程技巧的训练和微调网络的视觉识别任务。

查看原文 | 参与讨论

【2021新书】PyTorch实战深度学习模型

本书带你掌握使用PyTorch实现深度学习解决方案的实践方面,使用实践方法理解理论和实践Facebook的人工智能研究小组开发了一个名为PyTorch的平台,该平台拥有良好的理论基础和实用技能,为你在现实世界中应用深度学习做好了准备。首先,您将了解PyTorch的深度学习是如何以及为什么成为一种具有开创性的框架,它带有一组工具和技术来解决现实世界中的问题。接下来,这本书将为你打下线性代数、向量微积分、概率和最优化的数学基础。在建立了这个基础之后,您将继续讨论PyTorch的关键组件和功能,包括层、损失函数和优化算法。您还将了解基于图形处理单元(GPU)的计算,这对训练深度学习模型是必不可少的。介绍了深度学习的前馈网络、卷积神经网络、循环神经网络、长短时记忆网络、自动编码器网络和生成对抗网络等关键网络结构。在许多训练和优化深度学习模型的技巧的支持下,这个版本的Python深度学习解释了使用PyTorch将这些模型带到生产中的最佳实践。

查看原文 | 参与讨论

新工具

华为诺亚开源通用AutoML工具包ModularNAS

华为诺亚方舟实验室联合上海交大APEX实验室、新加坡国立大学最新发表开源ModularNAS,一款使用者友好的通用AutoML框架。它通过将不同的AutoML算法用统一的形式表达和编码,将搜索空间设计,优化算法,评估策略解耦为可独立交互的模块,真正实现了不同AutoML 模块的即插即用。该算法包内置了搜索空间自动生成功能,极大减少了不同业务场景下的AutoML使用开发成本。同时可自动调用内置的优化算法,用户只需简单配置,即可在特定业务场景下获得比当前架构性能更优的网络结构。该算法包已经在华为广泛的业务场景,如指纹识别,声纹识别,游戏app推荐等验证有效。作为一个独具创造性的研究成果,该论文已被MLSys2021接收。

查看原文 | 参与讨论

Learning to Fly:使用PyBullet物理引擎的Gym环境

本文提出了一种基于Bullet物理引擎的与OpenAI Gym类似的环境,专为四轴飞行器设计。它拥有多智能体和基于视觉的强化学习交互界面,同时支持真实碰撞与空中动态效果。此环境不但支持传统控制任务,还支持强化学习的单智能体和多智能体任务等,可进行控制理论与机器学习相结合的科研工作。

查看原文 | 参与讨论

捷克理工大学 | 用于视觉运动机器人任务的模块化工具箱

本文提出了一个新的虚拟模拟器工具包myGym,它是为强化学习(RL)、内在激励和在3D模拟器中训练的模仿学习任务而开发的。经过训练的任务可以很容易地转移到真实世界的机器人场景中。模拟器的模块化结构使用户能够在各种机器人、环境和任务的大量场景中训练和验证他们的算法。与适用于经典机器人学习的现有工具包(如OpenAI Gym、Roboschool)相比,myGym还适用于需要内在动机的视觉运动(结合视觉和运动)无监督任务,即机器人能够产生自己的目标。还有用于人机交互的协作场景。该工具包为视觉运动任务提供预训练的视觉模块,允许快速原型制作,此外,用户可以定制视觉子模块,并使用他们自己的对象集重新训练。在实践中,用户选择期望的环境、机器人、对象、任务和奖励类型作为仿真参数,并且训练、可视化和测试本身被自动处理。因此,用户可以完全专注于神经网络架构的开发,同时使用预定义的参数来控制环境的行为。

查看原文 | 参与讨论

应用

医学图像分割 | 使用「挤压-激励」Transformer 进行医学图像分割

在本文中,作者提出了 Segtran,这是一种基于 Transformer 的分割框架,即使在具有高特征分辨率时也拥有不受限制的「有效感受野」。 Segtran 的核心是一种新颖的「挤压-激励」Transformer:它包含一个挤压后的注意力模块,该模块被用于调整 Transformer 的自注意力;而另一个激励模块则可以学习各种表征。此外,作者为 Transformer 提出了一种新的位置编码方案,对图像施加了连续性归纳偏置。作者进行了 2D 和 3D 医学图像分割实验,与现有的代表性方法相比,Segtran 的分割准确率始终更高,并展现出良好的跨域泛化能力。

查看原文 | 参与讨论

福井大学 | TaylorMade VDD: 适用于非凸圆柱形金属物体高混合低批量生产的域自适应视觉缺陷检测方法

高混合低量非凸金属物体的视觉缺陷检测(VDD)具有挑战性,因为在领域上有细微差异(例如,金属物体、成像设备、视点、照明)会显著影响单个金属物体类型的镜面反射特性。本文通过引入可自动适应新领域的定制VDD框架(其可将具有复杂镜面反射的非凸金属部件和高混合低量生产组合在一起)来解决此问题。具体来说,本文将需要适应任务定义为深度目标检测网络上的网络架构搜索问题(NAS),其中网络架构是通过强化学习来搜索的。并且使用VDD-HPPPs任务作为工厂案例研究以验证该框架的有效性,实验结果表明,对于非凸HPPPs,与基线方法相比,该方法对不同训练/测试域的数据具有更高的毛刺检测精度,尤其是受域偏移的影响。

查看原文 | 参与讨论

清华|基于风格指导规划的风格化的故事生成

当前的叙事系统更加关注无论叙述风格如何,都可以使用连贯的情节来生成故事,这对于可控文本的生成很重要。因此,我们提出了一项新任务,即风格化的故事生成,即在给定主要上下文的情况下以指定样式生成故事。 应对这个问题,我们提出了一个模型:首先计划风格化关键字,然后用关键字指导。 此外,我们提出了两个自动指标来评估生成的故事与指定的样式。 实验证明我们的模型可以根据ROCStories数据集可控地生成情感驱动或事件驱动的故事。

查看原文 | 参与讨论

会议

AIS2021顶会论文报告会即将开始

今年七月至八月,SIGIR、IJCAI和ACL三大国际顶级会议将陆续举行。ACL和IJCAI都是自然语言处理和计算语言学领域最高级别的学术会议,SIGIR是信息检索领域重要的国际论坛,三大会议囊括了全球人工智能领域,尤其是自然语言处理领域和信息检索领域的最新先进成果。2021年三大会议论文预讲会,即AIS顶会论文报告会也即将举办。AIS顶级会议论文报告会是中国中文信息学会青年工作委员会主办的系列学术活动,自2017年起已连续举办五届,该活动旨在为国内学者提供更快速和更便捷的了解领域前沿的交流机会,活动将邀请被上述三大顶会录用文章的作者进行报告交流,融三大会议的精彩内容为一体,每年都吸引数千名专家学者进行线上线下交流。本届AIS顶级论文报告会将在5月29日至30日在北京举办。

查看原文 | 参与讨论

以上是《智源社区AI周刊》第74期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除