智源社区AI周刊#74：AIS2021顶会论文报告会即将开始

导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源研究院编辑团队本周整理了第74期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况）、数据（数据集），工具（新工具和应用推荐）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

过去一周（2021/05/17~2021/05/23），值得关注的内容有以下3方面：

一、ACL和IJCAI都是自然语言处理和计算语言学领域最高级别的学术会议，SIGIR是信息检索领域重要的国际论坛，三大会议囊括了全球人工智能领域，尤其是自然语言处理领域和信息检索领域的最新先进成果。2021年三大会议论文预讲会，即AIS顶会论文报告会也即将举办。AIS顶级会议论文报告会是中国中文信息学会青年工作委员会主办的系列学术活动，自2017年起已连续举办五届，该活动旨在为国内学者提供更快速和更便捷的了解领域前沿的交流机会，活动将邀请被上述三大顶会录用文章的作者进行报告交流，融三大会议的精彩内容为一体，每年都吸引数千名专家学者进行线上线下交流。本届AIS顶级论文报告会将在5月29日至30日在北京举办。（详情参见本周报“会议”栏目）

二、华为诺亚方舟实验室联合上海交大APEX实验室、新加坡国立大学最新发表开源ModularNAS，一款使用者友好的通用AutoML框架。它通过将不同的AutoML算法用统一的形式表达和编码，将搜索空间设计，优化算法，评估策略解耦为可独立交互的模块，真正实现了不同AutoML 模块的即插即用。该算法包内置了搜索空间自动生成功能，极大减少了不同业务场景下的AutoML使用开发成本。同时可自动调用内置的优化算法，用户只需简单配置，即可在特定业务场景下获得比当前架构性能更优的网络结构。该算法包已经在华为广泛的业务场景，如指纹识别，声纹识别，游戏app推荐等验证有效。作为一个独具创造性的研究成果，该论文已被MLSys2021接收。（详情参见本周报“新工具”栏目）

三、根据国际癌症研究机构发布的2020年世界癌症报告显示，2020年全世界有996万例患者死于癌症，同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人，癌症死亡病例300.2万例。抗击癌症，已然是中国以及世界范围内刻不容缓亟待解决的问题。发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。近日，加拿大皇家学会院士李明教授在第二期AIR学术沙龙上，进行了以“人工智能赋能个体化癌症免疫治疗”为主题的报告分享，他认为要实现病癌个体化免疫治疗，我们必须用人工智能替代湿实验室流程。（详情参见本周报“观点”栏目）

下面是各个要点的详情介绍。

论文推荐

Transformer | VTNET：用于物体目标导航的视觉 Transformer 网络

VTNET: VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION

本文面向目标导航任务中，确定导航动作时，如何对观察到的场景进行有效的视觉表示的问题，提出了：用于目标导航的Transformer网络（VTNET），主要目的在于学习导航中的信息视觉表示。VTNet包含视觉表示的两个关键属性：首先，利用场景中所有对象实例之间的关系；其次，强调对象和图像区域的空间位置，以便可以学习定向导航信号。此外，作者还开发了一种预训练方案，将视觉表示与导航信号相关联，促进导航策略的学习。

查看详情及论文下载

AIRS | 通过知识蒸馏增强轻量级深度估计

Boosting Light-Weight Depth Estimation Via Knowledge Distillation

深度估计的先进性能是通过使用大型和复杂的神经网络来实现的。尽管性能仍在不断提高，但我们认为深度估计必须准确高效。这是实际应用的初步要求。但是，由于模型的容量和准确性之间需要进行权衡，因此快速深度估计会降低性能。在本文中，我们尝试使用轻量级网络进行高度准确的深度估计。为此，我们首先介绍一个可以实时估计深度图的紧凑型网络。然后，我们将在技术上展示两种互补且必要的策略，以改善轻量级网络的性能。由于现实世界中场景的数量是无限的，所以首先是使用辅助数据，这会增加训练数据的多样性。第二个是使用知识蒸馏来进一步提高性能。通过广泛而严格的实验，我们证明了我们的方法在推理准确性，计算效率和泛化方面都优于以前的轻量级方法。与仅使用1％参数的最新方法相比，我们可以实现可比的性能，另一方面，我们的方法在很大程度上优于其他轻量方法。

查看详情及论文下载

浙江大学 | LEAST：类别增量Few-Shot目标检测

Class-Incremental Few-Shot Object Detection

传统的检测网络通常需要大量带标签的训练样本，而人类仅通过几个示例就可以逐步学习新概念。本文着重于一个更具挑战性但更现实的class-incremental few-shot object detection（iFSD）问题。它的目的是仅从几个带注释的样本中逐步转移新颖对象的模型，而不会灾难性地忘记先前学习的样本。为了解决这个问题，我们提出了一种新颖的最小化方法，该方法可以以更少的遗忘，更少的训练资源以及更强的迁移能力进行迁移。具体来说，我们首先提出迁移策略，以减少不必要的权重调整并提高iFSD的迁移能力。在此基础上，我们然后使用较少资源消耗的方法来整合知识蒸馏技术，以减轻遗忘，并提出一种新颖的基于聚类的样本选择过程，以保留先前学习的更多区分性特征。作为一种通用且有效的方法，LEAST可以大大提高各种基准上的iFSD性能。

查看详情及论文下载

上海交通大学 | 具有多智能体强化学习功能的边界感知型Supervoxel级迭代改进的交互式3D图像分割

Iteratively-Refined Interactive 3D Medical Image Segmentation with Multi-Agent Reinforcement Learning

交互式分割，以通过迭代地合并用户提示来有效地获取高质量的分割蒙版。尽管本质上是迭代的，但大多数现有的交互式细分方法都倾向于忽略连续交互的动力学，并独立进行每个交互。该文在这里建议使用马尔可夫决策过程（MDP）为迭代交互式图像分割建模，并通过强化学习（RL）进行解决，其中每个体素均被视为代理。考虑到体素方向预测的巨大探索空间以及相邻体素之间对分割任务的依赖性，采用多智能体强化学习，其中体素之间共享体素级策略。考虑到边界体素对于细分更为重要，文章进一步介绍了一种边界感知奖赏，其中包括以相对交叉熵增益形式的全局奖赏，用于在约束方向上更新策略，以及以相对权重形式的边界奖赏，以强调策略的正确性。

查看详情及论文下载

IJCAI 2021 | 基于因果干预的图像字幕依赖多任务学习

Dependent Multi-Task Learning with Causal Intervention for Image Captioning

最近的图像字幕工作主要遵循先提取后生成的模式，先提取一系列基于对象的特征，然后将图像字幕描述为一个序列到序列的任务。虽然前景看好，但我们观察到在生成字幕时存在两个问题：1）内容不一致，模型会生成相互矛盾的事实；2）信息量不够，模型会遗漏部分重要信息。从因果关系的角度来看，原因是模型捕捉到了视觉特征和某些表情（例如，“长头发”和“女人”的视觉特征）之间虚假的统计相关性。在本文中，我们提出了一个基于因果干预的依赖多任务学习框架（DMTCI）。首先，我们涉及到一个中间任务，类别包生成，最后一个任务之前，图像字幕。中间任务可以帮助模型更好地理解视觉特征，从而缓解内容不一致的问题。其次，我们在模型上应用Pearl的do演算，切断视觉特征和可能的混淆因素之间的联系，从而使模型聚焦于因果视觉特征。具体地说，高频概念集被认为是代理混杂因子，其中真实混杂因子是在连续空间中推断出来的。最后，我们使用多智能体强化学习（MARL）策略来进行端到端训练，减少任务间错误的累积。大量的实验表明，我们的模型优于基准模型，并取得了与最先进的模型竞争的性能。

查看详情及论文下载

观点

加拿大皇家学会院士李明：要实现病癌个体化免疫治疗，我们必须用人工智能替代实验室流程

根据国际癌症研究机构发布的2020年世界癌症报告显示，2020年全世界有996万例患者死于癌症，同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人，癌症死亡病例300.2万例。抗击癌症，已然是中国以及世界范围内刻不容缓亟待解决的问题。发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。近日，加拿大皇家学会院士李明教授在第二期AIR学术沙龙上，进行了以“人工智能赋能个体化癌症免疫治疗”为主题的报告分享，他认为要实现病癌个体化免疫治疗，我们必须用人工智能替代湿实验室流程。

智源社区AI周刊#74：AIS2021顶会论文报告会即将开始

评论列表

评论