导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第74期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/05/17~2021/05/23),值得关注的内容有以下3方面:
一、ACL和IJCAI都是自然语言处理和计算语言学领域最高级别的学术会议,SIGIR是信息检索领域重要的国际论坛,三大会议囊括了全球人工智能领域,尤其是自然语言处理领域和信息检索领域的最新先进成果。2021年三大会议论文预讲会,即AIS顶会论文报告会也即将举办。AIS顶级会议论文报告会是中国中文信息学会青年工作委员会主办的系列学术活动,自2017年起已连续举办五届,该活动旨在为国内学者提供更快速和更便捷的了解领域前沿的交流机会,活动将邀请被上述三大顶会录用文章的作者进行报告交流,融三大会议的精彩内容为一体,每年都吸引数千名专家学者进行线上线下交流。本届AIS顶级论文报告会将在5月29日至30日在北京举办。(详情参见本周报“会议”栏目)
二、华为诺亚方舟实验室联合上海交大APEX实验室、新加坡国立大学最新发表开源ModularNAS,一款使用者友好的通用AutoML框架。它通过将不同的AutoML算法用统一的形式表达和编码,将搜索空间设计,优化算法,评估策略解耦为可独立交互的模块,真正实现了不同AutoML 模块的即插即用。该算法包内置了搜索空间自动生成功能,极大减少了不同业务场景下的AutoML使用开发成本。同时可自动调用内置的优化算法,用户只需简单配置,即可在特定业务场景下获得比当前架构性能更优的网络结构。该算法包已经在华为广泛的业务场景,如指纹识别,声纹识别,游戏app推荐等验证有效。作为一个独具创造性的研究成果,该论文已被MLSys2021接收。(详情参见本周报“新工具”栏目)
三、根据国际癌症研究机构发布的2020年世界癌症报告显示,2020年全世界有996万例患者死于癌症,同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人,癌症死亡病例300.2万例。抗击癌症,已然是中国以及世界范围内刻不容缓亟待解决的问题。发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。近日,加拿大皇家学会院士李明教授在第二期AIR学术沙龙上,进行了以“人工智能赋能个体化癌症免疫治疗”为主题的报告分享,他认为要实现病癌个体化免疫治疗,我们必须用人工智能替代湿实验室流程。(详情参见本周报“观点”栏目)
下面是各个要点的详情介绍。
论文推荐
Transformer | VTNET:用于物体目标导航的视觉 Transformer 网络
VTNET: VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION
AIRS | 通过知识蒸馏增强轻量级深度估计
Boosting Light-Weight Depth Estimation Via Knowledge Distillation
浙江大学 | LEAST:类别增量Few-Shot目标检测
传统的检测网络通常需要大量带标签的训练样本,而人类仅通过几个示例就可以逐步学习新概念。本文着重于一个更具挑战性但更现实的class-incremental few-shot object detection(iFSD)问题。它的目的是仅从几个带注释的样本中逐步转移新颖对象的模型,而不会灾难性地忘记先前学习的样本。为了解决这个问题,我们提出了一种新颖的最小化方法,该方法可以以更少的遗忘,更少的训练资源以及更强的迁移能力进行迁移。具体来说,我们首先提出迁移策略,以减少不必要的权重调整并提高iFSD的迁移能力。在此基础上,我们然后使用较少资源消耗的方法来整合知识蒸馏技术,以减轻遗忘,并提出一种新颖的基于聚类的样本选择过程,以保留先前学习的更多区分性特征。作为一种通用且有效的方法,LEAST可以大大提高各种基准上的iFSD性能。
上海交通大学 | 具有多智能体强化学习功能的边界感知型Supervoxel级迭代改进的交互式3D图像分割
Iteratively-Refined Interactive 3D Medical Image Segmentation with Multi-Agent Reinforcement Learning
交互式分割,以通过迭代地合并用户提示来有效地获取高质量的分割蒙版。尽管本质上是迭代的,但大多数现有的交互式细分方法都倾向于忽略连续交互的动力学,并独立进行每个交互。该文在这里建议使用马尔可夫决策过程(MDP)为迭代交互式图像分割建模,并通过强化学习(RL)进行解决,其中每个体素均被视为代理。考虑到体素方向预测的巨大探索空间以及相邻体素之间对分割任务的依赖性,采用多智能体强化学习,其中体素之间共享体素级策略。考虑到边界体素对于细分更为重要,文章进一步介绍了一种边界感知奖赏,其中包括以相对交叉熵增益形式的全局奖赏,用于在约束方向上更新策略,以及以相对权重形式的边界奖赏,以强调策略的正确性。
IJCAI 2021 | 基于因果干预的图像字幕依赖多任务学习
最近的图像字幕工作主要遵循先提取后生成的模式,先提取一系列基于对象的特征,然后将图像字幕描述为一个序列到序列的任务。虽然前景看好,但我们观察到在生成字幕时存在两个问题:1)内容不一致,模型会生成相互矛盾的事实;2) 信息量不够,模型会遗漏部分重要信息。从因果关系的角度来看,原因是模型捕捉到了视觉特征和某些表情(例如,“长头发”和“女人”的视觉特征)之间虚假的统计相关性。在本文中,我们提出了一个基于因果干预的依赖多任务学习框架(DMTCI)。首先,我们涉及到一个中间任务,类别包生成,最后一个任务之前,图像字幕。中间任务可以帮助模型更好地理解视觉特征,从而缓解内容不一致的问题。其次,我们在模型上应用Pearl的do演算,切断视觉特征和可能的混淆因素之间的联系,从而使模型聚焦于因果视觉特征。具体地说,高频概念集被认为是代理混杂因子,其中真实混杂因子是在连续空间中推断出来的。最后,我们使用多智能体强化学习(MARL)策略来进行端到端训练,减少任务间错误的累积。大量的实验表明,我们的模型优于基准模型,并取得了与最先进的模型竞争的性能。
观点
加拿大皇家学会院士李明:要实现病癌个体化免疫治疗,我们必须用人工智能替代实验室流程
根据国际癌症研究机构发布的2020年世界癌症报告显示,2020年全世界有996万例患者死于癌症,同时有1929万例新发癌症病例。而我国在2020年的新发癌症病例有456.9万人,癌症死亡病例300.2万例。抗击癌症,已然是中国以及世界范围内刻不容缓亟待解决的问题。发现新抗原是个体化癌症免疫治疗的关键步骤。每个病人都有独特的新抗原。近日,加拿大皇家学会院士李明教授在第二期AIR学术沙龙上,进行了以“人工智能赋能个体化癌症免疫治疗”为主题的报告分享,他认为要实现病癌个体化免疫治疗,我们必须用人工智能替代湿实验室流程。
行业与政策
博洛尼亚大学、伦敦大学学院艾伦·图灵研究所|深度生成学习中的版权问题
易咖智车完成数千万元 Pre-A 轮融资
墨奇科技完成2.5亿元B轮融资,聚焦解决 AI 瓶颈
5月21日,墨奇科技宣布完成 2.5 亿元人民币 B 轮融资,领投方为某互联网巨头。此轮融资后,墨奇科技将会重点投入在 AI 底层数据的通用处理技术,持续发力以 AI 知识为核心的新型非结构化数据库,及在此之上发展出的新一代生物识别平台。
数据
Salesforce Research | BookSum:长篇叙事摘要数据集
代码
华为 | Grad-TTS:文本到语音的扩散概率模型
最近,显示了降噪扩散概率模型和生成分数匹配建模复杂数据分布的潜力很大,而随机演算已提供这些技术的统一观点允许灵活的推理方案。在这个在本文中,我们介绍Grad-TTS,这是一种新颖的文本转语音模型,它具有基于分数的解码器,通过逐步变换来生成梅尔谱图编码器预测并与文本对齐的噪声通过单调对齐搜索输入。随机微分方程的框架帮助我们将常规扩散概率模型推广到重建数据的情况来自具有不同参数的噪声,并允许通过明确地使这种重构变得灵活控制声音质量和声音质量之间的权衡推理速度。主观的人类评价表明Grad-TTS与最新的文本语音转换方法相比在平均意见分数上具有竞争优势。
菲律宾大学 | ViTSTR:快速高效场景文本识别的视觉Transformer
旷视科技 | HINet:用于图像复原的半实例归一化网络
在本文中,我们探讨了Instance Normalization在low-level视觉任务中的作用。具体来说,我们提出了一个新颖的块:半实例标准化块(HIN块),以提高图像复原网络的性能。基于HIN Block,我们设计了一个简单而强大的多阶段网络HINet,该网络由两个子网组成。在HIN Block的帮助下,HINet在各种图像复原任务方面超越了最新技术(SOTA)。对于图像去噪,我们在SIDD数据集上的PSNR超过0.11 dB和0.28 dB,其乘数累加器运算(MAC)分别只有7.5%和30%,分别是加速的6.8倍和2.9倍。对于图像去模糊,我们获得了可比的性能,其MAC为22.5%,在REDS和GoPro数据集上的速度是其3.3倍。对于图像排水,我们将多个数据集的平均结果的PSNR值提高了0.3 dB,即提高了1.4倍。凭借HINet,我们在NTIRE 2021图像去模糊挑战赛-Track2中获得了第一名。 JPEG伪像,PSNR为29.70。
教程
微软:人工智能系统(AI-System)共建课程
近年来人工智能特别是深度学习技术得到了飞速发展,这背后离不开计算机硬件和软件系统的不断进步。在可见的未来,人工智能技术的发展仍将依赖于计算机系统和人工智能相结合的共同创新模式。需要注意的是,计算机系统现在正以更大的规模和更高的复杂性来赋能于人工智能,这背后不仅需要更多的系统上的创新,更需要系统性的思维和方法论。与此同时,人工智能也反过来为设计复杂系统提供支持。我们注意到,现在的大部分人工智能相关的课程,特别是深度学习和机器学习相关课程主要集中在相关理论、算法或者应用,与系统相关的课程并不多见。我们希望人工智能系统这门课能让人工智能相关教育变得更加全面和深入,以共同促进人工智能与系统交叉人才的培养。
李飞飞经典CS231N2021《卷积神经网络视觉识别》课程第十三讲《自监督学习》概述
【2021新书】PyTorch实战深度学习模型
本书带你掌握使用PyTorch实现深度学习解决方案的实践方面,使用实践方法理解理论和实践。Facebook的人工智能研究小组开发了一个名为PyTorch的平台,该平台拥有良好的理论基础和实用技能,为你在现实世界中应用深度学习做好了准备。首先,您将了解PyTorch的深度学习是如何以及为什么成为一种具有开创性的框架,它带有一组工具和技术来解决现实世界中的问题。接下来,这本书将为你打下线性代数、向量微积分、概率和最优化的数学基础。在建立了这个基础之后,您将继续讨论PyTorch的关键组件和功能,包括层、损失函数和优化算法。您还将了解基于图形处理单元(GPU)的计算,这对训练深度学习模型是必不可少的。介绍了深度学习的前馈网络、卷积神经网络、循环神经网络、长短时记忆网络、自动编码器网络和生成对抗网络等关键网络结构。在许多训练和优化深度学习模型的技巧的支持下,这个版本的Python深度学习解释了使用PyTorch将这些模型带到生产中的最佳实践。
新工具
华为诺亚开源通用AutoML工具包ModularNAS
华为诺亚方舟实验室联合上海交大APEX实验室、新加坡国立大学最新发表开源ModularNAS,一款使用者友好的通用AutoML框架。它通过将不同的AutoML算法用统一的形式表达和编码,将搜索空间设计,优化算法,评估策略解耦为可独立交互的模块,真正实现了不同AutoML 模块的即插即用。该算法包内置了搜索空间自动生成功能,极大减少了不同业务场景下的AutoML使用开发成本。同时可自动调用内置的优化算法,用户只需简单配置,即可在特定业务场景下获得比当前架构性能更优的网络结构。该算法包已经在华为广泛的业务场景,如指纹识别,声纹识别,游戏app推荐等验证有效。作为一个独具创造性的研究成果,该论文已被MLSys2021接收。
Learning to Fly:使用PyBullet物理引擎的Gym环境
本文提出了一种基于Bullet物理引擎的与OpenAI Gym类似的环境,专为四轴飞行器设计。它拥有多智能体和基于视觉的强化学习交互界面,同时支持真实碰撞与空中动态效果。此环境不但支持传统控制任务,还支持强化学习的单智能体和多智能体任务等,可进行控制理论与机器学习相结合的科研工作。
捷克理工大学 | 用于视觉运动机器人任务的模块化工具箱
本文提出了一个新的虚拟模拟器工具包myGym,它是为强化学习(RL)、内在激励和在3D模拟器中训练的模仿学习任务而开发的。经过训练的任务可以很容易地转移到真实世界的机器人场景中。模拟器的模块化结构使用户能够在各种机器人、环境和任务的大量场景中训练和验证他们的算法。与适用于经典机器人学习的现有工具包(如OpenAI Gym、Roboschool)相比,myGym还适用于需要内在动机的视觉运动(结合视觉和运动)无监督任务,即机器人能够产生自己的目标。还有用于人机交互的协作场景。该工具包为视觉运动任务提供预训练的视觉模块,允许快速原型制作,此外,用户可以定制视觉子模块,并使用他们自己的对象集重新训练。在实践中,用户选择期望的环境、机器人、对象、任务和奖励类型作为仿真参数,并且训练、可视化和测试本身被自动处理。因此,用户可以完全专注于神经网络架构的开发,同时使用预定义的参数来控制环境的行为。
应用
医学图像分割 | 使用「挤压-激励」Transformer 进行医学图像分割
福井大学 | TaylorMade VDD: 适用于非凸圆柱形金属物体高混合低批量生产的域自适应视觉缺陷检测方法
高混合低量非凸金属物体的视觉缺陷检测(VDD)具有挑战性,因为在领域上有细微差异(例如,金属物体、成像设备、视点、照明)会显著影响单个金属物体类型的镜面反射特性。本文通过引入可自动适应新领域的定制VDD框架(其可将具有复杂镜面反射的非凸金属部件和高混合低量生产组合在一起)来解决此问题。具体来说,本文将需要适应任务定义为深度目标检测网络上的网络架构搜索问题(NAS),其中网络架构是通过强化学习来搜索的。并且使用VDD-HPPPs任务作为工厂案例研究以验证该框架的有效性,实验结果表明,对于非凸HPPPs,与基线方法相比,该方法对不同训练/测试域的数据具有更高的毛刺检测精度,尤其是受域偏移的影响。
清华|基于风格指导规划的风格化的故事生成
当前的叙事系统更加关注无论叙述风格如何,都可以使用连贯的情节来生成故事,这对于可控文本的生成很重要。因此,我们提出了一项新任务,即风格化的故事生成,即在给定主要上下文的情况下以指定样式生成故事。 应对这个问题,我们提出了一个模型:首先计划风格化关键字,然后用关键字指导。 此外,我们提出了两个自动指标来评估生成的故事与指定的样式。 实验证明我们的模型可以根据ROCStories数据集可控地生成情感驱动或事件驱动的故事。
会议
AIS2021顶会论文报告会即将开始
今年七月至八月,SIGIR、IJCAI和ACL三大国际顶级会议将陆续举行。ACL和IJCAI都是自然语言处理和计算语言学领域最高级别的学术会议,SIGIR是信息检索领域重要的国际论坛,三大会议囊括了全球人工智能领域,尤其是自然语言处理领域和信息检索领域的最新先进成果。2021年三大会议论文预讲会,即AIS顶会论文报告会也即将举办。AIS顶级会议论文报告会是中国中文信息学会青年工作委员会主办的系列学术活动,自2017年起已连续举办五届,该活动旨在为国内学者提供更快速和更便捷的了解领域前沿的交流机会,活动将邀请被上述三大顶会录用文章的作者进行报告交流,融三大会议的精彩内容为一体,每年都吸引数千名专家学者进行线上线下交流。本届AIS顶级论文报告会将在5月29日至30日在北京举办。
以上是《智源社区AI周刊》第74期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢