导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第70期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/04/19~2021/04/25),值得关注的内容有以下3方面:
一、近日,WWW 2021最佳论文奖项出炉了!来自华盛顿大学的强化学习在线心理健康应用《Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach》获得最佳论文,台湾国立交通大学《ConceptGuide: Supporting Online Video Learning with Concept Map-based Recommendation of Learning Path》获得最佳学生论文。(详情参见本周报“会议”栏目)
二、近日,智源青年科学家,中国人民大学高瓴人工智能学院教授赵鑫的研究成果荣获ECIR “Test of Time Award”奖项,该成果系赵鑫于博士期间以第一作者发表的论文“Comparing Twitter and Traditional Media Using Topic Models”。Test of Time Award是欧洲信息检索会议(ECIR)的最高论文奖,奖励在过去十年间对信息检索研究产生重要影响的论文。本次获奖的研究为社交媒体的主题语义抽取与分析,论文提出了面向微博文本的主题模型Twitter-LDA,对短文本的主题语义研究发展有着较为重要的影响。迄今为止论文获得了超过1400次引用,被100余篇论文采用作为基线方法或者数据预处理方法。(详情参见本周报“人物”栏目)
三、为了提升多 GPU 并行训练的效率,研发更高效的并行计算框架是十分必要的。因此,作为北京人工智能研究院超大规模智能模型系统“悟道”的阶段进展,TDS(Tsinghua/Temporary DeepSpeed)插件横空出世,该插件进一步优化了如今最流行的 DeepSpeed 并行计算框架,从而「多快好省」地训练一个大模型。(详情参见本周报“新工具”栏目)
下面是各个要点的详情介绍。
论文推荐
预训练&主动学习 | 预训练模型的贝叶斯主动学习
MGSampler: An Explainable Sampling Strategy for Video Action Recognition
学习( ) 进行 了 的 。 然 中的 学习 ,这 并不能有 的 。本文 学习 这些 。作者 提出 可用 数据 的 学习。作者 一个 微 的 , 将 o o t 下 , 采样 信 的 ,与 的 比 M在数据 上 提升。
南京大学 | MGSampler:视频行为识别的可解释采样策略
MGSampler: An Explainable Sampling Strategy for Video Action Recognition
由于时间上的基本冗余和有限的计算资源,帧采样是视频动作识别中的一个基本问题。现有的采样策略通常采用固定的帧选择,并且缺乏处理视频中复杂变化的灵活性。在本文中,我们提出了一种可解释的,自适应的,有效的帧采样器,称为运动引导采样器(MGSampler)。我们的基本动机是,运动是一种重要且通用的信号,可以驱使我们自适应地从视频中选择帧。因此,我们在MGSampler设计中提出了两个重要的属性:运动敏感和运动均匀。首先,我们提出两种不同的运动表示形式,以使我们能够有效地将运动显著帧与背景区分开。然后,我们基于累积的运动分布设计了运动均匀采样策略,以确保采样帧以较高的运动显著性均匀覆盖所有重要帧。我们的MGSampler产生了一种新的有原则的整体采样方案,可以将其合并到任何现有的视频体系结构中。在五个基准上进行的实验证明了我们的MGSampler相对于以前固定的采样策略的有效性,以及它在不同主干,视频模型和数据集上的泛化能力。
香港中文大学 | ReviewKD:通过知识回顾进行知识蒸馏
Distilling Knowledge via Knowledge Review
知识蒸馏将知识从教师网络迁移到学生网络,目的是大大提高学生网络的性能。先前的方法主要着重于提出相同级别的特征之间的特征变换和损失函数以提高有效性。 我们以不同的方式研究师生网络之间连接路径跨层次的因素,并揭示了它的重要性。 在知识蒸馏中,第一次提出了跨阶段的连接路径。我们新的review机制有效且结构简单。 我们最终设计的嵌套且紧凑的框架所需的计算开销可忽略不计,并且在各种任务上都优于其他方法。我们将我们的方法应用于分类,目标检测和实例分割任务。 所有这些都见证了学生网络性能的显著提高。
跨模态知识蒸馏 | 通过组合对比学习蒸馏音频-视觉知识
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
。
谷歌、哥大、康奈尔|VATT:用于原始视频,音频和文本多模式自监督变换器
我们提出了使用无卷积从未标记数据中学习多峰表示的框架变换器架构。具体来说,我们的视频音频文本转换器(VATT)将原始信号用作输入,提取足够丰富的多模式表示受益于各种下游任务。我们使用多峰对比损失从头到尾训练VATT并通过以下任务评估其性能视频动作识别,音频事件分类,图像分类和文本到视频的检索。此外,我们研究了与模式无关的单骨干变换器通过在三种方式之间共享权重。我们展示无卷积的VATT优于最新技术在下游任务中基于ConvNet的体系结构。特别是,VATT的视觉变换器在Kinetics-400上达到了82.1%的top-1精度,在Kinetics-600上达到了83.6%,和时间上的41.1%,同时避免了新的记录有监督的预训练。与ImageNet相比,转换为图像分类可提高78.7%的top-1准确性,通过从头开始训练同一台Transformer可以提高到64.7%,展示了我们模型的通用性,尽管视频和图像之间存在领域差距。 VATT的音频变换器也创下了基于波形的音频的新记录,通过在AudioSet上实现39.4%的mAP而无需任何监督的预训练,从而实现事件识别。
观点
工程院院士李德毅:认知的三次革命,类脑的五条启发
近日,中国工程院院士李德毅在在苏州举办的2020中国人工智能产业年会上,做了《探索新一代人工智能》的报告。李德毅院士是中国人工智能学会名誉理事长,军事科学院系统工程研究院研究员,近期被评选获得「吴文俊人工智能最高成就奖」。在报告中,李德毅院士从宏观层面回答了以下几个问题:(1)认知的三次革命;(2)「智能」的定义;(3)类脑的五条启发等。
行业与政策
欧盟最新AI监管草案:全面禁止大规模监控及基于AI的社会信用体系
在数据保护和人工智能技术监管方面,欧盟一直走在立法实践的最前端。当地时间 4 月 21 日,欧盟委员会公布了名为 “Laying Down Harmonised Rules on Artificial Intelligence (Artificial Intelligence Act) And Amending Certain Union Legislative Acts” 的草案,对人工智能技术应用进行了风险评定。根据这份草案,欧盟将全面禁止大规模监控和利用人工智能技术的社会信用体系,同时对特定领域的 “高风险” 应用进行严格限制。
AI芯片发展现状及前景分析
随着深度学习领域带来的技术性突破,人工智能(artificial intelligence,AI)无论在科研还是在产业应用方面都取得了快速的发展。深度学习算法需要大量的矩阵乘加运算,对大规模并行计算能力有很高的要求,CPU和传统计算架构无法满足对于并行计算能力的需求,需要特殊定制的芯片。目前,AI芯片行业已经起步并且发展迅速。本文介绍了AI芯片的发展现状和前景。
AI制药独角兽Recursion挂牌上市
日前,美国 AI 制药独角兽 Recursion Pharmaceuticals(以下简称为 “Recursion”)成功在纳斯达克挂牌上市,股票代码是 RXRX。官网显示,Recursion 是一家成立于 2013 年的 AI 制药公司,在研管线即将进入临床 II 期发展阶段。目前,共有 218 名员工。2019 年,该公司被美国商业杂志 Fast Company 选为 “最具创新力公司”。
人物
智源青年科学家,中国人民大学高瓴人工智能学院教授赵鑫获 ECIR 2021“Test of Time Award”奖
3月28日至4月1日,欧洲信息检索会议(ECIR)于线上召开并发布公示,智源青年科学家,中国人民大学高瓴人工智能学院教授赵鑫的研究成果荣获“Test of Time Award”奖项,该成果系赵鑫于博士期间以第一作者发表的论文“Comparing Twitter and Traditional Media Using Topic Models”。Test of Time Award是欧洲信息检索会议(ECIR)的最高论文奖,奖励在过去十年间对信息检索研究产生重要影响的论文。本次获奖的研究为社交媒体的主题语义抽取与分析,论文提出了面向微博文本的主题模型Twitter-LDA,对短文本的主题语义研究发展有着较为重要的影响。迄今为止论文获得了超过1400次引用,被100余篇论文采用作为基线方法或者数据预处理方法。
代码
拉普拉斯金字塔变换网络
本文是香港理工大学的张磊团队在image-to-image translation方面继3DLUT之后的又一力作。本文创造性的将拉普拉斯金字塔与深度学习进行了结合,对于拉普拉斯金字塔的分离、重建特性与image-to-image translation之间的共通之处进行了分析,进而提出了本文的LPTN。所提LPTN可以在一个常规GPU上对4K分辨率图像进行实时变换,同时取得与其他方案相当甚至更优的性能。
DisAlign:面向多种长尾视觉任务的统一框架
尽管深度神经网络最近取得了成功,但是在视觉识别任务中有效地建模长尾类分布仍然具有挑战性。为了解决这个问题,我们首先通过消融研究来研究两阶段学习框架的性能瓶颈。根据我们的发现,我们提出了一种用于长尾视觉识别的统一分布对齐策略。具体来说,我们开发了一种自适应校准功能,使我们能够调整每个数据点的分类得分。然后,我们在两阶段学习中引入一种通用的重新加权方法来平衡类别先验,从而为视觉识别任务中的各种情况提供了灵活统一的解决方案。我们通过对四个任务的广泛实验来验证我们的方法,包括图像分类,语义分割,目标检测和实例分割。我们的方法以简单统一的框架实现了所有四个识别任务的最新结果。
AECR-Net:用于紧凑型单图像去雾的对比学习
由于严重的信息退化,单图像去雾是一个具有挑战性的不适定问题。然而,现有的基于深度学习的除雾方法仅采用清晰的图像作为正样本来指导除雾网络的训练,而未利用负信息。而且,它们中的大多数集中在通过增加深度和宽度来增强除雾网络,从而导致对计算和存储器的显着需求。在本文中,我们提出了一种基于对比学习的新颖对比正则化(CR)技术,以利用模糊图像和清晰图像的信息分别作为负样本和正样本。 CR确保在表示空间中将还原后的图像拉到更接近清晰图像,并推到远离朦胧图像的位置。此外,考虑到性能和内存存储之间的权衡,我们基于类自动编码器(AE)框架开发了一个紧凑的除雾网络。它涉及一个自适应混合操作和一个动态特征增强模块,可以分别受益于自适应地保存信息流和扩展接收域以提高网络的转换能力。我们将具有自动编码器和对比正则化功能的除雾网络称为AECR-Net。在合成和真实数据集上进行的广泛实验表明,我们的AECR-Net超越了最新技术。
教程
中国人民大学:多样性文本生成任务的研究进展
近年来开放域的闲聊对话研究如雨后春笋般涌现,甚至还做起了跨界,如最近炙手可热的会话推荐系统。而作为人工智能王冠上明珠中的一颗,自然语言处理中随时打算挑战图灵测试的对话系统,当然是不可能止步于机械地一问一答的形式,因此本文基于一对多生成这个角度,探索相关领域的多样性生成,希望能给一对多对话生成注入新的构思。下面主要介绍近来的 5 篇多样性生成的研究成果。
图神经网络在自然语言处理中的应用
近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然语言处理领域中的应用进行了系统性的综述, 首先介绍了图神经网络的核心思想并梳理了三种经典方法: 图循环网络,图卷积网络和图注意力网络;然后在具体任务中,详细描述了如何根据任务特性构建合适的图结构以及如何合理运用图结构表示模型。该文认为,相比专注于探索图神经网络的不同结构,探索如何以图的方式建模不同任务中的关键信息,是图神经网络未来工作中更具普遍性和学术价值的一个研究方向。
康奈尔大学「深度概率与生成模型」2021SP课程
生成模型是一类机器学习算法,它定义了图像、序列和图等复杂高维物体的概率分布。深度神经网络和优化算法的最新进展显著地增强了这些模型的能力,并重新激发了对它们的研究兴趣。本课程探讨深度生成模型的基本概率原理、它们的学习算法和流行的模型族,包括变分自编码器、生成对抗网络、自回归模型和规范化流。本课程还涵盖了计算机视觉、自然语言处理和生物医学等领域的应用,并将其与强化学习领域联系起来。
新工具
MBRL-Lib:基于模型的强化学习的模块化库
基于模型的强化学习是一个引人注目的框架,可提高数据效率学习与世界互动的智能体。 该算法系列具有许多子组件需要仔细选择和调整。 结果是研究人员进入该领域并将其部署到实际任务中的门槛可能令人生畏。 在本文中,我们介绍了MBRL-Lib –机器学习库在连续状态动作空间中基于模型的强化学习在PyTorch上。 MBRL-Lib被设计为两个研究人员的平台,可以轻松地开发,调试和比较新算法以及非专家用户,以降低部署最新算法的门槛。
智源发布 | 大规模并行训练效率提升神器 TDS
为了提升多 GPU 并行训练的效率,研发更高效的并行计算框架是十分必要的。因此,作为北京人工智能研究院超大规模智能模型系统“悟道”的阶段进展,TDS(Tsinghua/Temporary DeepSpeed)插件横空出世,该插件进一步优化了如今最流行的 DeepSpeed 并行计算框架,从而「多快好省」地训练一个大模型。
Hugging Face发布PyTorch新库「Accelerate」:适用于多GPU、TPU、混合精度训练
多数 PyTorch 高级库都支持分布式训练和混合精度训练,但是它们引入的抽象化往往需要用户学习新的 API 来定制训练循环。许多 PyTorch 用户希望完全控制自己的训练循环,但不想编写和维护训练所需的样板代码。Hugging Face 最近发布的新库 Accelerate 解决了这个问题。
应用
中科大 | 基于多智能体强化学习的智能电动汽车充电推荐
本文以同时最小化整体CWT、平均CP和CFR为长期目标,研究了智能电动汽车的充电推荐任务。并将此问题表述为多目标MARL任务,提出了时空MARL框架Master。即将每个充电站看作一个单独的agent,提出了一个具有集中注意力的多agent actor-critic框架,来激励agent学习协调合作的策略。此外,为了提高推荐的有效性,提出了一种延迟访问策略,以在模型训练过程中整合未来的充电竞争信息。在两个真实数据集上的大量实验证明了Master相比于9个基准的有效性。
NVIDIA 与阿斯利康合作:基于Transformer的生成式 AI 模型,实现药物研发探索的突破
NVIDIA 正与阿斯利康合作开发一种基于Transformer的生成式 AI 模型,用于药物研发的化学结构生成,这将是首个在 Cambridge-1上运行的项目,并且Cambridge-1将会成为英国最强大的超级计算机。这种模型会开源,在 NVIDIA NGC 软件目录中供研究人员和开发者使用,并且可部署在 NVIDIA Clara Discovery 计算药物研发平台上。
AI助两足机器人自学走路,还能旋转跳跃加速度
近日,加州大学伯克利分校的研究团队打造了一个两条腿的机器人Cassie(凯西),它可以通过AI强化学习自己学会走路,而非直接编程或模仿来学习。相比传统经典模型法,强化学习无需建模,而是通过AI学习框架让Cassie以“试错”的方式进行自主训练,类似于婴儿学走路,主动适应环境渐渐执行敏捷、稳定、多样化的行走动作。行走之外,Cassie还会不断学习跑步、跳跃等新技能,还可实现自动调速功能。
会议
WWW2021最佳论文出炉!华盛顿大学最佳论文,台湾国立交通大学斩获最佳学生论文!
2021年国际万维网大会The Web Conference(旧称WWW)将于2021年4月19日-23日线上召开。TheWebConf是中国计算机学会(CCF)推荐的A类国际学术会议,是互联网技术领域最重要的国际会议之一,由国际万维网会议委员会(IW3C2)和主办地地方团队合作组织,每年召开一次,今年是第30届会议。本次会议共接收1736篇提交长文,最终录用357篇,录用率为20.6%。刚刚最佳论文一系列奖项出炉了!来自华盛顿大学的强化学习在线心理健康应用《 Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach》获得最佳论文,台湾国立交通大学《ConceptGuide: Supporting Online Video Learning with Concept Map-based Recommendation of Learning Path》获得最佳学生论文!
以上是《智源社区AI周刊》第70期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢