导读

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第75期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/05/24~2021/05/30),值得关注的内容有以下3方面:

一、近日, Guide2Research网站 2021 全球Top 1000 计算机科学和电子领域顶尖科学家名单最新出炉了!其中有14位顶尖科学家获得了计算机科学领域最负盛名的图灵奖,273名科学家是ACM Fellow,401名科学家是IEEE Fellow这份名单旨在让学术界的学者了解计算机科学最前沿的学者所做出的有影响力的研究贡献,且它希望能激励世界各地的研究人员、决策者和企业家们,找出顶尖专家的研究发展方向。(详情参见本周报“人物”栏目)

二、近日,中国工程院院士、国家制造强国建设战略咨询委员会主任周济,在天津召开的第五届世界智能大会上,发表了题为《智能制造是第四次工业革命的核心技术》的主题演讲。报告全景展现了目前我国人工智能和智能制造领域的创新成果。主要分几部分:一、智能制造是推进制造强国战略的主要技术路线进入新时代;二、智能制造是第四次工业革命的核心技术;三、抓住机遇,乘势而上,实现中国制造业的跨越发展。(详情参见本周报“观点”栏目)

三、就在近日,TensorFlow 开源了 TensorFlow 决策森林 (TF-DF)。TF-DF 是用于训练、服务和解释决策森林模型(包括随机森林和梯度增强树)生产方面的 SOTA 算法集合。现在,你可以使用这些模型进行分类、回归和排序任务,具有 TensorFlow 和 Keras 的灵活性和可组合性。(详情参见本周报“新工具”栏目)

下面是各个要点的详情介绍。

论文推荐

Amazon Web Services | SiamMOT:Siamese多目标追踪

SiamMOTSiamese Multi-Object Tracking

本文专注于改进在线多目标追踪(MOT),提出一种基于区域的Siamese多目标追踪网络SiamMOT,同时检测和关联目标实例。SiamMOT包括一个运动模型,用于估计实例在两帧间的运动,从而使检测到的实例具有关联性。为探索运动模型如何影响其追踪能力,提出两种Siamese追踪器的变体,隐式运动模型和显式运动模型。在三个不同的MOT数据集上进行了广泛的定量实验,分别是MOT17、TAO-person和Caltech Roadside Pedestrians,显示了运动建模对MOT的重要性,以及SiamMOT大幅超越最先进水平的能力。SiamMOT在HiEve数据集上的表现也超过了ACM MM'20 HiEve Grand Challenge的优胜者。SiamMOT是高效的,在单个现代GPU上以17 FPS运行720P视频

查看详情及论文下载

腾讯&北理工 | 读、听、看:利用多模态信息帮助中文拼写检查

Read, Listen, and See: Leveraging Multimodal Information Helps Chinese  Spell Checking

中文拼写检查(CSC)的目的是检测和纠正用户生成的中文文本中的错误字符。大多数的中文拼写错误都是在语义、语音或图形上被误用的相似字符。以前的工作注意到了这一现象,并尝试将相似性用于此任务。但是,这些方法使用启发式或手工制作的混淆集来预测正确的字符。本文提出了一种直接利用汉字多模态信息的汉字拼写检查器REALISE模型。该模型处理CSC任务的方法是:(1)捕获输入字符的语义、语音和图形信息;(2)有选择地混合这些模式中的信息以预测正确的输出。在SIGHAN基准上的实验表明,该模型的性能明显优于强基线。

查看详情及论文下载

三星研究院 | 基于稀疏监督的移动端实时单目深度估计

Real-time Monocular Depth Estimation with Sparse Supervision on Mobile

对于诸如自动驾驶,增强现实和图像编辑等各种应用,单目(相对或度量)深度估计是一项关键任务。近年来,随着移动设备的可用性不断提高,准确且对移动设备友好的深度模型变得越来越重要。越来越精确的模型通常需要更多的计算资源,这阻碍了此类模型在移动设备上的使用。移动用例可以说是最不受限制的用例,它需要高度准确但对移动友好的体系结构。因此,我们尝试回答以下问题:如何在不增加进一步复杂性(即参数)的情况下改进模型?为此,我们从各个维度系统地探索了相对深度估算模型的设计空间,并且我们展示了通过关键的设计选择和消融研究,即使是现有的体系结构也可以达到与现有技术相比极高的竞争性能。我们的研究涵盖了深入的主干模型选择过程,知识蒸馏,中间预测,模型剪枝和损失重新平衡。我们展示了仅使用DIW作为监控数据集的模型,该模型在具有2.6M参数的DIW上实现了0.1156 WHDR,在移动GPU上达到了37 FPS,而没有进行剪枝或特定于硬件的优化。我们模型的修剪版本在具有1M参数的DIW上达到0.1208 WHDR,在移动GPU上达到44 FPS。

查看详情及论文下载

人物交互检测 | ST-HOI:视频中人与目标交互检测的时空基线

ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction Detection in Videos

ST-HOI利用人和物体的运动轨迹、正确定位的视觉特征和时空掩码姿态特征等时间信息,显式添加在人物交互检测过程中,为视频人物交互检测提供一个新的时空感知基线。ST-HOI采用了一段视频作为框架,以3D-CNN为主干提取整个片段的时空特征图,为了纠正由时间RoI池引起的不匹配,基于物体轨迹生成时间感知特征,包括正确定位特征和时空掩码姿态特征,然后将这些特征与轨迹通过线性层连接和分类,最后为ideoHOI提供一个简单但有效的时间感知基线。

查看详情及论文下载

浙江大学 | 用于旋转目标检测的方向性RepPoint

Oriented RepPoints for Aerial Object Detection

与定向边界框相比,point set表示具有很大的潜力来捕获航空图像中具有任意方向,宽高比和密集分布的实例的详细结构。然而,传统的基于点集的方法是使用点对点监督在固定位置上手工制作的,这损害了它们在细粒度特征提取上的灵活性。为了解决这些限制,在本文中,我们提出了一种新的航空目标检测方法,称为Oriented RepPoints。具体来说,我们提出采用一组自适应点来捕获任意定向物体的几何和空间信息,从而能够在空间和语义场景中自动将其自身布置在对象上。为了促进监督学习,提出了定向转换函数,以将自适应点集显式映射到定向包围盒中。此外,我们引入了一种有效的质量评估方法来选择要训练的点集样本,从而可以根据代表性项目在定向目标检测方面的潜力来选择代表性项目。此外,我们提出使用空间约束来惩罚真实边界框外部的离群点。除了关注重叠率的传统评估指标mAP之外,我们还提出了一种新的指标mAOE来测量方向精度,而该精度通常在先前有关定向目标检测的研究中被忽略。对三个广泛使用的数据集(包括DOTA,HRSC2016和UCAS-AOD)进行的实验表明,我们提出的方法是有效的。

查看详情及论文下载

观点

周济:智能制造是第四次工业革命的核心技术

近日,中国工程院院士、国家制造强国建设战略咨询委员会主任周济,在天津召开的第五届世界智能大会上,发表了题为《智能制造是第四次工业革命的核心技术》的主题演讲。报告全景展现了目前我国人工智能和智能制造领域的创新成果。主要分几部分:一、智能制造是推进制造强国战略的主要技术路线进入新时代;二、智能制造是第四次工业革命的核心技术;三、抓住机遇,乘势而上,实现中国制造业的跨越发展。

查看原文 | 参与讨论

行业与政策

自动驾驶公司飞步科技完成 B 轮数亿元融资

近日,由何晓飞教授创立、总部位于杭州的自动驾驶公司飞步科技宣布完成B轮数亿元融资。此轮融资由达晨财智领投,德屹资本、浙大友创、招商致远等机构跟投。

查看原文 | 参与讨论

OpenAI发起1亿美元的AI创业基金,建设GPT-3生态

OpenAI创业基金(The OpenAI Startup Fund)将投资1亿美元,以帮助AI公司对世界产生深远的积极影响。 我们希望与少数AI领域的早期创业公司合作,包括人工智能可以带来变革性影响的领域(例如医疗保健、气候变化和教育),以及AI工具可以通过帮助人们提高生产力来增强人们能力的领域。该基金由OpenAI管理,由Microsoft和其他OpenAI合作伙伴投资。 除资金外,OpenAI创业基金中的公司还将获得未来OpenAI系统的优先访问权,我们团队的支持以及Azure的免费额度(credit)。

查看原文 | 参与讨论

AI 制药初创公司 Engine Biosciences获4300 万美元 A 轮融资

美东时间 5 月 27 日,AI 制药初创公司 Engine Biosciences(简称 “Engine”)宣布完成了 4300 万美元 A 轮融资,本轮融资由 Polaris Partners 领投,新加坡风投 Invus 等跟投,天使轮投资方通和毓承、药明康德、百度风投、巢生资本等继续支持。

查看原文 | 参与讨论

人物

2021全球Top 1000计算机科学家h指数发布

近日, Guide2Research网站 2021 全球Top 1000 计算机科学和电子领域顶尖科学家名单最新出炉了!其中有14位顶尖科学家获得了计算机科学领域最负盛名的图灵奖,273名科学家是ACM Fellow,401名科学家是IEEE Fellow这份名单旨在让学术界的学者了解计算机科学最前沿的学者所做出的有影响力的研究贡献,且它希望能激励世界各地的研究人员、决策者和企业家们,找出顶尖专家的研究发展方向。对于所有人来说,这都是一个很好的机会来了解谁是不同研究领域、不同国家以及不同大学和研究机构的顶尖专家。在2021年第7版的排名中,Guide2Research对全世界超过6300名科学家的各项学术指标进行了审查,选出了前1000名顶尖科学家。排名基于5月10日前收集到的谷歌学术 H-index 指标(h指数需>=40),也综合了DBLP 和引用值。

查看原文 | 参与讨论

数据

Few-NERD:一个Few-shot场景的命名实体识别数据集

本文发布了Few-NERD,一个大规模的人工标注的用于few-shot NER任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有188,238个来自维基百科的句子,4,601,160个词,每个词都被注释为上下文(context)或一个实体类型的一部分。这是第一个few-shot NER数据集,也是最大的人工标注NER数据集之一。我们构建了具有不同侧重点的基准任务来全面评估模型的泛化能力。广泛的实证结果和分析表明,few-shot NER任务充满挑战性,亟待进一步研究。

查看原文 | 参与讨论

代码

北京航空航天大学| PSGAN++:细节保留的妆容迁移和去除

在本文中,我们同时处理化妆迁移和卸妆任务,目的是将化妆从参考图像转移到源图像,并分别从化妆图像中移除化妆。现有的方法在受限的情况下已经取得了很大的进步,但是对于它们来说,要在姿势和表情差异较大的图像之间迁移妆容,或者处理脸颊上的腮红或鼻子上的高光等妆容细节仍然非常具有挑战性。另外,它们几乎不能控制在转移过程中的化妆程度或在输入人脸上转移指定部位。在这项工作中,我们提出了PSGAN ++,它能够执行保留细节的化妆迁移和有效的化妆去除的功能。对于化妆迁移,PSGAN ++使用“化妆蒸馏网络”提取化妆信息,该信息被嵌入到具有空间意识的化妆矩阵中。我们还设计了一个“注意力化妆变形”模块,该模块指定源图像中的化妆如何从参考图像变形,并指定化妆细节损失以监督所选化妆细节区域内的模型。另一方面,对于卸妆,PSGAN ++应用了身份提取网络将身份信息与化妆图像一起嵌入到身份矩阵中。最后,将获得的化妆/身份矩阵馈送到风格迁移网络,该样式转移网络能够编辑特征图以实现化妆转移或移除。为了评估PSGAN ++的有效性,我们收集了Wild数据集中的Makeup Transfer数据集,其中包含具有不同姿势和表情的图像;而Makeup Transfer High-Resolution数据集则包含高分辨率图像。实验证明,即使在姿势/表情差异较大的情况下,PSGAN ++不仅可以以精细的化妆细节获得最新的效果,而且还可以执行部分​​或程度可控的化妆迁移。

查看原文 | 参与讨论

华东师范大学 | CSD:通过对比自蒸馏实现紧凑的单图像超分辨率

卷积神经网络(CNN)在超分辨率(SR)方面非常成功,但通常需要具有大量的内存成本和计算开销的复杂体系结构,从而极大地限制了它们在资源受限设备上的实际部署。在本文中,我们提出了一种新颖的对比自蒸馏(CSD)框架,以同时压缩和加速各种现成的SR模型。尤其是,可以首先从目标教师网络构建一个紧凑的学生网络作为通道拆分超分辨率网络。 然后,我们提出了一种新颖的对比损失,通过显式知识迁移来提高SR图像和PSNR / SSIM的质量。 大量实验表明,提出的CSD方案有效压缩和加速了几种标准SR模型,例如EDSR,RCAN和CARN。

查看原文 | 参与讨论

微软 | METRO:基于Transformer的3D人体姿态和Mesh重建

我们提出了一种称为MEsh TRansfOrmer(METRO)的新方法,可以从单个图像重建3D人体姿态和mesh。我们的方法使用Tranformer编码器对顶点-顶点和顶点-关节相互作用进行联合建模,并同时输出3D关节坐标和网格顶点。与回归姿态和形状参数的现有技术相比,METRO不依赖任何参数网格模型(例如SMPL),因此可以轻松扩展到其他对象(例如手)。我们进一步放宽了网格拓扑,并允许Transformer的自注意力机制自由地参与任意两个顶点之间的连接,从而可以了解网格顶点和关节之间的非局部关系。借助提出的蒙版顶点建模,我们的方法在处理诸如局部遮挡等挑战性情况时更加健壮和有效。 METRO在公共Human3.6M和3DPW数据集上生成了用于人类网格重建的最新技术结果。此外,我们证明了METRO在wild进行3D手重建的普遍性,其表现优于FreiHAND数据集上现有的最新方法。

查看原文 | 参与讨论

教程

哈工大SCIR | 可解释的自然语言处理方法简介

传统的自然语言处理方法具有可解释性,这些自然语言处理方法包括基于规则的方法、决策树模型、隐马尔可夫模型、逻辑回归等,也被称为白盒技术。近年来,以语言嵌入作为特征的深度学习模型(黑盒技术)不断涌现,虽然这些方法在许多情况下显著提高了模型的性能,但在另一方面这些方法使模型变得难以解释。用户难以了解数据经过怎样的过程得到所期望的结果,进而产生许多问题,比如削弱了用户与系统之间的交互(如聊天机器人、推荐系统等)。机器学习社区对可解释性重要程度的认识日益增强,并创造了一个新兴的领域,称为可解释人工智能(XAI)。而关于可解释性有多种定义,大部分相关文章的论证也因此有所差异。这里我们关注的是可解释人工智能给用户提供关于模型如何得出结果的可解释,也称为结果解释问题(outcome explanation problem)。在可解释人工智能中,解释可以帮助用户建立对基于NLP的人工智能系统的信任。本文依据前人的综述讨论了可解释的分类方式,介绍了能够给出可解释的技术及其具体操作,并简要地描述了每一种技术及其代表性论文。

查看原文 | 参与讨论

Datawhale|强化学习教程

《Easy-RL》由开源组织 Datawhale 发起,由中科院王琦、清华大学杨毅远、北京大学江季三位组织成员主要负责。本书结合了李宏毅老师的《深度强化学习》、周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》等多个强化学习的经典资料,并配有相关的习题、面经以及完全版的代码实战,适合想入门强化学习的小伙伴。时隔半年,《Easy-RL》 在原有的基础上进行了充分地迭代和优化,不仅对发布时已有章节进行了完善和纠错,同时还补充了常见的面试题,当然,项目作者还给出了完全版的强化学习实战代码,方便大家深入学习。

查看原文 | 参与讨论

浙江大学 | 基于深度学习的弱监督目标检测和定位:调研

弱监督目标检测(WSOD)和定位(WSOL),即使用图像级标签在图像中使用边界框检测多个实例和单个实例,是CV社区中长期存在且具有挑战性的任务。随着深度神经网络在目标检测中的成功应用,WSOD和WSOL都受到了前所未有的关注。在深度学习时代,已经提出了数百种WSOD和WSOL方法以及许多技术。为此,在本文中,我们认为WSOL是WSOD的子任务,并且对WSOD的最新成就进行了全面的调查。具体来说,我们首先描述WSOD的制定和设置,包括背景,挑战,基本框架。同时,我们总结并分析了所有先进的技术和训练技巧,以提高检测性能。然后,我们介绍了WSOD广泛使用的数据集和评估指标。最后,我们讨论了WSOD的未来方向。我们认为,这些摘要可以为将来对WSOD和WSOL的​​研究铺平道路。

查看原文 | 参与讨论

新工具

TensorFlow开源决策森林库TF-DF

就在近日,TensorFlow 开源了 TensorFlow 决策森林 (TF-DF)。TF-DF 是用于训练、服务和解释决策森林模型(包括随机森林和梯度增强树)生产方面的 SOTA 算法集合。现在,你可以使用这些模型进行分类、回归和排序任务,具有 TensorFlow 和 Keras 的灵活性和可组合性。

查看原文 | 参与讨论

东京大学 | MarioMix: 通过交互式强化学习为机器人创建对齐的游戏风格

本文提出了一个通用的框架,该框架使游戏开发者无需具备机器学习知识,就可以根据自己的喜好来创建具有行为风格的机器人行为。此外,该框架基于交互式强化学习(IRL),并使用它创建了一个名为MarioMix的行为创作工具。此工具使非专家能够为名为“Super Mario Bros”的游戏创建具有不同游戏风格的机器人。MarioMix的主要交互过程包括向最终用户展示具有不同游戏风格的预计算机器人的短游戏剪辑。然后,最终用户可以选择具有预期行为的playstyle的bot。最好,本文通过整合业内游戏设计师的意见来评估MarioMix。研究结果表明MarioMix是一个在游戏行业环境中通过交互式RL创建一致机器人行为的有效工具。

查看原文 | 参与讨论

网易互娱AI Lab推出全球首个落地的舞蹈动画合成系统

近日,网易互娱 AI Lab 在 SIGGRAPH 2021 官方精选预告片上展现了其首个符合实际生产环境应用要求的舞蹈动画合成系统 ChoreoMaster。该系统可依据音乐风格生成爵士、二次元、街舞等不同类型的舞蹈动画,目前已为网易旗下的多款游戏项目产出了数个小时的高质量舞蹈动作资源。

查看原文 | 参与讨论

应用

爱荷华州立大学 | 基于深度强化学习的可解释无人机避碰

任何成功的自动飞行系统的主要组成部分都是任务完成和避免碰撞。大多数深度学习算法在训练有素的环境和条件下执行这些方面时都是成功的。但是,它们在新颖的环境下会失败。本文提出了使用深度强化学习和自主注意模型增强的自主无人机飞行,当受到不同的输入时,该模型可以有效地进行推理。除了其推理能力外,它们还具有可解释性,使其能够在实际条件下使用。在不同的天气和环境下测试了我们的算法,并发现它与传统的“深度强化学习”算法相比具有更强的鲁棒性

查看原文 | 参与讨论

高丽大学 | 基于注意力的实时无人机语义通信强化学习

本文研究了移动地面用户的空对地超可靠和低延迟通信(URLLC)问题。其通过实时控制多个无人飞行器(UAV)来完成,同时避免了无人驾驶飞机之间的碰撞。为此,本文提出了一种新颖的多主体深度强化学习(MADRL)框架,该框架创造了图注意力交换网络(GAXNet)。在GAXNet中,每个UAV都会在本地构造一个注意力图,以测量对其相邻UAV的注意力水平,同时与其他UAV交换注意力权重,以减少它们之间的注意力失配。仿真结果证实了GAXNet在训练过程中可获得高达4.5倍的更高回报。在执行时,GAXNet不会造成UAV之间的冲突,将延迟降低了6.5倍,目标错误率为0.0000001。

查看原文 | 参与讨论

将考虑事故编码的时空卷积序列学习用于交通流预测

在智能交通系统中,交通预测的关键问题是如何提取周期性的时间相关性和复杂的空间相关性。当前用于交通流预测的最新方法基于图体系结构和序列学习模型,但是它们并未完全利用交通系统中的时空动态信息。具体来说,因为卷积操作使用全局平均池,短距离的时间依赖性通过递归神经网络被稀释,并且现有的序列模型忽略了局部空间信息。此外,在对象转换期间还会发生一些交通事故,导致现实世界中的拥塞,从而触发预测偏差的增加。为了克服这些挑战,本文提出了时空卷积序列学习(STCL),其中集中的时态块使用单向卷积有效捕获短期周期性时态依赖,而时空融合模块能够提取两种交互的依存关系,并减小了特征尺寸。此外,事故特征对本地交通拥堵有影响,位置编码可用于检测复杂交通情况下的异常情况。本文对大规模的现实世界任务进行了广泛的实验,并验证了提出的方法的有效性。

查看原文 | 参与讨论

以上是《智源社区AI周刊》第75期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除