导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第26期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
在过去一周(2020/06/08~2020/06/14)左右时间,首先值得推荐的内容有以下3方面:
- 方舟投资(ARKInvest)的最新一项报告指出,AI训练成本从2017年至2019年下降了100倍,但人工智能发展尚处于初期阶段。该报告同时发现AI算法效率每16个月翻一番,与OpenAI的报告结果一致。(详情参见本周报“行业与政策”栏目)
- 京东AI研究院近期开源FastReID,旨在促进ReID的研究和开发。其遵循高度模块化和可扩展的设计,可让相关研究者更容易验证新思路。同时易于管理的系统配置和工程部署功能,也使得它进行产品化更方便。(详情参见本周报“新工具”栏目) 近日,计算图形学机构ACMSIGGRAPH颁发了2020年最佳博士论文奖。MITCSAIL博士后研究员、太极(Taichi)论文第二作者李子懋(Tzu-MaoLi)获得该奖项。SIGGRAPH在颁奖词中称他的博士论文“为新兴的可微计算机图形学奠定了基础”。(详情参见本周报“人物”栏目)
- 第59届ACL大会将与第10届亚洲自然语言处理联合会议(International Joint Conference on Natural Language Processing, IJCNLP)联合组织举办(记作ACL-IJCNLP),于2021年8月1日至6日在泰国曼谷召开。此次大会的chair和程序委员会chair遴选工作由ACL执行委员会主导,在世界范围内提名、投票选举产生。宗成庆研究员成功当选该大会chair不仅意味着他本人及其团队的学术成就和地位得到了国际同行的认可,同时标志着我国计算语言学和自然语言处理研究领域在国际学术舞台拥有更多的话语权。宗成庆研究员曾于2015年担任ACL-IJCNLP大会的程序委员会chair,他将是近60年来既担任过该会议程序委员会chair,也担任大会chair的唯一一位华人学者。(详情参见本周报“人物”栏目)
下面是各个要点的详情介绍。
DMCP:可微分的深度模型剪枝算法 DMCP: Differentiable Markov Channel Pruning for Neural Networks
模型轻量化是深度学习工业化中一个绕不开的话题。很多神经网络模型虽然性能很好,但是计算开销巨大,难以在手机等端上设备高效运行。因此,如何得到计算开销满足要求,同时性能也可支撑工业应用的模型一直是大家研究的重点。其中,模型剪枝就是此类方法中比较重要的一项技术。它通过裁剪神经网络的通道数来降低计算开销,同时根据特定剪枝算法来选取裁剪掉哪些通道从而降低该过程中的性能损失。在CVPR 2020上,商汤研究院被接收为Oral的论文DMCP提出了一种基于马尔可夫过程的剪枝算法,为模型剪枝提供了新的思路。该工作将模型剪枝建模成了马尔可夫过程,其中的转移概率可以通过可微分的方式来进行优化,取得了非常好的效果。 论文下载
动态卷积:自适应调整卷积参数,显著提升模型表达能力 Dynamic Convolution: Attention over Convolution Kernels*
本文发表于CVPR 2020。轻量级卷积神经网络(light-weight convolutional neural network)因其较低的计算预算而限制了CNN的深度(卷积层数)和宽度(通道数),不仅导致模型性能下降,表示能力也会受到限制。为了解决这个问题,微软的研究员们提出了动态卷积,这种新的设计能够在不增加网络深度或宽度的情况下增加模型的表达能力(representation capacity)。动态卷积的基本思路就是根据输入图像,自适应地调整卷积参数。静态卷积用同一个卷积核对所有的输入图像做相同的操作,而动态卷积会对不同的图像(如汽车、马、花)做出调整,用更适合的卷积参数进行处理。简单地来说,卷积核是输入的函数。 论文下载
基于移动应用程序使用的通用用户嵌入表示 General-Purpose User Embeddings based on Mobile App Usage
本文发表于KDD 2020。在本文中,作者报告了最近在腾讯基于移动应用使用的用户建模的实践。用户对移动应用的使用行为,包括保留、安装和卸载,可以很好地反映用户的长期和短期兴趣。例如,如果用户最近安装了Snapseed,她可能对摄影越来越感兴趣。这些信息对于许多下游应用程序是有价值的,包括广告、推荐等。传统上,基于移动应用程序使用情况的用户建模很大程度上依赖于手工制作的特征工程,这需要对不同的下游应用程序进行繁重的人工工作,如果没有领域专家的话,可能不是最优的。然而,基于移动应用使用的自动用户建模面临着独特的挑战,包括1. 保留、安装和卸载异构,需要集中建模;2. 用户行为随时间分布不均;3. 许多长尾应用存在严重的稀疏性。在本文中,作者提出了一个定制的自编码器耦合Transformer网络(AETN),通过它作者克服了这些挑战,并实现了减少人工劳动和提高性能的目标。作者在腾讯部署了该模型,从下游应用的多个域进行的在线/离线实验都证明了用户嵌入输出的有效性。 论文下载
XGNN:从模型级解释构建可信赖GNN XGNN: Towards Model-Level Explanations of Graph Neural Networks
本文发表于KDD 2020。图神经网络通过聚合和结合邻居信息来学习节点特征,在许多图的任务中取得了良好的性能。然而,GNN大多被视为黑盒,缺乏人类可理解的解释。因此,如果不能解释GNN模型,就不能完全信任它们并在某些应用程序域中使用它们。在这项工作中,作者提出了一种新的方法,称为XGNN,在模型级别上解释GNN。作者的方法可以为GNNs的工作方式提供高层次的见解和一般性的理解。特别地,本文提出通过训练一个图生成器来解释GNN,使生成的图模式最大化模型的某种预测。本文将图形生成表述为一个强化学习任务,其中对于每一步,图形生成器预测如何向当前图形中添加一条边。基于训练后的GNN信息,采用策略梯度方法对图生成器进行训练。此外,本文还加入了一些图规则,以促使生成的图是有效的。在合成和真实数据集上的实验结果表明,本文提出的方法有助于理解和验证训练过的GNN。此外,本文的实验结果表明,所生成的图可以为如何改进训练的神经网络提供指导。 论文下载
基于弱监督演示的对话策略学习 Learning Dialog Policies from Weak Demonstrations
该论文由华为诺亚方舟实验室伦敦语音语义团队与爱丁堡大学发布联合研究发表于ACL 2020,可根据弱监督的对话演示数据学习对话系统的策略。该工作基于团队在参加第8届对话系统技术挑战(DSTC8)时开发的利用强化学习的任务型对话系统,提出了一种强化微调学习(Reinforced Fine-tune Learning, RoFL)的算法,使得系统可以在弱标注甚至无标注的数据上学习任务型对话策略,从而显著提升了任务型对话系统的训练效率和成功率,降低了数据收集和标注成本。 论文下载
观点
李开复:新冠大流行将加速医疗AI革新
新冠肺炎流行至今已近半年,截至6月15日,全球范围内累计确诊人数已接近800万,累计死亡人数超过40万。创新工场董事长兼首席执行官李开复最近在世界知名科技杂志《连线》上发表的一篇署名文章中指出“新冠大流行将加速医疗AI的革新”。李开复认为,这次新冠肺炎疫情验证了一个事实,即整体人类命运是共同体,人们对未来运用AI等先进技术共度难关寄予一致的期盼;AI有潜力协助我们为下一次疾病大流行做更充分的准备。这需要医学专家、AI科学家、投资者和决策者倾力协作,也需要关注医疗保健领域的投资人为聪明的企业家和科学家注入新一波动能。李开复呼吁道:“经历这次疫情,我们应清醒地意识到,要将人类医疗体系推往新的高度,着实需要倾尽全球之力。” 智源社区
行业与政策
电信中的人工智能报告:电信业AI领域年均投资将达367亿美元
面对对数据的需求的不断增长、移动市场的日益饱和,一些掌握技术的后来者、初创公司和全球电信纷纷陷入了争夺市场份额的斗争。这些市场压力,导致了运营商在移动服务上展开了持续的恶性价格战,结果让企业在每位用户中得到的平均收入(ARPU)有所下降。更糟糕的是,近些年基础设施和技术的改进,使得不同电信公司在覆盖范围、连接速度和服务定价方面相差不大,这些电信公司如果希望保持竞争力,就必须转变其业务。对于许多全球电信公司而言,在当今的压力下,要做到保持市场份额,同时还要确保未来的运营可持续,就必须要投资于AI。Tractica预计,到2025年,电信行业每年将在人工智能软件、硬件和服务上投资367亿美元。 新智元
ARK Invest最新报告:AI训练成本下降了100倍
方舟投资(ARK Invest)的最新一项报告指出,AI训练成本从2017年至2019年下降了100倍,但人工智能发展尚处于初期阶段。该报告同时发现,AI算法效率每16个月翻一番,与OpenAI的报告结果一致。方舟评估委员会在其报告中发现,从1960年到2010年,按照摩尔定律,用于训练的AI算力翻了一番。人工智能计算的复杂度自2010年以来每年飙升10倍(每秒千万亿次运算)。与此同时,过去三年的训练成本每年下降10倍。2017年,在公共云上训练像ResNet-50这样的图像分类器的成本约为1000美元,到了2019年只需大约10美元。方舟评估委员会预测,按照目前的速度,到今年年底,其训练成本应降至1美元。 新智元
AI招聘平台Hiretual获过亿元资金B轮融资
Hiretual于2015年在硅谷成立,主要产品是基于人才知识图谱的AI招聘SaaS平台,类似于“企业人才数据中台”。 研发团队只有15人,今年预计扩大到50人以上。公司CEO江海庆毕业于中国科技大学计算机系,曾就职于三星研发部。CTO张新文本科毕业于华中科技大学计算机系,拥有乔治梅森大学计算机学博士学位,曾在三星研发部担任Senior Director一职。 36kr
人物
中科院计算所宗成庆当选ACL 大会chair
第59届ACL大会将与第10届亚洲自然语言处理联合会议(International Joint Conference on Natural Language Processing, IJCNLP)联合组织举办(记作ACL-IJCNLP),于2021年8月1日至6日在泰国曼谷召开。此次大会的chair和程序委员会chair遴选工作由ACL执行委员会主导,在世界范围内提名、投票选举产生。宗成庆研究员成功当选该大会chair不仅意味着他本人及其团队的学术成就和地位得到了国际同行的认可,同时标志着我国计算语言学和自然语言处理研究领域在国际学术舞台拥有更多的话语权。宗成庆研究员曾于2015年担任ACL-IJCNLP大会的程序委员会chair,他将是近60年来既担任过该会议程序委员会chair,也担任大会chair的唯一一位华人学者。 国际计算语言学学会
太极二作李子懋获SIGGRAPH最佳博士论文奖
近日,计算图形学机构ACM SIGGRAPH颁发了2020年最佳博士论文奖。MIT CSAIL博士后研究员、太极(Taichi,开源计算机图形库)论文第二作者李子懋(Tzu-Mao Li)获得该奖项。SIGGRAPH颁奖词中称他的博士论文“为新兴的可微计算机图形学奠定了基础”。在这篇148页的博士论文中,李子懋探讨了视觉计算、编程系统和统计学习之间的关系。他将经典计算机图形学和图像处理算法与现代数据驱动方法相结合,从而增强了物理理解。李子懋利用统计学中的数学工具和机器学习开发能够解决图形和视觉问题的新算法。此外,他开发的编程系统简化了可学得视觉计算算法的高效实现和数学推导。该论文的主题是解决计算和应用复杂图形学Pipeline导数所面临的挑战,以便利用这些导数更好地拟合和采样参数或者解决逆问题(Inverse Problem)。这项研究被认为“解决了图形学算法中的不连续性以及现代硬件的大规模并行性问题,其贡献远远超出了传统的自动微分”。 机器之心
数据
Bald Classification Dataset:秃头数据集
一位印度学生Ashish Jangra,最近在aggle上发布了一个名为“Bald Classification Dataset”的数据集。据介绍,Bald Classification Dataset(秃头数据集)由Ashish Jangra于今年5月发布。数据集中包含20万张光头人像的图像,分为测试集、训练集、验证集三个文件夹,每个文件夹也包括Bald和NotBald两种图像。其中秃头人像数据集的来源,主要是欧美公众人物,包含政商界、娱乐圈、体育界人士。 CVer
代码
类别正则化的域自适应目标检测模型
由于标注成本大,在训练好检测算法后,面对差异较大的新场景,若想获取大量的带标注图片进行再训练是很不方便的。对于这种情况,无监督的域自适应方法能够灵活地自适应新场景,从包含丰富标注信息的源域转移到无标注的目标域。其中,域自适应方法中比较有代表性的是Domain Adaptive(DA)Faster R-CNN系列,利用对抗训练来对齐图片和实例的分布,使得模型能够做到域不变性,具体可以看上一篇介绍。但是这些方法大都把无法转化的背景内容也进行了对齐,而且在实例对齐时,没有从包含较多低质量的proposal集合中识别出难样本。为了解决上面的问题,该项目提出类别正则化框架,帮助DA Faster R-CNN专注于对齐跨域中的关键区域和重要目标。 旷视
YOLOv4中的小细节
目标检测在近几年开始发展成熟,但即便如此,竞争依旧激烈。YOLOv4宣称已经实现了当前最前沿技术的准确度,同时还能维持较高的处理帧率。使用Tesla V100 GPU,在MS COCO数据集上以接近65 FPS的推理速度,YOLOv4实现了43.5% AP的准确度。但对于目标检测而言,高准确度早已不是唯一的目标。开发者还希望边缘设备也能流畅地运行这些模型。因此,如何使用低成本硬件实时地处理输入视频也成为了一个重要的研究方向。YOLOv4的开发历程很有意思,其中评估、修改和整合了很多有趣的新技术。而且其也优化了计算效率,使检测器在单个GPU上也能很好地完成训练。本文介绍了其中的小细节,帮助读者更好的理解。 机器之心
SCNet:自校正卷积网络,无复杂度增加换来性能提升
CNN的最新进展主要致力于设计更复杂的体系结构,以增强其特征表示能力。在本文中,考虑在不调整模型架构的情况下改进CNN的基本卷积特征转换过程。为此,本文提出了一种新颖的自校正卷积,该卷积它可以通过特征的内在通信达到扩增卷积感受野的目的,进而增强输出特征的多样性。不同于标准卷积采用小尺寸核(例如3×3卷积)同时融合空间维度域与通道维度的信息,本文所设计的SCConv可以通过自校正操作自适应地在每个空间位置周围建立了远程空间和通道间依存关系。因此,它可以帮助CNN生成更具判别能力的特征表达,因其具有更丰富的信息。自矫正卷积SCConv的设计简单且通用,可以轻松增强标准卷积层的性能,而不会引入额外的参数和复杂性。大量的实验表明,将自矫正卷积应用于不同的backbone时,可以在各种视觉任务(包括图像识别,目标检测,实例分割和关键点检测)中显着改善baseline模型,而无需更改网络体系结构。 南开大学
教程
东北大学:《机器翻译》新书
近期,东北大学由国内著名机器翻译学者朱靖波领衔的小牛翻译团队发表了新书《机器翻译——统计建模与深度学习方法》(477页电子书+598页课件)。这套教程对机器翻译的统计建模和深度学习方法进行较为系统地介绍,不仅有相应的原理介绍和实现代码,还提供了实战案例,并通过图例对一些形式化定义和算法进行解释。 AI科技评论
机器学习:贝叶斯和优化方法
本书对所有主要的机器学习方法和新研究趋势进行了深入探索,涵盖概率和确定性方法以及贝叶斯推断方法。其中,经典方法包括平均/小二乘滤波、卡尔曼滤波、随机逼近和在线学习、贝叶斯分类、决策树、逻辑回归和提升方法等,新趋势包括稀疏、凸分析与优化、在线分布式算法、RKH空间学习、贝叶斯推断、图模型与隐马尔可夫模型、粒子滤波、深度学习、字典学习和潜变量建模等。全书构建了一套明晰的机器学习知识体系,各章内容相对清晰,物理推理、数学建模和算法实现精准且细致,并辅以应用实例和习题。本书适合该领域的科研人员和工程师阅读,也适合学习模式识别、统计/自适应信号处理和深度学习等课程的学生参考。 雅典大学
TensorFlow2.0机器学习实用指南(第二版)
通过近年来一系列的突破,深度学习推动了整个机器学习领域的发展。现在,即使对这种技术几乎一无所知的程序员也可以使用简单、高效的工具来实现能够从数据中学习的程序。这本书的最新版本使用了具体的例子、最少理论和可复现的Python框架,帮助读者直观地理解用于构建人工智能系统的概念和工具。 专知
新工具
基于Jittor的GAN模型库
该项目包含了从2014年最开始的GAN算法模型代码,到2019年的一个GAN模型代码,其中有非常著名的Pix2Pix、CycleGAN和StarGAN等,也有比较冷门点的GAN模型算法。 Github
FastReID库:易用高性能的ReID Pytorch工具箱
FastReID是京东AI研究院开发的旨在促进ReID的研究和开发的开源库。其遵循高度模块化和可扩展的设计,可让相关研究者更容易验证新思路。同时易于管理的系统配置和工程部署功能,也使得它进行产品化更方便。目前该库已经实现了很多最先进的算法,包括人员重识别(person re-id)、局部重识别(partial re-id)、跨域重识别(cross-domain re-id)和车辆重识别(vehicle re-id),并计划发布在多个基准数据集上的预训练模型。官方称FastReID是迄今为止最完整的高性能ReID工具箱,支持单台和多台GPU服务器,可以非常容易复现结果。 京东AI研究院
CMU开发实用工具Penrose:数学表达式一键变图
在有些人眼里,数学公式就是一堆数字和符号,但在另一些人看来,这些数字和符号是可以动的,而且极富美感。为什么会有这种差距?那是因为对于后者来说,这些数字和符号的背后是一幅灵动的图,他们可以根据公式约定的规律进行变换,让人感受到数学规律带来的美感。但问题在于,不是每个人都有这么好 的“脑补”能力,能将数学公式自动想象成图。因此,使用者需要借助于工具。卡内基梅隆大学开发的Penrose就是这样一款工 具,使用者只需要描述一些数学关系或输入数学表达式,该软件就能自动画图,从而将抽象的数学公式转化为直观的图 。 机器之心
应用
Goodfellow等人用AI让高糊图片生成一组合理图像
生成逼真图像是一件困难的任务,近来研究人员提出了很多处理该任务的方式。如果我们把这项任务限制在生成特定类别的图像,任务就会简单许多。也就是说,不用基于自然图像流形生成任意图像作为样本,而是从自然图像的特定“子空间”内采样图像,而这一过程由来自相同子空间的低分辨率图像指引。最近谷歌发表了一项研究,作者为谷歌研究院David Berthelot、Peyman Milanfar,以及前谷歌大脑科学家、现苹果机器学习特殊项目组负责人Ian Goodfellow。该研究试图解决的问题与单张图像超分辨率问题接近,但又有区别。图像超分辨率问题是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,而该研究目的不在于此,它试图使用输入图像作为指引,生成一组合理的高分辨率图像。 机器之心
德国小哥用AI拍大片:GPT-2写台词、StyleGAN做特效、Replica来配音
最近,国外一个技术极客Alex看了电影《阳光泉水》后深受启发,决定自己用AI来生成一部。他首先用GPT-2生成了一段荒诞不经的剧本,接着用StyleGAN2制作了一些人物和视觉特效,还找到了一个超实用的语音生成工具。 新智元
EA公司用AI制作游戏角色,行动流畅自然,全程无需人类介入
想开发出一款爆款游戏,是一件难度极高的事情,不仅要有精妙的内容设计,精致的光影效果,自然的动画建模,还要投入相当多的资金和时间。现在,美国游戏公司艺电(EA)正在与加拿大不列颠哥伦比亚大学(UBC)合作,尝试在游戏开发中引入强化学习技术,用于制作角色模型和动作控制系统,希望可以让AI学会制作游戏角色,使其行为模式更加逼真,同时简化和加速游戏研发流程。研究团队通过强化学习和深度生成模型Motion VAE(变分自动编码器),在没有使用传统编程和动画制作的情况下,生成了可控的足球运动员角色,他们能够做到跑动、传球、射门和头球等动作,行动流畅自然,基本符合人类的运动模式。EA高级软件工程师法比奥·钦诺(Fabio Zinno)认为,这项研究成果体现了AI拥有的巨大潜力。该研究成果将于今年7月在SIGGRAPH 2020计算机图形大会上发布。 DeepTech深科技
经验
美国中央华盛顿大学傅平教授:如何撰写高质量期刊文章?
本文旨在为该领域的新手撰写高质量的研究论文提供循序渐进的写作方法和指南,将讨论新手作者的常见问题和错误,推荐一些技巧,例如创建有效的标题、摘要、引言、理论框架(文献回顾)、方法、结果、讨论、结论等。 JAS自动化学报英文版
以上是《智源社区AI周刊》第26期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在评论区留言告诉我们。谢谢大家。
特约编辑:刘布楼 常政 刘沂喆 付建振
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢