智源社区AI周刊#029 | 智源研究院发布近期组织的协作成果——世界首个“机器学习通用数学符号集”

导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源研究院编辑团队本周整理了第29期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况），数据（数据集），工具（新工具和应用推荐），求职（职场研究报告等）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

在过去一周（2020/06/29~2020/07/05）左右时间，首先值得推荐的内容有以下3方面：

北京智源大会圆满闭幕！在全球抗击新冠肺炎疫情的特殊时刻，2020北京智源大会全程采用线上形式召开，与包括5位图灵奖得主在内的世界人工智能领域顶尖专家学者们通过视频相聚，共同探讨未来十年人工智能的发展走向，大力推动AI领域的国际交流合作，发挥AI抗疫的支撑作用，凝聚全球战“疫”的强大合力。（详情参见本周报“会议”栏目）
智源研究院发布近期组织的协作成果——世界首个“机器学习通用数学符号集”。智源研究院发布的这套数学符号集，主要特色便是针对一些非常常用且容易混淆的符号，给出了一套标准化的建议，为解决以下问题提供基础：1.在论文写作过程中常用符号的选择问题；2.由符号混乱导致的交流问题。本次发布的数学符号集，所选的主要是机器学习领域中常用、重要且对文章理解比较关键的一些符号。（详情参见本周报“新工具”栏目）
谷歌提出了一种目标检测的新方法Context R-CNN，利用摄像头长时间的拍摄内容，推理出模糊画面里的目标。这种模型的性能优于单帧Faster R-CNN。这种新的对象检测体系结构利用网络中每个摄像机在整个时间范围内的上下文线索，无需依赖大量摄像机的额外训练数据，即可提高对目标的识别能力。而且谷歌表示此模型将作为TensorFlow目标检测API的一部分开放给用户，简化在数据集上训练和测试Context R-CNN模型的过程，另外相关代码也已经开源”。（详情参见本周报“代码”栏目）

下面是各个要点的详情介绍。

论文推荐 跨模态哈希的无监督知识蒸馏 Creating Something from Nothing: Unsupervised Knowledge Distillation for Cross-Modal Hashing

本文发表于CVPR 2020，作者提出了一种利用“无中生有”的监督方式，用于跨模态哈希编码。现存的跨模态哈希编码分为有监督和无监督两类，前者通常精度更高，但依赖于图像级标注信息，以生成相似度矩阵。本方法创新性地提出，利用无监督的哈希方法产生图像特征，并利用图像特征计算相似度矩阵，从而绕开了对监督信号的需求，在不增加标注代价的情况下，提升了跨模态哈希编码的精度，超过了所有无监督的编码方法。本文还分析了图像特征和文本特征在相似度计算中的作用，并且讨论了这种方法在类似场景中的应用。论文下载

少样本学习实现领域迁移 Few-Shot Learning as Domain Adaptation: Algorithm and Analysis

本文发表于ICML 2020。在这篇论文中，作者提出了一种基于注意力机制的领域迁移原型网络（DAPNA），去解决在元学习框架下的领域迁移问题。具体来说是在训练过程中，作者将可见类的一个纪元（episode，训练单位）分拆成两个类别完全不重合的子纪元（sub-episode)，用以模拟从可见类到未见类的领域迁移。在假定所有纪元都采样于同一个分布的情况下，作者在理论上给出了该模型的期望损失上界，作者也根据该期望损失上界进行损失函数的设计与模型的优化。诸多实验表明，本文所提出的DAPNA模型能比已有小样本学习模型取得更好的效果。论文下载

小样本类增量学习 Few-Shot Class-Incremental Learning

本文发表于CVPR 2020。作者尝试从一种新的认知启发的角度来解决小样本类增量学习问题。近期的认知学研究表明，物体的拓扑对维持已学知识的记忆非常重要。一旦记忆的拓扑特性发生改变，会导致人类对已见过物体视觉刺激的再认出现大幅退化，这直接导致了灾难性遗忘（catastrophic forgetting）的产生。为此，作者认为，保持住旧知识空间的拓扑结构，是解决灾难性遗忘的关键。因此，作者提出使用神经气体网络来对已学知识进行抽取和表示。该网络可以学习并保留由不同类别形成的特征流形的拓扑。在此基础上，作者提出了拓扑保持知识增长器（TOPIC，TOPology-Preserving Knowledge InCrementer）框架。TOPIC框架一方面通过稳定神经气体网络NG的拓扑结构缓解了旧知识的遗忘，另一方面通过使NG成长并适应新的训练样本来改进在少量新类别样本上的表征学习。论文下载

层次间消息传递的分子图学习 Hierarchical Inter-Message Passing for Learning on Molecular Graphs*

本文发表于ICML 2020。作者提出了一个在分子图上学习的递阶神经信息传递架构。本文的模型采用了两种互补的图表示：原始的分子图表示和相关的结树，其中节点表示原始图中有意义的簇，如环或桥接化合物。然后，作者通过在每个图中传递消息来学习分子的表示，并使用粗到细和细到粗的信息流在两种表示之间交换消息。作者的方法能够克服经典GNN的一些限制，如检测周期，同时仍然非常有效的训练。本文在ZINC数据集和MoleculeNet基准收集数据集上验证了它的性能。论文下载

对比多视角表示学习 Contrastive Multi-View Representation Learning on Graphs

本文发表于ICML 2020。本文介绍了一种通过对比图的结构视图来学习节点和图表示的自监督方法。本文表明，与视觉表示学习不同，增加视图数量到两个以上或对比多尺度编码不会提高性能，而最佳性能是通过对比一阶邻居编码和图扩散来实现的。在线性评估协议下，作者在8个节点中的8个和图分类基准上实现了新的最先进的自监督学习结果。例如，在Cora（节点）和reddy-binary（图形）分类基准上，作者实现了86.8%和84.5%的准确率，相对于之前的最先进水平分别提高了5.5%和2.4%。与监督基准相比，本文的方法在8个基准中有4个优于监督基准。论文下载

观点 周伯文对话斯坦福教授曼宁：人机对话智能新进展需要新“图灵测试”

在智源大会上，智源-京东联合实验室主任、京东集团技术委员会周伯文与斯坦福大学教授、人工智能实验室负责人克里斯托弗·曼宁（Christopher Manning）展开了一次精彩的交流。他们讨论了自然语言处理领域近期的进展，预训练模型兴起之后的未来发展方向，并讨论观点：人机对话智能新进展需要新“图灵测试”，为图灵测试找到了一个“替代方案”。北京智源人工智能研究院

行业与政策 李开复：发明期已过，AI科学家创业需谨慎

近日，在北京智源大会“AI创业专题论坛”中，创新工场创始人兼CEO李开复博士针对这些问题，做了一场深度演讲“AI赋能时代的创业”。演讲分为三部分。李开复先是AI创业的时代背景做了详细分析，指出AI已经从“发明期”进入“应用期”，AI创业的大环境已发生巨大变化。随后，他对欧美科技巨头成功经验进行分析，提出科学家型创始人在主导关键技术之外也需要理解商业，需要补齐产品化、商业化的能力。在最后，李开复谆谆告诫，AI科研人才不要盲目入场创业，发挥价值的道路千千万万条。

智源社区

AI+医疗的下一个十年：从公共卫生预警到人类基因密码破解

医疗事关人身安全，要求极高，容错率极低，因此，知识壁垒和技术壁垒都很高。过去，AI系统更多的是服务于终端，辅助医生诊断、决策。但是，医疗很复杂，直接切入终端问题很多。未来十年，AI+医疗会碰撞出怎样的火花，AI对医疗产业、医护人员、患者等会产生怎样的影响？对此，北京智源人工智能研究院联合AI Time，特别邀请了首都医科大学附属北京同仁医院神经内科主任兼医院中心实验室主任王佳伟；商汤科技研究院副院长、集团副总裁，兼任上海交通大学清源研究院副院长张少霆；清华大学创新领军工程博士、智谱AI CTO张鹏；予果生物科技（北京）有限公司创始人及CEO夏涵；AI Time负责人何芸，共同推出了“人工智能是医疗的下一个十年吗？”特别论坛。智源社区

亚马逊12亿美元收购自动驾驶明星公司Zoox

近日，亚马逊收购Zoox最终落定，根据The Information和金融时报消息，此次交易的金额逾12亿美元。作为一家成立于2014年的自动驾驶明星初创公司，这个价格令无数人唏嘘。Zoox创业期间已筹集了近10亿美元的资金，在2018年的估值就达到32亿美金，投资方包括Grok Ventures、Aid Partners，腾讯与IDG也曾参与投资。根据亚马逊的公告，Zoox将继续作为单独业务存在，现任首席执行官Aicha Evans以及CTO和联合创始人Jesse Levinson继续担任职务，他们的整体使命也将保持不变。这是亚马逊目前对自动驾驶技术的最大投资。机器之心

数据 DriveSeg：动态驾驶场景分割数据集

麻省理工学院运输与物流中心的AgeLab和丰田合作安全研究中心（CSRC）的研究人员发布了DriveSeg的开放数据集。通过发布DriveSeg，麻省理工学院和丰田汽车正在努力推进自动驾驶系统的研究，就像人类的感知一样，自动驾驶系统将驾驶环境视为连续的视觉信息流。迄今为止，提供给研究团体的自动驾驶数据主要由大量静态的单一图像组成，这些图像可用于识别和跟踪在道路内和道路周围发现的常见物体，例如自行车，行人或交通信号灯，通过使用“边界框”。相比之下，DriveSeg包含许多相同的常见道路对象的更精确的像素级表示，但是是通过连续视频驾驶场景的镜头。这种类型的全场景分割对于识别更多不总是具有这种定义和统一形状的无定形对象（例如道路建设和植被）尤其有用。 MIT

代码 谷歌提出最新目标检测算法Context R-CNN

谷歌提出了一种目标检测的新方法Context R-CNN，简单地说，就是利用摄像头长时间的拍摄内容，推理出模糊画面里的目标。这种模型的性能优于单帧Faster R-CNN。这种新的对象检测体系结构利用网络中每个摄像机在整个时间范围内的上下文线索，无需依赖大量摄像机的额外训练数据，即可提高对目标的识别能力。而且谷歌表示此模型将作为TensorFlow目标检测API的一部分开放给用户，简化在数据集上训练和测试Context R-CNN模型的过程，另外相关代码也已经开源。 Google AI Blog

ReChorus：基于隐式反馈的Top-K推荐评测框架

ReChorus是由清华大学信息检索实验室（THUIR）发布的一个轻量级Top-K推荐评测框架，旨在为此类场景的推荐算法提供一个公平的平台进行对比，缓解如今state-of-the-art模型论文中因实验设置和细节设定不同而导致结果不可比的问题，力求形成一个各类推荐算法百花齐放的“合唱团”（Chorus）。框架底层架构为PyTorch，编程语言使用Python。 THUIR

ARCore Depth API解决遮挡难题

ARCore是Google为开发者构建的增强现实平台，如何让虚拟物体和真实世界完美融合，这一直是Google ARCore技术所探讨的问题。众所周知，当虚拟物体附近有现实物体时，有可能会出现互相交融、重叠等效果，大大地影响了用户体验。这一直是AR技术的难点，也是Google不懈努力的方向。ARCore给出了这一难题的答案。 Tensorflow

教程 DeepMind课程：深度学习注意力与记忆机制

在过去几年里，注意力和记忆已经成为深度学习的两个重要的新组成部分。本讲座由DeepMind研究科学家Alex Graves讲授现在广泛使用的注意力机制，包括任何深度网络中的内隐注意力，以及离散和可区分的变体的显性注意力。然后讨论了具有外部记忆的网络，并解释了注意力是如何为他们提供选择性回忆的。它简要地回顾了Transformer，一种特别成功的注意力网络类型，最后看可变计算时间，这可以被视为一种形式的“注意力集中”。 DeepMind

UCSD课程：计算机视觉领域自适应

计算机视觉在深度学习时代取得了快速的进步。这在很大程度上归功于大规模标记数据的可用性，加上GPU计算。然而，计算机视觉模型在一个领域上训练，比如白天的图像，通常不能泛化到新的领域，比如晚上获得的图像。为所有可能的场景标记数据是昂贵的，但是未标记的数据更容易获得。在本课程中，讲者将学习无监督领域适应的概念，并应用于各种计算机视觉问题，如图像分类、语义分割、目标检测、人脸识别和三维重建。 UCSD

deeplearning.ai发布NLP课程

这门课程名叫Natural Language Processing with Classification and Vector Spaces。在deeplearning.ai提供的这门课程中，学生可以学习到以下内容：1. 使用Logistic回归然后对朴素贝叶斯进行推文的情绪分析；2. 使用向量空间模型发现单词之间的关系，使用PCA减少向量空间的维数并可视化这些关系；3. 使用预先计算的单词嵌入和位置敏感的哈希值编写简单的英语到法语翻译算法，以通过近似k最近邻搜索将单词关联起来。该门课的授课老师由两位NLP、机器学习和深度学习专家教授担任，分别是斯坦福大学的AI讲师Younes Bensouda Mourri和Google Brain的研究人员Lukasz Kaiser。 deeplearning.ai

新工具 智源研究院发布世界首个“机器学习通用数学符号集”

智源研究院发布近期组织的协作成果——世界首个“机器学习通用数学符号集”。智源研究院发布的这套数学符号集，主要特色便是针对一些非常常用且容易混淆的符号，给出了一套标准化的建议，为解决以下问题提供基础：1. 在论文写作过程中常用符号的选择问题；2. 由符号混乱导致的交流问题。本次发布的数学符号集，所选的主要是机器学习领域中常用、重要且对文章理解比较关键的一些符号。整套符号集包括：数据集合（Dataset）、函数（Function）、损失函数（Loss function）、激活函数（Activation function）、双层神经网络（Two-layer neural network）、通用深度神经网络（General deep neural network）、复杂性（Complexity）、训练（Training）、傅里叶频率（Fourier Frequency）、卷积（Convolution）等类别。同时智源提供了这些符号的LaTex代码。北京智源人工智能研究院

谷歌大脑和DeepMind联合发布离线强化学习基准工具RL Unplugged

最近，Google Brain和DeepMind联合提出了一个称为RL Unplugged的基准工具，以评估和比较离线RL方法。RL Unplugged包含来自多个领域的数据，包括游戏（例如Atari基准测试）和模拟的电机控制等（例如DM Control Suite）。RL Unplugged为每个任务域提出了详细的评估方法，对监督学习和离线RL方法进行了广泛的分析，数据集包括部分或完全可观察的任务域，使用连续或离散的动作，并且具有随机性和非平稳性等，能很好地评估强化学习智能体的性能。新智元

论文绘图工具：一行代码绘制不同期刊格式图表

“一篇论文投多个期刊，每个期刊对图表格式要求不一，同一组数据要用多种工具分别绘图。”哈佛大学天文研究所的博士后面对这一问题他的解决办法是：亲自开发一个Matplotlib的补充包，增添scatter、notebook等其他软件常用的绘图工具，还支持一键调用符合IEEE等不同期刊要求的图表格式。现在，这个论文神器已经在Github开源。哈佛大学

应用 Facebook训练CNN端到端系统：把手机里的照片变为3D

现在人人都用手持设备（例如手机、平板）等拍照，并通过简单的修图应用对图片编辑处理。人们通过不同的修图工具，能轻松创造出不同风格的图片。最近Facebook研究人员，通过Facebook AI开发的移动优化技术，训练卷积神经网络，在数百万的3D图像中，学习其附带的图像深度，可将任何设备拍摄的照片自动转换为3D图像。系统根据输入的2D图像，自动进行深度估计，实现2D到3D的实时转换，仅需花费几秒钟即可完成处理。该框架还结合了纹理修补，对输入的2D图像进行几何捕捉，以使得它能在转换为3D图像时更加生动逼真。每一个步骤都是自动的，直接在用户的移动设备中对2D图像进行各种各样的模型优化，没有设备内存和数据传输能力的限制新智元

中科院用AI通过草图生成人脸图像算法

基于该方法的智能人脸画板，不需要用户拥有专业的绘画技巧，就能够从粗糙甚至不完整的草图生成高质量的人脸图像，并且同时支持对面部细节的编辑与控制。该算法降低了人脸肖像绘制的门槛，同时也减轻专业画家的工作难度，简单实用。其核心思路并非直接用输入草图作为网络生成条件，而是将人脸进行分块操作后利用数据驱动的思想对抽象的草图特征空间进行隐式建模，并在这个流形空间中找到输入草图特征的近邻组合来重构特征，进而合成人脸图像。机器之心

谷歌研究人员用机器学习助力大规模自动化灾后损失评测

前不久墨西哥的7.4级地震，再次让我们感受到了人类在自然灾害面前的渺小。天灾难以避免，但灾后及时的应急响应能够很大程度地减少损失。在此过程中，超高分辨率卫星就扮演着愈发重要的角色。不过，高清卫星图像依旧需要密集的人力来识别灾情，这远远满足不了应急响应的需求。本文将分享谷歌研究人员如何利用机器学习的方法自动检测建筑物并评测损害程度。这一技术有望提高灾后报告的生成速度，帮助救灾团队按照受灾程度展开救援。将门创投

会议 北京智源大会圆满闭幕！150名国际AI领袖、50万名专业观众共襄盛会

北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动，以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2019年举办了首届大会，今年为第二届，主题是“人工智能的下一个十年”。在全球抗击新冠肺炎疫情的特殊时刻，2020北京智源大会全程采用线上形式召开，与包括5位图灵奖得主在内的世界人工智能领域顶尖专家学者们通过视频相聚，共同探讨未来十年人工智能的发展走向，大力推动AI领域的国际交流合作，发挥AI抗疫的支撑作用，凝聚全球战“疫”的强大合力。在开幕式、全体大会、闭幕式以及19个专题论坛上，大会出席嘉宾们就人工智能理论、技术和产业应用等方面，结合面临的机遇、挑战和发展趋势等发表了一系列前瞻洞见。北京智源人工智能研究院

ACL 2020开幕在即及相关数据

ACL2020将于北京时间7月6日开幕。早在一个月前，ACL官方就已经给出了本次大会的一般统计，涵盖了ACL2020的接受率、与之前接受率的比较、不同方向接受率和一些国家的统计数据。本月开始，ACL官方将会逐步放出有关提交、评论和其他主题的统计数据。机器之心

SIGIR 2020正式开放注册

原定于2020年7月25日-30日在西安举行的ACM SIGIR2020（the 43rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval），第43届信息检索国际会议（CCF A类会议），因受疫情影响，将转为线上会议同期举行。按照传统，SIGIR会议在北美、亚洲、澳洲和欧洲轮流举行。SIGIR2020是继2011年亚洲微软研究院在北京举办后第二次回归中国，这归功于华人学者在IR领域内的杰出贡献。会议网站已正式开放在线注册。 SIGIR 2020

经验 如何用3个月零基础入门机器学习？

作者写这篇教程的初衷是很多朋友都想了解如何入门/转行机器学习，搭上人工智能这列二十一世纪的快车。文章的宗旨是：1. 指出一些自学的误区；2. 不过多的推荐资料；3. 提供客观可行的学习表；4.给出进阶学习的建议。这篇文章的目标读者是计划零基础自学的朋友，对数学/统计/编程基础要求不高。知乎

以上是《智源社区AI周刊》第29期的内容，智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标，不断优化和完善我们的内容服务，各位读者们如有批评意见，或者好的建议，请不吝赐教发至：editor@baai.ac.cn。谢谢大家。

特约编辑：刘布楼常政贾伟刘沂喆付建振

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源社区AI周刊#029 | 智源研究院发布近期组织的协作成果——世界首个“机器学习通用数学符号集”

评论列表

评论