智源社区AI周刊#038：自监督学习技术出现较大突破

导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源研究院编辑团队本周整理了第38期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况），数据（数据集），工具（新工具和应用推荐），求职（职场研究报告等）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

在过去一周（2020/08/31~2020/09/06）左右时间，首先值得推荐的内容有以下3方面：

目前无监督学习技术备受关注，无监督表达学习技术在自然语言处理领域进展神速， OpenAI 近期发布的包含1700亿参数的GPT-3预训练模型吸引了全世界的目光；无监督图嵌入表达技术在图学习领域取得了不俗的成果；自监督学习技术在视觉领域近期也有较大的突破，Geoffrey E. Hinton等谷歌研究者的最新研究一次就把无监督学习的指标提升了7-10%，甚至可以媲美有监督学习的效果。但我们同时也看到，对GPT-3的质疑声一直不断，无监督学习技术在更多的领域尚待突破。近日， Geoffrey E. Hinton指出，人类无法完全依赖有监督学习的方法完成所有神经元训练，而需要更多来自于无监督学习的帮助。（详情参见本周报“ 观点 ”栏目）
Keras 作者François近日表示，从2010年以来，第一次出现从事深度学习工作的人相比半年前有所减少，这在半年来发布的深度学习职位数量中体现得尤其明显，该数量在过去的半年中出现了显著的下降。很多较小的深度学习公司，在新冠疫情期间都进行了裁员缩编。然而， Françoi 认为这是经济衰退的象征，不是AI寒冬的开始。目前，这只是新冠疫情冲击的短期影响。此外，工业界中，总的深度学习使用量的下降非常小。（详情参见本周报“ 行业与政策 ”栏目）
近日，来自德国图宾根大学和图宾根伯恩斯坦计算神经科学中心的研究者将eager execution进行了扩展，提供了一个新的Python框架 EagerPy ，它可以编写自动且原生地适配 PyTorch 、TensorFlow、Jax和 Numpy 的代码。（详情参见本周报“ 新工具 ”栏目）

下面是各个要点的详情介绍。

论文推荐 SuperPAL ：多文档摘要和派生子任务的有监督命题对齐 SuperPAL : Supervised Proposition ALignment for Multi-Document Summarization and Derivative Sub-Tasks

多文档摘要是一项艰巨的任务，通常分解为显着性检测和冗余检测的子任务。虽然参考摘要和源文档之间的跨度对齐已被用于训练组件任务，但底层对齐步骤从未得到过单独的处理或评估。作者提出了一种高质量的源文档参考对齐算法，该算法可应用于最新的大规模数据集以获得有用的近似的训练数据。第一步，作者提出了一种注释方法，通过该方法可以创建用于汇总-源对齐的最佳标准开发和测试集，并提出用于调整和评估有效对齐算法以及正确评估MDS的实用程序子任务。其次，作者引入了一个新的大规模比对数据集进行训练，并以此训练了一个自动对抗模型。与用于摘要的先验对齐器相比，该对齐器在参考摘要中实现了更高的一致性，并且在对抗性摘要模型中替换更简单的对齐器时，ROUGE结果显着提高。最后，作者发布了三个额外的数据集（显着性，聚类和生成），它们是从作者的比对数据集中自然导出的。此外，这些数据集可以在本文训练完成的比对模型提取比对后自动从任何汇总数据集中导出。因此，它们可用于训练汇总子任务。论文下载

无监督领域自适应中的子空间渐进式适应方法 Unsupervised Domain Adaptation with Progressive Adaptation of Subspaces

无监督领域自适应(UDA)旨在通过领域转移从已标记的源域转移知识来分类未标记的目标领域。现有的大多数UDA方法试图通过减少领域差异来减少由转移引起的不良影响。然而，由于目标域中缺少标签，此类方法容易产生模式崩溃的问题。因此，减轻此问题的一种有效方法是可靠地估计目标域的伪标签，而可靠地估计目标域的伪标签本身就是一个难题。为了克服这个难题，本文提出了一种子空间渐进式适应方法（PAS），在这种方法中，作者利用一种看起来非常合理的直觉来逐渐获得可靠的伪标签。具体来说，作者通过自适应地锚定/选择和利用具有可靠伪标记的目标样本来逐步稳定地完善共享子空间，将其作为知识传递的桥梁。随后，精炼的子空间又可以提供目标域的更可靠的伪标记，使模式崩溃的难题得到极大缓解。通过实验评估表明，PAS不仅对通用UDA有效，而且在更具挑战性的部分领域自适应（PDA）情况下（其源标签集包含目标对象）优于现有最新技术。论文下载

使用弱标注的视频描述的渐进式视觉推理 Progressive Visual Reasoning for Video Captioning Using Weak Annotation

大多数现有的视频描述方法都是基于强注释构建的，即使用成对 “ 视频-句子 ” 来标注视频，而这一过程既费时又费力。事实上，现在我们有大量带有弱标注的视频，它们仅仅包含动作、物体等语义概念。在本文中，作者研究了如何使用弱标注训练一个视频描述模型。为此，作者们提出了一种渐进式的视觉推理方法，该方法通过为视频描述推理出更多的语义概念及其之间的依赖关系，利用弱标注渐进式地生成更好的描述语句。为了对概念之间的关系进行建模，我们使用了依赖树，它们通过利用大规模句子语料库中的外部知识而展开。作者通过遍历这些依赖树生成用于训练视频描述模型的句子。在此基础之上，作者开发了一种迭代式精修算法，交替地进行以下工作： 1 . 通过展开依赖树精修句子；2 . 使用精修后的句子对描述模型进行调优。在若干个数据集上的实验结果表明，本文提出的使用弱标注的方法，与目前使用强标注的最优算法的性能相当。论文下载

深入探讨目标检测中的对象框 Dive Deeper Into Box for Object Detection

本文收录于ECCV-2020。来自香港中文大学、腾讯优图、思谋科技的作者团队指出，无锚框（Anchor-free）目标检测方法的准确性得益于对于边界框精确的估计。即使边界框具有最高的置信度得分，在定位环节仍然有一些瑕疵。为此，本文提出了一种框重组的方法（Box Re-organization），名为 DDBNet ，该方法可以深入到框中以进行更准确的定位。具体来说，第一步将漂移的框（Drifted Bounding-box）过滤掉，因为这些框中的内容与目标语义不一致。接下来，将选定的框划分为边界（Boundaries），并搜索排列整齐的边界，将其分组为更精确的框，从而更精确地拟合目标实例范围。实验结果表明，该模型可达到最新的物体检测性能。论文下载

一种基于查询-自适应卷积和时序挖掘的可解释和可泛化行人重新识别方法 Interpretable and Generalizable Person Re- Indentification with Query-Adaptive Convolution and Temporal Lifting

本文收录于ECCV-2020，来自阿联酋国家级人工智能研究院（IIAI）的学者们指出，现有的深度行人重识别方法往往基于特征表达，然而缺乏迁移学习，学习好的模型参数是固定的，不能很好的用于解决多种未见过的场景。本文作者提出一种可解释和泛化的行人再辨识方法，即直接在两张待匹配的特征图上做点对点的图像匹配。首先，作者设计了一种查询-自适应卷积（QA-Conv），通过查询图像的深度特征生成新的卷积核，并在注册图像的深度特征上做卷积和全局最大化池化实现点对点的匹配，这个过程是显示的、可解释的。其次，还设计了一种与模型无关的基于时序共存的相似度分数加权法，成为时序挖掘（T-Lift）。该方法无需使用迁移学习便超越了一些主流方法大约10%的 mAP ，这种基于匹配机制改变的方法达到了当前最好的跨库行人重识别性能。论文下载

观点 图灵奖得主Geoffrey E. Hinton ：人类无法完全依赖有监督学习的方法完成所有神经元训练，而需要更多来自于无监督学习的帮助

目前无监督学习技术备受关注，无监督表达学习技术在自然语言处理领域进展神速， OpenAI 近期发布的包含1700亿参数的GPT-3预训练模型吸引了全世界的目光；无监督图嵌入表达技术在图学习领域取得了不俗的成果；自监督学习技术在视觉领域近期也有较大的突破，Geoffrey E. Hinton等谷歌研究者的最新研究一次就把无监督学习的指标提升了7-10%，甚至可以媲美有监督学习的效果。但我们同时也看到，对GPT-3的质疑声一直不断，无监督学习技术在更多的领域尚待突破。近日， Geoffrey E. Hinton指出，人类无法完全依赖有监督学习的方法完成所有神经元训练，而需要更多来自于无监督学习的帮助。 AI科技评论

行业与政策 智源与清华等机构联合发布《人工智能之认知图谱》

由清华大学人工智能研究院、北京智源人工智能研究院、清华—中国工程院知识智能联合研究中心、阿里集团—新零售智能引擎事业群编写的《人工智能之认知图谱》报告正式发布。报告显示，以知识图谱、认知推理、逻辑表达等技术为支撑的认知图谱是实现机器认知智能的使能器，不仅让机器理解数据的本质，还可以让机器解释现象的本质。学术头条

Keras 作者François：受新冠疫情影响，从2010年以来，第一次出现从事深度学习工作的人相比半年前有所减少

Keras 作者François近日表示，从2010年以来，第一次出现从事深度学习工作的人相比半年前有所减少，这在半年来发布的深度学习职位数量中体现地尤其明显，该数量在过去的半年中出现了显著的下降，在很多较小的深度学习公司中，在新冠疫情期间都进行了裁员缩编。然而， Françoi 认为这是经济衰退的象征，不是AI寒冬的开始。目前，这只是新冠疫情冲击的短期影响。此外，工业界中，总的深度学习使用量的下降非常小。 Twitter

AI芯片设计监控平台公司 proteanTecs 融资4500万美元

proteanTecs 2017年成立，核心团队多人都是Mellanox的联合创始人，包括CEO Shai Cohen, COO Roni Ashuri 和女CTO Evelyn Landman。本轮领投是科赫集团旗下的投资机构KDT，Valor Equity Partners和 Atreides 以及老股东Viola和WRVI等参投。此前公司已经融资4轮5200万美元。 PR Newswire

数据 大规模多相机通用物品场景数据集 MessyTable

MessyTable 是商汤与新加坡南洋理工大学联合制作的大规模多相机通用物品场景数据集。针对现实生活中多相机系统应用的难点，如相似相同的物品、密集遮挡、大角度差等问题，作者设计了大量真实、有趣又极富挑战的场景：围绕着一张混乱的餐桌（Messy Table）部署了多个视角的相机，其任务是关联不同相机视角中的实例。看似简单任务却要求算法能够分辨细微的外观差别、从邻近的区域获取线索以及巧妙地使用几何约束等。作者同时提出了利用多相机场景下周围信息的新算法。学术头条

代码 基于知识的零资源对话生成

尽管当前研究已经展现了基于深度学习的对话模型可以通过引入外部知识来产生包含丰富信息并引人入胜的回复，但训练这种模型通常需要以知识为基础的对话，而这些对话很难获得。为了克服缺乏数据的挑战并降低构建基于知识的对话系统的成本，作者在零资源设置下探索这一问题，该设定是假设模型无需上下文-知识-回复的三元组训练。为此，作者提出了一种知识表示的方法，通过将该知识表示为潜在变量，将上下文和回复联系起来，并设计一种变分方法，该方法可以有效并各自地从对话语料库和知识语料库中估算生成模型。在基于知识的对话生成的三个基准数据集上的评估结果表明，本文的模型可以通过依赖于基于知识的对话进行训练，与最新方法来实现可比的性能，并且对不同主题和不同数据集具有良好的泛化能力。北京大学

用于基于知识的视觉问答系统的跨模态知识推理

将外部知识引入机器学习系统是当下越来越受到研究者们重视的研究方向。除了可见的内容，基于知识的视觉问答系统（KVQA）还需要的外部知识，从而回答有关某张图像的问题。尽管极具挑战，但是这种能力对于实现通用的视觉问答系统是必不可少的。现有的KVQA解决方案的不足之处之一是：它们在没有进行细粒度选择的情况下联合嵌入了各种信息，这为推理出正确的答案带来了一些意料之外的干扰。如何捕捉以问题为导向和信息互补的证据，是解决这一问题的关键。本文受人类认知理论的启发，本文从视觉、语义和事实三个角度，用多个知识图谱来描述图像。其中，视觉图和语义图被认为是事实图谱以图像为条件的实例。在这些新的表征形式的基础之上，作者重新将基于知识的视觉问答定义为了一个循环推理过程，从而从多模态信息中获得作为补充的依据。为此，作者将模型分解为一系列基于记忆的推理步骤，每个步骤都是由一个基于图的读取、更新和控制（GRUC）模块执行，该模块可以并行地对视觉和语义信息进行推理。该模型通过多次堆叠GRUC模块进行传递性推理，得到在不同模态约束下面向问题的概念表征。最终，作者通过联合地考虑全部的概念，运行图神经网络推断出全局最优的答案。中科院信工所

通过对比学习视觉内容

从X射线医学图像中诊别疾病是一项重要而又极具挑战性的任务。作者指出，解决这一问题的方法，通常使用胸部X射线图像的各种特征，但仍然缺乏对于图像中相关区域比较特征的挖掘。在本文中，作者提出了注意与比较模块（Attend-and-Compare Module，ACM）来捕获感兴趣的对象与其对应的上下文内容之间的差异。结果表明，显式差异建模在需要从远处对位置进行直接比较的任务中非常有用，这个模块可以即插即用到现有的深度学习模型中。为了进行评估，将本文的模块应用于三个胸部X射线识别任务、COCO目标检测和分割任务中，并观察到各个视觉任务得到一致性的改进。查看详情

教程 CMU《多模态机器学习》2020课程

多模态机器学习是一个充满活力的多学科研究领域，通过整合和建模多种交流模态来实现人工智能的一些原始目标。随着对视听语音识别的初步研究，以及最近的语言和视觉项目，如图像和视频字幕，这个研究领域给多模态研究人员带来了一些独特的挑战，因为数据的异质性和模式之间经常发现的偶然性。本课程将教授与MMML相关的基本数学概念，包括多模态对齐与融合、异质表示学习和多流时间建模。讲者还将回顾最近描述最先进的MMML概率模型和计算算法的论文，并讨论当前和即将面临的挑战。查看详情

开放电子书：Deep Learning on Graphs

近年来深度学习最大的进展之一就是将深度学习扩张到图领域，也就是图深度学习。虽然市面上有很多关于深度学习的书本，而且这些书本得到了很广泛地关注。但是还没有一本专门针对图深度学习的系统介绍性的书。而现在来自密西根州立大学的汤继良团队即将出版一本全面性介绍图深度学习的书：《Deep Learning on Graphs》。该书的中英文版将同时出版。英文版由剑桥出版社出版，作者包括马耀和汤继良。中文翻译版由电子工业出版社出版，作者包括王怡琦，金卫，马耀和汤继良。查看详情

【KDD2020-Tutorial】深度学习异常检测

异常检测已经得到了广泛的研究和应用。建立一个有效的异常检测系统需要研究者和开发者从嘈杂的数据中学习复杂的结构，识别动态异常模式，用有限的标签检测异常。与经典方法相比，近年来深度学习技术的进步极大地提高了异常检测的性能，并将异常检测扩展到广泛的应用领域。本教程将帮助读者全面理解各种应用领域中基于深度学习的异常检测技术。首先，讲者概述了异常检测问题，介绍了在深度模型时代之前采用的方法，并列出了它们所面临的挑战。然后讲者调查了最先进的深度学习模型，范围从构建块神经网络结构，如MLP ， CNN和LSTM，到更复杂的结构，如自动编码器，生成模型，到深度单类检测模型，等等。此外，讲者举例说明了迁移学习和强化学习等技术如何在异常检测问题中改善标签稀疏性问题，以及在实际中如何收集和充分利用用户标签。其次，讲者讨论来自LinkedIn内外的真实世界用例。本教程最后讨论了未来的趋势。 KDD 2020

新工具 EagerPy ：实现多框架无缝衔接

最初，Theano、Caffe、 MXNet 、TensorFlow和CNTK等很多流行的深度学习框架使用的是基于图的方法。用户首先需要定义一个静态数据流图（static data flow graph），然后可以对它进行高效地微分、编译并在GPU上执行。所以，提前了解整个计算图有助于实现高性能。但是，这种方法导致难以调试模型以及实现具有变化图的动态模型。而在本文中，来自德国图宾根大学和图宾根伯恩斯坦计算神经科学中心的研究者将eager execution进行了扩展，提供了一个新的Python框架 EagerPy ，它可以编写自动且原生地适配 PyTorch 、TensorFlow、Jax和 Numpy 的代码。 EagerPy 对库开发者和用户都有裨益。机器之心

DeepReg ：开源深度学习医学图像配准工具包

本项目基于TensorFlow2的深度学习医学图像配准工具包，可处理成对与非成对的图像数据。该工具包实现了主流的监督与弱监督医学图像配准的算法。 Github

Hivemind ： Pytorch 分散式深度学习训练框架

Hive mind 是一个 Pytorch 分散式深度学习训练框架，可以在数以千计的计算机上训练一个大规模Transformer。 Github

应用 Google 使用 AI 进行洪水预测

应急部数据显示，今年洪涝灾害范围广，致全国28个省份遭受影响，共7047.1万人次受灾，比近5年同期均值上升17%。一些地方农田、养殖、城乡商户、基础设施等受损严重，直接经济损失2143.1亿元，较近5年同期均值上升27%。由特拉维夫Google研究高级软件工程师Sella Nevo 发布在Google AI上的一篇文章讲述了正在研究利用AI技术检测并发布洪水预告，改进洪水预报系统。他们将基于物理的建模与机器学习（ML）相结合，设计了一种新的淹没建模方法，称为形态淹没模型。查看详情

AI模仿莎士比亚

该团队由3位机器学习研究人员和1位文学学者组成，他们利用从在线图书馆古登堡计划获取的约2700首十四行诗对AI诗人进行训练。他们的“诗人”通过深度学习AI方法，自己学会了怎样创作诗——它反复钻研训练数据库中的诗，一次又一次地尝试创作出与这些示例相匹配的诗句。他们没有像以前的计算机诗歌生成项目那样向它提供押韵词典、发音词典或其他资源。相反，“深士比亚”学习了与十四行诗创作有关的3套规则：押韵、节拍和自然语言基础查看详情

贝尔实验室新算法尝试用 AI 找到梦境的隐藏含义

纵观历史，人类一直试图从梦境中提取它所隐藏的含义。而如今，科学家们已经成功地开发出了一种AI算法，试图解读人们梦境所隐藏的含义。在近期发表于《皇家社会科学学会》的一项研究中，诺基亚贝尔实验室（Nokia Bell Labs）发表了他们设计和编写一种新的算法，并利用该算法自动分析了DreamBank.net数据库中的24000多个梦境。学术头条

以上是《智源社区AI周刊》第38期的内容，智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标，不断优化和完善我们的内容服务，各位读者们如有批评意见，或者好的建议，欢迎评论区留言。谢谢大家。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源社区AI周刊#038：自监督学习技术出现较大突破

评论列表

评论