导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第45期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
在过去一周(2020/10/26~2020/11/01)左右时间,首先值得推荐的内容有以下3方面:
- 图灵奖得主、深度学习教父Yann LeCun近日在社交媒体发出警告,称“人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待。”作为一个问答系统,GPT-3不是很好。 用“神经”联想记忆大量知识的方法在这方面做得更好。作为一个对话系统,它也不是很好。 其他被明确训练过与人类互动的方法在这方面做得更好。(详情参见本周报“观点”栏目)
- 近日,PyTorch 团队发布PyTorch 1.7版本。该版本增添了很多新特性,如支持CUDA 11、Windows分布式训练、增加了支持快速傅里叶变换(FFT)的新型API等。(详情参见本周报“新工具”栏目)
- 近日,麻省理工学院计算机科学与人工智能实验室的研究人员称,他们已经创造了一种可以自主移动的自动驾驶船,它能够在搭载乘客过河,即使是在湍急的水流中也能保持稳定前行,研究人员还给这款船起了个有趣的名字——Roboat II。(详情参见本周报“应用”栏目)
下面是各个要点的详情介绍。
论文推荐
基于多模态融合Transformer和BERT编码的视觉问答
* Generalized Conditioned Dialogue Generation Based on Pre-trained Language Model*
本文收录于EMNLP2020 Findings。文章提出了MMFT-BERT(具有BERT编码的多模态融合transformer),用于解决视觉问答(VQA)问题,同时该模型能对多个输入模态进行单独和组合处理。该模型得益于处理多模式数据(视频和文本)的过程,这些数据分别采用BERT编码,并使用基于Transformer的新颖融合方法将它们融合在一起。同时,将不同的模态源分解成不同的BERT实例,这些实例具有相似的架构,但是权值是可变的。最终模型在TVQA数据集上取得了SOTA效果。 论文下载 | 参与讨论
未对齐人类多模态语言序列的多模态时间图注意力网络 MTGAT: Multimodal Temporal Graph Attention Networks for Unaligned Human Multimodal Language Sequences
本文来自于卡内基梅隆大学。文章提出了多模态时间图注意网络(MTGAT),该模型是一个基于图的可解释神经模型,它为分析这类多模态序列数据提供了一个合适的框架。文章首先设计了一种将未对齐的多模态序列数据转换为具有异构节点和边的图形的过程,该过程可捕获不同模态之间随着时间的丰富交互。然后,设计了一种名为多模态时间图注意力的新颖图操作,同时包括动态修剪和read-out技术,该操作可以有效地处理多模态时间图问题。 论文下载 | 参与讨论
结构化知识蒸馏 Structural Knowledge Distillation
本文提出了一种新的结构化知识蒸馏方法,致力于解决目标输出空间呈指数级大小而难以计算和优化的问题。知识蒸馏(Knowledge Distillation,KD)是一种通过学生模型(小模型)模仿教师模型(大模型)的输出概率分布来训练学生模型的技术。典型的KD目标函数是教师模型和学生模型预测的输出分布之间的交叉熵。但当对结构化预测进行知识蒸馏时,一个主要的挑战是输出空间的大小是指数级的,这导致交叉熵目标难以计算。以前的结构化KD方法要么选择在局部决策或子结构上进行KD,要么求助于目标的top-K近似。基于此本文提出,KD目标可以通过学生对输出结构评分函数的分解来实现。本文导出了结构KD目标的分解形式,将该方法应用于四个KD场景。实验结果表明,该方法优于没有KD的基线和以前的KD方法。在无标记数据的情况下,该方法甚至可以促进学生在零样本跨语言迁移方面的表现优于教师。 论文下载 | 参与讨论
通过对抗性对比学习实现鲁棒的预训练 Robust Pre-Training by Adversarial Contrastive Learning
近期的一些研究工作表明,将对抗性训练融入到自监督预训练过程中可以实现目前最佳的模型鲁棒性。在本文中,作者通过学习在数据增强与对抗性扰动情况下保持一致的表征,来改进具有鲁棒性的自监督预训练。本文提出的方法使用了近期发布的对比学习框架 SimCLR,它通过最大化在不同增强视角下的特征一致性来学习表征。这十分符合对抗鲁棒性的目标,因为对抗性学习由于缺乏特征不变性(即微小的输入扰动会导致特征中甚至是预测标签上的不良变化)而十分脆弱。本文作者研究了多种形式化定义对比任务的设置,证明了通过将对抗性扰动引入对比预训练,可以得到标签利用率高且鲁棒的模型。作者通过实验评估了他们所提出的对抗性对比学习(ACL)的性能,该模型的性能一直现有的方法。例如,在CIFAR-10数据集上,ACL的性能要比现有的最佳的鲁棒预训练方法在鲁棒准确率上高出2.99%,在标准从准确率上高出2.14%。此外,作者还证明了,即使在有标签示例极少的情况下,ACL预训练也可以提升半监督对抗性训练的性能。 论文下载 | 参与讨论
重新思考图神经网络中的池化 Rethinking pooling in graph neural networks
Graph pooling是无数图神经网络(GNN)架构的重要组成部分。作为对传统CNN的继承,大多数方法将图池化定义为cluster assignment问题,从而将规则网格中的local patches的概念扩展到图上。尽管广泛遵循此设计选择,但尚无任何工作严格评估其对GNN成功的影响。在本文中,作者以具有代表性的GNN为基础,并引入了变体,这些变体通过使用随机图或在补图上进行聚类来挑战需要保留位置的表示形式。令人惊讶的是,作者的实验表明,使用这些变体不会导致性能下降。为了理解这种现象,作者研究了卷积层与后续池化层之间的相互作用。作者证明了卷积在学习的表示中起着主导作用。与普遍的看法相反,在相关的和广泛使用的基准上,local pooling对GNN的成功不负责。 论文下载 | 参与讨论
观点
图灵奖得主、深度学习教父Yann LeCun:人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待
图灵奖得主、深度学习教父Yann LeCun近日在社交媒体发出警告,称“人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待。”作为一个问答系统,GPT-3不是很好。 用“神经”联想记忆大量知识的方法在这方面做得更好。作为一个对话系统,它也不是很好。 其他被明确训练过与人类互动的方法在这方面做得更好。 雷锋网 | 参与讨论
行业与政策
AI图像工具公司Versa获数千万美元B轮融资
公司成立于2017年,4月获得真格基金的天使轮投资,同年10月又收获了红杉资本的Pre-A轮融资,并于2018年12月获得来自腾讯的数千万美元A轮融资。公司产品包括:图片创作工具“马卡龙玩图”在全球已有近5000万用户。以及近期推出的手机剪辑产品“不咕剪辑“。 投资界 | 参与讨论
AMD正式宣布以350亿美元全股票交易收购赛灵思
10月27日,AMD和赛灵思正式宣布,已经达成最终协议,AMD 将以350亿美元全股票交易收购赛灵思。如果该项交易达成,这将是2020年内规模第二大的半导体并购交易,也是AMD有史以来最大的一笔收购。专业分析师认为,之所以以股票的方式来完成这笔交易,也是为了避免重蹈收购ATI的覆辙。2006年,AMD宣布以54亿美元收购ATI Technologies,包括42亿美元现金和12亿美元股票。这笔收购让AMD负债累累,几乎走向破产边缘。官方称,最新的这次收购将两个行业领导者聚集在一起,他们的产品组合和客户优势互补。AMD 将结合CPU、GPU、FPGA、自适应SoC等,为业界提供最强大的高性能处理器组合,云、边、端设备将获得AMD最先进的算力。 新智元 | 参与讨论
Waymo宣布联手戴姆勒,加速自动驾驶卡车落地
10月27日晚,Waymo与戴姆勒两家公司共同宣布,双方已经在全球范围内建立了“广泛的战略伙伴关系”。至于合作的主要目标,则是部署全自动驾驶卡车。未来,戴姆勒将在旗下Freightliner Cascadia重卡(Class 8)中整合Waymo的自动驾驶技术。据了解,双方的合作主要集中在底盘开发,而这些信息也指向了一种可能:在车辆上建立冗余系统。戴姆勒发言人也透露了一些与Waymo的合作细节:“配合着Waymo的冗余系统,戴姆勒卡车部门正在开发定制化的Freightliner Cascadia卡车底盘,该底盘具有冗余系统,我们要定下可靠性与安全性的行业标准。借助这款定制化的底盘,戴姆勒可以整合Waymo Driver——自动驾驶巨头独一无二的软硬件与计算机的组合。”Waymo公司CEO约翰·克拉菲克(John Krafcik)也表示:“开发冗余转向、制动和控制系统,对这个领域的发展非常重要。它是把这些技术推广到全世界的主要门槛之一。” 新智驾 | 参与讨论
数据
Multi-XScience:一个用于对科学文章进行多文档摘要的大型数据集
多文档摘要是一项极富挑战性的任务,几乎没有大型数据集。本文作者提出了Multi-XScience,这是一个由科学文章创建的大规模多文档摘要数据集。Multi-XScience引入了一项具有挑战性的多文档摘要任务:根据摘要和所引用的文章来撰写论文的相关工作部分。本文的工作受到极端摘要的启发,极端摘要是一种偏爱抽象建模方法的数据集构造协议。使用在Multi-XScience数据集上训练的几种最新模型的结果证明Multi-XScience非常适合抽象模型。 EMNLP 2020 | 参与讨论
代码
通过Transformer解码器实现用于目标检测的桥接视觉表征
有的目标检测框架通常都只是用到了单一形式的物体/部分表征(即RetinaNet和Faster R-CNN中的anchor/proposal的矩形边界框、FCOS和RepPoints 中的中心点、CornerNete 中的角点)。然而,这些表征往往可以从不同的层面上促使框架获得好的性能(例如,更好的分类效果或更精细的位置)。由于不同的表征之间存在异质性以及某些非网格化的特征提取方式,我们通常很难在单个框架中将这些表征结合起来,从而很好地利用每一种表征的长处。本文提出了桥接视觉表征(BVR),这是一种与Transformer解码器相似的基于注意力的解码模块,以一种端到端的方式将其余表征桥接到基于某一种表征构建的目标检测器中。其余的表征将会作为一组「键」实例来增强原始检测器中主要的「查询」表征特征。为了提升解码器模块的计算效率,本文作者提出了包括「键采样」方法和「共享位置嵌入」方法在内的技术。BVR可以即插即用,能够有效地将其它的表征桥接到当下流行的目标检测框架中(包括 RetinaNet、Faster RCNN、FCOS、ATSS),可以将平均精度提升1.5-3.0。 中科院自动化所&MSRA | 参与讨论
CompRess:基于压缩表征的自监督学习
作为一种旨在利用无标签数据学习高质量数据表征的方法,自监督学习近期受到了大量研究人员的关注。近期的研究工作表明,较大的模型能比较小的模型更多地受益于自监督学习。因此,对于较大的模型而言,监督学习和自监督学习之间的性能差异被大大地缩小了。在本文中,作者并没有涉及新的前置任务,而是提出了一种能够将已学习好的深度自监督模型(教师网络)压缩为较小的模型(学生网络)的模型压缩方法。作者通过对学生模型进行训练,使其能够在教师网路嵌入空间中学习到数据点之间的相对相似度。以AlexNet为例,本文提出的方法性能优于包括全监督方法在内的所有方法。据我们所知,这是自监督AlexNet模型首次在ImageNet分类任务上取得了优于监督学习模型的性能。 马里兰大学 | 参与讨论
用于文本引导图像处理的轻量级生成对抗网络
作者提出了一种新的单词级别分类器可以显式地提取出与每个单词相关的训练信号,可以给生成器提供与每个单词相关的细粒度训练反馈,从而有助于训练具有更少参数的轻量级生成器,同时可以高效的解耦不同视觉属性,使视觉属性可以正确地和对应语义词映射。 NeurIPS 2020 | 参与讨论
教程
Pytorch自然语言处理
自然语言处理为解决人工智能方面的问题提供了无限的机会,使Amazon Alexa和谷歌翻译等产品成为可能。本实用指南将向NLP和深度学习的新手展示如何使用PyTorch应用这些方法。作者Delip Rao和Brian McMahon为大家提供了关于NLP和深度学习算法的坚实基础,并演示了如何使用PyTorch构建应用程序。每一章包括几个代码示例和插图。 Oreilly | 参与讨论
经典教材《统计学习导论》Python版
斯坦福经典教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计学习「圣经」,由三位统计学大师——Trevor Hastie、Robert Tibshirani、Jerome Friedman共同完成。这本书介绍了神经网络、支持向量机、分类树和boosting、图模型、随机森林、集成方法、Lasso最小角度回归和路径算法、非负矩阵分解和谱聚类等各类机器学习算法,可以帮助读者了解机器学习算法全貌。但对于刚入门的小白来说,把这本经典教材啃下来难度还是相当大的,因为书中有大量的公式、矩阵推导,总长度达到700多页。为了克服这一障碍,有人尝试用 Python 语言解决了书里的所有概念、应用练习,并将其上传到了GitHub。 Github | 参与讨论
【NLPCC教程】崔鹏:图神经网络与网络嵌入前沿进展
如今,网络越来越大,越来越复杂,应用越来越广泛。众所周知,网络数据是复杂和具有挑战性的。要有效地处理图数据,第一个关键的挑战是网络数据表示,即如何正确地表示网络,使模式发现、分析和预测等高级分析任务在时间和空间上都能有效地进行。在这次演讲中,讲者将介绍网络嵌入和GCN的最新发展趋势和最新进展,包括解纠缠GCN、抗攻击GCN以及用于网络嵌入的自动机器学习。 NLPCC | 参与讨论
新工具
PyTorch 1.7发布,支持CUDA 11、Windows分布式训练
近日,PyTorch 团队发布 PyTorch 1.7版本。该版本增添了很多新特性,如支持CUDA 11、Windows分布式训练、增加了支持快速傅里叶变换(FFT)的新型API等。PyTorch 1.7版本包含很多新的API,如支持NumPy兼容的FFT操作、性能分析工具,以及对基于分布式数据并行(DDP)和基于远程过程调用(RPC)的分布式训练的重要更新。此外,一些特性也更新为稳定版,包括自定义C++类、内存分析器、通过自定义类张量对象进行扩展、RPC中的用户异步函数,以及 torch.distributed 中的许多其他特性(如Per-RPC超时、DDP dynamic bucketing、RRef helper)。 机器之心 | 参与讨论
MedMNIST:上海交大发布医学影像领域的MNIST
该数据集的特点可以概括如下:利于研究教学:数据来自具有知识共享(CC)许可的多个开放式医学图像数据集,易于用于教育目的;标准化:将数据预处理为相同格式,无需用户了解任何背景知识;多样性:涵盖了各种数据规模(从100到100,000)和任务(二进制/多类,有序回归和多标签分类);轻量级:28×28的图像大小适合快速原型设计和试验多模式机器学习和AutoML算法。该数据集覆盖了常见的医学影像数据源:病理图片、胸部X光、皮肤镜、超声、眼底摄影、OCT、CT等。另外,作者提供了代码,在此10个数据集上进行了人工设计网络和常见AutoML模型的评测。 上海交通大学 | 参与讨论
Lobe:普通人也能上手的机器学习训练工具
微软Lobe,旨在使人们更易使用机器学习并帮助他们,无需编写代码就能训练模型的应用程序。26日,微软在Lobe公众预览版中提供了该免费应用程序,以帮助没有数据科学经验的人将图像导入Lobe,并轻松标记它们以创建机器学习数据集。Lobe会自动选择正确的机器学习架构,无需任何设置或配置即可开始培训。用户可以通过实时视觉结果评估模型的优缺点,使用模型并提供反馈以提高性能。微软表示,Lobe将支持图像分类,但计划将来扩展到其他模型和数据类型。训练完成后,可以轻松导出模型以在行业标准平台上运行并在应用程序、网站或设备中工作。 这样一来,人们就可以在家中或工作场所中,创建端到端的机器学习解决方案。 Lobe | 参与讨论
应用
LVHN面向中风治疗的AI技术
美国Lehigh Valley Health Network(LVHN)拥有名为Viz.ai的尖端人工智能软件,Viz.ai可以识别大血管闭塞(LVO)的中风,并将聚焦成像直接提供给护理团队的移动设备,无论患者去哪家LVHN医院,医师都可以使用类似短信的HIPAA兼容移动界面,进行实时咨询。该技术可以在中风分类、诊断和治疗中节省关键的几分钟甚至几个小时。Viz.ai图像分析有助于快速准确地对中风患者中疑似LVO进行分类,并做出快速的治疗决策,以挽救大脑和生命。 LVHN | 参与讨论
华为提出适用于弯道的车道线检测方法
车道线检测,作为自动驾驶最基础也最重要的任务之一,近年也一直是从业人员的热门研究对象。车道线检测一般基于单目摄像头,检测方法可以分为两类:传统图像处理方法和深度学习方法。华为诺亚方舟实验室与中山大学近日发表了一个新方法,旨在解决弯道车道线检测问题。在论文《CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point Blending》中,华为与中大提出了一个名为CurveLane-NAS的方法,是一种简单而有效的多目标搜索算法,为每个特征层准确分配具有合理感受野和空间分辨率的计算,旨在高效性和准确性之间达到最佳平衡。同时,还发布了一个车道检测数据集CurveLanes,是目前最大也是最难的车道检测数据集。 点云PCL | 参与讨论
MIT计算机科学与人工智能实验室研究人员开发可自主移动自动驾驶船
近日,麻省理工学院计算机科学与人工智能实验室的研究人员称,他们已经创造了一种可以自主移动的自动驾驶船,它能够在搭载乘客过河,即使是在湍急的水流中也能保持稳定前行,研究人员还给这款船起了个有趣的名字——Roboat II。Roboat是一个为期5年的研究项目,研究人员的初衷是希望通过这些自主驾驶船来改造阿姆斯特丹的运河,比如可以用它来收集水上垃圾、运送货物或人员。目前,这篇研究已经在国际智能机器人与系统会议上展示,值得一提的是,这篇Roboat II 最新论文的一作王伟是来自北大的一名博士毕业生。 大数据文摘 | 参与讨论
经验
清华大学唐杰:从学术小白,到科研大神必走的四个阶段
阶段一:在引路人的带领下,把一件事情做到最好;阶段二:想一个idea,在被告知哪些不能做后,把能做的部分做到极致;阶段三:完全独立地想一个idea,并独立地做完、做好;阶段四:能够带着第一阶段的人,引导他把一件事情做好。 智源社区 | 参与讨论
以上是《智源社区AI周刊》第45期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。
© 北京智源人工智能研究院,版权所有
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢