导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第 58 期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/01/25~2021/01/31),值得关注的内容有以下3方面:

一、全球院校计算机科学领域实力排名开源项目CSRankings,更新了2020-2021年的最新数据。最新排名显示:AI(含5项细分领域)排名中,清华大学排名第一,北京大学排名第二,CMU排名第三。(详情参见本周报“行业与政策”栏目)

二、Sebastian Ruder是DeepMind语言学研究小组的成员,有着丰富的NLP和ML研究和开发经验,先后供职于微软、IBM、SAP、谷歌。他总结了2020年NLP和ML方向的十大影响力课题,包括:检索增强、少样本学习、对比学习、大规模语言模型实践、图像Transformer、强化学习等。(详情参见本周报“观点”栏目)

三、在某些情况下,只引用arXiv信息显得不那么准确,这种不准确的文献条目甚至可能会违反某些会议的论文提交或camera-ready版本提交规则。最近,上交毕业生、南加州大学博士生林禹臣开发了一个简单的Python工具——Rebiber,经过Rebiber转换后,原始arXiv信息被转换为来自正式来源的准确信息,包括标题、作者、年月、出版商、数字对象识别码(doi)、网址等详细内容。(详情参见本周报“新工具”栏目)

下面是各个要点的详情介绍。

论文推荐

开罗大学&哥伦比亚大学|一种分布式控制文本生成的方法 A DISTRIBUTIONAL APPROACH TO CONTROLLED TEXT GENERATION 论文提出了一种分布式方法来解决从预训练的语言模型(LM)生成受控文本的问题。根据作者的了解,这种观点允许在单个正式框架中定义目标LM的“逐点”约束和“分布”约束,这是第一种具有这种通用性的方法,同时可以将初始LM分布的KL差异最小化。然后,将最佳目标分布唯一确定为明确的EBM(基于能源的模型)表示。然后从该最佳表示中,通过策略梯度的自适应分布变量训练目标受控自回归LM。作者针对点约束进行了第一组实验,显示了文中的方法在一组基线上的优势,即获得了与初始LM(GPT2)不同的受控LM平衡约束满足。然后,作者在分布约束条件下进行了实验,这是论文中方法的一个独特功能,证明了其作为解决语言模型偏差问题的潜力。通过消融研究,文中证明了自适应技术对于获得更快收敛的有效性。 论文下载

图像字幕评估 | 句法规划在构图字幕中的作用 The Role of Syntactic Planning in Compositional Image Captioning 图像标注的重点是对从与训练集相同的分布中提取的图像进行泛化,而不是对更有挑战性的图像的不同分布进行泛化。最近,Nikolaus等人引入了一个数据集来评估图像字幕中的成分概括,其中模型被评估为用看不见的形容词-名词和名词-动词组合描述图像的能力。在这篇工作中,我们研究了通过规划标题的句法结构来改善组合泛化的不同方法。我们的实验表明,联合建模令牌和语法标记增强了基于RNN和基于transformer的模型中的泛化,同时也提高了标准度量的性能。 论文下载

问答系统 | 基于延迟预算的答句选择系统中的上下文建模 Modeling Context in Answer Sentence Selection Systems on a Latency Budget 答句选择(AS2)是设计开放域问答系统(QA)的一种有效方法。为了达到低延迟,传统的AS2模型分别对问题-答案对进行评分,忽略了从文档中提取每个潜在答案的任何信息。相比之下,为机器阅读理解任务设计的计算成本更高的模型,通常会接收一个或多个段落作为输入,这通常会提高准确性。在这项工作中,我们提出了一种有效地在AS2模型中整合上下文信息的方法。对于每个候选答案,我们首先使用无监督相似技术从其源文档中提取相关句子,然后将其提供给一个针对AS2进行微调的高效转换器架构。我们的最佳方法,即利用多路注意力架构来高效编码上下文,比AS2中无上下文的技术水平提高了6%到11%,同时对系统延迟的影响最小。本工作中的所有实验都是用英语进行的。 论文下载

EACL 2021 | 基于跨语言视觉预训练的多模态机器翻译 Cross-lingual Visual Pre-training for Multimodal Machine Translation 预训练语言模型已被证明可以显著提高许多自然语言任务的性能。尽管此类模型的早期重点是单一语言的预训练,但最近已扩展到跨语言和视觉的预训练模型。基于此,作者将这两种方法结合起来学习以视觉为基础的跨语言表示。具体来说,文章扩展了翻译语言建模和掩码区域分类和执行前训练与三方平行视觉和语言语料库。实验结果表明,当对多模态机器翻译进行微调时,这些模型获得了最先进的性能。 论文下载

香港中文大学 | 用对比正则化改进图表示学习 Improving Graph Representation Learning by Contrastive Regularization 图表示学习是在线社交网络,电子商务网络,WWW和语义网等各个领域中应用程序的一项重要任务。对于无监督的图形表示学习,许多算法(例如Node2Vec和Graph-SAGE)都使用“负采样”和/或噪声对比估计损失。这具有与对比学习相似的思想,对比学习将语义相似(正)对的节点表示相似性与否定对的节点代表相似性进行“对比”。但是,尽管对比学习取得了成功,但作者发现将这种技术直接应用于图表示学习模型(例如图卷积网络)并不总是有效。作者从理论上分析了泛化性能,并提出了一种轻量级的正规化术语,该术语避免了大规模的节点表示范式和它们之间的高方差,从而提高了泛化性能。本文的实验结果进一步验证了该正则项显着提高了跨不同节点相似性定义的表示质量,并且胜过了最新技术。 论文下载

观点

Sebastian Ruder:总结2020年NLP和ML方向的十大影响力课题 Sebastian Ruder是DeepMind语言学研究小组的成员,有着丰富的NLP和ML研究和开发经验,先后供职于微软、IBM、SAP、谷歌。他总结了2020年NLP和ML方向的十大影响力课题,包括:检索增强、少样本学习、对比学习、大规模语言模型实践、图像Transformer、强化学习等。 Sebastian Ruder | 参与讨论

行业与政策

CSRankings年度更新,清华北大包揽AI领域前两名 全球院校计算机科学领域实力排名开源项目CSRankings,更新了2020-2021年的最新数据。最新排名显示:AI(含5项细分领域)排名中,清华大学排名第一,北京大学排名第二,CMU排名第三。CSRankings(Computer Science Rankings):是由马萨诸塞大学安姆斯特分校信息与计算机科学学院教授Emery Berger发布的基于研究指标(全球各机构的学者在各顶会上发表的论文)的全球顶尖计算机科学机构排名。它具体细分为4个大类(共26个小项):AI人工智能、Systems系统、Theory理论和Interdisciplinary Areas跨学科领域。 CS Ranking | 参与讨论

中国信通院联合发布:2020医疗健康物联网技术与应用研究报告白皮书 当前,物联网技术与5G、云计算、大数据、RFID、BLE等技术的充分融合与应用,呈现出强大的影响力与生产力,其对推进深化医药卫生体制改革、加快“健康中国”建设和推动医疗健康产业发展,起到重要的支撑作用。我国医疗健康物联网快速发展,已经在部分医院和医养中心等区域投入使用,并探索出智慧医院服务、居家健康服务和公共卫生服务三类应用领域,覆盖医疗耗材管理、药品追溯、重症监护、智慧病房、院内外协同急救、健康管理等多个场景。基于此,中南大学湘雅医院联手中国信息通信研究院和NVIDIA技术服务(北京)有限公司共同研究编制2020医疗健康物联网技术与应用研究报告白皮书。白皮书共包括四部分内容:医疗健康物联网概述;医疗健康物联网发展趋势;医疗健康物联网典型应用;医疗健康物联网发展建议与展望。 专知 | 参与讨论

朱松纯教授创办公司暗物智能完成5亿A轮融资 近日,强认知人工智能平台企业暗物智能科技宣布,已于2020年年中完成5亿元人民币的A轮融资。本轮融资由赛领资本和吉富创投共同领投,联想创投、广州基金、将门创投、花城创投跟投。暗物智能由全球著名计算机视觉专家、统计与应用数学家、人工智能专家朱松纯教授于2017年创办。公司基于朱松纯提出的“小数据、大任务”技术范式,以人机交互与跨领域融合为主攻方向,致力于打造新一代基于强认知的人工智能技术平台,并通过与教育、新零售等垂直行业深度融合,构建以强认知AI为核心的产业生态。 AI科技评论 | 参与讨论

数据

LSOIE:一个用于有监督开放信息抽取的大规模数据集 开放信息提取(OIE)系统试图将一个句子的事实命题压缩为一系列n元元组。这些元组对于自然语言处理中的下游任务很有用,例如知识库创建,文本蕴涵和自然语言理解。但是,当前的OIE数据集在大小和多样性上都受到限制。通过将QA-SRL 2.0数据集转换为大规模OIE数据集(LSOIE),本文引入了一个新的数据集。本文的LSOIE数据集比第二大的人工注释OIE数据集大20倍。作者在LSOIE上构建和评估了几个基准OIE模型,为将来对该任务的改进提供了基准。 Roboflow&Rose Gold AI | 参与讨论

代码

用于图像描述的网状记忆存储Transformer 基于Transformer结构的技术代表着诸如机器翻译和语言理解之类的序列建模任务中的最新技术。然而,它们在诸如图像描述之类的多模式上下文中的适用性仍在很大程度上还未被研究。为了填补这一空白,我们提出了一种用于图像描述的网状存储Transformer。该体系结构改进了图像编码和语言生成步骤:它学习了图像区域之间关系的多级表示形式,整合了所学的先验知识,并在解码阶段使用了类似网状的连通性来利用低级和高级特征。 摩德纳-雷焦·艾米里亚大学 | 参与讨论

用于视频会议的单样本自由视角动态人脸合成方法 传统的人脸动态化任务中,由于缺乏三维信息,只能从原始视角合成,而无法从一个全新的视角来呈现头部的动态。subject-dependent是传统的三维建模方法,通常是建立一个主体相关的模型,只能合成一个特定主体。subject-agnostic是最新的三维建模方法,为了生成逼真的头发、牙齿等,显式控制预训练的StyleGAN从而生成人脸,但其隐变量如何影像输出有待探究。本文工作的贡献在于,只需要一张图片,就能在基准数据集上实现最好的视觉质量。不需要3D图形模型,能自由地控制不同视角下的动态视频,包括用户自定义的视角。在人脸视频数据上,其压缩结果与商业H.264标准相比,可以减少10倍带宽。 英伟达 | 参与讨论

Pr-VIPE:识别图像和视频中的姿态相似度 谷歌的研究人员提出了一种用于人体姿态感知的新算法Pr-VIPE,通过将2D人体姿态关键点映射到具有视角不变的嵌入空间之中,来识别不同相机视角中人体姿态的相似度。这种能力可以用于实现姿态检索、动作识别、动作视频同步等任务。 [谷歌]https://github.com/google-research/google-research/tree/master/poem() | 参与讨论

教程

华盛顿大学《生成模型》2020秋季课程 在概率统计理论中,生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它能够给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。生成模型是最近较为活跃的研究领域,从事机器学习研究的人有必要了解这一研究主题。去年秋季,华盛顿大学开设了一门主题为「生成模型」的课程CSE 599,探讨了多种生成模型相关技术。这门课与当前的生成模型研究紧密相关,并提供了阅读该领域近期进展相关论文所需的背景知识。课程聚焦生成建模技术的理论和数学基础,学生在开始本课程前最好了解机器学习领域的基础概念。 华盛顿大学 | 参与讨论

【UBC】高级机器学习课程 本课程是关于机器学习的第二或第三门大学水平的课程,该领域的重点是将自动数据分析用于模式识别和预测等任务。该课程旨在作为CPSC 340课程的延续,并将要求学生具备扎实的数学和计算机科学背景。主题将包括深度学习、生成模型、潜在变量模型、马尔可夫模型、概率图模型和贝叶斯方法。 UBC | 参与讨论

斯坦福“机器学习系统设计”(CS 329S)开课 本门课程旨在为现实中的机器学习系统提供一个迭代框架,该框架的目标是构建一个可部署、可信赖、可扩展的系统。首先要考虑的是每个ML项目的利益相关者及目标,不同的目标则需要不同的设计选择,且要考虑如何权衡。课程涵盖了从项目界定、数据管理、模型开发、部署、基础架构、团队架构到业务分析的所有步骤,在每个步骤中,都会探讨不同解决方案的动机、挑战和局限性。在课程的最后一部分,将会探讨机器学习生产生态系统的未来。学生们还将学习关于隐私、公平、安全方面的知识。 斯坦福大学 | 参与讨论

新工具

南加州大学华人博士创建小工具Rebiber,可规范arXiv论文引用信息 在某些情况下,只引用arXiv信息显得不那么准确,这种不准确的文献条目甚至可能会违反某些会议的论文提交或camera-ready版本提交规则。最近,上交毕业生、南加州大学博士生林禹臣开发了一个简单的Python工具——Rebiber,经过Rebiber转换后,原始arXiv信息被转换为来自正式来源的准确信息,包括标题、作者、年月、出版商、数字对象识别码(doi)、网址等详细内容。Rebiber支持的会议包括ACL Anthology涵盖的会议,如ACL、EMNLP、NAACL及其workshop,以及DBLP涵盖的会议,如ICLR 2020。 Github | 参与讨论

百度 | 知名OCR开源项目PaddleOCR迎来更新 百度的OCR开源项目PaddleOCR自去年6月开源以来,累计Star数量已超过8.5K。最近,其又带来四大新发布与升级:1. 全新发布数据合成工具Style-Text:可以批量合成大量与目标场景类似的图像,在多个场景验证,效果均提升15%以上;2. 全新发布半自动数据标注工具PPOCRLabel:有了它数据标注工作事半功倍,相比labelimg标注效率提升60%以上,社区小规模测试,好评如潮;3. 多语言识别模型效果升级:在开源测试集评估,中文、英文、韩语、法语、德语、日文识别效果均优于EasyOCR;4. PP-OCR开发体验再升级:支持动态图开发(训练调试更方便),静态图部署(预测效率更高)。 百度 | 参与讨论

ML Metadata:ML的版本控制 MLMD库可用于追踪整个ML工作流的完整继承关系。完整继承关系是指数据提取、数据预处理、验证、训练、评估、部署等流程中的所有步骤。MLMD是一个可独立运行的库,但也集成到了TensorFlow Extended中。 Tensorflow | 参与讨论

应用

通过LSTM模型进行深度学习以预测印度的COVID-19感染 我们进入了一个病毒蔓延严重的时代,这个时代已经动摇了世界,对医疗系统,经济和农业产生了重大影响。由于感染传播的复杂性,表现突出的计算模型和数学模型不可靠。此外,由于缺乏数据收集和报告功能,因此任何此类挂牌尝试都不可靠。因此,我们需要使用最新的数据源和最全面的预测模型重新审视这种情况。深度学习模型,例如递归神经网络非常适合于建模时空序列。在本文中,著名的递归神经网络,特别是长短期记忆(LSTM)网络,双向LSTM和用于多步(短期)的encoder-decoder LSTM模型,可预测印度选定州之间COVID感染的蔓延。作者团队根据感染率选择带有COVID-19热点的州,并与感染被控制或达到高峰的州进行比较,并提前两个月提供预测,表明病例将缓慢下降。结果表明,长期的预测是有希望的,这将激励该方法在其他国家或地区的应用。此外,尽管该研究在预测上取得了一些进展,但是由于数据和难以捕捉的因子,诸如人口密度,后勤以及文化和生活方式等社会方面的因素,建模方面的挑战仍然存在。 悉尼新南威尔士大学数学与统计学院 | 参与讨论

韩国KIST宣称AI诊断前列腺癌取得突破,准确性近100% 近日,韩国科学技术研究所(KIST)宣称在前列腺癌的诊断方面取得了重大突破。研究小组团队利用了不同种类的癌症因子,而不是仅使用一种癌症因子来创新地提高诊断准确性。同时,研究团队开发了一种超灵敏的半导体传感器系统,该系统能够同时测量尿液中选定四种癌症因子的痕量,以诊断前列腺癌。研究人员通过使用从开发的传感器获得的四种癌症因素之间的相关性来训练AI。经过训练的AI算法通过分析检测信号的复杂模式来识别前列腺癌患者。在利用AI对前列腺癌的诊断试验中,成功地检测了76个尿样,准确率几乎为100%。 学术头条 | 参与讨论

基于卷积递归神经网络的PM2.5时空传输预测新方法 危害健康的PM2.5污染物的扩散很难预测,因为它涉及许多大气变量。这些微米颗粒会从其来源迅速扩散到居民区,如果长期暴露,则会增加患呼吸道疾病的风险。PM2.5传播的预测系统可提供更详细和准确的信息,作为减少对社区健康影响的预警系统。根据变换计算的思想,本文提出的方法允许对通过无线传感器网络从大规模PM2.5传感器节点获得的数据集进行计算。在该方案中,深度学习模型在服务器节点上实现,以提取这些数据集上的时空特征。这项研究是利用台湾的空气质量监测系统数据集进行的。这项研究提出了一个基于进化递归神经网络的新模型来生成预测图。通常,该模型能够通过在空间和时间上支持测量节点之间的键来提供准确的预测结果。因此,使用本文提出的模型可以精确地监测PM2.5的颗粒污染物扩散。 台湾亚洲大学 | 参与讨论

会议

2021年机器学习学习指南 在机器学习深入工业界时,实际操作并没有想象中那么简单。要部署任何项目,都需要经过完整的生命周期,而这个周期对于开发机器学习模型至关重要。此文深入全面总结了从零开始到正式上线过程中的所有步骤,并总结了各个步骤的常用工具。 Towards Data Science | 参与讨论

以上是《智源社区AI周刊》第58期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除