导读 为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第 65 期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2021/01/18~2021/01/24),值得关注的内容有以下3方面:

一、智源研究院近日发布超大规模智能模型“悟道1.0”。“悟道1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,取得了多项国际领先的AI技术突破,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,勇闯通用智能发展前沿,构建我国人工智能应用基础设施。(详情参见本周报“新工具”栏目) 二、美国《福布斯》双周刊网站在3月15日的报道中,为我们列出了2021年人工智能领域备受期待的五大趋势:低代码/无代码工具;高级预训练语言模型;合成内容生成;供儿童使用的人工智能;机器学习操作。(详情参见本周报“行业与政策”栏目) 三、芯翌科技与清华大学自动化系智能视觉实验室合作,发布了业界规模最大的人脸数据集WebFace260M,相关学术论文已经被计算机视觉国际顶会CVPR 2021接收。该数据集完全基于全球互联网公开人脸数据构建,包含数百万ID和数亿图片,旨在进一步推动人脸识别相关技术的进步,促进智能化行业的发展。(详情参见本周报“数据”栏目)

下面是各个要点的详情介绍。

论文推荐

多模态 | 面向情感识别的多模态端到端稀疏模型 Multimodal End-to-End Sparse Model for Emotion Recognition 现有的多模态情感计算任务,如情感识别,一般采用两阶段管道,首先用手工算法提取单个模态的特征表示,然后利用提取的特征进行端到端的学习。但是,所提取的特征是固定的,不能在不同的目标任务上进一步微调,而且手工查找特征提取算法不能很好地适用于不同的任务,可能导致性能欠佳。在本文中,我们开发了一个完整的端到端模型来连接这两个阶段并共同优化它们。此外,我们重构了当前的数据集,以实现完全的端到端训练。此外,为了减少端到端模型带来的计算开销,我们引入了一种稀疏的跨模态注意机制来进行特征提取。实验结果表明,我们的全端到端模型明显超过了目前基于两阶段管道的最先进模型。此外,通过添加稀疏的跨模态注意,我们的模型可以在特征提取部分的一半左右的计算量下保持性能。 查看详情及论文下载

跨模态表征学习 | 时空裁剪&注意:对跨模态视频表征学习的改进 Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning 在本文中,作者以两种独特的方式在视频的时空层面上对这些学习方式进行了改进。首先,在空间层面上,作者说明裁剪等空间增强方式在视频中也很有效。但是由于高昂的计算和存储开销,之前的实现方式不能完成大规模的工作。为了解决这个问题,作者首先引入了「特征裁剪」方法,这是一种直接在特征空间中更有效地模拟这种增强的方法。第二,作者表明,与朴素的平均池化相比,使用基于transformer的注意力可以显著提高模型性能,并且非常适合特征裁剪操作。在本文中,作者将上述两项发现结合成了一种新的方法:时空裁剪&注意(STiCA)。 查看详情及论文下载

自然语言生成 | 从场景图自动生成对比集:探索GQA的组成一致性 Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA 最近的工作表明,受监督的模型经常利用数据伪像来获得良好的测试成绩,而在其训练分布范围之外的样本上其性能会严重下降。对比集通过以最小方式扰动测试样本,从而修改输出标签来量化此现象。虽然大多数对比集是手动创建的,需要大量的注释工作,但我们提出了一种新颖的方法,该方法利用丰富的语义输入表示来自动生成可视化答题任务的对比集。我们的方法可以计算出困扰的问题的答案,从而大大降低注释成本,并能够全面评估模型在各种语义方面(例如空间或关系推理)的性能。我们证明了我们的方法对GQA数据集及其语义场景图图像表示的有效性。我们发现,尽管GQA的成分和精心分配的标签分布,与原始测试集相比,两个高性能模型的准确性下降了13-17%。最后,我们证明了我们的自动扰动可以应用于训练集,以减轻性能的下降,从而为更强大的模型打开了大门。 查看详情及论文下载

北大王选所 | 对话历史很重要!基于多回合检索的聊天机器人个性化响应选择 Dialogue History Matters! Personalized Response Selectionin Multi-turn Retrieval-based Chatbots 现有的多回合上下文响应匹配方法主要集中在获得多层次和多维表示以及上下文话语和响应之间的更好交互。但是,在实时对话场景中,响应候选者是否合适不仅取决于给定的对话上下文,还取决于其他背景,例如措辞习惯,特定于用户的对话历史内容。为了填补这些最新方法与实际应用之间的空白,我们将用户特定的对话历史记录纳入响应选择中,并提出了个性化的混合匹配网络(PHMN)。我们的贡献有两个方面:1)我们的模型从用户特定的对话历史中提取个性化的措辞行为,作为额外的匹配信息;2)我们对上下文响应话语进行混合表示学习,并明确纳入定制的注意力机制,以从上下文响应交互中提取重要信息,从而提高匹配的准确性。我们在两个具有用户识别的大型数据集上评估我们的模型,即个性化的Ubuntu对话语料库(P-Ubuntu)和个性化的微博​​数据集(P-Weibo)。实验结果证实,通过结合个性化注意力,措辞行为和混合表示学习,我们的方法明显优于几种强大的模型。 查看详情及论文下载

半监督学习 | 半监督的图到图转换 Semi-Supervised Graph-to-Graph Translation 在这项工作中,我们寻求在半监督情况下提供图转换模型。此任务并非易事,因为图转换涉及以链接拓扑和节点属性的形式更改语义,由于组合性质和相互依赖性,很难捕获语义。此外,由于图形组成的自由度很高,因此难以确保训练后模型的泛化能力。这些困难对开发未配对样品提出了更严格的要求。针对它们,我们建议构造一个双重表示空间,在其中进行显式转换以对语义转换建模。设计了特殊的编码器/解码器结构,并且还采用了辅助互信息丢失来强制未配对/配对示例的对齐。我们在三个不同的数据集中评估了该方法,证明了将不成对的图引入只有有限数量的成对训练样本的图翻译任务的重要性。此外,他们还验证了这样的直觉,即对中间空间中两个域之间的差异进行显式建模可以使模型更容易利用未配对的图。 查看详情及论文下载

观点

谷歌前CEO埃里克·施密特:中国5G领先美国10倍,美国失去人工智能领导地位将导致“国家紧急状态” 近日,谷歌前CEO、美国国家人工智能安全委员会(NSCAI)主 席埃里克·施密特接受了CNN的采访。在谈到“是否可以肯定地说现在的担心是中国已经处于领先地位”时,施密特回答:“我们NSCAI 15个人研究了这个问题,得出的结论是:美国目前处于领先地位,但可能会相当快地失去这一位置。因为中国已经决定2030年成为全球人工智能领导者,而且现在正在做必要准备。”施密特认为,不仅是人工智能,美国在3D制造、机器人学、人脸识别技术和超级计算机等方面也落后于中国,而这些技术都会给国家安全带来风险。为了增强美国的人工智能竞争力,施密特建议国家增加用于人工智能研发的预算。 查看原文 | 参与讨论

行业与政策

人工智能赋能安全应用案例集白皮书 在网络空间安全防护领域,人工智能在威胁识别、态势感知、风险评分、恶意检测、不良信息治理、骚扰诈骗电话检测、灰黑产识别等方面有其独特的价值和优势,应用需求呈现跨越式发展,产生了显著的溢出效应。为探索解决行业安全应用前沿问题,打造AI in Security最佳实践“样板间”,并推动全球信息通信行业对人工智能在在安全领域形成共识,形成普及应用和规模发展,提升网络空间智能安全防护水平,特编制本案例集 查看原文 | 参与讨论

人工智能姿态逐渐“亲民”,2021年AI五大趋势备受期待 美国《福布斯》双周刊网站在3月15日的报道中,为我们列出了2021年人工智能领域备受期待的五大趋势:低代码/无代码工具;高级预训练语言模型;合成内容生成;供儿童使用的人工智能;机器学习操作。这些并非人工智能领域全部的新趋势,不过,它们值得我们注意,因为它们彰显了三个重要方面。首先,人工智能在现实世界中的应用越来越多,新冠疫情引起的问题和MLOps的增长就证明了这一点。其次,相关人士在该领域不断推陈出新,正如BERT和GANs的接踵而至。最后,人工智能的创建门槛越来越低,为其“飞入寻常百姓家”奠定了坚实的基础。人工智能的理想和未来总是美好的,但尽管有上述诸多创新,仍需要我们脚踏实地地去促进和引导其发展,以使其能更好地造福人类。 查看原文 | 参与讨论

自动驾驶公司Momenta获C轮5亿美元融资 3月19日,自动驾驶公司Momenta宣布,已完成C轮总计5亿美元融资。此轮融资由上汽集团、丰田、博世、淡马锡和云锋基金领投;其他投资方还包括梅赛德斯-奔驰、GGV纪源资本、顺为资本、腾讯和凯辉基金等。Momenta方面称,获得新融资后,Momenta将继续围绕其量产数据驱动的“飞轮”技术路线,推动自动驾驶的规模化落地上。此外,Momenta还将进一步扩展海外业务,在德国、日本设立办公室。 查看原文 | 参与讨论

数据

清华大学和芯翌科技联合发布全球最大的公开人脸数据集 随着人工智能技术的不断发展,越来越多生物识别技术融入到我们的日常生活中。人脸识别作为应用最广泛的生物识别技术,和指纹、虹膜等生物识别技术相比,以其非接触、高精度、便捷的优势,广泛落地于各行各业,是目前最受欢迎的生物认证方式。芯翌科技与清华大学自动化系智能视觉实验室合作,发布了业界规模最大的人脸数据集WebFace260M,相关学术论文已经被计算机视觉国际顶会CVPR 2021接收。该数据集完全基于全球互联网公开人脸数据构建,包含数百万ID和数亿图片,旨在进一步推动人脸识别相关技术的进步,促进智能化行业的发展,助力AI时代科技创新。 查看原文 | 参与讨论

代码

单音频双耳语音的神经合成 本文提出了一种双耳声音合成的神经渲染方法,可以实时产生真实和空间上精确的双耳声音。该网络以一个单通道声源作为输入,根据听者相对于声源的相对位置和方向综合两通道双耳声音作为输出。作者在理论分析中研究了原始波形的损耗的不足,并引入了克服这些局限性的改进损耗。在经验评估中,作者确定本文的方法是第一个产生空间上精确的波形输出(通过真实记录测量),并且在定量和知觉研究方面都比现有方法有相当大的优势。 查看原文 | 参与讨论

DCPose:用于人体姿态估计的深度双重连续网络 在复杂情况下的多帧人体姿态估计具有挑战性。尽管最新的人体关键点检测器已经证明了静态图像的显著结果,但是当我们将这些模型应用于视频序列时,它们的性能仍然很差。普遍的缺点包括由于无法捕获视频帧之间的时间依赖性而导致无法处理运动模糊,视频散焦或姿势遮挡。另一方面,直接使用常规的递归神经网络在建模空间环境时会产生经验上的困难,尤其是在处理姿势遮挡时。在本文中,我们提出了一种新颖的多帧人体姿势估计框架,该框架利用视频帧之间的大量时间线索来促进关键点检测。在我们的框架中设计了三个模块化组件。姿势时间合并编码关键点时空上下文以生成有效的搜索范围,而姿势残差融合模块计算双向加权姿势残差。然后通过我们的姿势校正网络对这些结果进行处理,以有效地优化姿势估计。我们的方法在大型基准数据集PoseTrack2017和PoseTrack2018的多帧人物姿势估计挑战中排名第一。 查看原文 | 参与讨论

高光谱图像分类中波段选择的深度强化学习 波段选择是指在高光谱图像中选择最相关的波段的过程。通过选择有限数量的最佳频段,本文旨在加快模型训练,提高准确性或或两者兼而有之。它在尝试保留图像的原始信息的同时,减少了光谱带之间的冗余。到目前为止,已经做出了很多努力来开发无监督的频带选择方法,其中大多数是通过反复试验而设计的启发式算法。文中训练了一个智能代理,该代理在给定高光谱图像的情况下能够自动学习策略以选择最佳频带子集,而无需任何人工设计的推理。为此,本文将无监督频带选择问题构造为马尔可夫决策过程,提出了一种有效的参数化方法,最后通过深度强化学习解决问题。训练完代理后,它将学习波段选择策略,该策略通过充分利用高光谱图像和先前选择的波段来引导代理顺序选择波段。此外,本文针对深度强化学习的环境模拟提出了两种不同的奖励方案,并在实验中进行了比较。据悉,这是第一项探索用于高光谱图像分析的深度强化学习模型的研究,从而为将来的研究打开了一扇新门,并展示了深度强化学习在遥感应用中的巨大潜力。对四个高光谱数据集进行了广泛的实验,实验结果证明了该方法的有效性。 查看原文 | 参与讨论

教程

【WSDM2021教程】超越概率排序原则:建模文档依赖性 在本教程中,我们旨在对排名模型超越PRP原则的最新进展进行全面的调研。我们的教程提供一种视角,因为我们试图根据它们的内在假设进行分类,并将标准问题形式化。这样,我们期待着研究者们对这一领域的关注,从而使信息检索技术有一个长足的进步。本教程主要由三部分组成。首先,我们介绍了排序问题和众所周知的概率排序原理。其次,我们提出了PRP原则下的传统方法。最后,我们说明了PRP原则的局限性,并介绍了以顺序方式和全局方式对文档之间的依赖关系建模的最新工作。 查看原文 | 参与讨论

【斯坦福NLP-CS224N硬核课】自然语言处理未来与深度学习 斯坦福经典自然语言处理课程CS224N《自然语言处理未来与深度学习》,包括:大型语言模型如GPT3,组合表示与泛化、NLP模型评估、扩展到其他模态、与深度学习交叉研究。 查看原文 | 参与讨论

「预训练变换器文本排序」首篇综述书 在这项综述中,我们提供了现有工作的综合,作为希望更好地理解如何将transformers应用于文本排序问题的从业者和希望在这一领域继续工作的研究人员的单一切入点。我们涵盖了广泛的现代技术,分为两个高级类别:在多阶段排名体系结构中执行重新排名的transformer模型,以及尝试直接执行排名的密集表示。有许多例子属于第一类,包括基于相关性分类的方法、来自多个文本片段的证据聚合、语料库分析和序列到序列模型。虽然第二类方法还没有得到很好的研究,但使用transformers进行表示学习是一个新兴的和令人兴奋的方向,必将引起更多的关注。在我们的调研中,有两个主题贯穿始终:处理长文档的技术,以及处理有效性和效率之间权衡的技术。 查看原文 | 参与讨论

新工具

中国AI研究新突破:智源「悟道1.0」发布 智源研究院发布超大规模智能模型“悟道1.0”。“悟道1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,取得了多项国际领先的AI技术突破,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,勇闯通用智能发展前沿,构建我国人工智能应用基础设施。同时,与龙头企业共同研发工业级示范性应用,加快大规模智能模型应用生态建设。 查看原文 | 参与讨论

纯PyTorch语音工具包SpeechBrain 此前,开发者常用的语音工具有Kaldi、ESPNet、CMU Sphinx、HTK等,它们各有各的不足之处。以Kaldi为例,它依赖大量的脚本语言,而且核心算法使用C++编写,再加上可能需要改变各种神经网络的结构。即便是拥有丰富经验的工程师,在调试的时候也会经历巨大的痛苦。秉承着让语音开发者更轻松的原则,Yoshua Bengio团队成员Mirco Ravanelli等人曾经开发了一个试图继承Kaldi的效率和PyTorch的灵活性的开源框架——PyTorch-Kaldi,但据开发成员本人认为「还不够完善」。所以,在一年多前,Mirco Ravanelli宣布要打造一款新的一体化语音工具包SpeechBrain。该项目于近日正式开源,鉴于上述背景,SpeechBrain诞生的主要宗旨是:够简单、够灵活、对用户友好。 查看原文 | 参与讨论

CogNet:语言知识、世界知识和常识知识的桥梁 在本文中,作者介绍了CogNet,这是一个知识库,专门用于集成三种类型的知识:(1)来自FrameNet的语言知识,用于示意性描述情况,对象和事件。(2)来自YAGO,Freebase,DBpedia和Wikidata的世界知识,这些知识提供了有关特定实例的明确知识。 (3)来自ConceptNet的常识知识,它描述了隐含的一般事实。为了一致地对这些不同类型的知识进行建模,作者引入了三级统一框架样式的表示体系结构。为了将自由形式的常识知识与其他结构化知识相集成,作者提出了一种将自动标记和众包注释相结合的策略。目前,CogNet集成了来自语言KB的1,000多个语义框架,来自世界KB的20,000,000+框架实例以及来自常识KB的90,000多个常识断言。 查看原文 | 参与讨论

应用

香港中文大学 | 手术辅助机器人的视频预测模型 现有的自然视频未来预测方法基于确定性模型或随机模型,包括深度递归神经网络,光流和潜在空间建模。但是,到目前为止,尚未挖掘出在外科手术场景中预测双臂机械手有意义运动的潜力,这比在自然场景中预测单臂机器人的独立运动更具挑战性。在本文中,提出了用于机器人手术视频序列中未来帧预测的三元先验制导可变自动编码器(TPG-VAE)模型。除了内容分发之外,作者的模型还学习运动分发,这对于处理外科工具的微小移动是新颖的。此外,作者将来自手势类的不变先验信息添加到生成过程中,以约束模型的潜在空间。实验表明,通过在公共JIGSAWS数据集上进行缝合任务,该模型获得了更加稳定和现实的未来帧预测场景。 查看原文 | 参与讨论

腾讯医典创新方法模拟人类医生,自动生成靠谱医学报告 面对庞大的患者数量,为所有的图像逐一撰写报告占据了医生大量工作时间。不同医生的经验差异也使得部分图像中的异常被忽略,无法体现在报告中。如何借助人工智能快速、准确地自动生成报告,对于提升医生工作效率和服务质量具有重要的实用价值,也成为了近年来医学图像研究领域中的一个重要课题。然而,先进的医学图像报告自动生成系统也很容易受到医学图像报告中的数据偏差误导。本次腾讯医典AI入选的论文《Exploring and Distilling Posterior and Prior Knowledge for Medical Report Generation》,创新地提出了后验-先验知识探索及蒸馏框架,模拟人类医生的判读方式,结合先验和后验知识来生成报告,以提高最终生成的医学报告质量,针对性弥补了这一不足。 查看原文 | 参与讨论

应用材料用AI纠错芯片,造福三星台积电 芯东西3月18日消息,芯片检测环节靠不靠谱、高不高效,对于英特尔、台积电、三星电子等芯片制造商的盈利极其重要。一旦没能及时发现致命缺陷,就可能对芯片生产造成重大损失。针对这一挑战,本周二,全球最大半导体设备制造商应用材料公司推出了一个“杀手级”新品——新一代光学半导体晶圆检测机。该机器引入了大数据和AI技术,不仅能自动检测更多芯片,而且大幅提升检测致命缺陷的效率,其系统每小时可减少260万美元的良率损失。 查看原文 | 参与讨论

经验

如何撰写高水平的博士论文? 博士论文的写作是博士研究生主要要完成的工作。由于存在着较高的难度,较长的写作周期,以及在创新,写作规范,实际及理论意义等方面有着比较高的要求,博士论文的完成一般说来是有相当难度的。一篇好的博士论文不仅是一本好的学术专著,而且还是具有理论创新价值的学术探索成果。一个博士生从入学到毕业,就应该达到从一个学生到一个学者的转变,就应该变成为所研究领域的一位专家。尽管对于博士生有着如此高的要求,博士论文的写作还是存在着一些规律可寻的。根据作者自己的经验,本文简单谈一谈关于如何准备博士论文的一些想法。 查看原文 | 参与讨论

就业

北京智源研人工智能研究院招聘中 急招职位:AI平台产品负责人、运维平台负责人、NLP算法工程师高级图形渲染算法工程师、科技战略研究员、高性能计算工程师。 岗位详情

以上是《智源社区AI周刊》第65期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请在下方评论区留言指出。谢谢大家。

内容中包含的图片若涉及版权问题,请及时与我们联系删除