导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第68期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
过去一周(2021/04/05~2021/04/11),值得关注的内容有以下3方面:
- 来自加州大学洛杉矶分校(UCLA)统计系的李婧翌教授近日接受采访表示,当前的AI模型往往需要样本量大、噪音小的数据,并且其模型的可解释性也往往不及简单的统计模型。因此,尽管AI+X在人工智能社区呼声很高,但似乎并非所有X领域的研究都非AI不可。(详情参见本周报“观点”栏目)
- 谷歌研究院公布了2021首届研究学者计划(Research Scholar Program)获奖者名单。根据名单显示,本年度共评选了77个获奖研究,以及86位获奖者,涉及15个国家和50多所大学,其中华人教授16位。(详情参见本周报“人物”栏目)
- 俄勒冈大学推出最新轻量级多语言NLP工具集Trankit 1.0版本。Trankit基于Transformer,性能已超越之前的热门同类项目斯坦福Stanza:中文处理更精准,内存占用小45%;Trankit支持多达56种语言,除了简体和繁体中文以外,还支持文言文(详情参见本周报“新工具”栏目)
下面是各个要点的详情介绍。
论文推荐
文本分类 | 文本分类中算法性能、词汇量和运行时间的关系研究
Exploring the Relationship Between Algorithm Performance, Vocabulary, and Run-Time in Text Classification
文本分类是自然语言处理的一个重要分支,在文档分类和情感分析等领域有着广泛的应用。不出所料,那些进行文本分类的人关心的是他们算法的运行时间,由于他们的单词袋表示,许多算法依赖于语料库词汇量的大小。尽管许多研究已经检查了预处理技术对词汇量和准确性的影响,但没有研究这些方法如何影响模型的运行时。为了填补这一空白,我们提供了一项综合研究,研究预处理技术如何影响词汇量、模型性能和模型运行时,并在四个模型和两个数据集上评估了10种技术。我们展示了一些单独的方法可以减少运行时间而不损失准确性,而一些方法的组合可以用2-5%的准确性换取高达65%的运行时间减少。此外,预处理技术的一些组合甚至可以减少15%的运行时间,同时提高模型的准确性。
早稻田大学 | 重新思考ResNet:采用高阶方案的改进堆叠策略
Rethinking ResNets: Improved Stacking Strategies With High Order Schemes
各种深度神经网络体系结构在计算机视觉中保持着大量的重要记录。在引起全球关注的同时,整体结构的设计也缺乏一般性的指导。基于近年来一些研究人员观察到的DNN设计与数值微分方程之间的关系,我们对残差设计和高阶视角进行了公平的比较。我们表明,在扎实的理论知识和无需额外参数的支持下,可以轻松地改进广泛使用的DNN设计策略(不断堆叠小的设计)。我们以较高阶的方式重组残差设计,这是受以下观察启发的:许多有效的网络可以解释为微分方程的不同数值离散。 ResNet的设计遵循一个相对简单的方案,该方案是Euler提出的;但是,堆叠时的情况迅速复杂化。我们假设堆叠的ResNet在某种程度上等于高阶方案,那么与典型的高阶方法(如Runge-Kutta)相比,当前的转发传播方式可能相对较弱。我们提出了更高阶的ResNet,以通过充分的实验来验证关于广泛使用的CV基准的假设。观察到性能稳定且显著的提高,且有益于收敛性和鲁棒性。
多模态融合 | 多模态融合精修网络
Multimodal Fusion Refiner Networks
依赖于多模态信息的任务通常包括一个融合模块,它将来自不同模态的信息组合在一起。在这项本文中,作者开发了一个更精细的融合网络(ReFNet),使融合模块能够结合强单模表示和强多模表示。ReFNet 将融合网络与一个解码/解耦模块结合在一起,该模块采用了以模态为中心的责任条件。该方法通过确保在潜在融合空间中对单模和融合表征进行强编码,解决了现有多模态融合框架中的巨大性能缺陷。
视觉问答 | 视觉问答中的推理模式有多大的迁移能力?
How Transferable are Reasoning Patterns in VQA?
在本文中,作者认为视觉的不确定性是阻碍成功学习视觉和语言认为中的推理的主要因素。本文作者提出在标准视觉任务中学习注意力机制,并将其与目前最优的基于Transformer的模型进行对比。本文对推理模式进行了深入地分析,并进行了可视化。作者将推理模式从标准模型迁移到目前最优的基于Transformer的VQA模型,并通过调优获取标准的到噪声视觉输入,从而利用上述结果。在实验中,作者发现本文提出的模型的整体精度优于SOTA模型。
视觉Transformer | 自监督视觉Transformer
SiT: Self-supervised vIsion Transformer
在本文中,作者研究了用于预训练视觉Transformer的自监督学习方法的优点,并且将它们用于下游的分类任务。作者提出了一种自监督视觉 Transformer(SiT),并且讨论了一些得到辅助模型自监督训练机制。SiT架构的灵活性使我们可以将其用作一种自编码器,并且被用于多种自监督任务。通过实验,作者表明我们可以对预训练的SiT进行调优,并将其用于小规模数据集上的下游任务。实验结果证明了SiT的有效性和自监督学习的可行性,其性能大大超过了已有的自监督学习方法。此外,SiT非常适用于少样本学习,我们可以通过直接利用从SiT中学习到的特征训练线性分类器,从而学习实用的表征。
观点
斯隆奖获得者李婧翌:AI+X并非总是有效,生物数据量小、噪音大,可解释性是关键
在过去20年中,由于实验技术的发展,生物领域数据出现爆发式增长,同时推动了生物学科的定量化研究。因此,如何从数据中挖掘出有意义的生物学发现,已经成为生物学领域重要问题之一。加州大学洛杉矶分校(UCLA)统计系的李婧翌教授的研究目标正是为解决这一问题,即针对前沿生物学问题,开发新的统计学方法。随着深度学习技术的普及,李婧翌的研究团队也高度关注这一研究领域的发展。但正如她所说,当前的AI模型往往需要样本量大、噪音小的数据,并且其模型的可解释性也往往不及简单的统计模型。因此,尽管AI+X在人工智能社区呼声很高,但似乎并非所有X领域的研究都非AI不可。
行业与政策
推想科技、深睿博联肺炎AI产品接连获得NMPA三类证
近日,国家食品药品监督管理局(NMPA)披露最新一批医疗器械三类证注册信息,杭州深睿博联科技有限公司(简称“深睿医疗”)和北京推想科技有限公司(简称“推想科技”)的“肺炎CT影像辅助分诊与评估软件”分别获批三类证,这是国内首批通过NMPA(国家药监局)医疗器械三类证审批认证的肺炎AI产品。此前,推想科技及深睿医疗的“肺结节CT影像辅助检测软件”产品分别于2020年11月9日和2020年12月1日获批三类证。
《数字孪生应用白皮书》
由工信部中国电子技术标准化研究院牵头编写的2020年《数字孪生应用白皮书》在中国国际高新技术成果交易会发布,作为新基建背景下的重要研究成果,该白皮书对当前我国数字孪生的技术热点、应用领域、产业情况和标准化进行了分析,同时收录了在智慧城市、智慧交通、智慧能源、智慧建筑、智能制造、智慧健康6大领域的31个应用案例。
「科辉智药」完成1.5亿元人民币Pre-A轮融资
「科辉智药」已于近日完成1.5亿元人民币Pre-A轮融资。本轮融资由弘晖资本(HLC)领投,幂方资本,沂景资本等共同跟投。所募集资金将用于公司在研管线的推进与扩展,计算及AI研发平台的优化,新研发实验室的建设及仪器设备的购置。「科辉智药」成立于2018年,是一家基于AI驱动的创新药物研发商,致力于研发解决神经退行性疾病、肿瘤和自身免疫性疾病的药物,公司在深圳、北京、及美国波士顿均设有办事处。「科辉智药」的核心业务是发展计算驱动的药物发现平台,以及基于该平台开发一系列具有自主知识产权的小分子靶向药物。
人物
16位华人入选谷歌研究学者计划,半数本科毕业于大陆高校
4月7日,谷歌研究院公布了2021首届研究学者计划(Research Scholar Program)获奖者名单。根据名单显示,本年度共评选了77个获奖研究,以及86位获奖者,涉及15个国家和50多所大学,其中华人教授16位。本科出身于清华大学的普林斯顿大学计算机系助理教授陈丹琦、杜克大学新晋助理教授陈廷钧,以及犹他大学计算机学院助理教授Qingyao Ai均位列其中。此外,其他13位华人教授中有多位本科均毕业于大陆知名高校,如复旦大学、浙江大学、上海交通大学、北京航空航天大学、华中科技大学等。
代码
MSAD:用于低分辨率检测任务的多尺度对齐蒸馏
在实例级检测任务(例如,目标检测)中,降低输入分辨率是提高运行时效率的简单选择。但是,传统上,此选项会严重损害检测性能。本文着重于通过提取高分辨率或多分辨率模型中的知识来提高低分辨率模型的性能。我们首先确定将知识蒸馏(KD)应用于以不同输入分辨率起作用的师生网络的挑战。为了解决这个问题,我们探索了通过移动特征金字塔位置在不同输入分辨率的模型之间空间对齐特征图的想法,并引入对齐的多尺度训练来训练可以将其知识蒸馏为低分辨率学生的多尺度教师。此外,我们提出交叉特征级别融合以动态融合教师的多分辨率特征,以更好地指导学生。在几个实例级检测任务和数据集上,通过我们的方法训练的低分辨率模型与通过常规多尺度训练的高分辨率模型具有竞争性,而后者的低分辨率模型在性能上要比后者的低分辨率模型高出2.1%至3.6%的mAP。
HLA-Face:用于暗光人脸检测的联合高-低自适应
在弱光情况下的人脸检测具有挑战性,但对于许多实际应用至关重要,例如监控视频,夜间自动驾驶。现有的大多数人脸检测器在很大程度上依赖于广泛的注释,而收集数据既费时又费力。为了减轻在弱光条件下建立新数据集的负担,我们充分利用了现有的正常光数据,并探索了如何将人脸检测器从正常光转换为弱光。这项任务的挑战在于,普通光和弱光之间的差距对于像素级和对象级而言都太大且太复杂。因此,大多数现有的弱光增强和适应方法不能达到理想的性能。为了解决该问题,我们提出了一个联合的高-低光自适应(HLA)框架。 通过双向low-level适应和多任务高级适应方案,我们的HLA-Face甚至在不使用dark face标签进行训练的情况下也能胜过最先进的方法。
FIT:傅立叶图像Transformer
Transformer体系结构在NLP任务上表现出惊人的性能,最近还被用于诸如图像补全或图像分类之类的视觉任务。在这里,我们提出使用序列图像表示,其中完整序列的每个prefix 都以降低的分辨率描述整个图像。使用这种傅立叶域编码(FDE),自动回归图像补全任务等效于在给定低分辨率输入的情况下预测更高分辨率的输出。此外,我们证明了在给定一组傅立叶域观测值的情况下,编码器/解码器设置可用于查询任意傅立叶系数。我们在计算机断层扫描(CT)图像重建的背景下证明了这种方法的实用性。总而言之,我们表明傅立叶图像变换器(FIT)可用于解决傅立叶空间中的相关图像分析任务,而傅立叶空间是卷积体系结构固有的不可访问的领域。
教程
Navya Technology | 基于深度强化学习的自动驾驶:研究综述
随着深度表征学习的发展,强化学习(RL)领域已成为功能强大的学习框架,能够在高维环境中学习复杂的策略。这篇综述总结了深度强化学习(DRL)算法,并提供了采用(D)RL方法的自动驾驶任务的分类法,同时解决了自动驾驶代理在现实世界部署中的关键计算挑战。它还描绘了相关领域但不是经典的RL算法的相邻领域,例如行为克隆,模仿学习,逆强化学习。讨论了模拟器在训练代理中的作用,验证,测试和增强RL中现有解决方案的方法。
【Facebook】强化学习中的探索与利用
强化学习(RL)的一个主要挑战是在探索环境以收集信息和利用到目前为止观察到的样本来执行“好的”(近乎最佳的)行动之间进行权衡。在本研讨会中,我们将回顾在连续状态-动作空间中如何将探索技术与函数近似相结合。我们将特别关注探索机制与深度学习技术的整合。研讨会应提供足够的理论和算法背景,以了解现有的技术,并可能设计新的方法。在整个讲座中,我们将讨论开放性问题和未来可能的研究方向。
李飞飞经典CS231N2021第二讲《图像分类》概述
计算机视觉已经在我们的社会中无处不在,随着搜索、图像理解、apps、地图、医学、无人机和自动驾驶汽车等领域的应用,计算机视觉已经在我们的社会中无处不在。这些应用程序的核心是视觉识别任务,如图像分类和对象检测。神经网络方法的最新发展极大地提高了这些最先进的视觉识别系统的性能。本课程深入探讨了基于神经网络的计算机视觉深度学习方法的细节。在本课程中,学生将学习如何实现、训练和调试自己的神经网络,并对计算机视觉的前沿研究有详细的了解。我们将涵盖学习算法,神经网络架构,和实际工程技巧的训练和微调网络的视觉识别任务。
新工具
UC Berkeley | 深度Off-Policy评价基准
本文提出了"深度Off-Policy评价"(Deep Off-Policy Evaluation,DOPE)基准,旨在提供一个平台,用于研究广泛的挑战性任务和数据集的政策评估和选择。与之前基准相比,DOPE提供了多个数据集和策略,包括一系列具有挑战性的高维连续控制问题,广泛选择数据集和策略进行策略选择,允许研究人员研究数据分布如何影响性能,并评估各种指标,包括与离线政策选择相关的指标。
俄勒冈大学:基于“最先进的预训练语言模型”的轻量级NLP工具包—Trankit
俄勒冈大学推出:最新轻量级多语言NLP工具集Trankit 1.0版本。Trankit基于Transformer,性能已超越之前的热门同类项目斯坦福Stanza:中文处理更精准,内存占用小45%;Trankit支持多达56种语言,除了简体和繁体中文以外,还支持文言文。
微软正式发布OpenJDK预览版
北京时间4月7日,微软发布了其构建的OpenJDK预览版,这是OpenJDK的长期支持发行版,并且是开源的,该发行版的推出引起业界热议,这是继微软宣布加入OpenJDK项目之后的一个大事件。在微软的官方发布文件中,说明了预览版OpenJDK的权限和适用性。
应用
NTU Singapore | 基于改进深度强化学习和专家演示的城市自动驾驶
目前,由于驾驶环境的复杂性,城市自动驾驶仍然具有挑战性。基于学习的方法(例如强化学习(RL)和模仿学习(IL))已显示出优于基于规则的方法,显示出智能决策的巨大潜力,但它们在城市驾驶情况下仍然无法很好地发挥作用。为了更好地解决这个问题,本文提出了一种新颖的基于学习的方法,该方法将深度强化学习与专家演示相结合,重点研究自主驾驶中的纵向运动控制。本文提出的方法采用了行动者-批评者结构,并修改了策略网络的学习过程,以兼顾最大化奖励和模仿专家的目标。此外,还设计了一种自适应的优先经验重放,用于从代理的自我探索和专家演示中抽取经验样本,以提高样本效率。所提出的方法在模拟的城市环岛情景中得到了验证,并与各种流行的RL和IL基线方法进行了比较。结果表明,该方法具有较快的训练速度并且在安全有效的导航中具有更好的性能。
Nature子刊:使用AI人工智能快速创造新蛋白,加速药物研发
瑞典查尔姆斯理工大学等单位的研究人员在Nature子刊 Nature Machine Intelligence 发表了题为:Expanding functional protein sequence spaces using generative adversarial networks 的研究论文。研究团队开发了一种名为ProteinGAN的基于AI的生成式深度学习方法,该方法能够产生新型的、有功能活性的蛋白质,而且整个过程非常快,仅需几周时间就能从计算机设计到得到有功能活性的蛋白。这项研究代表了合成蛋白质领域的新突破,有助于更快速、更经济地开发基于蛋白质的治疗药物。
StyleCLIP:图像版GPT-3再进化,根据描述精准PS
前段时间,OpenAI重磅推出的DALL·E神经网络模型惊艳了所有人,这个被称为“图像版GPT-3的模型,可以像魔法一般按照文字描述直接生成对应图片。比如输入文本提示:鳄梨形状的扶手椅。令人没想到的是,时隔近三个月之后,AI在文本到图像合成领域又有了新的精进,不仅能识字合成图像,还能依据文本提示对参考图在对应特征上精准PS,而且效果(相比上图)更逼真。
会议
NeurIPS将为数据集和基准测试推出新track
近日,NeurIPS 数据 & Benchmark 主席Joaquin Vanschoren在推特上宣布NeurIPS 2021将专门为数据集和基准测试推出一个新的论文track。消息发出后,斯坦福大学李飞飞教授对之表示赞赏,还有AI领域的教授表示这是一项伟大的创举,将有望大大提高机器学习中基准测试的质量。
以上是《智源社区AI周刊》第68期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢