导读
为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第40期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。
在过去一周(2020/09/14~2020/09/20)左右时间,首先值得推荐的内容有以下3方面:
- 2020年9月14日,北京智源人工智能研究院联合北京大学人工智能研究院、清华大学人工智能研究院、清华大学人工智能国际治理研究院、中科院自动化所、中科院计算所、中科院心理所等高校院所,以及小米、旷视、奇虎360、好未来、爱学习、极客邦、新一代人工智能产业技术创新战略联盟等人工智能企业和联盟组织,共同发布了我国首个针对儿童的人工智能发展原则《面向儿童的人工智能北京共识》 。 (详情参见本周报“ 行业与政策 ”栏目)
- 近日,机器学习领域重量级人物,Uber首席科学家 Zoubin Ghahramani 在推特上表示自己将加入 Google ,领导 Google Brain 团队。谷歌AI负责人Jeff Dean以及其他谷歌成员对 Ghahramani 的加入表示欢迎。 Zoubin Ghahramani 于三年前加入Uber,并出任Uber首席科学家。在此之前,他在剑桥大学任信息工程学教授。 Zoubin Ghahramani 作为机器学习领域的知名学者,在概率模型以及机器学习领域中,做出了许多卓越的贡献 。 (详情参见本周报“ 人物 ”栏目)
- EMNLP 2020近日放榜,共收到有效投稿3114篇,录用754篇,录用率为24.82%。此外,因为高质量的论文越来越多 , 超出了EMNLP会议本身所能容纳的范围,今年EMNLP新增了Findings of EMNLP这一子刊,它将接纳那些未被主会录用但是被程序委员会评价为值得出版的文章,此次Findings of EMNLP共接收了520篇文章 。 (详情参见本周报“ 会议 ”栏目)
下面是各个要点的详情介绍。
论文推荐
基于自监督任务训练的检索式对话模型
Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues
建立能够根据多轮上下文选择适当回复的智能对话系统是一项艰巨的任务。现有研究着重于构建具有各种神经网络结构或PLM的上下文回复匹配模型,并通常通过单个回复预测 任务进行训练。这些方法忽略了对话数据中包含的许多潜在训练信号,这些信号可能有助于上下文理解并为回复预测提供更好的性能。此外,以常规方式监督的现有对话系统中的回复仍然面临一些严峻的挑战,包括回复不连贯和回复与上下文不一致。为了解决这些问题,在本文中,作者提出了一种新的基于上下文的匹配模型,该模型在预训练语言模型的基础上,为对话回复检索任务设计了辅助的自监督任务。具体来说,作者介绍了四个自监督的任务,包括下一会话的预测,对话恢复,不连贯检测和一致性歧视,并以多任务学习的方式与这些辅助任务一起训练基于PLM的回复选择模型。辅助任务可以指导匹配模型的学习,以实现更好的局部最优并选择更合适的回复。 论文下载
基于深度强化学习的异常检测 Deep Reinforcement Learning for Unknown Anomaly Detection
本文目标是从少量部分标记的异常数据集和大规模未标记数据集中学习检测模型以提高异常检测的精度。在大多数异常检测场景中,可用的未标记数据的数量远远超过实际处理的数量且未标记的数据集通常会被任意截断。因此,现有异常检测的方法要么对未标记的异常数据进行无监督处理,要么只拟合适用于无法涵盖整个异常数据集的有限异常示例。基于此,本文提出了一种基于深度强化学习的方法,该方法主动寻找超出标记训练数据范围之外的新异常类别。其可以利用现有数据模型与探索新的异常类别之间取得平衡。因此,它可以利用标记的异常数据来提高检测精度,而不是将所寻求的异常数据限制在给定的异常示例中。该研究具有突破性的进展,因为异常数据就形式上而言是不可预测的,并且错失异常数据往往代价很大。基于深度强化学习的方法在48个真实数据集上进行大量实验验证,该模型与五个最先进的半监督和无监督方法相比,该方法明显优于现有的五种最先进方法。 论文下载
用于文本摘要的自知识蒸馏 Noisy Self-Knowledge Distillation for Text Summarization
在本文中,作者将自知识蒸馏应用于文本摘要任务,作者认为这可以缓解在单索引源和嘈杂数据集上出现的最大似然训练问题。知识蒸馏是通过训练一个较小的学生模型,使其模仿一个较大的教师模型的输出,达到将知识从教师模型迁移至学生模型的目的。本文的学生摘要模型不是依靠one-hot的注释标签,而是在教师模型的指导下进行训练的。该教师模型通过产生平滑的标签,以帮助规范化训练。此外,为了在训练过程中更好地建模模型的不确定性,作者为教师模型和学生模型引入了多个噪声信号。实验结果证明,在三个基准测试集上,本文的框架可提高预训练和非预训练的摘要生成器的性能,从而获得SOTA的结果。 论文下载
基于模仿学习的自回归知识蒸馏 Autoregressive Knowledge Distillation through Imitation Learning
本文作者认为,目前流行的序列级的知识蒸馏方式( SeqKD )还未能完全发挥「老师」模型的潜力,这类模型使用由「老师」模型生成的修正后的数据集以及标准的负对数似然目标函数来训练「学生」模型,这会导致自然语言生成领域中常见的暴露偏差(exposure bias)问题,即推理和训练时使用的输入不同,在训练时每一个词输入都来自真实样本,而在推理时当前输入用的却是上一个词的输出。常见的解决该问题的方法有:「scheduled-sampling」、正则化技术、强化学习等。在本文中,作者受模仿学习的启发,设计了一种名为「基于模仿的知识蒸馏」( ImitKD )自回归模型,将「老师」模型作为金标准,从而指导「学生」模型生成自然语言序列。 论文下载
抗欺骗的鲁棒深度学习集成 Robust Deep Learning Ensemble against Deception
众所周知,深层神经网络DNN模型容易受到欺骗性输入的影响,这些输入要么是恶意构建的对抗性的,要么是训练数据分布以外的。本文作者认为对于这两种情况的输入都应自动识别出来并对其剪除,将恶意和错误的数据输入造成的有害影响降至最低。基于此本文提出一种输入输出模型验证集成防御方法 XEnsemble ,它具有三个特性:首先, XEnsemble 通过利用不同的数据清理技术来构建不同的输入去噪验证器。其次, XEnsemble 开发了一种不一致分布集成学习方法来保护预测模型的输出免受欺骗。第三, XEnsemble 提供了一套结合输入验证和输出验证的算法,以保护DNN预测模型不受欺骗性输入的影响。通过评估, XEnsemble 对攻击性样本具有较高的防御成功率,对分布外数据输入具有较高的检测成功率,与现有的防御方法相比,具有更好的鲁棒性和可防御性。 论文下载
观点
张钹院士:第三代人工智能需要充分利用知识、数据、算法和算力这四大要素,以达到真正模拟人类的智能行为
近日中国科学院张钹院士分享了第三代人工智能的特点、发展现状及未来趋势。张钹院士认为人工智能刚刚拉开序幕。第一代人工智能虽然具有模仿人类智能的宏观机制,但也存在较 大局限。比如过于依赖稀缺的专家知识;第二代人工智能即深度学习,依靠深度大规模神经网络模型,可以处理大数据,并且不需要专业领域知识。但同时存在不易推广,需要大量样本,不安全可靠的缺陷。第三代人工智能需要充分利用知识、数据、算法和算力这四大要素,以达到真正模拟人类的智能行为,比如随机应变,举一反三等。 探臻科技评论
行业与政策
《面向儿童的人工智能北京共识》全文发布
2020年9月14日,北京智源人工智能研究院联合北京大学人工智能研究院、清华大学人工智能研究院、清华大学人工智能国际治理研究院、中科院自动化所、中科院计算所、中科院心理所等高校院所,以及小米、旷视、奇虎360、好未来、爱学习、极客邦、新一代人工智能产业技术创新战略联盟等人工智能企业和联盟组织,共同发布了我国首个针对儿童的人工智能发展原则《面向儿童的人工智能北京共识》。 北京智源人工智能研究院
《新一代人工智能白皮书(2020年)-产业智能化升级》正式发布
近日, 中国电子学会人工智能研究室副主任凌霞发布由中国电子学会、中国数字经济百人会、商汤智能产业研究院联合编制的《新一代人工智能白皮书 ( 2020年 ) ——产业智能化升级》。该报告重点围绕我国产业智能化升级进行指标体系构建和指数分析,深入论证了制造业、农业、金融、医疗、教育、安防、交通、零售产业智能化升级的路径和效应,最后提出基础设施、数据开放融通、产业智能化运营系统和智能化安全保障体系四个方向的措施建议。 专知
AI药物研发公司Recursion D轮融资2.39亿美元
这轮融资受到了投资者的欢迎,其中5000万来自拜耳的投资部门Leaps by Bayer,以及 Casdin Capital,Baillie Gifford等投资者。Recursion还将获得拜耳的3000万美元合作预付款。按CrunchBase数据,公司累计已经融资4.65亿美元。员工170多人。 Forbes
人物
Uber首席科学家 Zoubin Ghahramanir 宣布加入谷歌,领导Google Brain
近日,机器学习领域重量级人物,Uber首席科学家 Zoubin Ghahramani 在推特上表示自己将加入 G oogle ,领导 Google Brain 团队。谷歌AI负责人Jeff Dean以及其他谷歌成员对 Ghahramani 的加入表示欢迎。 Zoubin Ghahramani 于三年前加入Uber,并出任Uber首席科学家。在此之前,他在剑桥大学任信息工程学教授。 Zoubin Ghahramani 作为机器学习领域的知名学者,在概率模型以及机器学习领域中,做出了许多卓越的贡献。 新智元
数据
4Seasons:用于自动驾驶的多天气SLAM的跨季节数据集
本文提出了一个新颖的数据集,涵盖了自动驾驶的季节性和挑战性感知条件。它还可以用于研究视觉里程表,全局位置识别和基于地图的重新定位跟踪。数据是在不同的场景下以及在各种天气条件和光照下(包括白天和黑夜)收集的。在九种不同环境中进行了超过350公里的采集,从市区(包括隧道)的多层停车场到乡村和高速公路。通过提供直接立体视觉惯性里程表与RTK-GNSS的融合,我们提供了全局一致的参考姿势,精度高达厘米。 慕尼黑工业大学
代码
寻求独特且翔实的图像描述
在本项目中,作者首先通过实验发现目前的图像描述模型依赖于对象检测器将一些评测指标例如SPICE等指标刷的很高,但是生成的描述由于通用性词语太多以至于更加容易返回不正确的干扰词。所以本文引入独特性概念来设计新的评估标准(SPICE-U),并且通过实验证明SPICE-U比SPICE相比更贴近于人类的判断,并且有效地体现了描述多样性和翔实性。同时,作者还提出了一种在解码过程中利用互信息来进行重新排名检测目标的通用技术,来改善当前现有图像描述模型的独特性和翔实性,并在新的评估标准中取得了更好的结果。 普林斯顿大学
深入探讨神经网络中的反混叠问题
本文获得BMVC-2020国际会议的最佳论文奖(Best Paper Award),由来自UC Davis和NVIDIA合作完成。研究人员指出,混叠是指高频信号在采样后退化为完全不同的部分现象,而在深度学习的大背景下,它成为一个重要的问题,因为深度架构广泛采用降采样层来减少参数和计算量。标准解决方案是在下采样之前应用低通滤波器(例如,高斯模糊)。但是, 在整个内容上应用相同的过滤器可能不是最佳选择,因为特征的频率可能会在空间位置和特征通道之间发生变化。为了解决这个问题,本文提出了一个基于内容感知的自适应低通卷积滤波层,该层针对输入特征图的每个空间位置和通道组预测单独的卷积核权重。作者进一步探讨了所提出方法的在多个视觉任务上展现出的有效性和泛化性能,包括ImageNet分类,COCO实例分割和Cityscapes语义分割。定性和定量结果表明,本文的方法有效地适应了不同的特征频率,从而避免了混叠,同时保留了有用的信息以供识别。 BMVC 2020
基于规则的图神经网络推荐系统
本文是利用特殊的图神经网络对推荐系统做改进的一篇文章。为了缓解协同过滤在推荐系统中的冷启动问题,很多方法将知识图谱作为辅助资源。然而,与知识图谱结合在一起工作不能捕获用户和物品之间显式的语义,同时也忽略了物品之间的各种连接性质。本文提出了结合规则学习和图神经网络的 RGRec 。首先将物品映射为知识图谱中的相应实体,并将用户添加为新的实体。然后自动学习规则,通过聚合来捕获实体之间的连接性,以便更好地编码信息。并在三个真实数据集上证明了 RGRec 的有效性。 Github
教程
谷歌最新《语言预训练语生成进展》报告
在这次演讲中,Google-Thang将谈谈语言预训练和语言生成方面的最新进展。关于语言预训练,将介绍ELECTRA,不同的语言预训练学习比BERT更有效和达到的状态,在斯坦福问题回答基准(队)。在语言生成方面,他将重点介绍他们最近开发的开放域聊天机器人Meena,它在名为SSA的人类相似性度量上达到了最佳水平。 Google
清华大学张长水:最新《少样本学习FSL》2020综述论文
少样本学习在机器学习领域具有重要意义和挑战性。成功地从很少的样本中学习和归纳的能力是区分人工智能和人类智能的一个明显的界限,因为人类可以很容易地从一个或几个例子中建立他们对新颖性的认知,而机器学习算法通常需要数百或数千个监督样本来保证泛化能力。尽管FSL的悠久历史可以追溯到21世纪初,近年来随着深度学习技术的蓬勃发展也引起了广泛关注,但迄今为止,有关FSL的调研或评论还很少。在本综述中,作者回顾了FSL的发展历史和目前的进展,原则上将FSL方法分为基于生成模型和基于判别模型的 两大类,并特别强调了基于元学习的FSL方法。作者还总结了FSL中最近出现的几个扩展主题,并回顾了这些主题的最新进展。此外,作者重点介绍了FSL在计算机视觉、自然语言处理、音频和语音、强化学习和机器人、数据分析等领域的重要应用。最后,作者对调查进行了总结,并对未来的发展趋势进行了讨论,希望对后续研究提供指导和见解。 清华大学
开放电子书: Szeliski 的Computer Vision: Algorithms and Applications第二版草稿
本书是计算机视觉领域的名著,被很多 名牌 高校作为教材。第一版的中文版也是目前市场上卖得最好的CV教材。Richard Szeliski 目前是Facebook的研究科学家,同时在华盛顿大学兼职教授。本书就是他在华盛顿大学授课的教材。2015年当选美国工程院院士。之前他一直在微软研究院工作。 Szeliski
新工具
Fac ebook 发布第一个用于实现AI的视听平台 SoundSpaces
SoundSpaces 是第一个用于实现AI的视听平台,建立在AI Habitat之上,为实现的AI引入了一项新任务: AudioGoal ,提供了一个新的音频传感器,从而可以在副本和Matterport3D数据集的现实扫描环境数组中插入任何声音源的高保真,逼真的模拟。可以绘制新颖的环境并定位发声目标。研究员可以借助 SoundSpaces 训练AI代理。 Facebook AI
Onepanel :产品级的开源AI视觉平台
Onepanel 是Kubernetes原生的视觉AI平台,具有用于模型构建、自动标记、数据处理和模型训练管道的完全集成的组件。 Github
PyTorch 与TensorFlow 2.x各有什么优势?
该问题下讨论了 PyTorch 和TensorFlow 2.x各有什么优势?TF里的 keras 也挺好用的,也可以像torch一样搭建网络,为什么大家还那么多批评 等等关于深度学习框架的问题。 知乎 | 参与讨论
应用
Google AI 用机器学习改善结肠镜检查覆盖率不足的问题
由Google健康研究科学家Daniel Freedman和Ehud Rivlin发表的一篇文章介绍了C2D2,一种基于机器学习的方法,来改善结肠镜检查覆盖率不足的问题。这种算法会在手术过程中捕获图像并且对结肠进行局部3D重建,在此基础上实时向医生指示结肠被覆盖的区域,以及不在视野范围内的部分,医生可以返回该区域查看肠壁的缺失区域。这有望提高更多肿瘤被及时发现的概率。 Google AI
挪威气象研究所用 人工智能帮助管理环境
机器学习是否能够帮助建立有效的冰雪预警,相对于物理模型的优势在哪里?挪威气象研究所的研究人员正在研究如何将人工智能应用于海冰扩散预测,为北极水域的船只提供更 低成本 、更快和更广泛应用的预警。这一努力表明了将人工智能应用于环境管理的趋势,其目的是实现准确性并有可能降低成本。 今天使用的冰雪预警是建立在一个动态的计算机模型上的,这个模型有对冰原的卫星观测,可以收集到关于冰厚和雪深的任何最新数据。这会产生大量的数据,然后需要一台强大的超级计算机来处理。Fritzner正在研究一个机器学习模型,加载一周的数据,然后加载一周的外观数据。这样,机器将学习并最终能够做出预测。 aitrends
Alerin 将AI用于更好地了解鸟类迁移、飞行和碰撞
人工智能正在帮助鸟类学家了解一些他们以前不知道的关于鸟类迁徙模型和鸟类与环境相互作用的其他方式。大多数陆地鸟类,包括麻雀和木鹅,在晚上迁徙以躲避捕食者,并从凉爽的空气中保存能量。夜间迁徙使得鸟类学家很难研究迁徙模式。研究人员一直在使用雷达系统和热像仪记录鸟类迁徙;分析夜间图像来对鸟类进行分类和跟踪迁徙是一项挑战。总部位于印度孟买纳维的软件解决方案提供商 Alerin 的博客上最近的一篇报道称,一种新的选择已经出现,这种选择使用人工智能和深度学习来分析雷达图像和跟踪夜间迁移。 aitrends
会议
自然语言处理顶会EMNLP2020接受论文出炉
EMNLP 2020共收到有效投稿3114篇,录用754篇,录用率为24.82%。此外,因为高质量的论文越来越多 , 超出了EMNLP会议本身所能容纳的范围,今年EMNLP新增了Findings of EMNLP这一子刊,它将接纳那些未被主会录用但是被程序委员会评价为值得出版的文章,此次Findings of EMNLP共接收了520篇文章。 查看详情
计算领域年度盛会 CNCC2020将于10月在京举行
CNCC2020将于10月22-24日举办,北京新世纪日航饭店将作为主会场,另外开设三个城市分会场、三个城市专场,线上同步直播。现场参会和线上直播并行、1个主会场5个城市会场或专场相结合,今年的CNCC2020将突破地域和时空的限制,全新呈现给业界同仁。 查看详情
以上是《智源社区AI周刊》第40期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,欢迎评论区留言。谢谢大家。
© 北京智源人工智能研究院,版权所有
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢