图神经网络 研究
mp.weixin.qq.com 同站内容
分享者:小柯 2020/09/23 21:30:32
近段时间,图神经网络成为了人工智能领域的一大研究热点,尤其是在社交网络、知识图谱、化学研究、文本分析、组合优化等领域,图神经网络在发掘数据中隐含关系方面的强大能力能帮助我们获得更好的数据表达,进而能让我们做出更好的决策。比如通过图神经网络梳理人类社会关系网络的演变,可有望帮助我们理解人类社会的底层运作模式,进而让我们离理想社会更近一步。 在今年的计算机协会国际数据挖掘与知识发现大会(ACM SIGKDD,简称 KDD)上,图神经网络备受研究关注的现状得到了充分体现:粗略统计,今年 KDD 接收的 216 篇论文(research track)中有近 40 篇与图神经网络相关。 因此,腾讯AI Lab、清华大学、香港中文大学等机构联合组织了一场为期一天的图神经网络相关课程,课程的主题为「图深度学习:基础、进展和应用(Deep Graph Learning: Foundations, Advances and Applications)」。课程里从基础的图概念一直谈到了当今最前沿的图神经网络研究进展。 此外,腾讯AI Lab专门撰写了一篇万字的文章,从图神经网络历史、图神经网络的最新研究进展和图神经网络的应用进展三大部分归纳总结了该课程Theme II: Advances and Applications部分的核心内容,文章的全部内容已刊登在腾讯AI Lab的公众号上。此外,Theme I以及更多详细的内容可参看课程幻灯片及相关论文:https://ai.tencent.com/ailab/ml/KDD-Deep-Graph-Learning.html
分享者:Real 2020/09/23 19:07:22
本文将分图神经网络历史、图神经网络的最新研究进展和图神经网络的应用进展三大部分归纳总结该课程 Theme II: Advances and Applications 部分的核心内容。作者包括腾讯荣钰、徐挺洋、黄俊洲,清华大学黄文炳,香港中文大学程鸿。 人工智能领域近几年历经了突飞猛进的发展。图像、视频、游戏博弈、自然语言处理、金融等大数据分析领域都实现了跨越式的进步并催生了很多改变了我们日常生活的应用。近段时间,图神经网络成为了人工智能领域的一大研究热点,尤其是在社交网络、知识图谱、化学研究、文本分析、组合优化等领域,图神经网络在发掘数据中隐含关系方面的强大能力能帮助我们获得更好的数据表达,进而能让我们做出更好的决策。比如通过图神经网络梳理人类社会关系网络的演变,可有望帮助我们理解人类社会的底层运作模式,进而让我们离理想社会更近一步。 在今年的计算机协会国际数据挖掘与知识发现大会(ACM SIGKDD,简称 KDD)上,图神经网络备受研究关注的现状得到了充分体现:粗略统计,今年 KDD 接收的 216 篇论文(research track)中有近 40 篇与图神经网络相关。也因此,一场为期一天的图神经网络相关课程得到了参会人员的重点关注。该联合课程的主题为「图深度学习:基础、进展和应用(Deep Graph Learning: Foundations, Advances and Applications)」,由腾讯 AI Lab、清华大学、香港中文大学等机构联合组织,从基础的图概念一直谈到了当今最前沿的图神经网络研究进展。 本次课程分为两个主题。本文将分图神经网络历史、图神经网络的最新研究进展和图神经网络的应用进展三大部分归纳总结该课程 Theme II: Advances and Applications 部分的核心内容,Theme I 以及更多详细的内容可参看课程幻灯片及相关论文:https://ai.tencent.com/ailab/ml/KDD-Deep-Graph-Learning.html
分享者:Real 2020/09/23 18:35:26
一、导读 不得不说,2020年绝对是OCR开源界的丰收年,各种开源repo横空出世,一次又一次的刷新开源界的baseline,小编今天再次给大家种个草,介绍今年OCR开源领域 “真.良心之作”百度飞桨PaddleOCR。 先看下飞桨文字识别套件PaddleOCR自今年年中开源以来,短短几个月在GitHub上的表现: 7月,8.6M超轻量模型发布,GitHub Trending 全球日榜榜单第一! 8月,开源CVPR2020顶会SOTA算法,再上GitHub趋势榜单! 9月,GitHub Star数量已超过3.2K, 近期又带来哪些重磅更新? 果然,看9月最新更新,PaddleOCR再次诚意满满为大家带来真干货,直接看官方介绍: 数量上,这次PaddleOCR一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中3.5M超轻量文字识别模型,堪称目前业界开源的最轻量OCR模型了。 传送门: Github:https://github.com/PaddlePaddle/PaddleOCR 论文下载链接: https://arxiv.org/abs/2009.09941 二、快速体验PaddleOCR的3.5M超轻量OCR模型 为了让用户快速上手,PaddleOCR也是做足了准备。 PC端快速尝试:(打开网页,选一张图片,即可实时看到结果) https://www.paddlepaddle.org.cn/hub/scene/ocr iOS版本由于证书限制,需要登录百度EasyEdge网页扫码体验:https://ai.baidu.com/easyedge/app/openSource?from=paddlelite 通过PIP安装包快速体验PaddleOCR pip安装 pip install paddleocr 快速使用 from paddleocr import PaddleOCR, draw_ocr Paddleocr目前支持中英文、英文、法语、德语、韩语、日语,可以通过修改lang参数进行切换,参数依次为ch, en, french, german, korean, japan。 ocr = PaddleOCR(useanglecls=True, lang="ch") 输入待识别图片路径 img_path = 'PaddleOCR/doc/imgs/11.jpg' 输出结果保存路径 result = ocr.ocr(img_path, cls=True) 更多内容,可以进入https://github.com/PaddlePaddle/PaddleOCR 快速开始
分享者:Real 2020/09/23 18:29:52
2020年9月23日,美国华盛顿州,雷德蒙德 —— 今天,各行各业都在积极思考如何更好地借助技术创新推动业务转型,疫情的影响让原本可能需要几年的数字化转型进程,加速到了几个月内。我们看到,那些率先利用技术创新实现数字化转型的组织和企业,已经构建起灵活而有韧性的全新业务模式,这不但让他们得以有效应对当前的困境,同时也能游刃有余地面对未来可能出现的各种挑战与机遇。本周,微软最大规模的年度 IT 盛会 Ignite 2020 在线开幕,围绕微软智能云“三驾马车” Azure、Microsoft 365、Dynamics 365 推出的一系列新服务、新产品、新工具,将帮助全球更多组织和个人创造和强化业务韧性,帮助大家齐心协力战胜挑战,创造未来。 微软智能云全面支持多云、多边缘混合部署带来混合现实与人工智能的创新 (一)为了满足远程办公的需求、优化 IT 投资、以云计算支持大规模业务扩展,混合云部署正受到越来越多企业的青睐。在 Ignite 2020 大会上,微软公布了多项用于增强混合云能力的服务和设备: 支持 Azure Arc 的服务器正式商用,用户在 Azure Portal 上就可以对多云、多边缘部署的 Windows 和 Linux 服务器(虚拟机或实体机)进行无缝的一站式组织和管理。支持 Azure Arc 的数据服务开放预览,Azure SQL Managed Instance 和 Azure PostgreSQL Hyperscale 将实现跨本地数据中心、多云和边缘运行。 Azure Kubernetes服务(AKS)在 Azure Stack HCI 上提供预览。用户在 Azure Stack HCI 设备上也可以像在 Azure 云端一样,大规模地部署和管理容器化应用。 两款 Azure Stack Edge 坚固设备上市。分别是采用了英伟达 T4 GPU 的 Azure Stack Edge Pro R 和轻量化便携设计的 Azure Stack Edge Mini R,两款设备都适合在环境恶劣的边缘环境中工作。 Azure SQL Edge 服务正式商用。最安全的 Microsoft SQL 数据引擎现在可以运行于物联网网关和边缘设备上了。 关于 Azure 混合云新服务的更多信息,请浏览相关主题博客[1]文章。 (二)在人工智能服务方面,Azure 认知服务新增的功能将帮助企业优化业务流程,构建业务韧性,以负责任的人工智能为促进经济恢复贡献力量。 Metrics Advisor (预览),能够帮助企业更快捷地对业务增长引擎的实际表现进行主动监测,并对出现的问题作出分析。 空间分析服务,是以计算机视觉技术为基础、严格依据道德标准和规范开发出来的一项全新功能。它能够依照保持安全社交距离及其它健康相关规范的要求,对室内空间进行规划和设计,帮助企业和组织为恢复营业做好准备。 (三)为了帮助企业创造更富创意的沉浸式客户体验,Azure 混合现实服务新增了 Azure Object Anchors,能够帮助开发者自动检测、匹配、跟踪现实世界中的物体。 (四)Azure Kinect 领先业界的核心技术 3D ToF(飞行时间)深度技术正式商业化,通过与 Analog Devices、SICK AG 等全球各地的合作伙伴的合作,很快就将看到更多基于该技术开发的商用 3D 摄像机和相关解决方案问世。 (五)为了进一步推动科学研究的发展,更好地发掘和利用太空数据,微软正在将云计算的影响拓展到太空。微软宣布推出 Azure Orbital 预览,用户可以对来自空间卫星的太空数据进行快速分析和拓展创新。 微软生产力平台和工具全面升级更安全、更高效、更便捷 (一)在推动现代工作文明变革的过程中,安全、合规、身份管理成为很多企业最看重的首要问题。混合办公、远程办公的现实需求给企业IT安全带来了更多的潜在威胁,针对这种情况,微软专门为 Microsoft Azure 与 Microsoft 365 推出了一系列的增强安全特性。其中包括对 Microsoft Defender 进行升级,在已有的全面扩展监测和响应机制的基础上,进一步增强了针对容器和物联网的保护;Compliance Manager,用来确保客户始终与时俱进地跟上相关法律法规的合规要求;全新的分布式身份认证管理和新的连接器及 API 接口,可以在多云环境中,保护企业内部的身份认证以及应用和服务管理。 (二)为了更好地帮助企业构建业务韧性、应对和驾驭工作文明变革下的新常态,微软为 Microsoft 365 推出了一系列新功能和服务,主要包括: Microsoft Teams 提升会议体验,包括新增的 Together 场景和可定制的界面外观,以便为用户提供更好的展示效果和交流体验。例如,现在可以选择将演讲者的视频形象“拖”到其展示的内容窗口的前面。 Microsoft Teams Rooms 功能增强,为回到工作场所上班的员工提供了更多健康安全支持,例如无需触摸的会议体验:借助于 Room 遥控应用、Teams casting、Cortana 语音助手,员工可以在确保安全距离、无需接触的前提下,保证高效的沟通与协作。 Teams 中新增关爱个人健康功能,包括为在家工作的人们设置虚拟的通勤时间来帮助他们舒缓工作节奏,以及整合 Headspace 这样的应用,让人们在工作开始之前或者之后通过冥想来帮助自己释放压力、理清思绪。 Teams 整合的 Workplace Analytics 能够为管理者和领导者提供一份直观体现组织适应性的“心电图”,以直观的数据洞察告诉负责人员工是否过于疲劳,或者他们与其他同事、客户之间的联络是否足够密切,从而让企业更从容地应对潜在的变化与不确定性。 Teams 进一步增强了对 Power Platform 的支持,任何人都能更轻松地构建和使用无代码应用、聊天机器人和自动化流程,帮助解决业务挑战,或者是通过 Power BI 获取数据洞察,所有操作在 Teams 内就能完成。 Microsoft Endpoint Manager 新增管理功能,让一站式跨平台设备管理变得更轻松、更安全。 Productivity Score 新增三个分类,可以更直观地了解组织的工作情况、发现值得改进的问题以及需要更新的技能或者系统,以便发挥出每个人的最大潜力。 加入了 SharePoint Syntex 的企业内容管理方案,让企业内部搜索和利用各种内容变得更加便捷。SharePoint Syntex 是源于 Project Cortex 的第一个商用产品,能够利用先进人工智能对各种内容加以理解并实现流程自动化。 关于 Microsoft 365 各项最新功能的详细情况,请浏览这篇博客[2]。 (三)50 英寸屏幕的 Surface Hub 2S 将于今年晚些时候在中国市场上市,Surface Hub 2S 85 英寸版即日起在美国开放预售预订,预计从2021年1月起全面出货。Surface Hub 将首次支持 Windows 10 专业版和 Windows 10 企业版,从而为用户提供更完整的桌面体验。Windows 10 Team 2020 更新将在 10 月推出,为一代和二代 Surface Hub 2S 设备添加更多设置、管理和协作功能。更多相关信息,请浏览这篇博客[3]文章。 Dynamics 365 和 Power Platform帮助企业构建起更具韧性的业务应用 (一)Dynamics 365 能够帮助企业将端到端的全部业务流程数字化,从而更快速地适应市场形势的变化。在 Ignite 2020 上,微软推出了一系列聚焦于提升客户满意度的功能和服务,包括客户服务和供应链管理解决方案。这些业务就绪的解决方案不但可以直接投入应用,而且能够实现便捷的规模扩展,并能进一步定制以形成企业自己独一无二的数字优势。 为 Dynamics 365 客户服务方案定制的第一方语音通道。该服务以 Azure Communication Services 为基础,目前处于内部预览阶段。通过将语音整合进现有的全渠道服务中,仅用这一个运行在微软云上的解决方案,就能创造出可以在各个不同渠道上连贯统一、无缝衔接的端到端客户服务体验。 Dynamics 365 供应链管理解决方案的两个全新插件能够让用户更快速的发现需求端和供给端的实时变化,并且快速做出反应。其中,Cloud and Edge Scale Unit 插件让用户可以利用 Azure Stack 设备,在边缘环境中运行关键的仓储和制造相关工作负载,在提升业务适应性的同时,确保系统运行不会受到临时断网等情况的影响。Inventory Visibility 插件让业务量庞大的零售或者制造业企业可以轻松处理每分钟百万次交易,并且实时准确地查看来自不同渠道的库存情况。 (二)过去几个月,各种突如其来的变故让企业频繁调整业务需求,很多专业开发人员也因此不得不以最快的速度开发新的业务方案。为了帮助人们应对这样的挑战,微软在 Power Platform 和 Azure 平台上推出了一系列低代码开发功能和服务,帮助专业开发者利用 Azure APIM 和 GitHub 整合,快速构建定制化应用、对话机器人和业务流程。Power Automate Desktop 推出预览,让全民开发者和商业用户能通过桌面RPA应用,实现业务流程自动化。 关于 Dynamics 365 与 Power Platform 新服务、新功能的更多信息,请参考这篇博客[3]文章。 (三)安全流畅的客户沟通,是客户服务中最关键的一环,微软推出 Azure Communication Services,旨在帮助开发者创建出能够跨设备、跨平台的企业级沟通体验,其采用了与 Microsoft Teams 相同的技术平台来确保安全。关于这项 Azure 服务的更多细节,请参考这篇文章[4]。 欢迎登录微软 Ignite 2020 大会官方网站[5]了解本次大会的更多详情,这里有微软高管发言、技术主题演讲,以及更多分享环节的精彩内容。 在 10 月 20 — 22 日举行的“微软秋季技术课堂 Microsoft Tech Week”中,微软中国将携手开发者社区,为广大客户与开发者进一步解读此次微软 2020 Ignite 大会。 [1]https://azure.microsoft.com/en-us/blog/bring-innovation-anywhere-with-azures-multicloud-multiedge-hybrid-capabilities/ [2]https://www.microsoft.com/en-us/microsoft-365/blog/2020/09/22/seven-ways-were-empowering-every-person-and-every-organization-to-thrive-in-a-new-world-of-work/ [3]https://cloudblogs.microsoft.com/dynamics365/bdm/2020/09/22/announcing-microsoft-power-platform-and-dynamics-365-updates-at-microsoft-ignite/ [4]https://azure.microsoft.com/en-us/blog/build-rich-communication-experiences-at-scale-with-azure-communication-services/ [5]https://news.microsoft.com/ignite2020/
资源
分享者:一折 2020/09/23 16:25:57
自然语言处理是计算机科学和人工智能领域最炙手可热的话题之一,也是最具挑战的难题之一。比尔·盖茨就曾说过“语言理解是人工智能领域皇冠上的明珠”,由此可见自然语言处理(简称“NLP”)在学科中的重要地位和复杂程度。 北京智源人工智能研究院组织了国内豪华自然语言处理专家阵容研发了课程《理论和实践:自然语言处理》,带你入门NLP。 了解课程请戳→【北京智源 | 学堂在线】理论和实践:自然语言处理——NLP入门宝典 清华大学计算机系博导、欧洲科学院外籍院士、智源研究院NLP方向首席科学家 孙茂松教授领衔主讲,12位NLP领域智源学者全部上阵。 直播授课带你构建NLP体系,还有博士生助教团答疑解惑哦,手把手带你完成,精心挑选适合的NLP实践项目! 智源社区专属福利来了 扫描下方二维码进群领取优惠券和查看报名地址,原价999的NLP入门宝典课程仅需199元。 如果对课程内容和授课方式有疑问,可以直接在这个帖子里提问,也可以加入下面的微信群提问:
分享者:王炜强 2020/09/23 15:50:27
生命游戏是一种基于网格的自动机。最近,有研究人员发表了一篇论文,指出尽管这款游戏很简单,但它对神经网络来说,仍是个挑战。他们的论文研究了神经网络是如何「探索」这款游戏的,以及为什么它们会常常错过正确玩法。 康威生命游戏是英国数学家约翰·康威在1970年发明的细胞自动机。这个游戏可以在一个无限大的2D网格上进行。 这款小游戏在科学、计算和人工智能中被热烈讨论,因为它代表了即使是简单的规则,也可以产生非常复杂的结果。 在最近的一篇论文中,斯沃斯莫尔学院和洛斯阿拉莫斯国家实验室的人工智能研究人员指出,尽管康威生命游戏很简单,但对人工神经网络来说,这仍是个不小的挑战。 这篇文章名为「神经网络很难学会生命游戏」的文章中 ,通过利用神经网络如何探索生命游戏,他们发现电脑经常找不到正确解决方案。
分享者:小柯 2020/09/23 13:15:06
当地时间9月22日,微软在官网发布通告,与OpenAI合作,独家获取了GPT-3语言模型的使用许可。 这份通告以微软首席技术官凯文·斯科特(Kevin Scott)的身份发出,称微软正在与OpenAI合作,独家授权GPT-3使用。 从微软和OpenAI两方来看,这是一场双赢的交易:微软希望将GPT-3技术用在azure平台,扩张其技术能力;而OpenAI也通过微软获取到了GPT-3更多的应用场景和商业价值。 通告链接: https://blogs.microsoft.com/blog/2020/09/22/microsoft-teams-up-with-openai-to-exclusively-license-gpt-3-language-model/
分享者:王炜强 2020/09/23 10:52:02
Kevin Gimpel 是 TTIC 和芝加哥大学计算机科学系的一位助理教授、博士生导师。他不会手把手教你做研究,但总会留很长的「comments」。在这种「放养」的模式下,学生依然能够体会到他的认真负责和一丝不苟…… 在这篇文章中,Gimpel 的学生、芝加哥大学计算机博士褚则伟总结了他从导师身上学到的几件事。 ———— 在芝加哥大学读博士的 5 年中(其实只有 4 年在做 NLP),我从导师 Kevin Gimpel 身上学到了不少东西,有关于学术研究的,也有关于工作方式的,这里写下来和大家做个分享。 Kevin 自己写过一篇给 PhD 学生的建议:https://ttic.uchicago.edu/~kgimpel/etc/phd-advice.pdfttic.uchicago.edu。里面不少建议的工作方式也是他自己一直在践行的。 文章请点击原文链接。
分享者:王炜强 2020/09/23 10:49:14
9月19日,“人工智能治理公共服务平台(Artificial Intelligence Governance Online)”在2020年中关村论坛发布会“重大创新集聚区”环节正式对外公开。北京智源人工智能研究院人工智能伦理与可持续发展研究中心主任曾毅代表智源研究院,以及平台共同研发单位——中国科学院自动化研究所中英人工智能伦理与治理研究中心发布了该平台。 为推动我国新一代人工智能发展与治理双轮驱动,国家新一代人工智能治理专业委员会于2019年6月17日发布了《发展负责任的人工智能:新一代人工智能治理原则》。原则指出:“为促进新一代人工智能健康发展,更好协调发展与治理的关系,确保人工智能安全可靠可控,推动经济、社会及生态可持续发展,共建人类命运共同体,人工智能发展相关各方应遵循:和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理八大原则”。 为推进新一代人工智能的治理工作进行技术与社会双落地,北京智源人工智能研究院联合中国科学院自动化研究所中英人工智能伦理与治理研究中心等单位,共同研发了人工智能治理公共服务平台,平台将分多期发布,并开放给全社会使用。从而推进我国乃至世界人工智能向对人类、社会、生态有益的方向发展。 据曾毅介绍:人工智能治理公共服务平台的主要功能与目的是帮助人工智能的科研、创新者、机构、产业、政府等针对其人工智能设计、模型算法、产品与服务中潜在的社会与技术风险、安全、伦理等问题进行检测,并针对潜在问题给出相关的伦理与治理原则与规范,提供相应的案例与研究,从而一定程度上帮助避免潜在风险与隐患。 更多详情请点击原文链接。
研究 自然语言处理
mp.weixin.qq.com 同站内容
分享者:小柯 2020/09/23 09:49:37
在NLP领域,谈到超大模型必然想到预训练语言模型GPT-3,自今年3月份对外开放以来,其因超大模型和超强性能频频刷屏。GPT-3拥有1750亿参数量,约有700G大小,一次训练成本高达上百万美元。 然而,近日慕尼黑路德维希·马克西米利安大学(LMU)AI研究团队公布了一项最新研究成果显示,他们在文本生成方面可以仅用2.23亿参数量,就能到达GPT-3的效果。 论文中提到,他们证明了使用参数小几个数量级的语言模型也可以获得类似GPT-3的性能。这是通过将输入文本转换成包含任务描述的完形填空,并结合梯度优化来实现的。此外,利用未标记的数据也可以对模型进一步改进; 目前,这项研究论文已发表至预印论文库arXiv。
研究
分享者:一只呱呱呱啊 2020/09/23 09:33:28
【论文标题】Identification of Abnormal States in Videos of Ants Undergoing Social Phase Change 【作者团队】Taeyeong Choi, Benjamin Pyenson, Juergen Liebig, Theodore P. Pavlic 【发表时间】2020/09/18 【论文链接】https://arxiv.org/pdf/2009.08626v1.pdf 【论文代码】https://github.com/ctyeong/IO-GEN 【推荐理由】我们已经非常熟悉人工智能的各种应用,但亚利桑那州立大学的研究者们将人工智能引入生物学,并且得到了对异常检测有启发的结果,下面让我们来一起看看吧! 生物学既是重要的应用领域,也是发展高级机器学习技术的动力之源。高质量视频记录技术的进步已开始生成丰富的数据集,这些数据集需要计算机视觉和时间序列分析中的复杂技术。本文集中研究一个约有50只蚂蚁的小型实验室菌落中的生殖调控。该过程的结论对于人类观察者而言很明显,但仍不清楚瞬态过程中的哪些行为对该过程有所贡献。为了解决这个问题,本文探索了单分类(OC)在检测蚁群中异常状态的潜在应用,这些异常状态的行为数据仅适用于训练期间的正常社会条件。本文建立了深度支持向量数据描述(DSVDD),并引入了内部异常值生成器(IO-GEN)。结果表明相对于其他DSVDD基线,IO-GEN可以提高最终OC分类器的可靠性。此方法可用于筛选需要其他人工观察的视频帧。虽然本文侧重于社交昆虫实验室菌落的应用,但该方法可以应用于来自其他社交系统的视频数据,以更好地了解背后的因果关系,甚至可以预测未来的发生。
研究 自然语言处理 计算机视觉 讨论
分享者:vhjf 2020/09/23 09:09:56
【论文标题】Weakly Supervised Content Selection for Improved Image Captioning 【弱监督+图像描述】选择弱监督内容用以提高图像字幕性能 【论坛网址】https://hub.baai.ac.cn/view/2443 【作者团队】Khyathi Raghavi Chandu, Piyush Sharma, Soravit Changpinyo, Ashish Thapliyal, Radu Soricut(CMU & Google) 【发表时间】2020/9/10 【论文链接】https://arxiv.org/abs/2009.05175 目前图像字幕模型没有明确地对相关语义概念进行建模,只是针对数据集给予的ground truth为最终目标进行训练模型,因此导致现有模型缺乏足够的可解释性和可控制性。 在Google & CMU联合团队最新发表的论文中,为了解决上述问题,作者将图像字幕任务分解成两个更加简单且可管理的任务(内容主干预测任务和基于内容主干字幕生成任务)。对于内容主干预测任务,作者使用现成的简单语言语法解析器,不需要额外的人工注释。对于基于内容主干字幕生成任务,作者使用已有的内容主干信息在编码器,解码器上进行模态对齐(如图),增加模型的语义信息进行训练。 该模型可以在非数据集内的测试图像上生成更好质量的字幕,同时该模型在其他语言(包括法语,意大利语,德语,西班牙语和印度语)也有比较好的表现,模型在未配对图像字幕上取得了比现有方法更好的效果,具有比较好的泛化性。此外,此模型还可以根据内容主干当作旋钮来控制生成图像字幕的一些属性(长度,内容或者性别)。
研究 计算机视觉
分享者:Youmin Xu 2020/09/23 01:39:34
【论文标题】Progressive Semantic-Aware Style Transformation for Blind Face Restoration 【作者团队】Chaofeng Chen, Xiaoming Li ,Lingbo Yang,Xianhui Lin,Lei Zhang,Kwan-Yee K. Wong 【发表时间】2020/09/18 【论文链接】https://arxiv.org/abs/2009.08709v1 【论文代码】https://github.com/chaofengc/PSFRGAN 【推荐理由】本文受到SPADE等的启发,提出了一种渐进式的面部图像修复框架,利用带语义感知的样式转换将退化脸部图像修复为高清图像。作者团队来自港大和达摩院,关于脸部修复的相近前作发表在ECCV 2020上。 盲面部重建是指将未知退化后的低清晰度图像(LQ)恢复为高清图像(HQ),退化包括噪声、有损压缩、降采样等。这篇文章提出了一种渐进式带语义感知的样式转换框架,称为PSFR-GAN。他们没有像之前方法一样采用编码器-解码器框架,而是通过语义感知与样式转换将LQ面部图像的重建建模为一种多尺度的渐进式过程。给定一对LQ人脸图像及其对应的解析图,该文章将生成输入的多尺度金字塔,接着通过语义感知实现样式传递,从粗到细逐步调制不同尺度上的特征。由上,作者提出的PSFR-GAN充分利用了来自不同输入对的包括语义(解析图)和像素(LQ图像)的空间信息。作者进一步介绍了一种带语义感知的样式loss函数,该样式loss可单独计算每个语义区域的特征样式损失,以改善面部纹理的细节。作者也给出了预训练的人脸解析网络(FPN),FPN可以从真实的LQ人脸图像得到解析图。实验结果表明,该文章在真实或合成的LQ人脸数据集上都取得了比SOTA更好的重建效果及鲁棒性。 上图展示了渐进式语义感知样式转换网络(PSFR-GAN)结构图
分享者:小柯 2020/09/23 00:13:17
NumPy是一个强大、紧凑和表达力强的语法来访问、操作和计算向量、矩阵和高维数组的科学计算库。由于其在生态系统中的核心地位,NumPy 越来越多地充当这些数组计算库之间的「互操作层」,并与其应用程序编程接口(API)一起提供了一个灵活的框架,以支持未来的科学计算和工业分析。 Numpym目前在物理学、化学、工程学、金融和经济学等多个领域的研究分析中发挥着重要作用。近日,NumPy的核心开发团队在Nature上发布了论文,详细介绍了NumPy的前世今生。这篇综述论文的发表距离 NumPy 诞生已经过去了 15 年。
计算机视觉
分享者:小门神 2020/09/22 23:24:34
EfficientDeRain: Learning Pixel-wise Dilation Filtering for High-Efficiency Single-Image Deraining 论文链接:https://arxiv.org/abs/2009.09238 代码链接:https://github.com/tsingqguo/efficientderain 表现SOTA!速度高达167 FPS!综合性能优于RCDNet(CVPR 2020)和JORDERE等网络,还进一步提出有效的数据增广方法:RainMix,代码即将开源!作者单位:南洋理工大学, 九州大学, 阿里巴巴 由于未知的降雨模型,单幅图像去雨相当具有挑战性。现有方法通常对降雨模型做出特定假设,而这些假设几乎无法涵盖现实世界中的许多不同情况,因此必须采用复杂的优化或逐步完善。但是,这严重影响了这些方法对许多效率要求很高的应用的效率和有效性。为了填补这一空白,在本文中,我们将单幅图像去雨作为一个普遍的图像增强问题,并最初提出了一种无模型的去雨的方法,即EfficientDeRain,它能够在10毫秒内处理雨图像(即平均约6毫秒),比最新方法(即RCDNet)快80倍以上,同时实现了类似的去雨效果。我们首先提出新颖的逐像素膨胀滤波。特别地,用从内核预测网络估计的逐像素内核对多雨图像进行滤波,由此可以有效地预测每个像素的合适多尺度kernel。然后,为消除合成数据与真实数据之间的差距,我们进一步提出了一种有效的数据增强方法(即RainMix),该方法有助于训练网络进行真实的雨天图像处理。证明我们方法的有效性和效率。
机器学习 计算机视觉
分享者:小门神 2020/09/22 23:21:16
AdderSR: Towards Energy Efficient Image Super-Resolution 论文链接:https://arxiv.org/abs/2009.08891 本文彻底分析了加法操作与identity mapping之间的关系,并插入shortcuts以使用加法网络增强SR模型的性能,实验证明,AdderNet达到与CNN基线相当的性能和视觉质量,并且能耗降低了约2倍。作者单位:华为诺亚, 北京大学, 悉尼大学 本文使用加法神经网络(AdderNet)研究单幅图像超分辨率问题。与卷积神经网络相比,AdderNet利用加法来计算输出特征,从而避免了传统乘法运算的大量能耗。但是,由于计算范式的不同,很难将AdderNet在大规模图像分类上的成功直接继承到图像超分辨率任务上。具体而言,加法操作无法轻松学习identity mapping,这对于图像处理任务至关重要。此外,AdderNet无法确保高通滤波器的特征。为此,我们彻底分析了加法操作与identity mapping之间的关系,并插入shortcuts以使用加法网络增强SR模型的性能。然后,我们开发了可学习的power激活函数,用于调整特征分布和细化细节。在多个基准模型和数据集上进行的实验表明,使用AdderNet的图像超分辨率模型可以实现与CNN基线相当的性能和视觉质量,并且能耗降低了约2倍。
计算机视觉
分享者:小门神 2020/09/22 23:16:14
Line Flow based SLAM 论文链接:https://arxiv.org/abs/2009.09972 本文提出线流(Line Flow)表示,用于描述连续帧中的线段,其在具有遮挡,图像模糊和重复纹理的挑战性场景中获得良好的定位和建图结果。作者单位:北京大学(查红彬团队), 北京工业大学等 我们通过预测和更新代表3D线段的训练2D投影的线流,提出了一种视觉SLAM方法。尽管使用点和线段的间接SLAM方法已取得了出色的结果,但它们仍然在具有挑战性的场景(例如遮挡,图像模糊和重复纹理)中面临问题。为了解决这些问题,我们利用线流,该线流在空间和时间域中将2D和3D线段的相干性编码为对应于特定3D线段的所有2D线段的序列。借助线流表示,可以基于2D和3D线段运动来预测新帧中的相应2D线段。我们实时创建,更新,合并和丢弃线流。我们使用贝叶斯网络对基于线流的SLAM(LF-SLAM)进行建模。我们在前端执行短期优化,在后端执行长期优化。线路流中引入的约束条件改善了LF-SLAM的性能。大量的实验结果表明,与最先进的直接和间接SLAM方法相比,我们的方法具有更好的性能。特别是,它在具有遮挡,图像模糊和重复纹理的具有挑战性的场景中获得良好的定位和映射结果。
自然语言处理
mp.weixin.qq.com 同站内容
分享者:Real 2020/09/22 20:13:43
论文标题: Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion 论文来源: ACM SIGKDD 2020 论文链接: https://arxiv.org/abs/2007.04032 会话推荐系统(conversation recommender system, CRS)旨在通过交互式的会话给用户推荐高质量的商品。通常CRS由寻求商品的user和推荐商品的system组成,通过交互式的会话,user实时表达自己的偏好,system理解user的意图并推荐商品。目前会话推荐系统有两个问题需要解决。首先,对话数据本身缺少足够的上下文信息,无法准确地理解用户的偏好(传统的推荐任务会有历史交互序列或者用户属性,但是该场景下只有对话的记录)。其次,自然语言的表示和商品级的用户偏好之间存在语义鸿沟(在user的话语“Can you recommend me a scary movie like Jaws”中,用户偏好反映在单词”scary“和电影实体”Jaws“上,但这两类信息天然存在语义的差异)。 为了解决上述问题,本文提出了模型KG-based Semantic Fusion approach(KGSF),通过互信息最大化的多知识图谱语义融合技术,不仅打通了对话中不同类型信息的语义鸿沟,同时针对性得设计了下游的模型,以充分发挥两个知识图谱的作用,在会话推荐系统的两个任务上均取得了state-of-the-art的效果。
分享者:Real 2020/09/22 19:06:19
按照任务分类,可以把数据集分成以下几类: - 引文网络 - 生化图 - 社交网络 - 知识图谱 - 开源数据集仓库 1. 引文网络 Pubmed/Cora/Citeseer 引文网络,节点为论文、边为论文间的引用关系。这三个数据集通常用于链路预测或节点分类。 这三个数据集均来自于: 《Collective classification in network data》 下载链接:https://linqs.soe.ucsc.edu/data DBLP DBLP是大型的计算机类文献索引库。原始的DBLP只是XML格式,清华唐杰教授的一篇论文将其进行处理并获得引文网络数据集。到目前为止已经发展到了第12个版本。 **DBLP引用网络论文: 《ArnetMiner: Extraction and Mining of Academic Social Networks》 - 原始数据可以从这里获得: https://dblp.uni-trier.de/xml/ - 如果是想找处理过的DBLP引文网络数据集,可以从这里获得: https://www.aminer.cn/citation 2. 生化图 PPI 蛋白质-蛋白质相互作用(protein-protein interaction, PPI)是指两个或两个以上的蛋白质分子通过非共价键形成 蛋白质复合体(protein complex)的过程。 PPI数据集中共有24张图,其中训练用20张,验证/测试分别2张。 节点最多可以有121种标签(比如蛋白质的一些性质、所处位置等)。每个节点有50个特征,包含定位基因集合、特征基因集合以及免疫特征。 PPI论文: 《Predicting multicellular function through multi-layer tissue networks》 PPI下载链接: http://snap.stanford.edu/graphsage/ppi.zip NCI-1 NCI-1是关于化学分子和化合物的数据集,节点代表原子,边代表化学键。NCI-1包含4100个化合物,任务是判断该化合物是否有阻碍癌细胞增长的性质。 NCI-1论文: 《Comparison of descriptor spaces for chemical compound retrieval and classification》 Graph Kernel Datasets提供下载 MUTAG MUTAG数据集包含188个硝基化合物,任务是判断化合物是芳香族还是杂芳族。 MUTAG论文: 《Structure-activity relationship of mutagenic aromatic and heteroaromatic nitro compounds. correlation with molecular orbital energies and hydrophobicity》 Graph Kernel Datasets提供下载 D&D/PROTEIN D&D在蛋白质数据库的非冗余子集中抽取了了1178个高分辨率蛋白质,使用简单的特征,如二次结构含量、氨基酸倾向、表面性质和配体;其中节点是氨基酸,如果两个节点之间的距离少于6埃(Angstroms),则用一条边连接。 PROTEIN则是另一个蛋白质网络。任务是判断这类分子是否酶类。 D&D论文: 《Distinguishing enzyme structures from non-enzymes without alignments》 D&D下载链接: https://github.com/snap-stanford/GraphRNN/tree/master/dataset/DD PROTEIN论文: 《Protein function prediction via graph kernels》 Graph Kernel Datasets提供下载 PTC PTC全称是预测毒理学挑战,用来发展先进的SAR技术预测毒理学模型。这个数据集包含了针对啮齿动物的致癌性标记的化合物。 根据实验的啮齿动物种类,一共有4个数据集: - PTCFM(雌性小鼠) - PTCFR(雌性大鼠) - PTCMM(雄性小鼠) - PTCMR(雄性大鼠) PTC论文:《Statistical evaluation of the predictive toxicology challenge 2000-2001》 Graph Kernel Datasets提供下载 QM9 这个数据集有133,885个有机分子,包含几何、能量、电子等13个特征,最多有9个非氢原子(重原子)。来自GDB-17数据库。 QM9论文: 《Quantum chemistry structures and properties of 134 kilo molecules》 QM9下载链接: http://quantum-machine.org/datasets/ Alchemy Alchemy包含119,487个有机分子,其有12个量子力学特征(quantum mechanical properties),最多14个重原子(heavy atoms),从GDB MedChem数据库中取样。扩展了现有分子数据集多样性和容量。 Alchemy论文: 《Alchemy: A quantum chemistry dataset for benchmarking ai models》 Alchemy下载链接: https://alchemy.tencent.com/ 3. 社交网络 Reddit Reddit数据集是由来自Reddit论坛的帖子组成,如果两个帖子被同一人评论,那么在构图的时候,就认为这两个帖子是相关联的,标签是每个帖子对应的社区分类。 Reddit论文: 《Inductive representation learning on large graphs》 Reddit下载链接: https://github.com/linanqiu/reddit-dataset BlogCatalog BlogCatalog数据集是一个社会关系网络,图是由博主及其社会关系(比如好友)组成,标签是博主的兴趣爱好。 BlogCatalog论文:《Relational learning via latent social dimensions》 BlogCatalog下载链接:http://socialcomputing.asu.edu/datasets/BlogCatalog 4. 知识图谱 FB13/FB15K/FB15K237 这三个数据集是Freebase的子集。其中: - FB13:包含13种关系、75043个实体。 - FB15K:包含1345种关系、14951个实体 - FB15K237:包含237种关系、14951个实体 如果希望找到entity id对应的实体数据,可以通过以下渠道(并不是所有的实体都能找到): https://developers.google.com/freebase/#freebase-wikidata-mappings http://sameas.org/ WN11/WN18/WN18RR 这三个是WordNet的子集: WN11:包含11种关系、38696个实体 WN18:包含18种关系、40943个实体 WN18RR:包含11种关系、40943个实体 为了避免在评估模型时出现inverse relation test leakage,建议使用FB15K237/WN18RR 来替代FB15K/WN18。更多建议阅读《Convolutional 2D Knowledge Graph Embeddings》 FB15K/WN8论文: 《Translating Embeddings for Modeling Multi-relational Data》 FB13/WN11论文: 《Reasoning With Neural Tensor Networks for Knowledge Base Completion》 WN18RR论文: 《Convolutional 2D Knowledge Graph Embeddings》 以上6个知识图谱数据集均可从这里下载: https://github.com/thunlp/OpenKE/tree/master/benchmarks 数据集 关系 实体数 FB13 13 75043 FB15K 1345 14951 FB15K237 237 14951 WN11 11 38696 WN18 18 40943 WN18RR 11 40943 5. 开源的数据仓库 Network Repository 具有交互式可视化和挖掘工具的图数据仓库。具有以下特点: 用表格的形式展示每一个图数据集的节点数、遍数、平均度数、最大度数等。 可视化对比图数据集之间的参数。 在线GraphVis,可视化图结构和详细参数。 链接: http://networkrepository.com Graph Kernel Datasets 图核的基准数据集。提供了一个表格,可以快速得到每个数据集的节点数量、类别数量、是否有节点/边标签、节点/边特征。 链接: https://ls11-www.cs.tu-dortmund.de/staff/morris/graphkerneldatasets Relational Dataset Repository 关系机器学习的数据集集合。能够以数据集大小、领域、数据类型等条件来检索数据集。 链接: https://relational.fit.cvut.cz Stanford Large Network Dataset Collection SNAP库包含了一个大型图网络数据集集合,拥有大型社交、信息网络。包括:图分类数据库、社交网络、引用网络、亚马逊网络等等,非常丰富。 链接: https://snap.stanford.edu/data/ Open Graph Benchmark OGB是真实基准数据集的集合,同时提供数据加载器和评估器(PyTorch)。可以自动下载、处理和切割;完全兼容PyG和DGL。 链接: https://ogb.stanford.edu/
研究 自然语言处理
mp.weixin.qq.com 同站内容
分享者:Real 2020/09/22 18:43:10
背景 题目:MASS: Masked Sequence to Sequence Pre-training for Language Generation 机构:微软亚洲研究院 作者:Kaitao Song、Xu Tan 收录会议:ICML 2019 面向任务:自然语言理解任务(NLU)的学习表示 论文地址:https://arxiv.org/pdf/1905.02450.pdf 成果:WMT19 机器翻译比赛中,MASS在中-英、英-立陶宛两个语言中取得了第一名的成绩 论文代码:https://github.com/microsoft/MASS 摘要 受到BERT的预训练和fine tuning的启发,本文提出MAsked Sequence to Sequence pre-training (MASS)以用encoder-decoder方式进行文本生成。MASS采用encoder-decoder框架以重建一个句子片段:其encoders输入的句子被随机掩盖掉连续数个tokens,其decoder尝试预测该掩盖掉的片段。【这个其实与BERT很像,完形填空的方式,只是这里遮蔽掉的是连续的数个tokens,而BERT只遮蔽一个token】通过这种方式MASS能够联合训练encoder和decoder以提升表征提取的能力和语言建模的能力。再在一系列的零样本或者少样本的生成任务(包括神经机器翻译、文本摘要和对话回答生成这3个任务,具体来说包含了8个数据集)中进行fine tuning,最终MASS获得的结果远超于各个baselines。这些数据集的baselines要么是没有预训练,要么是采用其他的预训练方法。特别地,在BLUE得分中以37.5的accuracy刷新了记录。在无监督的英-法翻译中,甚至超过了早期基于注意力的监督模型(Bahdanau et al., 2015b)。 介绍 BERT 在自然语言理解(比如情感分类、自然语言推理、命名实体识别、SQuAD 阅读理解等)任务中取得了很好的结果,受到了越来越多的关注。然而,在自然语言处理领域,除了自然语言理解任务,还有很多序列到序列的自然语言生成任务,比如机器翻译、文本摘要生成、对话生成等。自然语言生成任务所需要的数据量是巨大的,但是一般情况下的上述自然语言生成任务很多是零样本或是少样本训练集。直接在这些自然语言生成任务上使用BERT是不合适的,这是由于BERT的设计初衷是用于自然语言理解。如此设计,使其一般只有encoder或者decoder。因此,如何为自然语言生成任务(这些任务常常使用encoder-decoder的序列到序列框架)设计预训练模型是极具潜力且至关重要的。 不像BERT或者其他预训练的语言模型,仅仅使用encoder或者decoder,MASS的预训练阶段是联合了encoder和decoder。第一步:在encoder端遮蔽掉连续的数个tokens,预测这些被遮蔽掉的tokens。MASS能够强制encoder理解这些未被遮蔽的tokens,以在decoder端预测这些被遮蔽的tokens。第二步:在decoder端遮蔽掉在source端对应的未被遮蔽的部分,如此在进行下一个token预测的时候,MASS能够强制decoder依赖于source的特征表示,而非target端前之前预测的tokens。这样能够更好地促进encoder和decoder之间的联合训练。 MASS仅仅需要预训练一个模型,然后再下游的多种任务中进行微调即可。本文使用transformer作为序列到序列的基本model,在WMT的单一语言语料上进行预训练,之后在下游的3个语言生成任务:机器神经翻译(NMT)、文本摘要和对话回答生成 中进行微调。考虑到下游任务中有跨语言任务NMT,MASS在预训练过程中使用多种语言。本文尝试在3个任务中使用low-resource setting(即使用较少的数据量),同时也在NMT任务上尝试零训练样本(zero-resource setting)的无监督学习。对于NMT任务是采用WMT14中的英-法数据集、WMT16中的英-德和WMT16的英语-罗马数据集。对于无监督的NMT,直接将预训练后的模型作用于单语种数据集,并设置back-translation loss(而不用采用additional denoising auto-encoder loss)。至于low-resource的NMT,直接在给定的少量训练集上对预训练的模型进行微调。对于另外2个任务,我们采用以下的方式:(1)文本摘要任务上采用Gigaword 语料(2)在会话式答案生成任务上采用Cornell Movie Dialog语料。MASS能够在所有这些任务上(包括零样本和少样本)获得性能上的提升,从而证明了本文模型在一系列的生成任务上的有效性和通用性。 本文的贡献如下: (1)提出MASS, 一个面向语言生成任务的屏蔽序列到序列预训练模型 (2)将MASS应用到一系列的语言生成任务上,包括NMT、文本摘要生成和对话回答生成,并取得显著了性能提升,从而证明了本文方法的有效性。特别是,在2个无监督NMT数据集:English-French 和English-German上取得了SOTA得分(在BLEU得分上)。该BLEU score分别超出此前最优得分4个百分点(English-French)和1个百分点(French-English)。此外,该模型还击败了早期带注意力机制的有监督NMT模型(Bahdanau et al., 2015b)。 实验及其结果 MASS的预训练 模型配置: 以Transformer为基本的模型结构,Transformer是由4层encoder+4层decoder+512 embedding/hidden size + 2048 feed-forward filter size。文本摘要和对话生成是单语种任务,NMT涉及多语言,所以除了英语之外,还需要预训练一个多语种模型。本文考虑了English, German, French 和 Romanian,其中英语在所有的下游任务中都会被用到,其他语种只会在NMT任务中用到。此外,为了区分不同的语种,在输入的句子中增加了一个language embedding。 预训练的细节: 对于被屏蔽掉的token用以特定字符取代,其他的处理与BERT的一样(80%的随机替换,10%的随机其他token,10%的未屏蔽)。此外本文还研究了不同的屏蔽长度k对accuracy的影响,这点后面补充结果。为了降低内存占用和计算时长,本文设计去掉decoder端的padding,但是保持unmasked tokens的positional embedding(即,如果前2个token被屏蔽,第3个token的positional embedding仍然是2,而不是0)。这种方式可以在维持accuracy不变的前提下,在decoder端降低大约50%的计算量。本文采用的优化器是Adam,其学习率是,训练的机器设备是4张 NVIDIA P100 GPU,每个mini-batch有32*4 个句子。
自然语言处理 讨论
mp.weixin.qq.com 同站内容
分享者:幻宇 2020/09/22 18:15:47
字节跳动科技有限公司人工智能实验室总监李航在《中国计算机学会通讯》发表文章回顾自然语言处理模型的过去,并结合目前的最新技术对自然语言处理的未来发展进行了展望。 语言模型(language model)是定义在单词序列上的概率模型,可以用来计算一个单词序列的概率。在自然语言处理中,单词序列可以是一个句子或一段文字。语言模型是基于概率论、统计学、信息论、机器学习对自然语言进行建模的重要方法。语言模型与深度学习相结合产生的神经语言模型(neural language model)具有强大的表示和学习能力,代表着语言模型发展到了一个新的阶段;特别是其中的预训练语言模型(pre-trained language model)已经成为当今自然语言处理的核心技术。本文回顾语言模型的历史,总结语言模型的现状,展望语言模型的未来。
分享者:幻宇 2020/09/22 18:06:59
杨强教授在CCAI 2020上讲了联邦学习的发展历程和最新进展,把联邦学习何传统的机器学习、时下火热的迁移学习和AutoML进行了结合探讨。 例如,我们博士生看到一个非常好机会来做新的研究,拿周老师的西瓜书随意翻到任何一个算法,然后在前面加上“联邦”两个字。比如随机森林,就可以做成一个联邦学习的随机森林。可以在纵向两方进行联邦学习,同时可以在横向进行联邦学习,这是新加坡国立大学何炳胜老师带领的团队做出来的。 这个领域是否只是算法设设计?不仅如此,因为它是多领域的交叉,希望得到右边所示的生态。不同机构之间形成合作的网络共同建模,达到这一点需要做很多研究,比如如何能够满足安全合规?因此做这项工作需要做人工智能技术的人,以及做监管和法律的人在一起研究。要进行防御攻击,假设某一个参与方是坏人,系统是否足够鲁棒,能够防御其攻击。 如何提高算法的效率?因为在联邦交互过程中会有很多加密和解密的过程,是否可以通过芯片和硬件来完成。 上面讲的是当两个数据集有某种交集,比如样本交集或特征交集的前提下是可以做联邦学习的,如果没有交集怎么办?这时就可以用迁移学习解决这样的问题,把联邦学习和迁移学习相结合。 这里有红色和蓝色两个领域,它们之间没有表面重叠,但如果在语义上有很多重叠,比如两个都是有关病人的胸片数据,或者有关物流的仓储数据,可以发现其中有一些子空间;在子空间上,红色这些是有重叠的。在这些交互的子空间上是可以进行联邦学习的,找到同分布的子空间,这可以使我们能够推出一个联邦迁移学习的深度学习模型,在深度学习模型找子空间就非常容易。比如找到一些层,这些层代表了它们共同的子空间,可以进行直接的迁移;对于不同部分,各自再去建模,这样就使得这种模型的建立可以在没有表面交互的情况下也可以进行。 假设有一个坏人混入了这个联盟,一个目的是探测别人的隐私,去学别人的数据,我们有没有办法应对。对于模型和数据的攻击来自三个方面,要分别对待。第一方面,坏人可以推断、训练数据;第二方面,可以损害训练的模型;第三方面,通过测试数据来蒙混过关。 这里特别要强调的是在大规模的工业应用中,我们不能在所有方面都使用最严格的同态加密,所以很多为了效率的提升,使用的是差分隐私。但差分隐私有一定概率会暴露用户隐私的,如最近MIT的韩松教授就证明,如果差分隐私注入的噪音不够多,对方有可能猜出我的原始数据。这就变成了工业上的一个难题。 我们最近成功地解决了这一难题。即,在每一方都建立一个对抗模型,使对抗模型一方的任务是和其他方沟通,另一方是建立模型,只要把这两个模型分开,就可以保证我们在完全保护隐私和隐私完全泄露之间找到一个最佳平衡点,也就不用顾虑暴露隐私,同时能够有非常高的效率。 最近在机器学习界比较火的自动机器学习AutoML,联邦学习因为很多参与方是没有人工智能技术能力的,AutoML和联邦学习的结合就势在必行。
资讯
分享者:DeeDive 2020/09/22 15:54:51
四枚金牌+团队冠军!IOI 2020中国少年大显神威 总分第一!四金牌+团体冠军! 第32届国际信息学奥林匹克竞赛(IOI2020)中 ,代表中国队出征的队员选手大显神威!成功在几十个国家共340多位选手中脱颖而出。 这四位少年分别是 : 宁波市镇海中学的罗煜翔 绍兴市第一中学的王展鹏 绍兴市第一中学的周雨扬 成都市第七中学蒋明润 金牌&总分成绩如下: AI科技评论前两天在比赛第一日的报道“不负众望!IOI 2020首日比赛,中国队四位少年全员满分”中就曾提到: 能在首日赛事中获得满分,中国队成员等于给自己的金牌之路打下了坚实的基础,接下来只要在 19 号举行的第二场赛事中稳定发挥,中国队将有机会上演夺下 4 金和团体总冠军的局面。 事实证明确实如此,中国选手在国际赛场上依旧猛地一塌糊涂! 今年的 IOI 竞赛于 9 月 13 日-9月19日正式举行,经过前几日开幕、练习赛等环节后,16 日正式迎来首场赛事,最终有 7 人在第一天的赛事中获得满分,当中包括中国队的 4 名成员 —— 中国是唯一全员获得满分的参赛国家
分享者:王炜强 2020/09/22 09:56:17
很多深度学习方法实现了不错的抠图效果,但它们无法很好地处理高分辨率图像。而现实世界中需要使用抠图技术的图像通常是分辨率为 5000 × 5000 甚至更高的高分辨率图像。如何突破硬件限制,将抠图方法应用于高分辨率图像?来自 UIUC、Adobe 研究院和俄勒冈大学的研究者提出了一种新方法。 抠图是图像和视频编辑与合成的关键技术。通常,深度学习方法会以整个输入图像和相关的 trimap 作为输入,使用卷积神经网络来推断前景蒙版(alpha matte)。这种方法在图像抠图领域实现了 SOTA 结果。但是,由于硬件限制,这些方法在实际的抠图应用中可能会失败,因为现实世界中需要抠图的输入图像大多具备很高的分辨率。 近日,来自伊利诺伊大学香槟分校(UIUC)、Adobe 研究院和俄勒冈大学的研究者提出了一种名为 HDMatt 的新方法,这是首个处理高分辨率输入图像的深度学习抠图方法。 早在 2017 年,Adobe 等机构就发表论文《Deep Image Matting》,采用大规模数据集与深度神经网络学习图像的自然结构,进一步分离图像的前景与背景。而那篇论文的一作 Ning Xu 正是这篇论文的第二作者。只不过,研究者这次将矛头对准了高分辨率图像。 更多内容,请见文章链接。
研究 计算机视觉
分享者:Ge-Peng Ji 2020/09/22 08:34:42
【论文标题】Making a Case for 3D Convolutions for Object Segmentation in Videos 【亚琛工大Bastian和慕尼黑Laura团队】使用三维卷积进行视频目标分割 【作者团队】Sabarinath Mahadevan, Ali Athar, Aljosa Osep, Sebastian Hennen, Laura Leal-Taixé, and Bastian Leibe 【发表时间】9月17日 【论文链接】https://www.bmvc2020-conference.com/assets/papers/0233.pdf 【论文代码】https://github.com/sabarim/3DC-Seg 【推荐理由】“本文收录于BMVC-2020会议,来自亚琛工业大学和慕尼黑工业大学的研究人员提出一种全新的三维卷积神经网络用于视频目标分割任务(VOS)。” 视频中的对象分割任务通常是通过使用标准的二维卷积网络分别处理外观和运动信息,然后对两种信息源进行融合来完成。另一方面,三维卷积网络已成功地应用于视频分类任务,但与二维卷积相比,尚未有效地利用视频中涉及密集像素的解释问题,并且在性能方面落后于上述网络。 在这项工作中,研究团队证明了三维卷积神经网络可以有效地应用于密集视频预测任务,例如显著目标分割。本文提出了一种简单而有效的编码器-解码器网络结构,该体系结构完全由3D卷积组成,可以使用标准的交叉熵损失函数进行端到端训练。为此,研究人员利用了高效的3D编码器,并提出了一种3D解码器体系结构,其中包括新颖的3D全局卷积层和3D优化模块。该方法不仅速度更快,而且在DAVIS'16无监督任务上,FBMS和ViSal数据集基准方面的性能远远优于现有的最新技术,因此表明该体系结构可以有效地学习表现力的时空特征并产生高质量的视频分割蒙版。 编码器-解码器网络结构解释
研究 自然语言处理
分享者:吴继芳 2020/09/22 05:03:27
【论文标题】Structured Attention for Unsupervised Dialogue Structure Induction 【作者团队】Liang Qiu, Yizhou Zhao, Weiyan Shi, Yuan Liang, Feng Shi, Tao Yuan, Zhou Yu, Song-Chun Zhu 【发表时间】9月17日 【论文链接】https://arxiv.org/abs/2009.08552 【论文代码】https://github.com/Liang-Qiu/SVRNN-dialogues 【推荐理由】本文已经被EMNLP 2020 接收。该论文提出将结构化注意力层添加到具有离散隐状态的变分递归神经网络(VRNN)模型中,以无监督的方式学习对话结构。 从一个或一组对话中归纳出有意义的结构表示,是计算语言学中一个关键并且具有挑战性的任务。这一领域取得的进展对于对话系统设计和话语分析至关重要,甚至可以被扩展到用来解决语法推断问题。本文提出将结构化注意力层添加到具有离散隐状态的变分递归神经网络(VRNN)模型中,以无监督的方式学习对话结构。 与传统VRNN相比,结构化注意力使模型可以集中于源句子嵌入的不同部分,同时强制执行结构性归纳偏差。作者探索了两种不同的结构归纳偏差:(1)两方对话中话语级别的语义结构归纳:线性CRF;(2)用于在多方对话中进行交互式结构学习:非投影依赖树。 实验表明,这两种模型都比现有算法具有更好的结构学习性能。在两方对话数据集上,具有结构化注意力的VRNN可以学习到与生成该对话语料库所用模板相似的语义结构。而在多方对话数据集上,本文提出的模型学习了一种交互式结构,表明其具有区分说话者以及在在没有明确的人工标注的情况下可自动拆分对话的能力。 上图展示的是文章中提出的融合了结构化注意力层的变分递归神经网络模型(SVRNN)结构图。
研究 问答
分享者:吴继芳 2020/09/22 04:58:47
【论文标题】Leveraging Semantic Parsing for Relation Linking over Knowledge Bases 【作者团队】Nandana Mihindukulasooriya, Gaetano Rossiello, Pavan Kapanipathi, Ibrahim Abdelaziz, Srinivas Ravishankar, Mo Yu, Alfio Gliozzo, Salim Roukos, Alexander Gray 【发表时间】9月17日 【论文链接】https://arxiv.org/abs/2009.07726 【论文代码】https://github.com/IBM/kbqa-relation-linking 【推荐理由】本文已经被ISWC 2020接收。该论文提出一种利用抽象含义表示(AMR)和远程监督对问题描述进行语义解析的关系链接框架。 知识库问答系统在很大程度上依赖于关系提取和链接模块。 但是,从文本到知识库的关系的提取和链接的任务面临两个主要挑战:自然语言的歧义性和缺乏训练数据。 为了克服这些挑战,本文提出了一种利用抽象含义表示(AMR)和远程监督来进行语义解析的关系链接框架(SLING)。 这个框架集成了多种方法来从AMR表示形式以及自然语言文本中捕获补充信息,例如:语言提示,丰富的语义表示以及来自知识库的信息。 使用三个KBQA数据集QALD-7,QALD-9和LC-QuAD 1.0进行关系链接的实验表明,该方法在所有基准测试中均达到了最优的性能。 上图中,(a)是按照处理流程展示的SLING整体架构图。(b)是展示了一个例子,输入是自然语言描述的问题以及相应的AMR表示,输出是句子中可能的subject-object 对的对应关系的排序列表。
自然语言处理
mp.weixin.qq.com 同站内容
分享者:苦行僧 2020/09/22 00:17:04
随着 GPT-2 等大规模预训练模型的提出,对话生成模型性能取得了突飞猛进的提高,Microsoft, Google, Facebook 先后提出自家的预训练对话模型:DialoGPT [1], Meena [2], Blender [3]. 这些模型虽然在实现细节有区别,但训练的核心都是模仿训练语料的数据分布。 可是,即使是人类也会产生不同质量的回复:有的回复获得很多赞,还有的能引发更多的讨论,但也有灌水,甚至是不文明和拉仇恨的言论。而如果把糟粕精华一股脑全都丢给模型去训练,就会产生各种各样的问题。我们希望对话生成模型能“思而后言”,对回复的质量先做一个评估再返回结果。 本文探讨了如何利用点赞数据来帮助对话生成模型。
研究 自然语言处理
mp.weixin.qq.com 同站内容
分享者:苦行僧 2020/09/22 00:14:48
长期以来,机器翻译都只涉及到文本之间的转换,但实际上,人的感知功能可以是“多模态”的。 本文提出一种通用的视觉表征,将图片信息融合到机器翻译模型中。 使用这种视觉知识融合方法,不需要额外的双语-图片标注数据,模型就能够在多个数据集上取得显著的效果提升。 论文标题: Neural Machine Translation with Universal Visual Representation 论文作者: Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao 论文链接:https://openreview.net/forum?id=Byl8hhNYPS 收录情况: ICLR 2020 (Spotlight) 代码链接: https://github.com/cooelf/UVR-NMT
计算机视觉 资源
mp.weixin.qq.com 同站内容
分享者:苦行僧 2020/09/22 00:12:31
提到计算机视觉领域的入门书,不少人会推荐 Facebook 研究科学家 Richard Szeliski 的《计算机视觉:算法与应用》。这本书的英文版于 2010 年出版,2011 年被翻译成中文在国内面世,成为很多人学习计算机视觉的入门教材。 这本书探索了用于分析和解释图像的各种常用技术,描述了具有一定挑战性的视觉应用方面的成功实例,兼顾专业的医学成像和图像编辑与拼接之类有趣的大众应用。在这本书中,作者从科学的角度介绍了基本的视觉问题,将成像过程的物理模型公式化,然后在此基础上生成对场景的逼真描述,他还运用统计模型来分析和运用严格的工程方法来解决这些问题。 作为一本被广泛采用的教材,《计算机视觉:算法与应用》非常受初学者欢迎,有人称赞其「为计算机视觉技术的初学者(本科生)提供了广泛的标准计算机视觉问题的坚实基础」。

电话:(010) 6893 3383

邮箱:press@baai.ac.cn

© 2020 北京智源人工智能研究院

ICP备案号:京ICP备19012194号