2022年,基础技术取得了显著进展,这些技术有助于推进人类知识,并为解决一些社会最具挑战性的问题创造了新的可能性。人工智能的重大进步也使微软能够通过我们的产品和服务为客户提供新功能,包括能够将自然语言提示转化为代码的人工智能对程序员GitHub Copilot,以及Microsoft Designer的预览,Microsoft Designer是一个支持创建社交媒体帖子、邀请、海报和独一无二的图像的平面设计应用程序。

这些产品可以早期了解新的人工智能功能,如大型语言模型,如何让人们以越来越强大的方式与机器交互。他们建立在对计算和跨科学基础研究的重要、长期承诺的基础上,微软的研究界在推进人工智能的最新技术方面发挥着不可或缺的作用,同时与工程团队和其他合作伙伴密切合作,将这一进展转化为切实的好处。

2022年,微软研究公司成立了AI4Science,这是一个全球性组织,将人工智能和机器学习的最新进展应用于从根本上转变科学;增加并扩大了公司基础模型家族的能力;努力使这些模型和技术更具适应性、协作性和效率;进一步开发了确保负责任地使用人工智能并符合人类需求的方法;并追求不同的人工智能方法,如因果机器学习和强化学习。

在第二届年度微软研究峰会期间,我们分享了我们在人工智能和许多其他学科方面的进步,在峰会上,我们的研究界成员与行业和学术界的同行几乎聚集在一起,讨论如何探索和部署新兴技术,为人类带来最大的利益。

该活动的全体会议重点讨论了深度学习对我们实践科学方式的变革性影响,增强医生权能和减少医疗保健不平等的研究,以及地球规模计算的新基础。为期三天的进一步跟踪和会议提供了对云未来的更深入的深入了解;高效的大规模人工智能;放大人类生产力和创造力;提供精确的医疗保健;通过隐私、身份和负责任的人工智能建立用户信任;以及建立一个有弹性和可持续的世界。

 

在这篇博客文章中,我们回顾了人工智能领域的一些关键成就和值得注意的工作,并重点介绍了我们多元化、多学科和全球组织的其他进展。

推进人工智能基础并加快进步

在过去的一年里,微软的研究界为强大的大规模人工智能模型的快速发展做出了重大贡献。微软研究和微软图灵团队推出了一种新的图灵通用语言表示模型,能够执行英语和多语言理解任务。在计算机视觉方面,Project Florence-VL(Florence-Vision and Language)团队的进步跨越了静态图像和视频:其GIT模型是第一个在图像字幕基准TextCaps上超越人类性能的模型;LAVENDER在视频问题回答、文本到视频检索和视频字幕方面表现出强大的性能;GLIPGLIPv2结合了本地化和视觉语言理解。该小组还推出了NUWA-Infinity,这是一种能够将文本、图像和视频转换为高分辨率图像或长期视频的模型。与此同时,Visual Computing Group扩展了其基于Transformer的通用计算机视觉架构Swin Transformer,实现了比以往任何时候都更多的视觉任务的适用性。

来自Microsoft Research Asia和Microsoft Turing团队的研究人员还介绍了BEiT-3,这是一种通用多模式基础模型,可以在视觉和视觉语言任务上实现最先进的传输性能。在BeiT-3中,研究人员介绍了用于通用建模的多路变压器,其中模块化架构既可以实现深度融合,也可以实现特定于模式的编码。基于共享主干,BeiT-3以统一的方式对图像(英语)、文本(英语)和图像文本对(“平行句子”)进行屏蔽的“语言”建模。代码和预训练模型将在GitHub上提供。

人工智能进步的最关键加速器之一是优化大规模模型训练和推理的能力。2022年,DeepSpeed团队取得了一些突破,以改进专家(MoE)模型的混合,使其更高效、更快、成本更低。具体而言,与质量等效的密集模型相比,它们能够将训练成本降低5倍,将MoE参数大小减少高达3.7倍,并将MoE推理延迟降低7.3倍,同时为MoE模型提供高达4.5倍和9倍的推断。

转变科学发现并增加社会价值

我们理解和推理自然世界的能力随着时间的推移而提高,7月宣布的新AI4Science组织代表了科学发现演变的另一个转折。机器学习已经在自然科学中使用,使用观测数据对物理系统进行建模。AI4Science旨在通过创建深度学习模拟器来大幅提高我们对自然现象的建模和预测能力,这些模拟器通过使用基本方程的计算解作为训练数据进行学习。

这种新范式可以帮助科学家更深入地了解自然现象,直到它们最小的成分。这种分子理解和强大的计算工具可以帮助加速发现应对气候变化的新材料,以及有助于支持疾病预防和治疗的新药物。

例如,AI4Science的Carbonix项目正在研究全球可获得的大规模世界经济脱碳解决方案,包括可以将碳从环境中提取的逆向工程材料,并将碳回收到材料中。来自学术界、行业和政府的领域专家通过微软气候研究计划(MCRI)在这些努力中进行合作。MCRI于6月宣布,重点关注碳核算、气候风险评估和脱碳等领域。

作为生成化学项目的一部分,微软研究人员一直在与全球制药公司诺华合作,开发和执行机器学习工具和人为循环方法,以加强整个药物发现过程。4月,他们推出了MoLeR,这是一种基于图形的化合物生成模型,用于设计,它更能反映化学家对过程的看法,比团队开发的早期生成模型更高效、更实用。

虽然AI4Science专注于计算模拟,但我们通过InnerEye等项目看到,人工智能可以通过许多其他方式具有社会价值。3月,微软收购了Nuance Communications Inc.,进一步巩固了这些公司对跨行业,特别是医疗保健领域基于结果的人工智能的共同承诺。Microsoft Teams和Dragon Ambient eXperience(Nuance DAX)的集成等工具已经产生了影响,这些工具旨在帮助减轻医生的行政负担,并支持有意义的医患互动。

使人工智能更具适应性、协作性和效率

为了帮助加速大规模人工智能的能力,同时建立一个每个人都可以从中受益的景观,微软的研究社区旨在推动三个领域的进步:适应性、协作性和效率。

为了提供一致的价值,人工智能系统必须应对任务和环境的变化。该领域的研究包括多任务学习,包括任务感知的输入路由、知识注入的解码、以数据为中心的ML重新定位模型、修剪和认知科学或大脑启发的人工智能。我们适应性工作的一个很好的例子是GODEL,即接地开放对话语言模型,它引入了一类新的预训练语言模型,使聊天机器人能够帮助完成任务,然后进行更一般的对话。

微软对更具协作性的人工智能的研究包括AdaTest,它利用人类专业知识以及大型语言模型的生成能力,帮助人们更有效地发现和纠正自然语言处理模型中的错误。研究人员还探索了在创意过程中扩大人工智能的使用,包括一个科幻作家Gabrielle Loisel使用OpenAI的GPT-3共同撰写中篇小说和其他故事的项目。

为了让更多的人以高效和可持续的方式使用人工智能,微软研究人员正在寻求几种新的架构和培训范式。这包括新的模块化架构和新技术,例如DeepSpeed Compression,一个用于极端压缩和零成本量化的可组合库,以及Z-Code Mixture of Experts模型,它们提高了翻译效率,并于2022年在Microsoft Translator中部署。

12月,研究人员推出了AutoDistil,这是一种新技术,利用知识蒸馏和神经架构搜索来改善生成压缩模型时的成本和性能之间的平衡。他们还引入了AdaMix,它使用混合适应模块改进了下游任务大型预训练模型的微调,以进行参数高效模型调优。对彩票假说的视觉语言模型压缩研究表明,预训练的语言模型可以在不影响其性能的情况下被显著压缩。

负责任地构建和部署人工智能

建立使人类利益最大化并公平地实现的人工智能,需要根据我们的指导原则考虑每一项新进展带来的机会和风险:公平、可靠和安全、隐私和安全、包容性、透明度和问责制。

微软负责任的人工智能标准有助于将这些原则付诸实践,该公司于6月公开发布。该标准包括人工智能从业者可以在当今工作流程中执行的工具和步骤,以帮助确保负责任地构建人工智能被纳入开发的每个阶段。随着负责任地构建人工智能的工具和资源随着人工智能的快速发展而演变,特别是与人工智能模型规模的不断扩大及其带来的新挑战有关。

通过FedKDInclusiveFL,研究人员解决了将保护隐私的ML方法联合学习应用于建模培训的一些障碍。两个独立的团队探索了大型生成模型可以复制的有害语言的解决方案——一个团队提出了解毒和去偏见模型的统一框架,另一个团队介绍了使内容审核工具更强大的方法。与此同时,研究人员试图通过模型本身提供的解释,让用户更深入地了解模型如何实现其输出,从而加强人与人工智能的合作。

人工智能的负责任发展还意味着部署以设计方式和人们期望的方式运行的技术。在两篇博客文章中,研究人员借鉴了各自的经验,开发了一种技术来支持出生时失明儿童的社会代理,另一项技术支持心理健康从业人员指导患者治疗,以强调在确定日益复杂的人工智能系统的准备状态以及在整个开发过程中纳入领域专家和用户研究方面需要多种绩效衡量标准。

推进人工智能进行决策

构建下一代人工智能需要不断研究新的人工智能基本创新。2022年的两个重要研究领域是因果ML和强化学习。

因果ML

识别因果关系是科学研究的一个组成部分。它帮助我们了解从教育成果到社会政策的影响再到疾病风险因素的一切。因果关系问题对于我们今天构建的许多技术系统的设计和数据驱动评估也至关重要。

今年,微软研究继续其在因果ML方面的工作,该工作将传统的机器学习与因果推理方法相结合。为了帮助数据科学家更好地理解和部署因果推理,微软研究人员于2018年构建了端到端因果推理工具DoWhy库。为了扩大对这一关键知识库的访问,DoWhy现已迁移到新的PyWhy GitHub组织中的独立开源治理模型。作为这种新协作模式的一部分,亚马逊网络服务正在提供基于结构因果模型的新技术。

在今年的神经信息处理系统会议(NeurIPS)上,研究人员介绍了一套开源因果工具和库,旨在同时为从业者提供核心因果人工智能功能,并为快速部署研究进展创建一个平台。这包括ShowWhy,这是一个无代码用户界面套件,使领域专家能够成为决策科学家。我们希望我们的工作能加快受使用启发的基础研究,以改善因果人工智能。

强化学习(RL)

强化学习是学习在给定场景中哪些行为可能产生最佳结果的强大工具,通常是通过尝试和错误。但这个强大的工具面临着一些挑战。当应用于大型数据集时,尝试和错误可能会消耗大量资源。对于许多实时应用程序来说,没有从错误中吸取教训的空间。

为了解决RL的计算瓶颈,微软研究人员开发了路径预测消除,这是一种增强学习方法,足够强大,可以消除不断变化的环境中的噪音。同样在2022年,微软团队发布了MoCapAct,这是一个预训练模拟模型库,可以在目前所需的计算资源的一小部分进行人工人形控制方面的高级研究。

研究人员还开发了一种使用离线RL来增强人类设计的关键决策策略的新方法。该团队部署了博弈论来设计算法,这些算法可以使用现有数据来学习改进当前策略的策略。

内容中包含的图片若涉及版权问题,请及时与我们联系删除