临近年终,对全年做一下回顾是很有价值的。之前我们已经分享了吴恩达、李飞飞等、Mila博士Louis Bouchard、Meta的Elvis S等对AI的总结,以及Science的十大科学突破(AI生成和AI4Science入选)。
今天,我们再推荐NVIDIA AI科学家Jim Fan的总结。他是斯坦福大学博士,师从李飞飞。今年因为MineDojo获得了NeurIPS的杰出论文奖。所以他的视角直接来自一线,值得一看。
全文翻译(感谢Google Translate的帮助)和整理自他在Twitter发的主题帖。
人工智能爆炸正在扭曲我们的时间感。 你能相信 Stable Diffusion 刚刚诞生 4 个月,而 ChatGPT 问世还不到4周? 似乎在眨眼之间,就会错过一个全新的行业。2022 年的 AI 格局将由巨大的生成模型激增主导,这些模型正迅速走出研究实验室,进入现实世界的应用。 由大模型技术驱动的其他 2 个新兴领域是决策代理(游戏、机器人……)和 AI4Science。
2022年的十大焦点是:
1. 文本 -> 图
DALLE-2 是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。 它启动了 AI4art 革命,催生了许多新的应用程序、初创公司和思维方式。
https://openai.com/dall-e-2/但是 DALLE-2 受制于 OpenAI 的围墙花园。@StabilityAI, LMU, 和 @runwayml 基于“潜在扩散”(Latent Diffusion)算法,迈出了一大步,训练了他们自己的互联网规模的 text2image 模型。 他们称该模型为“Stable Diffusion”,并开源了代码和权重。
Stable Diffusion 的开源被证明极大改变了游戏规则。许多初创公司和研究机构都在 SD 的基础上创建新颖的应用程序,并且 SD 本身通过开源社区不断得到改进。 SD 最近推出了 v2.1,现在可以在单个 GPU 上运行!
今年还有另外 2 个 text2image 模型来自 @GoogleAI 。他们既没有发布模型也没有发布 API,但论文仍然包含有趣的见解。
- Imagen: https://imagen.research.google
- Parti: https://parti.research.google 。不含扩散的Transformer模型。
2. 文本 -> 文本
这一条很容易猜到 - ChatGPT! 历史上唯一一个在 5 天内获得 100 万用户的应用程序。
ChatGPT 也激发了我们人类的创造力。建议参考这一列表来了解所有有用且富有想象力的 ChatGPT 想法: https://github.com/f/awesome-chatgpt-prompts
ChatGPT 和 GPT-3.5 都使用了一种称为 RLHF(“从人类反馈中强化学习”)的新技术。 其深远的含义在于,提示工程将很快消失。 请参阅我关于此主题的深入研究 :
https://twitter.com/DrJimFan/status/1600884299435167745
ChatGPT 的流行催生了一波新的创业公司和竞争对手,特别是 Jasper Chat、YouChat、@Replit
Ghostwriter,和 @perplexity_ai 。 其中一些提供了更直观的搜索方式,因此 Google 的高管们正忙得不可开交!对此, @goodside 有一个很好的主题帖:https://twitter.com/goodside/status/1606611869661384706
3. 文本 -> 机器人
如何给 GPT 胳膊和腿,让它们帮你收拾凌乱的厨房? 与 NLP 不同,机器人模型需要与物理世界进行交互。 大型预训练Transformer终于开始解决今年机器人技术中最棘手的问题!
10 月,我和我的合著者朝着构建“机器人 GPT”迈出了一步,它可以将文本、图像和视频的任何*混合*作为提示,并输出机器人电机控制! 我们的模型称为 VIMA(“VisuoMotor Attention”)并且已经完全开源: https://vimalabs.github.io/ (对应的Twitter主题帖)
沿着与 VIMA 类似的道路,来自 @GoogleAI 的研究人员宣布了 RT-1,这是一种经过 700 项任务和 130K 人类演示训练的机器人Transformer。 这些数据是由真正的 *钢铁部队* - 13 个机器人在 17 个月内收集的!
我还为 RT-1 写了一篇深入探讨 : https://twitter.com/DrJimFan/status/1602776866380578816
4. 文本 -> 视频
视频只是随着时间的推移联系在一起的一系列图像,创造了运动的错觉。 如果我们可以做 text2image,那为什么不加入时间轴来获得额外的乐趣呢?
这个领域有 3 (!!) 个大作,但没有一个是开源的。
- Make-A-Video: Text-to-Video Generation without Text-Video Data. 来自 @MetaAI
网站: makeavideo.studio 论文: arxiv.org/abs/2209.14792
主题帖: https://twitter.com/deviparikh/status/1575506287009226752
- Imagen Video:使用扩散模型生成高清视频。 来自@GoogleAI
是对 Imagen 静态图像生成器的自然跟进。
演示: http://imagen.research.google/video/ 论文: https://arxiv.org/abs/2210.02303- Phenaki: Variable Length Video Generation From Open Domain Textual Description. 也是来自 @GoogleAI
演示: phenaki.video 论文: arxiv.org/abs/2210.02399
5. 文本 -> 3D
从设计创新产品到在电影和游戏中创造令人惊叹的视觉效果,3D 建模将成为创意 AI 领域的下一步,以实现文本中的想法。 2022 年出现了一些原始但很有前途的 3D 生成模型!
DreamFusion:使用 2D 扩散的文本到 3D。 来自@GoogleAI。 基于 NeRF 算法,可以从任何角度查看从给定文本生成的 3D 模型,通过任意照明重新点亮,或合成到任何 3D 环境中。项目地址: https://dreamfusion3d.github.io
我的 @NVIDIAAI 同事的2个工作:
GET3D:从图像中学习的高质量 3D 纹理形状的生成模型。 https://nv-tlabs.github.io/GET3D/
Magic3D:高分辨率文本到 3D 内容创建。 https://deepimagination.cc/Magic3D/Point-E: A System for Generating 3D Point Clouds from Complex Prompts. 来自 @OpenAI 。3D DALLE 的初步版本!论文: (解读的 arxiv.org/abs/2212.08751Twitter主题帖)
6. AI 现在可以玩 Minecraft 了!
该游戏是通用智能的完美测试平台,因为(1)它具有无限的开放性和创造性; (2) 有 1.4 亿人玩过——是英国人口的两倍,是人类数据的宝库!
人工智能能像我们一样富有想象力吗?
我和我的合著者开发了第一个 Minecraft AI,它可以在给定*自然语言提示*的情况下解决许多任务。 我们的最终目标是构建一个“具身ChatGPT”。 我们已经完全开源了我们的开发平台“MineDojo”。 深入了解我们的 NeurIPS 杰出论文可以参考主题帖: https://twitter.com/DrJimFan/status/1595459499732926464
- 网站: minedojo.org
- NeurIPS: https://neurips.cc/virtual/2022/poster/55737
- Arxiv: arxiv.org/abs/2206.08853
- 代码、模型、工具: github.com/MineDojo
同时,@jeffclune 的团队也公布了一个名为 VPT(“Video Pre-Training”)的模型,可以直接输出键盘和鼠标的动作。 它能够解决更长的视野,但不受语言限制。 MineDojo 和 VPT 相得益彰!
https://openai.com/blog/vpt/7. AI 学会谈判!
CICERO 来自 @MetaAI 是第一个在Diplomacy中达到人类水平表现的人工智能体,Diplomacy是一种战略游戏,需要大量的自然语言谈判才能与人类合作和竞争。人工智能现在可以有效地说服和虚张声势!
https://twitter.com/polynoamial/status/1595076658805248000
同时,@DeepMind 也公布了他们的 Diplomacy智能体。 如果 CICERO 和 DeepMind 的 AI 对战会怎样?
https://dpmd.ai/diplomacy-nature
8. 音频 -> 文本
OpenAI Whisper 是一个大型 Transformer,在英语语音识别方面接近人类水平的鲁棒性和准确性。 它接受了来自网络的 680,000 小时音频数据的训练! Whisper 会解锁更多文本token来喂养 GPT-4 吗?
https://openai.com/blog/whisper/
9. 核聚变控制
@DeepMind 和@EPFL 开发了第一个可以使核聚变等离子体在其托卡马克装置(一种使用强大磁场将等离子体限制在环面中的装置)内保持稳定的深度强化学习系统。
https://nature.com/articles/s41586-021-04301-9
同样在本月,能源部宣布了一项巨大突破:核聚变现在产生的能量超过了启动反应所消耗的能量! 这是人类第一次达到这一里程碑。 我们可能会在今生成为聚变动力文明!
10. 生物Transformer
AlphaFold (2021) 是第一个准确预测蛋白质 3D 结构的模型。 7 月,DeepMind 宣布了“蛋白质宇宙”——将 AlphaFold 的蛋白质数据库扩展到 200M 结构! 多么宝贵的科学宝库啊!
@NVIDIAAI 也扩展了 BioNeMo 大模型框架,帮助生物技术公司和研究人员生成、预测和理解生物分子数据。 https://blogs.nvidia.com/blog/2022/09/20/bionemo-large-language-models-drug-discovery/
评论
沙发等你来抢