作者曹越:马尔奖得主、清华大学特等奖学金得主、前微软亚洲研究院主管研究员。
大模型领域有个经典问题:做出GPT-1后,基本同期的BERT取得了显著更强的微调性能,是什么支撑他们做出了GPT-2,而在GPT-2之后,又是什么支撑他们继续scale到175B,做出了GPT-3?
在看到OpenAI近年有这么多令人惊艳的引领性工作后,我个人想了解他们是如何做出这样的工作的。其中的重中之重就是研究OpenAI中的关键人物,OpenAI的联合创始人及首席科学家 — Ilya Sutskever。
先简要介绍一下他的生平:2005-2012年 多伦多大学PhD,师从Hinton,2012-2015年 Google Brain研究科学家,2015至今 OpenAI联合创始人及首席科学家。
了解一个科学家,最好的方式就是了解他曾经产出过哪些工作、以及说过哪些话,所以我梳理并重读了他前OpenAI时代发表的代表性工作,以及他近年的访谈和talk。文章的时间线从2008年到2015年,整理出的文章有Mimicking Go Experts with CNNs (2008)、Generating text with RNNs (2011)、AlexNet (2012)、Word2Vec (2014)、Seq2Seq (2015)、Learning to Execute (2015)、Move Evaluation in Go with CNNs (2014),而访谈主要包括Robot brain和Lex Fridman这两个、以及在MIT曾经的一堂RL课。
近期ChatGPT的出现使得国内略显浮躁,但无论如何增大关注都是好事,一些人看到ChatGPT巨大的商业机会,也有一些人看到了OpenAI组织形式的优势和特色,也有人在接触到内部更强版本后强烈感受到和OpenAI全方位的差距。个人觉得,短期内卡脖子的问题必须要解决,但长期来看,还是期待国内也早日能有像OpenAI一样的公司出现,创造出GPT3级别的工作。
最后有一个小趣事作为结尾,在Ilya的一个访谈中,谈到Dario Amodei在推进GPT-3过程中的conviction为GPT-3的成功产生至关重要的作用,我自己之前好像总将这些工作都归功于Ilya,这才发现Dario是GPT-2和GPT-3的关键作者,现在是Anthropic的创始人,而Anthropic在LLM上的能力基本不弱于OpenAI。感觉我们很多时候都容易神化个人,放大了个人的作用,而忽略团队和组织的力量,但更深层次的原因是为什么OpenAI的组织形式可以出现更多极具天赋的研究员,值得深思。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢