标题党了,Greg Yang 是 xAI 的合伙人,之前在 Twitter 上看到他列的书单。

我一个爱好就喜欢收藏书,翻别人书架和书单,好书就收藏,不管看不看,仿佛一种基因本能。像邻居家的松鼠,总问人要坚果、瓜子和抽纸,然后全藏在窗帘上,等打扫时画面就非常美。

Greg Yang 何许人

Greg Yang 是丘成桐在哈佛的学生,主修数学,之后也投入到DL/NLP相关,xAI 之前在微软工作, 就是所在团队的成果,现在是 xAI 的合伙人。

他主要在研究一个叫做 Tensor Programs 的框架来解释 LLM, 即以该理论框架为基础的最近成果之一(Tensor Program V),能在小模型上进行低成本超参搜索,然后迁移到大模型上去,减少大模型超参搜索成本。

GPT4 报告中的 Predictable Scaling 小节可能就用到了这个技术,能用训练小模型的表现预测大模型的一些表现。 当时是微软和 OpenAI 合作发的,里面 OpenAI 这边的三个人,都列在 GPT4 的优化和结构小组中。

Greg Yang 的终极目标是,开发出大规模深度学习的万物理论( Theory of Everything),然后就能指导如

  • Scaling(规模化)神经网络的最优方法

  • 对大模型有更坚实的理解,从而指导安全和 Alignment (对齐)研究

比起 xAI 的口号:”understand the true nature of the universe.(理解宇宙真正的本质)“,看公司组成人员情况,也明显是 Greg 这里说的深度学习万物论比较靠谱。

深度学习就等着一位大数学家来搞清楚基本原理,现在这个领域最前沿的一帮人,比如 OpenAI 的 Ilya 都直接坦言搞不懂, 很疑惑,满头问号。

Tensor Programs 学习路线

关于 Tensor Programs 可以认为是一系列论文背后的总体思想。

  • Scaling Limits of Wide Neural Networks
  • TP1: Wide Neural Networks of Any Architecture are Gaussian Processes
  • TP2: Neural Tangent Kernel for Any Architecture
  • TP2b: Architectural Universality of Neural Tangent Kernel Training Dynamics
  • TP3: Neural Matrix Laws
  • TP4: Feature Learning in Infinite-Width Neural Networks
  • TP5: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Greg 给出的学习 Tensor Programs 最好的方法是,先看 TP5 附录最后一小节,搞清有限宽网络 Scaling  后面的一些关键思想。然后再看之前的论文,随便找篇感兴趣的看就行,直接看,看到不懂的地方,放下,先看其他的,可能对之前不懂得地方突然就懂了

书单推荐

Greg 推荐了两份书单,一份是偏数学的书,之后在网友的要求下他又放出了另一份更大类书单。

偏数学的书大概有四十多本,而大类的书单就有两三百本,我还在慢慢整理,这里放出第一批里的书。

我会大概按类别整理一下,分成 ML&CS,物理&动力学,生物,数学。

说来惭愧,这份书单中,我基本上都没读完过,有些领域甚至是整理书单时才知道,进 xAI 是无望了。

Greg 还分享了他读书和理解的方法,主要通过 Anki 卡片来 spaced repetition 学习,这个方法可以参考 Michael Nielsen 那篇 《Augmenting Long-term Memory》。

ML&CS

"Introduction to Algorithms, Third Edition" - Thomas H. Cormen & Charles E. Leiserson & Ronald L. Rivest & Clifford Stein

这个不多说了,每个计算机人都知道,到现在也还没看过,算法学的是普林斯顿那本。

 

"Information Theory, Inference and Learning Algorithms" by David J. C. MacKay

也是本神书,当年啃完《Elements of Information Theory》后没能一口气啃下来,比较遗憾,网上有 MacKay 老师的公开课可以一起学习。

 

"Reinforcement Learning: An Introduction" by Richard S. Sutton & Andrew G. Barto

一直没看,出新版后下下来一直供着。

 

"Machine Learning: A Probabilistic Perspective " by Kevin P. Murphy

同上,最新版下下来现在也都还没看,哈哈。

 

"Computational Complexity: A Modern Approach" - Sanjeev Arora & Boaz Barak

计算复杂性相关。

物理&动力学

"Information, Physics, and Computation" by Marc Mézard, Andrea Montanari

主要就讲统计物理、编码、和组合优化之间的关系,大家之言。

 

"Introduction to Quantum Mechanics" - David J. Griffiths

量子力学,尚未涉猎。

 

"Quantum Computation and Quantum Information" - Michael A. Nielsen & Isaac L. Chuang

量子信息入门神作。

 

"What Is a Quantum Field Theory?" by Michel Talagrand

量子场论入门。

 

"Nonlinear Dynamics and Chaos: With Applications to Physics, Biology, Chemistry, and Engineering" by Steven Henry Strogatz

非线性动力学入门必读,曾经研究也要用过相关知识。

生物

"Computable Analysis: An Introduction" by Klaus Weihrauch

计算基因组分析入门。

数学

"Naive Set Theory" - Paul R Halmos

这本没看过,看才 104 页,适合自学者。

 

"Linear Algebra Done Right Second Edition" - Sheldon Axler

线代经典,前段时间打印出来正在慢慢读。

 

"Probability Theory: The Logic of Science" - E. T. Jaynes & G. Larry Bretthorst

也是放书架上的神书,读研时从图书馆借出来数次拿起又放下,也才看完了前言和第一章,惭愧。这本书的完成很感人。

 

"Topology" - James R. Munkres

拓扑学入门好书。

 

"Representation Theory: A First Course" - William Fulton & Joe Harris

如题,表示论基础教程,都不知道有这个领域,和现在神经网络提到的 representation 是否有关系呢。

 

"Probability and Random Processes" - Geoffrey R. Grimmett & David R. Stirzaker

概率论教材,我看的 MIT OCW 那个。

 

"A Course in Mathematical Logic for Mathematicians" - Yu. I. Manin & Neal Koblitz & B. Zilber

线代数理逻辑,manin 自学逻辑的记录。

 

"Model Theory: An Introduction" - David Marker

模型论教材。

 

"Category Theory (Oxford Logic Guides)" - Steve Awodey

一看就是范畴论入门教科书。

 

"Recursively Enumerable Sets and Degrees: A Study of Computable Functions and Computably Generated Sets" - Robert I. Soare

递归可枚举集合和度?

 

"Introduction to Homotopy Theory (Universitext)" - Martin Arkowitz

同伦论入门书

 

"Set Theory" - Thomas Jech

集合论教材。

 

"Elements of Finite Model Theory" - Leonid Libkin

有限模型理论基础。

 

"Measure Theory" - Vladimir I. Bogachev

测度论,看页数应该是一本很好的参考书吧。

 

"Introduction to Smooth Manifolds" by John M. Lee

光滑流形导论,听说跟小说一样精彩,评论的人应该也很厉害吧。

 

"An Introduction to Manifolds" by Loring W. Tu

微分流形入门好书。

 

"An Introduction to Algebraic Topology" by Joseph Rotman

代数拓扑导论,但好像不是很适合用来入门。代数学家写的。

 

"The Red Book of Varieties and Schemes" by David Mumford

代数几何经典教材。

 

"Categories for the Working Mathematician" by Saunders Mac Lane

我不是数学工作者,那应该是不用看了。

 

"Algebra" by Saunders Mac Lane & Garrett Birkhoff

长得就像经典。

 

"Introductory Functional Analysis With Applications" by Erwin Kreyszig

还卖四块五的话,我一定买。

 

"An Introduction to Homological Algebra" by Charles A. Weibel

同调函数导论。

 

"Modal Logic" by Patrick Blackburn & Maarten de Rijke & Yde Venema

模态逻辑入门书。

 

"Riemannian Manifolds: An Introduction to Curvature" by John M. Lee

黎曼几何入门,非常好。

 

"Introduction to Topological Manifolds" by John M. Lee

可作为一般拓扑和代数拓扑入门书。

 

"Analysis of Boolean Functions" by Ryan O'Donnell

一本布尔函数分析的入门书,比起前面这些书,这本评价会一般些。

 

"Certified Programming With Dependent Types: A Pragmatic Introduction to the Coq Proof Assistant" by Adam Chlipala

数学专业某证明工具使用手册?

 

"Methods of Information Geometry" by Shun-Ichi Amari & Hiroshi Nagaoka

信息集合学经典。

 

"An Introduction to Ergodic Theory" by Peter Walters

遍历理论导论,参考书。

 

"Mathematical Control Theory: Deterministic Finite Dimensional Systems" by Eduardo D. Sontag

数理控制论?

 

"Lectures on Polytopes" by Günter M. Ziegler

多胞体入门。

 

"Combinatorial Commutative Algebra" by Ezra Miller & Bernd Sturmfels

组合交换代数。

 

"Topics in Random Matrix Theory" by Terence Tao

陶哲轩大佬,不读也可以供着哈哈。

 

"A Course in P-Adic Analysis" by Alain M. Robert

这个领域真是听都没听过。