伦敦大学学院计算机系教授汪军：决策大模型

不久之前，在机器之心举办的「决策智能产业应用」在线圆桌论坛上，伦敦大学学院计算机系教授汪军发表了主题演讲《决策大模型》。

机器之心对汪军教授的演讲内容进行了不改变原意的整理。感兴趣的小伙伴可以跳转原文查看回顾视频。

谢谢机器之心的邀请，我今天分享的题目是《决策大模型》。首先我将要介绍我们在决策智能领域做的一些研究，同时我认为大模型很重要，它代表了其在现在技术上的一个思路，不管从技术突破层面，还是实际应用层面，大模型可能给大家带来不一样的东西，同时大模型也有不足之处，学术界、工业界也在不断地推进大模型发展，所以这是一个不断发展的研究领域，最后我会点题大模型。

决策智能和预测智能是有差别的。需要强调的是在人工智能应用领域，一开始我们是在做感知智能、预测智能，这相当于在数据里面找规律，有了规律以后，我们希望能够反馈到数据来改变数据，甚至能够优化决策，对数据产生改变，然后形成闭环。
我目前在上海筹备一个名为「数字大脑研究院」的机构，这是一家以科技创新与资本联动方式加速科技成果快速商业化的新型科研机构，已经研发出全球第一个多智能体决策大模型。其目的也是想把决策智能应用，进行更清楚地梳理，特别是用大模型大数据来解决决策智能问题，驱动各产业全面智能化升级。

今天我讲的内容主要分成几个部分。
首先我会介绍决策在数学上是怎么表达的，以及为何如此重要。
第二部分我会介绍决策智能最重要、最关键的问题：安全性和鲁棒性问题。决策智能可应用于互联网，比如搜索推荐广告，这些对安全要求其实并不高，其本质就是推荐内容，推荐错了也不会造成大的财产损失，只要平均能提高百分之几的点击率就可以了。所以在互联网上的这些搜索广告推荐，很容易就会用到决策的一些方法。但是我们将决策智能用到工业互联网，或是其他地方，情况可能就不一样了，我们必须有一个从理论上、实际上都要保证它是安全、鲁棒的。因此我会介绍一下这方面的思路是什么、研究方法，以及可能的实现方法，此外我还会介绍各个技术点。
第三部分我会介绍因果分析。
第四部分我会介绍贝叶斯优化，贝叶斯优化数据样本效率特别高，使得我们在小数据的情况下也可以做决策。
最后我会介绍大模型，我们为什么要做决策的大模型？我们应该怎么做？潜在的影响是什么？

决策
首先是决策，历史上笛卡尔在 17 世纪作为哲学家和数学家，就开始思考人是怎样做决策的。当然那时的科学还是比较落后的，给出的解释是比较机械的。大家都知道所谓的二元论观点，即在大脑里面，二元论观点认为有一个特定的器官：松果体。心灵和肉体之间有一个交互的地方，这个地方就是在大脑的松果体里。心灵是没法解释的，但是心灵可以控制人体行为动作，通过心灵的引导人类能够进行一些日常决策、行动等。以上是对人的决策解释。

其实再往前、往大的地方考虑的话，有一个思路可以去解释人、生命，即熵增熵减。整个宇宙是一个熵增的过程，即从有序变无须的状态。假设某个封闭的空间被抽成了真空，在一边划一个裂缝，将气体放进去，慢慢扩散到整个空间，这种气体的扩散就是从有序变成无序的状态。生命体则相反，吸收能量，是从无序走向有序的状态；于是从人生下来到死亡是一个熵减的过程。人的生活日常其实是在找规律，即使生活环境在变，人内环境的很多东西是不会变的，比如说身体的体温，身体体液的成分等。所以作为一个生命体，无论外界的情况如何变化，其内部总是希望保持一个恒定的状态。

人类开发了人工智能以及各种技术，必然是帮助我们解决不变性的，或者说是解决熵减。所以按照这个思路进行思考，就会比较容易理解一个生命体如何去做决策，或者说生命体做决策原理是什么。我们用一个最简化的数学模型来描述这个过程。
如下图，比如说整个世界假设它是不可知的，我们可以用一个隐变量 s* 来描述这个世界（或者说代表世界运行的规律或真理）。然后作为个体，比如生命体或是细胞，存在于这个世界当中，受这个世界运行影响。这个生命体不知道 S * 但会观察这个外部世界，假设这个观察量是 o （因为 s * 是不可观察的，但是 o 是 s * 生成的，可以推理出 s*）。透过 o，生命体对 s * 有了理解，但生命体不是 100% 完全可以推理出自然界隐藏的规律。比如说重力，牛顿根据苹果落地这样一个事实，他观察到了这种现象 o，对真实世界产生一定认知和理解，这个认知和理解就是 s。但是 s 和 s * 可能不一样，也可能一样，因为其代表了个体对外界的理解。当个体理解以后，个体就会采取行动（下图的 u）改变世界，比如说人，人可以改变世界，细胞可以释放某些东西，与病毒做斗争，所有这些都是个体对外界的影响。在外界影响的情况下，改变自然界，自然界然后又会出现新的状态规律，个体在根据观察做出理解和改变，依次反复。
所以对于感知智能来说，感知是从观察到发现规律 o -> s；决策智能，就是从规律再返回事件 s -> u，来改变数据环境。

感知是主观的，它是个体的感知，每个人可能不一样，难以用语言来描述，但可以通过其他方式来描述。人与人之间会产生共鸣，这是为什么？因为你的感知和另外一个人的感知，对于观察到的同一个东西或者观察到的同一现象可能不一样，但是会产生共鸣。所以当你看到这些绘画的时候，就会和这些绘画的作者产生共鸣。所以这就是感知方面的一个规律，这个也就是艺术存在的本源。

决策是如何进行的？效用理论（Utility theory）。John Von Neuman 是一位非常著名的数学家，同时也是计算机学科的奠基人，他同时也创立了 Games Theory。在经典的《Games Theory》里，他讲到了 Utility theory，提供了一套数学工具来告诉大家怎样去做决策。其数学表达可以认为是优化某一个特定的函数，选择能够最大化函数的值。
如果一个智能体是理性的话，那么怎样做决策呢？我们还是用上面的这个例子来讲，假设人或者机器都可以，他们存在于一个世界中，我从外界观察到一个信号 o，那么我要选择的最优决策是什么 u？贝叶斯决策理论就是说，当我观察 o 的时候，其实对 s 到底长什么样已经有了一定的估计，比如说一个分布和描述。通过观察 o 之后的后验知识，那么我对自然界的一些规律和法则有了一定的了解。这个了解反映在它的分布和后验概率上 p(s|o)。也就是说，我对它的了解有一定的不确定性。
再来看所谓的奖励函数。如果自然界长成这个样子 s，我采取了行动 u，那么我的获利应该是多少，我们用 R(s,u) 这个函数来描述？只要你可以定义这个获利，就可以最大化平均的获利值。我选择自己的决策，最大化预期利益或者说平均利益。贝叶斯决策理论可以告诉你，这个就是最优的决策。刚才其他演讲者讲到强化学习和优化，无外乎就是上述公式，优化一个特定的（奖励）函数。我选择的这个决策变量使得这个函数值是最大化的。

另外一个更基础的问题来了，什么是智能呢？其实，智能可以用函数来解决。我使得自己的长期收益是最好的，比如说经典的巴普洛夫条件反射，为什么狗可以跟它的铃声和食物产生联系呢？为什么一听到铃声就会产生唾液呢？这是因为它学习到了你经常一敲铃便会给它食物，这样狗当然就迅速行动了。

从长期角度来讲，对狗这个生命体来说，它优化了自己「迅速跑到这边获取食物」。狗的行为最优的的表现是它可以适应环境获取食物，从长时间来达到它的受益。
但实际上，我们说做（机器）决策智能的时候，包括将来讲的应用如互联网广告，已经广泛地应用到了。我之前做联合创始人的公司就是专门做强化学习用于互联网广告。除了强化学习，决策智能有其他的表现形式或数学表达，能够解决不一样的东西。
刚才有演讲者讲到了运筹优化的内容。运筹优化本质是个优化问题，就是我给定一个目标函数 f（x），它可以是知道的，也可以是不知道的。在不知道的情况下，我们叫它黑盒优化；在知道的情况下，我们叫它白盒优化。然后，我的目的是要找到决策 x，我选择自己的决策并最大化函数 f。这个函数可以是刚才说到的 utility 奖励函数，也可以是其他各种各样的函数。那么如果从这个角度来讲的话，它就有很广泛的用途。
比如其他演讲者所讲的电厂和 EDA 优化的问题。生物化学上，我们甚至可以用它来寻找抗体，就是用机器学习或黑盒优化的方法，帮助找到更合适的抗体。还有演讲者提到的 AutoML，它们本质上也是黑盒优化问题。

黑盒优化里面比较好的方法就是贝叶斯优化，比如我们做优化时允许去试错。我们找一些 x「喂」到 f 里面，然后去测试（给出 f 的值）。如果说我们的任务是找抗体的话，则允许做一些黑盒实验，看看化学反应如何。然后我们再去建一个对 f 了解的模型，叫做代理模型（surrogate model）。接着再创建一个采集函数 (acquisition function)，告诉我们下一个实验应该怎么做 (下一个测试的输入值 x 应该是什么)，然后无限循环往复，直到实现最优。
贝叶斯优化好处是什么？它从理论上保证能够找到全局最优。同时它也能减少做实验的次数，所以贝叶斯优化可以帮助我们在数据稀疏的情况下，去优化决策。
大约一年前，我带着华为团队一起做了一个贝叶斯优化算法，获得 NeurIPS 黑客优化冠军，名字为河伯，该系统已经开源，被研究者广泛使用，该研究应用领域包括在 Auto ML、蛋白质设计、 MindSpore 超参数优化、机器学习系统里的 rate 超参数优化，此外还包括各种各样的实际场景应用。接下来我会介绍几个例子，我认为这是比强化学习更容易落地、更接地气的方法，因为这种方法对数据要求不高。

以上是我介绍的决策智能一些重点内容。那么决策智能难点在哪？刚才有演讲者讲了安全的知识，安全在决策智能中非常重要，我会稍微介绍一下最近的一些算法，然后我再讲一些因果分析的内容（对决策的可解释性提供了理论基础）。
大约十多年前，我刚去 UCL 的时候，对互联网搜索的问题很感兴趣。其中很关心搜索引擎的不确定性问题，比如用户使用百度搜索 iPhone 4 代，能搜索出结果。但是当用户搜索了一个困难的主题关键字，可能没有一个跟用户的需求相关的，那么用户就会不在用这个搜索引擎，改用其他的搜索方法。所以搜索引擎需要有个有效的方法避免以上问题出现。

我们该如何看待这个问题？其实就是最大化用户满意度。我们在 2009 年做过一套理论，参考了投资的一些原则，就是不要把所有的钱都投到同一个地方。为什么这样做？因为股票价值有高有低，之间此起彼伏，你需要多样化投资组合。同样的道理，你在做搜索推荐或者互联网广告时，不要把你认为用户相关的都展示出来，万一判断有错怎么办，所以你要多样化你的文件列表。当时在学术圈，大家都已经开始做多元化排序了，但其实没有给出一套理论，我们给出了一套理论，该理论告诉搜索引擎在什么时候多样化，多样化多少的的。SIGIR 对这个工作非常认可，去年授予了 test of time honorable mention: 十年、甚至十几年之后再去看这篇文章，还是非常有影响力的。我本身对这个工作还是非常自豪的。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

伦敦大学学院计算机系教授汪军：决策大模型

评论列表

评论