第四范式陈雨强：企业智能决策的下一代技术「强化学习 + 环境学习」

过去数年，以强化学习为代表的决策智能技术战胜人类玩家的新闻屡屡进入人们的视野，直观地展示了这种技术赋予 AI 的强大智能。同时，业界也开始思考，该技术能否像之前的机器学习、深度学习一样，应用到更加广泛的行业领域？

在 2022 北京智源大会「强化学习与决策智能专题论坛」上，第四范式联合创始人、首席研究科学家陈雨强发表了主题为「智能决策技术在企业智能化转型中的实践应用」的演讲。他从决策的本质出发，介绍了强化学习通过环境学习发挥产业应用的价值，并介绍这两项技术在产业界的应用实践。

中国人工智能产业化发展的历程大体分为三个阶段。

第一阶段，在 2010 年前后，随着数据量增长、算力增强以及算法提升，人工智能开始帮助互联网实现很大的飞跃。其中，受益最显著的领域要属搜索、广告和推荐（搜广推）。
第二阶段，2015 年以后，随着 AlphaGo 的出现，人工智能被认为是一个改变生产力的新技术，开始试水除互联网之外的其他一些行业，比如智慧金融、智慧零售、智慧安防和智慧医疗。
如今到了第三阶段，AI 已经不仅局限在个别行业领域，而是走向了赋能千行百业的道路上，产业互联网迎来了爆发期。产业互联网带来的 GDP 增量连年上升，并且企业生产和 IOT 数据呈现爆炸式增长，远未见顶。

信息化面对高度不确定性的不足催生决策智能化
产业互联网服务于工业、制造业及其他各行各业。以工业生产为例，在过去传统的工业化生产的过程中，不管是外部环境、供求关系、生产计划等，都相对标准化，转型更多做的是信息化转型，尤其是流程的信息化和生产资料的信息化，从而优化管理，提升效率。

但是，面对当下高度不确定性的乌卡时代，外部环境与消费者需求高度变化，产品也高度多样化。面向大量的不断变化问题，固定流程已经没法保证效率与产能，因此单纯的信息化已经无法形成有效的决策与安排。

另外，我们发现若使用人工智能解决这类问题，过去广泛应用在互联网核心场景的技术并不是解法的全部。
例如在供应链场景中，最核心的是要保证现货率与库存周转，但背后包含了销量预测、从哪发货、货发多少、如何配送等一系列问题。又例如在制造领域的生产环节中，工厂的核心目标是在需要保障生产安全合规的前提下，针对动态增加的订单合理的排产来提高产线效率、产能，提高机器综合利用率。在产品研发的环节中，需要决定生产什么类型的产品更受消费者欢迎。这些已经不仅是对未来的预测，而是当下该如何行动才能达成未来的预测结果。

同时，不断变化也给技术本身带来了巨大的挑战。这些决策场景往往面对的是大规模连续实时精准问题，更加关注长期回报，而非单次结果；场景的环境在时刻变化，每一次输出的结果可能会改变场景环境本身，比如交通场景中，单车的遵守或违背规则的决策会直接影响交通环境，改变整体环境的状态；在复杂多变的环境和众多的影响因素下，部分场景还需要实时输出决策结果。

决策智能的关键：在动态环境中持续、快速找到最优决策
决策智能技术是解决这类复杂问题的关键，其核心是通过技术手段利用机器模拟人的决策思维方式。美国知名专家 John Boyd 曾提出了 OODA Loop 决策周期理论，被广泛用于概括企业的决策闭环，分别是 Observe（观察）、Orient（判断）、Decide（决策）和 Act（行动）。四个环节构成相互关联、相互重叠的循环周期。

首先对企业进行全面 “观察”，为决策提供充足信息依据；然后在观察的基础上，精准“判断” 所处现状及未来发展，为决策提供参考结论；接着根据当前现状和对未来的预判，制定较优 “决策” 方案，走好整个决策流程的关键一步；最后基于前三步的成果采取相应“行动”。这一循环反复迭代，持续迭代决策结果。

其中，在整个决策周期中，能否理想地完成观察、判断和决策环节，决定了业务决策的整体质量和效果。

在没有人工智能的时代，企业主要以人为中心进行决策。不过人的计算能力是有限的，没有办法做到事无巨细的观察，获得的信息也不是最全面准确的，只能通过抓大放小的方式做出有限理性的判断和决策。同时，这种决策趋向于整体的决策，无法做到非常细节。庞大的企业组织还会带来决策效率等问题。

此前，也有诸如数字孪生、模拟仿真和运筹学等技术来辅助人做决策。

数字孪生利用传感器、业务系统收集的数据，打造一个反映物理世界全生命周期的数字化系统。该技术的核心价值是帮助企业更及时、细致的观察业务发展，即实现了 OODA 的第一步——观察。

传统的仿真技术的核心是专家通过手工模拟器仿真模拟人的判断，即 OODA 第二步—判断。

运筹学则是通过数学模型模拟人的决策过程，即 OODA 的第三步——决策。由于该技术通常可以给出理论最优解，被应用于各类决策场景中。

可以看出，这些技术实现了 OODA Loop 的部分环节，取得了一定的效果。然而在业务场景复杂化以及经营环境快速变化的当下，这些将 “将复杂问题简化求解”、“决策结果相对滞后” 的技术思路已无法有效地在动态环境下实时做出最优决策。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

第四范式陈雨强：企业智能决策的下一代技术「强化学习 + 环境学习」

评论列表

评论