
考虑这样的一个问题。

假设你被邀请玩这样的一个游戏。如上图所示。在一条线段上,3号位置和6号位置上各有一个硬币。当你支付1元钱选择一个硬币后,如果其不在端点(2-5号位置)上,则其会以各一半的概率向左或者向右移动一个位置。如果其在端点(1、6号位置)上,则其会移动到其唯一一个相邻位置(2、5号位置)上。当硬币到达4号位置上时,你就能够拿到这个位置上的礼物。现在,你希望以最小的代价拿到这个礼物。
我们先考虑一个简单的情况。假设你被要求只能选择一个固定的硬币进行移动,那么这个问题归结为比较3号位置和5号位置的击中时间(hitting time),也即,硬币从这两个位置移动到4号位置上的期望步数。一些基本的计算告诉我们,3号位置的击中时间为5,而6号位置的击中时间为4。所以我们应该选择移动6号位置的硬币。
然而,如果我们在每一步可以根据两个硬币当前所在的位置任意选择这一步所移动的硬币呢?我们可以注意到,先移动3号位置的硬币似乎是比较好的——如果它直接移动到4号位置上,就直接结束了。但如果它很不幸地移动到了2号位置上,好像我们就再也不应该移动它了,而是一直移动6号位置的硬币。这是因为,考虑到1号位置的存在,无论是5号位置还是6号位置,它和4号位置的距离看起来总是比2号位置和4号位置之间的距离要更近一点。再经过一些计算,我们知道这一策略的期望代价是3元。事实上,这一策略也确实是最优的。
上面的例子带给我们一个观察:第一个是,只能移动一个硬币的情况和可以任意移动两个硬币的情况下,最优策略所率先移动的硬币可以是不一样的。此外,我们会觉得解出第二个问题多少有些侥幸因素:如果问题的结构更复杂一些,上面的基于直觉的解法可能就会出错了。参照击中时间,我们的希望是,能不能为每个位置赋值,然后每一步中总是移动所在位置的值最小的硬币呢?这看起来是一个有些大胆甚至唐突的猜测,毕竟这个问题本身看起来还是很复杂的。
我们进一步将这个问题进行抽象化,称为多币游戏(multi-token game)。假设有
Dumitriu, Tetali, and Winkler (2003) 一工作(题名为 On Playing Golf with Two Balls)指出,这一问题的最优解异常地简洁且优美。最优解为每个系统中的每个状态赋予一个阶(grade)。在每一步中,我们只需要选择所有
如何理解这一“阶”的概念呢?对于一个 Markov 系统,我们假设一个玩家在每一步中可以选择移动这个系统,亦或支付一个价格
事实上,这一阶的概念并不是第一次出现。其为 Gittins 指标(Gittins index)在这一 Markov 决策过程场景下的一个拓展,而 Gittins 指标由 John C. Gittins 在20世纪70年代至80年代的若干著作中给出。Gittins 指标的最初应用场景是经典的多臂老虎机(multi-armed bandit)问题。这一问题的背景是,一个老虎机有

图源:网络
最后,我们探索 Gittins 指标的另一个巧妙应用:潘多拉魔盒问题(Pandora’s box problem)。这一问题由 Martin L. Weitzman 在1979年提出。感兴趣的读者可以参考之前的推送:【惊蛰|打开潘多拉魔盒】。
为了更好地对应前文的内容,我们考虑其成本最小化的等价问题:潘多拉面前有

John William Waterhouse: Pandora – 1896
图源:网络
我们将这一潘多拉魔盒问题规约到前面的多币游戏。将每个盒子
在这一规约下,可以简单地计算出每个状态的“阶”。中间状态
Dumitriu, Tetali, and Winkler (2003) 的结论能不能应用到别的形态的问题中呢?当然可以。我们在此抛砖引玉,希望读者进行进一步探索。
参考文献:
Dumitriu, I., Tetali, P., & Winkler, P. (2003). On Playing Golf with Two Balls. SIAM Journal on Discrete Mathematics, 16(4), 604-615.
Gittins, J. C. (1989). Multi-armed bandit Allocation Indices. Wiley-Interscience Series in Systems and Optimization. Chichester: John Wiley & Sons, Ltd.
Weitzman, M. L. (1979). Optimal Search for the Best Alternative. Econometrica: Journal of the Econometric Society, 641-654.

文 | 陈炤桦
图 | 钟方威

— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢