从 AlphaGo 到《隆中对》:有限信息下的高质量推演
TL;DR. MCTS 的天花板是「统计智能」的天花板。诸葛亮的《隆中对》之所以无法被 AlphaGo 复制,不是算力差距,而是抽象、宏动作、非对称推演、因果对手建模、动态权衡等一整套人类式认知能力的差距。
引言:一个值得思考的对比
2016 年,AlphaGo 击败李世石,让很多人第一次直观感受到人工智能在复杂决策任务中的能力。围棋的状态空间巨大,分支复杂,而 AlphaGo 通过深度神经网络与蒙特卡洛树搜索,将策略先验、价值评估和搜索过程结合起来,在一个长期被认为极其依赖人类直觉的领域取得了突破。
但如果把视野从围棋扩展到真实世界的战略决策,就会发现一个深刻的悖论:AlphaGo 可以在规则明确、状态完全可观测的棋盘上进行数百万次模拟搜索,却很难处理像《隆中对》这样的开放性战略推演。
诸葛亮在隆中提出三分天下的构想时,并没有完备的信息,也没有可靠的实时情报,更不可能枚举未来几十年的所有历史路径。他面对的是一个高度不确定、强对抗、多主体、长期演化的复杂系统:曹操、孙权、刘备、荆州、益州、士族、民心、地理、军事、外交,这些因素彼此交织,任何局部变化都可能影响后续格局。
从现代认知科学和决策理论的视角看,《隆中对》的价值不只在于它是一次历史上的战略判断,更在于它展示了一种非常典型的人类高水平推演能力:在信息有限、计算有限、试错机会极少的条件下,通过抽象、筛选、建模和重点推演,抓住复杂局势中的核心结构。
这正好对应了 MCTS 面对复杂现实问题时的一个关键瓶颈:真正困难的不是再多引入几个评价指标,而是如何在不同情境下判断应该使用什么抽象层级、什么评价尺度、什么搜索策略。换句话说,MCTS 的深层缺陷,不只是”算得不够多”,而是”思考方式与人根本不同”。
一、MCTS 的基本能力与本质边界
蒙特卡洛树搜索(MCTS)是一种通过采样和统计估计来进行决策的搜索方法。它的大致流程包括四步:
- 选择(Selection):从根节点出发,按已有节点的价值估计与访问次数选择分支。
- 扩展(Expansion):到达尚未充分探索的节点后进行扩展。
- 模拟(Simulation):通过模拟估计该分支的结果。
- 回溯(Backpropagation):把模拟结果回传到路径上的节点,更新它们的价值。
MCTS 的优势在于通用性强。只要能够定义状态、动作和终局反馈,它就可以在巨大的决策空间中逐步逼近较优选择。AlphaGo 的成功,很大程度上正是因为它把神经网络的策略先验和价值评估引入 MCTS,使搜索不再是完全盲目的随机探索,而是被高质量的先验知识引导。
但是,MCTS 的本质局限也由此暴露无遗。它从根本上是一个自下而上的统计机器:
- 它从具体的原子状态和原子动作开始,逐步往上聚合价值,永远无法跳出预先定义的状态和动作空间。
- 它只关心”是什么”,通过大量采样来估计状态的价值,但不理解”为什么”这个状态有价值。
- 它的所有元决策——探索系数、抽象层次、评估指标、停止条件——都需要人类预先设定,无法自主调整。
当应用于围棋这种规则明确、信息完全、时间有限的封闭系统时,MCTS 的优势可以发挥到极致。但当面对现实世界的战略决策时,它会遇到难以克服的结构性困难。因为现实世界没有预先定义好的状态和动作,没有明确的终局反馈,更没有无限次重复模拟的机会。
二、《隆中对》体现的是一种高压缩比的人类式推演
如果把《隆中对》看成一个决策问题,它的难度远远超过普通棋类游戏:
- 信息不完备:诸葛亮无法知道所有军事部署、粮草储备和地方势力的真实状态。
- 动作空间庞大:既包括军事行动,也包括外交联盟、地盘选择、人才组织和内部治理。
- 时间跨度极长:不是几步棋之内定胜负,而是十几年甚至几十年的战略演化。
在这种条件下,如果用最朴素的搜索思路去枚举所有可能路径,问题会迅速崩溃。真正有效的做法不是穷举,而是建模。 诸葛亮没有做采样,他做的是对整个世界的结构化建模。
极致的状态抽象
《隆中对》没有把天下局势拆成每一个城池、每一支军队、每一个地方豪族,而是压缩为几个关键结构:
- 曹操占据北方并掌握政治名义。
- 孙权据有江东并具备区域稳定性。
- 荆州连接南北东西。
- 益州具有纵深和资源。
- 刘备需要建立独立根据地。
这是一种极高压缩比的表示学习,保留了影响长期格局的核心变量,舍弃了大量短期噪声。
有意义的动作抽象
诸葛亮讨论的不是”某一天派多少兵打某个城”,而是 “联吴抗曹”、“先取荆州”、“再取益州”、“待天下有变”。
这些都是宏动作,是由许多低层操作组成的高层策略单元。它们不是任意的动作组合,而是具有内在逻辑和战略目标的整体。
非对称的算力分配
《隆中对》没有平均推演所有可能的战略分支,而是把几乎所有的思考时间,都集中在了取荆益和联吴抗曹这两个关键节点上进行深度展开,而对于”投靠曹操”“依附孙权”等低价值分支,直接进行了剪枝。
这正是人类高手决策的典型特点:不是枚举更多,而是压缩得更准;不是平均搜索,而是知道哪里值得深挖。
三、人类决策的六个核心算法特征
如果把诸葛亮的推演方式拆成算法语言,可以看到它包含了六个核心特征,而每一个特征,都是当前 MCTS 所缺乏的。
3.1 高压缩比的动态状态抽象
诸葛亮将一个近乎无穷维的天下大势,降维压缩为五个核心玩家和几个关键战略区域。这种抽象不是静态的,而是动态的——他可以在讨论天下大势时使用”天下三分”的宏观抽象,也可以在讨论具体问题时切换到”关羽性格傲慢”的微观细节。
而 MCTS 的状态抽象通常是固定的:抽象层级太高会丢失关键的局部特征,太低则搜索树会迅速膨胀。目标导向的动态降维能力,是当前算法依然难以做到的。
3.2 基于意义的宏动作空间
隆中对的核心决策不是原子动作,而是”联吴抗曹”“先取荆州”这类高层战略单元。这些宏动作不是人为定义的,而是从历史经验和因果逻辑中自然产生的。
而 MCTS 的宏动作通常需要人类预先设计。如何自动发现有意义的宏动作,以及如何处理宏动作内部的不确定性,仍然是未解决的难题。
3.3 非对称的认知资源分配
诸葛亮没有平均分配思考时间给所有可能的战略,而是将几乎所有推演预算集中在少数几个关键节点上进行深度展开,对低价值分支直接剪枝。
这种资源分配不是基于统计的,而是基于直觉和因果判断的——MCTS 无法准确估计一个节点的”信息增益”,也就是思考这个节点能带来多少新的认知。
3.4 基于分布而非单点的价值评估
诸葛亮没有预测某一次具体战役的胜负,而是评估了不同战略路线对应的长期局势分布:占据荆益虽然进展缓慢,但能够形成稳定的根据地和战略纵深;而直接与曹操对抗,虽然可能获得短期收益,但失败的风险极高。
而传统 MCTS 只估计状态的期望价值,完全忽略了方差和风险。在现实决策中,一个期望收益高但方差极大的动作,往往不如一个期望收益稍低但更稳健的动作。
3.5 不完全信息下的因果对手建模
身处隆中,诸葛亮的观测空间充满了延迟和噪声。但他基于有限的历史数据,在脑中构建了一个极其精准的世界模型和对手模型——准确判断出曹操”不可与争锋”,孙权”可以为援而不可图”,并找到了这个多智能体系统的纳什均衡点。
而 MCTS 的对手建模是统计性的,人类的对手建模是因果性的——我们不仅知道对手过去做了什么,还能理解对手为什么这么做。
3.6 多维度的动态价值权衡
诸葛亮的决策同时权衡了地缘、政治、人心、资源和时间等多个维度,并且能够在不同阶段切换权重:弱小时更重视生存和根据地,稳定后更重视扩张和主动权,外部局势变化时又要重新调整风险偏好。
这种动态权重切换,正是人类决策中很强、而算法中很难的部分。
四、真正的难点:人类如何处理指标之间的耦合
讨论决策时,我们很容易列出很多有价值的指标:
平均价值 / 方差 / 置信区间 / 访问次数 / 策略先验 / 探索难度 / 状态不确定性 / 对手响应敏感性 / 子树复杂度 / 风险下界 / 抽象层级 / 宏动作质量……
但真正难的地方不是”想到这些指标”,而是“知道什么时候该相信哪个指标”。这就是指标耦合问题,也是人类决策与 MCTS 最本质的区别。
| 指标 | 一种解读 | 另一种解读 |
|---|---|---|
| 方差大 | 这个节点潜力大,值得继续探索 | 这个节点极不稳定,不值得投入更多资源 |
| 均值高 | 动作质量高 | 当前采样不足,暂时高估 |
| 访问次数少 | 它被忽略了 | 它确实没有战略价值 |
| 宏动作 | 能降低搜索复杂度 | 可能遮蔽关键失败模式 |
| 状态抽象 | 能提升效率 | 可能错误合并本应不同的局势 |
如果把这些指标简单写进一个公式,算法未必会更强,反而可能更脆弱。因为每个指标都有适用条件,它们之间也存在冲突。
MCTS 缺少一种更高层次的元决策能力:
- 当前节点应该看均值,还是看方差?
- 应该扩大探索,还是收敛验证?
- 应该继续细化,还是提升抽象?
- 应该追求上界,还是保住下界?
- 应该相信策略先验,还是怀疑先验并重新搜索?
而人类高手恰恰具备这种能力:我们并不是把所有指标列出来逐项打分,而是会根据局势动态切换判断标准。
五、人类决策的本质:MCTS 永远无法复制的三个核心维度
MCTS 与人类决策的差距,不是算力的差距,而是存在方式的差距。AlphaGo Zero 可以从零开始通过自我对弈超越人类,但它永远无法从零开始做出《隆中对》。
5.1 人类为自己设定目标,而不是被给定一个输赢函数
所有基于 MCTS 的 AI 都有一个共同的前提:必须有一个预先定义好的、可量化的目标函数。在围棋中是”赢棋”,在游戏中是”获得最高分数”,在推荐系统中是”最大化点击率”。
但人类的目标从来不是单一的、预先给定的,更不是简单的输赢。诸葛亮的目标不是”统一中国”这么简单,而是 “兴复汉室,还于旧都”——这个目标包含了政治理想、道德追求、个人抱负和历史责任等多个维度。
更重要的是,人类的决策价值并不完全取决于最终的结果。诸葛亮最终没有成功统一中国,但他仍然被后世尊为智慧的化身和忠诚的典范。
而 MCTS 只能理解输赢。它不知道什么是理想,什么是责任,什么是尊严。
5.2 人类的决策建立在千百年的集体经验和具身实践之上
诸葛亮的《隆中对》不是凭空产生的。它是诸葛亮对春秋战国以来数百年历史经验的总结,是对中国地理、政治、军事、人性的深刻理解,是他在隆中十年读书、思考、观察的结果。
人类的知识不是孤立的,而是代代相传的集体智慧。我们站在前人的肩膀上,继承了他们的经验、教训、思想和文化。
而当前的 AI 本质上是”从零开始”的。即使是大模型,也只是从海量文本中学习到了语言的统计规律,没有亲身经历过战争,没有感受过政治的复杂,没有体验过人性的善恶。它的所有”知识”都是二手的、表面的、没有根基的。
这就是为什么纯从零开始的强化学习只适用于游戏:在现实世界中,你没有那么多试错的机会。
5.3 人类的抽象能力是基于意义的,而不是基于统计的
这是 MCTS 与人类决策最根本、最难以逾越的差距。
- MCTS 的抽象基于统计相似性——把看起来相似的状态合并在一起。
- 人类的抽象基于意义——把具有相同本质、相同功能、相同因果关系的事物合并在一起。
诸葛亮把天下大势抽象为”曹操、孙权、刘备”三个核心玩家,不是因为他们看起来相似,而是因为他们代表了三种不同的政治力量和战略方向。他把”联吴抗曹”作为一个宏动作,不是因为这一系列动作经常一起出现,而是因为它们共同服务于一个战略目标。
MCTS 永远无法理解”曹操”代表什么,”联吴抗曹”意味着什么,”天下三分”为什么是一个合理的战略。它只能看到数据中的相关性,而看不到数据背后的因果关系和本质结构。
结语:真正的智能,是知道如何思考
回到我们一开始的悖论:为什么 AlphaGo 能在围棋中战胜顶级棋手,却很难做出《隆中对》式的开放战略推演?
原因不在于 AlphaGo 不强,而在于围棋和现实战略属于两类不同的问题:
| 维度 | 围棋 | 现实战略 |
|---|---|---|
| 规则 | 明确 | 模糊 |
| 目标 | 单一 | 多维 |
| 信息 | 完全可观测 | 不完备 |
| 反馈 | 即时 | 延迟 |
| 试错 | 可重复模拟 | 不可重复 |
AlphaGo 代表了一类非常成功的智能形式:统计智能。它在封闭系统中通过强大的计算能力和统计方法,获得了超越人类的表现。
而《隆中对》代表的则是另一类智能:认知智能。它在开放系统中通过抽象建模、因果推理和元决策能力,形成了长期战略判断。
人类高手的厉害之处,并不是拥有无限算力,而是在有限信息和有限计算条件下,能够快速建立合适的抽象,识别关键变量,判断不确定性的性质,并把推演资源集中在最重要的地方。
MCTS 的天花板,本质上是统计智能的天花板。真正的智能,不只是会计算答案,而是知道应该如何思考。在 AI 掌握这种认知能力之前,人类决策仍然是机器难以逾越的天花板。