从 AlphaGo 到《隆中对》：有限信息下的高质量推演

May 24, 2026

TL;DR. MCTS 的天花板是「统计智能」的天花板。诸葛亮的《隆中对》之所以无法被 AlphaGo 复制，不是算力差距，而是抽象、宏动作、非对称推演、因果对手建模、动态权衡等一整套人类式认知能力的差距。

引言：一个值得思考的对比

2016 年，AlphaGo 击败李世石，让很多人第一次直观感受到人工智能在复杂决策任务中的能力。围棋的状态空间巨大，分支复杂，而 AlphaGo 通过深度神经网络与蒙特卡洛树搜索，将策略先验、价值评估和搜索过程结合起来，在一个长期被认为极其依赖人类直觉的领域取得了突破。

但如果把视野从围棋扩展到真实世界的战略决策，就会发现一个深刻的悖论：AlphaGo 可以在规则明确、状态完全可观测的棋盘上进行数百万次模拟搜索，却很难处理像《隆中对》这样的开放性战略推演。

诸葛亮在隆中提出三分天下的构想时，并没有完备的信息，也没有可靠的实时情报，更不可能枚举未来几十年的所有历史路径。他面对的是一个高度不确定、强对抗、多主体、长期演化的复杂系统：曹操、孙权、刘备、荆州、益州、士族、民心、地理、军事、外交，这些因素彼此交织，任何局部变化都可能影响后续格局。

从现代认知科学和决策理论的视角看，《隆中对》的价值不只在于它是一次历史上的战略判断，更在于它展示了一种非常典型的人类高水平推演能力：在信息有限、计算有限、试错机会极少的条件下，通过抽象、筛选、建模和重点推演，抓住复杂局势中的核心结构。

这正好对应了 MCTS 面对复杂现实问题时的一个关键瓶颈：真正困难的不是再多引入几个评价指标，而是如何在不同情境下判断应该使用什么抽象层级、什么评价尺度、什么搜索策略。换句话说，MCTS 的深层缺陷，不只是”算得不够多”，而是”思考方式与人根本不同”。

一、MCTS 的基本能力与本质边界

蒙特卡洛树搜索（MCTS）是一种通过采样和统计估计来进行决策的搜索方法。它的大致流程包括四步：

选择（Selection）：从根节点出发，按已有节点的价值估计与访问次数选择分支。
扩展（Expansion）：到达尚未充分探索的节点后进行扩展。
模拟（Simulation）：通过模拟估计该分支的结果。
回溯（Backpropagation）：把模拟结果回传到路径上的节点，更新它们的价值。

MCTS 的优势在于通用性强。只要能够定义状态、动作和终局反馈，它就可以在巨大的决策空间中逐步逼近较优选择。AlphaGo 的成功，很大程度上正是因为它把神经网络的策略先验和价值评估引入 MCTS，使搜索不再是完全盲目的随机探索，而是被高质量的先验知识引导。

但是，MCTS 的本质局限也由此暴露无遗。它从根本上是一个自下而上的统计机器：

它从具体的原子状态和原子动作开始，逐步往上聚合价值，永远无法跳出预先定义的状态和动作空间。
它只关心”是什么”，通过大量采样来估计状态的价值，但不理解”为什么”这个状态有价值。
它的所有元决策——探索系数、抽象层次、评估指标、停止条件——都需要人类预先设定，无法自主调整。

当应用于围棋这种规则明确、信息完全、时间有限的封闭系统时，MCTS 的优势可以发挥到极致。但当面对现实世界的战略决策时，它会遇到难以克服的结构性困难。因为现实世界没有预先定义好的状态和动作，没有明确的终局反馈，更没有无限次重复模拟的机会。

二、《隆中对》体现的是一种高压缩比的人类式推演

如果把《隆中对》看成一个决策问题，它的难度远远超过普通棋类游戏：

信息不完备：诸葛亮无法知道所有军事部署、粮草储备和地方势力的真实状态。
动作空间庞大：既包括军事行动，也包括外交联盟、地盘选择、人才组织和内部治理。
时间跨度极长：不是几步棋之内定胜负，而是十几年甚至几十年的战略演化。

在这种条件下，如果用最朴素的搜索思路去枚举所有可能路径，问题会迅速崩溃。真正有效的做法不是穷举，而是建模。 诸葛亮没有做采样，他做的是对整个世界的结构化建模。

极致的状态抽象

《隆中对》没有把天下局势拆成每一个城池、每一支军队、每一个地方豪族，而是压缩为几个关键结构：

曹操占据北方并掌握政治名义。
孙权据有江东并具备区域稳定性。
荆州连接南北东西。
益州具有纵深和资源。
刘备需要建立独立根据地。

这是一种极高压缩比的表示学习，保留了影响长期格局的核心变量，舍弃了大量短期噪声。

有意义的动作抽象

诸葛亮讨论的不是”某一天派多少兵打某个城”，而是 “联吴抗曹”、“先取荆州”、“再取益州”、“待天下有变”。

这些都是宏动作，是由许多低层操作组成的高层策略单元。它们不是任意的动作组合，而是具有内在逻辑和战略目标的整体。

非对称的算力分配

《隆中对》没有平均推演所有可能的战略分支，而是把几乎所有的思考时间，都集中在了取荆益和联吴抗曹这两个关键节点上进行深度展开，而对于”投靠曹操”“依附孙权”等低价值分支，直接进行了剪枝。

这正是人类高手决策的典型特点：不是枚举更多，而是压缩得更准；不是平均搜索，而是知道哪里值得深挖。

三、人类决策的六个核心算法特征

如果把诸葛亮的推演方式拆成算法语言，可以看到它包含了六个核心特征，而每一个特征，都是当前 MCTS 所缺乏的。

3.1 高压缩比的动态状态抽象

诸葛亮将一个近乎无穷维的天下大势，降维压缩为五个核心玩家和几个关键战略区域。这种抽象不是静态的，而是动态的——他可以在讨论天下大势时使用”天下三分”的宏观抽象，也可以在讨论具体问题时切换到”关羽性格傲慢”的微观细节。

而 MCTS 的状态抽象通常是固定的：抽象层级太高会丢失关键的局部特征，太低则搜索树会迅速膨胀。目标导向的动态降维能力，是当前算法依然难以做到的。

3.2 基于意义的宏动作空间

隆中对的核心决策不是原子动作，而是”联吴抗曹”“先取荆州”这类高层战略单元。这些宏动作不是人为定义的，而是从历史经验和因果逻辑中自然产生的。

而 MCTS 的宏动作通常需要人类预先设计。如何自动发现有意义的宏动作，以及如何处理宏动作内部的不确定性，仍然是未解决的难题。

3.3 非对称的认知资源分配

诸葛亮没有平均分配思考时间给所有可能的战略，而是将几乎所有推演预算集中在少数几个关键节点上进行深度展开，对低价值分支直接剪枝。

这种资源分配不是基于统计的，而是基于直觉和因果判断的——MCTS 无法准确估计一个节点的”信息增益”，也就是思考这个节点能带来多少新的认知。

3.4 基于分布而非单点的价值评估

诸葛亮没有预测某一次具体战役的胜负，而是评估了不同战略路线对应的长期局势分布：占据荆益虽然进展缓慢，但能够形成稳定的根据地和战略纵深；而直接与曹操对抗，虽然可能获得短期收益，但失败的风险极高。

而传统 MCTS 只估计状态的期望价值，完全忽略了方差和风险。在现实决策中，一个期望收益高但方差极大的动作，往往不如一个期望收益稍低但更稳健的动作。

3.5 不完全信息下的因果对手建模

身处隆中，诸葛亮的观测空间充满了延迟和噪声。但他基于有限的历史数据，在脑中构建了一个极其精准的世界模型和对手模型——准确判断出曹操”不可与争锋”，孙权”可以为援而不可图”，并找到了这个多智能体系统的纳什均衡点。

而 MCTS 的对手建模是统计性的，人类的对手建模是因果性的——我们不仅知道对手过去做了什么，还能理解对手为什么这么做。

3.6 多维度的动态价值权衡

诸葛亮的决策同时权衡了地缘、政治、人心、资源和时间等多个维度，并且能够在不同阶段切换权重：弱小时更重视生存和根据地，稳定后更重视扩张和主动权，外部局势变化时又要重新调整风险偏好。

这种动态权重切换，正是人类决策中很强、而算法中很难的部分。

四、真正的难点：人类如何处理指标之间的耦合

讨论决策时，我们很容易列出很多有价值的指标：

平均价值 / 方差 / 置信区间 / 访问次数 / 策略先验 / 探索难度 / 状态不确定性 / 对手响应敏感性 / 子树复杂度 / 风险下界 / 抽象层级 / 宏动作质量……

但真正难的地方不是”想到这些指标”，而是“知道什么时候该相信哪个指标”。这就是指标耦合问题，也是人类决策与 MCTS 最本质的区别。

指标	一种解读	另一种解读
方差大	这个节点潜力大，值得继续探索	这个节点极不稳定，不值得投入更多资源
均值高	动作质量高	当前采样不足，暂时高估
访问次数少	它被忽略了	它确实没有战略价值
宏动作	能降低搜索复杂度	可能遮蔽关键失败模式
状态抽象	能提升效率	可能错误合并本应不同的局势

如果把这些指标简单写进一个公式，算法未必会更强，反而可能更脆弱。因为每个指标都有适用条件，它们之间也存在冲突。

MCTS 缺少一种更高层次的元决策能力：

当前节点应该看均值，还是看方差？
应该扩大探索，还是收敛验证？
应该继续细化，还是提升抽象？
应该追求上界，还是保住下界？
应该相信策略先验，还是怀疑先验并重新搜索？

而人类高手恰恰具备这种能力：我们并不是把所有指标列出来逐项打分，而是会根据局势动态切换判断标准。

五、人类决策的本质：MCTS 永远无法复制的三个核心维度

MCTS 与人类决策的差距，不是算力的差距，而是存在方式的差距。AlphaGo Zero 可以从零开始通过自我对弈超越人类，但它永远无法从零开始做出《隆中对》。

5.1 人类为自己设定目标，而不是被给定一个输赢函数

所有基于 MCTS 的 AI 都有一个共同的前提：必须有一个预先定义好的、可量化的目标函数。在围棋中是”赢棋”，在游戏中是”获得最高分数”，在推荐系统中是”最大化点击率”。

但人类的目标从来不是单一的、预先给定的，更不是简单的输赢。诸葛亮的目标不是”统一中国”这么简单，而是 “兴复汉室，还于旧都”——这个目标包含了政治理想、道德追求、个人抱负和历史责任等多个维度。

更重要的是，人类的决策价值并不完全取决于最终的结果。诸葛亮最终没有成功统一中国，但他仍然被后世尊为智慧的化身和忠诚的典范。

而 MCTS 只能理解输赢。它不知道什么是理想，什么是责任，什么是尊严。

5.2 人类的决策建立在千百年的集体经验和具身实践之上

诸葛亮的《隆中对》不是凭空产生的。它是诸葛亮对春秋战国以来数百年历史经验的总结，是对中国地理、政治、军事、人性的深刻理解，是他在隆中十年读书、思考、观察的结果。

人类的知识不是孤立的，而是代代相传的集体智慧。我们站在前人的肩膀上，继承了他们的经验、教训、思想和文化。

而当前的 AI 本质上是”从零开始”的。即使是大模型，也只是从海量文本中学习到了语言的统计规律，没有亲身经历过战争，没有感受过政治的复杂，没有体验过人性的善恶。它的所有”知识”都是二手的、表面的、没有根基的。

这就是为什么纯从零开始的强化学习只适用于游戏：在现实世界中，你没有那么多试错的机会。

5.3 人类的抽象能力是基于意义的，而不是基于统计的

这是 MCTS 与人类决策最根本、最难以逾越的差距。

MCTS 的抽象基于统计相似性——把看起来相似的状态合并在一起。
人类的抽象基于意义——把具有相同本质、相同功能、相同因果关系的事物合并在一起。

诸葛亮把天下大势抽象为”曹操、孙权、刘备”三个核心玩家，不是因为他们看起来相似，而是因为他们代表了三种不同的政治力量和战略方向。他把”联吴抗曹”作为一个宏动作，不是因为这一系列动作经常一起出现，而是因为它们共同服务于一个战略目标。

MCTS 永远无法理解”曹操”代表什么，”联吴抗曹”意味着什么，”天下三分”为什么是一个合理的战略。它只能看到数据中的相关性，而看不到数据背后的因果关系和本质结构。

结语：真正的智能，是知道如何思考

回到我们一开始的悖论：为什么 AlphaGo 能在围棋中战胜顶级棋手，却很难做出《隆中对》式的开放战略推演？

原因不在于 AlphaGo 不强，而在于围棋和现实战略属于两类不同的问题：

维度	围棋	现实战略
规则	明确	模糊
目标	单一	多维
信息	完全可观测	不完备
反馈	即时	延迟
试错	可重复模拟	不可重复

AlphaGo 代表了一类非常成功的智能形式：统计智能。它在封闭系统中通过强大的计算能力和统计方法，获得了超越人类的表现。

而《隆中对》代表的则是另一类智能：认知智能。它在开放系统中通过抽象建模、因果推理和元决策能力，形成了长期战略判断。

人类高手的厉害之处，并不是拥有无限算力，而是在有限信息和有限计算条件下，能够快速建立合适的抽象，识别关键变量，判断不确定性的性质，并把推演资源集中在最重要的地方。

MCTS 的天花板，本质上是统计智能的天花板。真正的智能，不只是会计算答案，而是知道应该如何思考。在 AI 掌握这种认知能力之前，人类决策仍然是机器难以逾越的天花板。

居奇 (Ju Qi)