从 AlphaGo 到《隆中对》:有限信息下的高质量推演

May 24, 2026

TL;DR. MCTS 的天花板是「统计智能」的天花板。诸葛亮的《隆中对》之所以无法被 AlphaGo 复制,不是算力差距,而是抽象、宏动作、非对称推演、因果对手建模、动态权衡等一整套人类式认知能力的差距。

引言:一个值得思考的对比

2016 年,AlphaGo 击败李世石,让很多人第一次直观感受到人工智能在复杂决策任务中的能力。围棋的状态空间巨大,分支复杂,而 AlphaGo 通过深度神经网络与蒙特卡洛树搜索,将策略先验、价值评估和搜索过程结合起来,在一个长期被认为极其依赖人类直觉的领域取得了突破。

但如果把视野从围棋扩展到真实世界的战略决策,就会发现一个深刻的悖论:AlphaGo 可以在规则明确、状态完全可观测的棋盘上进行数百万次模拟搜索,却很难处理像《隆中对》这样的开放性战略推演。

诸葛亮在隆中提出三分天下的构想时,并没有完备的信息,也没有可靠的实时情报,更不可能枚举未来几十年的所有历史路径。他面对的是一个高度不确定、强对抗、多主体、长期演化的复杂系统:曹操、孙权、刘备、荆州、益州、士族、民心、地理、军事、外交,这些因素彼此交织,任何局部变化都可能影响后续格局。

从现代认知科学和决策理论的视角看,《隆中对》的价值不只在于它是一次历史上的战略判断,更在于它展示了一种非常典型的人类高水平推演能力:在信息有限、计算有限、试错机会极少的条件下,通过抽象、筛选、建模和重点推演,抓住复杂局势中的核心结构。

这正好对应了 MCTS 面对复杂现实问题时的一个关键瓶颈:真正困难的不是再多引入几个评价指标,而是如何在不同情境下判断应该使用什么抽象层级、什么评价尺度、什么搜索策略。换句话说,MCTS 的深层缺陷,不只是”算得不够多”,而是”思考方式与人根本不同”。


一、MCTS 的基本能力与本质边界

蒙特卡洛树搜索(MCTS)是一种通过采样和统计估计来进行决策的搜索方法。它的大致流程包括四步:

  1. 选择(Selection):从根节点出发,按已有节点的价值估计与访问次数选择分支。
  2. 扩展(Expansion):到达尚未充分探索的节点后进行扩展。
  3. 模拟(Simulation):通过模拟估计该分支的结果。
  4. 回溯(Backpropagation):把模拟结果回传到路径上的节点,更新它们的价值。

MCTS 的优势在于通用性强。只要能够定义状态、动作和终局反馈,它就可以在巨大的决策空间中逐步逼近较优选择。AlphaGo 的成功,很大程度上正是因为它把神经网络的策略先验和价值评估引入 MCTS,使搜索不再是完全盲目的随机探索,而是被高质量的先验知识引导。

但是,MCTS 的本质局限也由此暴露无遗。它从根本上是一个自下而上的统计机器

  • 它从具体的原子状态和原子动作开始,逐步往上聚合价值,永远无法跳出预先定义的状态和动作空间
  • 它只关心”是什么”,通过大量采样来估计状态的价值,但不理解”为什么”这个状态有价值
  • 它的所有元决策——探索系数、抽象层次、评估指标、停止条件——都需要人类预先设定,无法自主调整

当应用于围棋这种规则明确、信息完全、时间有限的封闭系统时,MCTS 的优势可以发挥到极致。但当面对现实世界的战略决策时,它会遇到难以克服的结构性困难。因为现实世界没有预先定义好的状态和动作,没有明确的终局反馈,更没有无限次重复模拟的机会。


二、《隆中对》体现的是一种高压缩比的人类式推演

如果把《隆中对》看成一个决策问题,它的难度远远超过普通棋类游戏:

  • 信息不完备:诸葛亮无法知道所有军事部署、粮草储备和地方势力的真实状态。
  • 动作空间庞大:既包括军事行动,也包括外交联盟、地盘选择、人才组织和内部治理。
  • 时间跨度极长:不是几步棋之内定胜负,而是十几年甚至几十年的战略演化。

在这种条件下,如果用最朴素的搜索思路去枚举所有可能路径,问题会迅速崩溃。真正有效的做法不是穷举,而是建模。 诸葛亮没有做采样,他做的是对整个世界的结构化建模。

极致的状态抽象

《隆中对》没有把天下局势拆成每一个城池、每一支军队、每一个地方豪族,而是压缩为几个关键结构:

  • 曹操占据北方并掌握政治名义。
  • 孙权据有江东并具备区域稳定性。
  • 荆州连接南北东西。
  • 益州具有纵深和资源。
  • 刘备需要建立独立根据地。

这是一种极高压缩比的表示学习,保留了影响长期格局的核心变量,舍弃了大量短期噪声

有意义的动作抽象

诸葛亮讨论的不是”某一天派多少兵打某个城”,而是 “联吴抗曹”“先取荆州”“再取益州”“待天下有变”

这些都是宏动作,是由许多低层操作组成的高层策略单元。它们不是任意的动作组合,而是具有内在逻辑和战略目标的整体。

非对称的算力分配

《隆中对》没有平均推演所有可能的战略分支,而是把几乎所有的思考时间,都集中在了取荆益联吴抗曹这两个关键节点上进行深度展开,而对于”投靠曹操”“依附孙权”等低价值分支,直接进行了剪枝

这正是人类高手决策的典型特点:不是枚举更多,而是压缩得更准;不是平均搜索,而是知道哪里值得深挖。


三、人类决策的六个核心算法特征

如果把诸葛亮的推演方式拆成算法语言,可以看到它包含了六个核心特征,而每一个特征,都是当前 MCTS 所缺乏的

3.1 高压缩比的动态状态抽象

诸葛亮将一个近乎无穷维的天下大势,降维压缩为五个核心玩家和几个关键战略区域。这种抽象不是静态的,而是动态的——他可以在讨论天下大势时使用”天下三分”的宏观抽象,也可以在讨论具体问题时切换到”关羽性格傲慢”的微观细节。

而 MCTS 的状态抽象通常是固定的:抽象层级太高会丢失关键的局部特征,太低则搜索树会迅速膨胀。目标导向的动态降维能力,是当前算法依然难以做到的。

3.2 基于意义的宏动作空间

隆中对的核心决策不是原子动作,而是”联吴抗曹”“先取荆州”这类高层战略单元。这些宏动作不是人为定义的,而是从历史经验和因果逻辑中自然产生的。

而 MCTS 的宏动作通常需要人类预先设计。如何自动发现有意义的宏动作,以及如何处理宏动作内部的不确定性,仍然是未解决的难题。

3.3 非对称的认知资源分配

诸葛亮没有平均分配思考时间给所有可能的战略,而是将几乎所有推演预算集中在少数几个关键节点上进行深度展开,对低价值分支直接剪枝。

这种资源分配不是基于统计的,而是基于直觉和因果判断的——MCTS 无法准确估计一个节点的”信息增益”,也就是思考这个节点能带来多少新的认知。

3.4 基于分布而非单点的价值评估

诸葛亮没有预测某一次具体战役的胜负,而是评估了不同战略路线对应的长期局势分布:占据荆益虽然进展缓慢,但能够形成稳定的根据地和战略纵深;而直接与曹操对抗,虽然可能获得短期收益,但失败的风险极高。

而传统 MCTS 只估计状态的期望价值,完全忽略了方差和风险。在现实决策中,一个期望收益高但方差极大的动作,往往不如一个期望收益稍低但更稳健的动作。

3.5 不完全信息下的因果对手建模

身处隆中,诸葛亮的观测空间充满了延迟和噪声。但他基于有限的历史数据,在脑中构建了一个极其精准的世界模型和对手模型——准确判断出曹操”不可与争锋”,孙权”可以为援而不可图”,并找到了这个多智能体系统的纳什均衡点。

MCTS 的对手建模是统计性的,人类的对手建模是因果性的——我们不仅知道对手过去做了什么,还能理解对手为什么这么做。

3.6 多维度的动态价值权衡

诸葛亮的决策同时权衡了地缘、政治、人心、资源和时间等多个维度,并且能够在不同阶段切换权重:弱小时更重视生存和根据地,稳定后更重视扩张和主动权,外部局势变化时又要重新调整风险偏好。

这种动态权重切换,正是人类决策中很强、而算法中很难的部分。


四、真正的难点:人类如何处理指标之间的耦合

讨论决策时,我们很容易列出很多有价值的指标:

平均价值 / 方差 / 置信区间 / 访问次数 / 策略先验 / 探索难度 / 状态不确定性 / 对手响应敏感性 / 子树复杂度 / 风险下界 / 抽象层级 / 宏动作质量……

但真正难的地方不是”想到这些指标”,而是“知道什么时候该相信哪个指标”。这就是指标耦合问题,也是人类决策与 MCTS 最本质的区别。

指标 一种解读 另一种解读
方差大 这个节点潜力大,值得继续探索 这个节点极不稳定,不值得投入更多资源
均值高 动作质量高 当前采样不足,暂时高估
访问次数少 它被忽略了 它确实没有战略价值
宏动作 能降低搜索复杂度 可能遮蔽关键失败模式
状态抽象 能提升效率 可能错误合并本应不同的局势

如果把这些指标简单写进一个公式,算法未必会更强,反而可能更脆弱。因为每个指标都有适用条件,它们之间也存在冲突。

MCTS 缺少一种更高层次的元决策能力

  • 当前节点应该看均值,还是看方差?
  • 应该扩大探索,还是收敛验证?
  • 应该继续细化,还是提升抽象?
  • 应该追求上界,还是保住下界?
  • 应该相信策略先验,还是怀疑先验并重新搜索?

而人类高手恰恰具备这种能力:我们并不是把所有指标列出来逐项打分,而是会根据局势动态切换判断标准。


五、人类决策的本质:MCTS 永远无法复制的三个核心维度

MCTS 与人类决策的差距,不是算力的差距,而是存在方式的差距。AlphaGo Zero 可以从零开始通过自我对弈超越人类,但它永远无法从零开始做出《隆中对》。

5.1 人类为自己设定目标,而不是被给定一个输赢函数

所有基于 MCTS 的 AI 都有一个共同的前提:必须有一个预先定义好的、可量化的目标函数。在围棋中是”赢棋”,在游戏中是”获得最高分数”,在推荐系统中是”最大化点击率”。

但人类的目标从来不是单一的、预先给定的,更不是简单的输赢。诸葛亮的目标不是”统一中国”这么简单,而是 “兴复汉室,还于旧都”——这个目标包含了政治理想、道德追求、个人抱负和历史责任等多个维度。

更重要的是,人类的决策价值并不完全取决于最终的结果。诸葛亮最终没有成功统一中国,但他仍然被后世尊为智慧的化身和忠诚的典范。

而 MCTS 只能理解输赢。它不知道什么是理想,什么是责任,什么是尊严。

5.2 人类的决策建立在千百年的集体经验和具身实践之上

诸葛亮的《隆中对》不是凭空产生的。它是诸葛亮对春秋战国以来数百年历史经验的总结,是对中国地理、政治、军事、人性的深刻理解,是他在隆中十年读书、思考、观察的结果。

人类的知识不是孤立的,而是代代相传的集体智慧。我们站在前人的肩膀上,继承了他们的经验、教训、思想和文化。

而当前的 AI 本质上是”从零开始”的。即使是大模型,也只是从海量文本中学习到了语言的统计规律,没有亲身经历过战争,没有感受过政治的复杂,没有体验过人性的善恶。它的所有”知识”都是二手的、表面的、没有根基的。

这就是为什么纯从零开始的强化学习只适用于游戏:在现实世界中,你没有那么多试错的机会。

5.3 人类的抽象能力是基于意义的,而不是基于统计的

这是 MCTS 与人类决策最根本、最难以逾越的差距。

  • MCTS 的抽象基于统计相似性——把看起来相似的状态合并在一起。
  • 人类的抽象基于意义——把具有相同本质、相同功能、相同因果关系的事物合并在一起。

诸葛亮把天下大势抽象为”曹操、孙权、刘备”三个核心玩家,不是因为他们看起来相似,而是因为他们代表了三种不同的政治力量和战略方向。他把”联吴抗曹”作为一个宏动作,不是因为这一系列动作经常一起出现,而是因为它们共同服务于一个战略目标

MCTS 永远无法理解”曹操”代表什么,”联吴抗曹”意味着什么,”天下三分”为什么是一个合理的战略。它只能看到数据中的相关性,而看不到数据背后的因果关系和本质结构。


结语:真正的智能,是知道如何思考

回到我们一开始的悖论:为什么 AlphaGo 能在围棋中战胜顶级棋手,却很难做出《隆中对》式的开放战略推演?

原因不在于 AlphaGo 不强,而在于围棋和现实战略属于两类不同的问题:

维度 围棋 现实战略
规则 明确 模糊
目标 单一 多维
信息 完全可观测 不完备
反馈 即时 延迟
试错 可重复模拟 不可重复

AlphaGo 代表了一类非常成功的智能形式:统计智能。它在封闭系统中通过强大的计算能力和统计方法,获得了超越人类的表现。

而《隆中对》代表的则是另一类智能:认知智能。它在开放系统中通过抽象建模、因果推理和元决策能力,形成了长期战略判断。

人类高手的厉害之处,并不是拥有无限算力,而是在有限信息和有限计算条件下,能够快速建立合适的抽象,识别关键变量,判断不确定性的性质,并把推演资源集中在最重要的地方。

MCTS 的天花板,本质上是统计智能的天花板。真正的智能,不只是会计算答案,而是知道应该如何思考。在 AI 掌握这种认知能力之前,人类决策仍然是机器难以逾越的天花板。