从 Self-Play 到 AGI：一条可能的道路，以及六个尚未解决的根本问题

May 15, 2026

TL;DR. Self-Play 是通向 AGI 的可能路径之一，但”左右互博 + 更多算力”是一种误读。真正的瓶颈在于系统能否组织自己的学习。本文拆解六个紧密耦合的问题。

摘要

过去十几年，自博弈（Self-Play）在围棋、扑克等规则明确的封闭环境中取得了突破性进展，引发了关于其能否成为通用人工智能（AGI）训练范式的广泛讨论。

本文认为，Self-Play 确实可能是通向 AGI 的重要路径之一，但将其简单等同于“左右互博”并通过扩大规模来实现 AGI 是一种误解。真正的瓶颈不在于单点技术，而在于构建一套能够像人类一样自主组织学习的完整系统。

本文系统梳理了 Self-Play 走向 AGI 必须解决的六个核心问题：

自动任务提炼与分解
局部反馈获取与迁移
自主课程发现
低成本 rollout 与精细归因
可持续经验积累
目标漂移与自我欺骗防范

这六个问题形成了一条紧密耦合的依赖链，共同定义了“一个系统如何像真正的学习者那样成长”。

关键词： 自博弈；通用人工智能；自主学习；课程发现；持续学习；对齐问题。

引言

自 AlphaGo 在 2016 年击败李世石以来，Self-Play 已经成为人工智能领域最引人注目的技术之一。从围棋到麻将，从星际争霸到德州扑克，一个又一个封闭环境中，系统通过不断与自己对弈，最终达到甚至超越了人类顶级水平。这些惊人的成就自然引发了一个根本性问题：

既然 Self-Play 在这些任务上如此强大，那么它能否进一步扩展，成为通向更通用智能的训练范式？

对此，学术界和工业界形成了两种极端看法。一种观点认为，Self-Play 只适用于“玩具世界”，离复杂多变的真实世界太远；另一种观点则认为，只要算力足够大、模型足够强，Self-Play 自然就能扩展到一切任务。本文认为这两种看法都不够准确。

Self-Play 真正强大的地方，不在于“自己和自己下棋”，而在于它提供了一种无需完全依赖人工标注、能够不断生成训练信号并自我提升的机制。但从单任务超人到通用智能，中间跨越的不是一个数量级的算力，而是一整套训练组织方式的根本变化。AGI 所面对的世界不是单一游戏，而是成千上万个任务、目标和场景的混合体，它们没有统一规则，也没有统一终局分数。

因此，如果 Self-Play 真要走向 AGI，它必须从单环境优化器进化成多任务、自组织、可持续积累的学习系统。本文将系统阐述这一进化过程中必须解决的六个核心问题，分析它们之间的依赖关系，并探讨其深层的智能本质。

一、问题的本质：从”能不能自博弈”到”能不能组织学习”

当人们谈论 Self-Play 时，脑海中往往浮现的是一个传统图景：给定一个明确任务，定义输赢规则，然后让模型不断左右互博，最后根据终局结果更新参数。但如果目标是 AGI，这种想象其实过于狭隘。

现实世界中的复杂任务，往往既没有清晰的终局奖励，也没有唯一正确答案。更重要的是，人类自己并不是通过“端到端吃最终结果”来学习的。人类的学习过程更接近这样一个迭代循环：

面对复杂问题时，先抓住主要矛盾，忽略大量细枝末节。
将复杂目标分解成少数几个关键子问题。
判断当前最应该补哪一块能力，确定学习的先后顺序。
在局部练习中不断获得反馈并修正错误。
最后将这些局部能力重新整合成完整的问题解决能力。

这意味着，真正值得研究的不是”模型能否和自己打很多局”，而是：模型能否自己发现问题、组织课程、局部纠错、长期积累，并且不在这个过程中逐渐跑偏。

如果做不到这些，所谓的 Self-Play 充其量只是在重复训练，无法产生真正的能力增长；如果做到了这些，它才可能逐渐逼近一种更通用的学习机制。

二、Self-Play 走向 AGI 的六个核心问题

接下来，我们将上述框架明确整理成六个核心问题。在我们看来，这六个问题构成了”通过 Self-Play 通往 AGI”这条路线的真正瓶颈，每一个都尚未被研究透彻。

2.1 自动任务提炼与分解

能否稳定抓住主要矛盾？

第一个问题不是”能不能拆任务”，而是：模型能不能从复杂问题中抓住主要矛盾，而不是陷入细枝末节？

任务分解听起来是一个很自然的过程，但如果没有“抓大放小”的约束，模型很容易走向两个极端：要么拆得过细，形成一大堆低价值的 checklist；要么抓不住重点，把大量算力消耗在无关紧要的局部优化上。这恰恰是当前很多大模型的通病：它们看上去很努力，能列出很多条目、展开很多分析，但真正重要的关键矛盾却没有被准确提炼出来，甚至还会在次要问题上“钻牛角尖”。

一个好的 Self-Play 系统首先必须具备一种能力：它不是机械地把大问题切碎，而是能够把复杂任务压缩成少数几个最关键、最值得学习的子问题。这里的重点不是”分解得多完整”，而是“提炼得够不够准”。如果这一关做不好，后面的局部反馈、训练调度、长期积累都会建立在错误的骨架上。

2.2 局部反馈获取

能否形成清晰、可迁移的中间评价？

一旦提炼出关键子问题，系统能否对这些子问题得到稳定、稠密的反馈？

传统 Self-Play 往往依赖终局奖励：赢了还是输了，解对了还是解错了。但在 AGI 面向的复杂任务中，最终结果往往模糊、稀疏、延迟，直接端到端学习很难有效。因此，关键不再是为每个大任务都设计一个完美验证器，而是要让模型在关键子问题层面获得反馈。

例如：

做 PPT 时，不是只看最终”做得好不好”，而是看内容组织是否更清晰、层次是否更分明、重点是否更突出。
写文章 时，也不只是看最终得分，而是看论点是否聚焦、论证是否连贯、结构是否合理。

这些反馈未必完全客观，但它们比终局反馈更近、更密，也更有助于归因。

这里还有一个重要的判断：我们不应把“跨领域迁移的评价器设计”当作全部负担压在人类手工设计上。相反，我们应当对大模型的泛化能力有一定信心。一旦任务被提炼得足够简单、关键、结构清晰，很多局部反馈本身就更容易跨任务共享。也就是说，迁移更可能来自”问题被提炼对了”，而不是我们事先替模型设计好了所有迁移规则。

2.3 自主课程发现

能否安排合理的学习顺序与轻重缓急？

在给定成千上万个任务之后，系统能否自己找到合适的学习顺序？

很多人谈 Self-Play 时，默认任务已经给定，训练过程只是不断采样、不断对弈。但真正难的地方在于：给你 10000 个任务——

到底先学哪个？
哪些任务现在最值得投入算力？
哪些任务是基础能力，应该优先打底？
哪些任务虽然看上去难，但目前阶段练它们只是浪费？
哪些任务已经掌握得差不多了，不必再花太多 rollout？

这不是一个简单的采样问题，而是课程发现问题。一个真正强大的 Self-Play 系统，不仅要会学，还要会安排自己怎么学。它必须具备某种“学习调度智能”：在有限预算下决定当前最重要的训练方向，自动形成先后顺序与轻重缓急。

如果没有这一层，所谓多任务 Self-Play 很容易退化成一种粗暴的均匀刷题：每个任务都练一点，但没有真正形成能力增长的路径。而人类学习之所以有效，很大程度上恰恰在于我们并不是平均分配精力，而是会不断调整重点。

2.4 大规模 rollout 与精细归因

能否在可承受成本下有效学习？

即使上面三条都成立，训练系统能否以可承受的成本，把这些学习过程真正跑起来？

Self-Play 的一个现实瓶颈在于 rollout 成本非常高。长轨迹、多轮推理、反思修改、工具使用、分支尝试，都会迅速推高采样成本。而复杂任务中的 reward 又是局部化的、延迟的，这就带来了另一个问题：即便生成了轨迹，系统能否准确知道究竟是哪一步带来了改进，哪一步导致了失败？

所以这里其实是两个问题绑在一起：

能不能便宜地进行大规模 rollout。
能不能把 credit 细致地归因回关键步骤和关键决策。

如果 rollout 太贵，系统无法持续进化；如果归因太粗，系统虽然在训练，但学不到真正有用的东西。这一层决定的是：前面的高层学习组织，能否被真正转化为可执行的训练过程。

2.5 可持续经验积累

能否吸收新经验而不灾难性遗忘？

模型能不能一边学新东西，一边不把旧能力洗掉？

这其实是所有持续学习系统都会面对的经典难题。如果 Self-Play 想成为一条通向 AGI 的长期路径，它就不能只是“这一轮会了、下一轮又忘了”。否则系统看起来一直在训练，实际上只是不断重写缓存，能力并没有真正累积。

一个可以长期 Self-Play 的系统，必须具备某种稳定的经验沉淀机制。它要能够把新学到的策略、抽象、技巧整合进已有能力结构，而不是不断发生局部覆盖。否则，多任务学习越往后，任务之间的相互干扰就越严重，系统越可能陷入“学后面忘前面”的恶性循环。这一点也说明，通向 AGI 的关键不只是更大的模型容量，而是更强的长期记忆与持续学习机制。

2.6 目标对齐

能否防止长期 Self-Play 中的目标漂移与自我欺骗？

系统能不能在长期自我博弈中，不逐渐偏离人类真正关心的目标？

这是一个非常危险但容易被忽视的问题。一个系统即便能够稳定分解任务、获得局部反馈、安排课程、低成本 rollout、持续记忆，也仍然可能学歪。它可能学会讨好自己的局部评价器，学会钻任务分解的空子，学会在某些看似合理的指标上不断刷分，最终形成一个稳定但错误的自强化闭环。

因此，”不遗忘”还不够，系统还必须”不跑偏”。它记住的东西不只是要多，还得是对的；它优化的目标不只是要稳定，还得真正贴近人类想要的能力提升。这一点是所有长期 Self-Play 路线都必须面对的根本问题。否则系统越会学习，反而可能越会自我欺骗。

三、六个问题的链式依赖关系

需要特别强调的是，这六个问题并不是六个松散的 checklist。它们之间有明显的链式依赖关系，形成了一个完整的学习系统闭环：

阶段	角色	要回答的问题
1. 起点	抽象	抓住主要矛盾，提炼出关键问题
2. 基础	反馈	对这些关键问题形成有效的局部反馈
3. 调度	课程	决定先学什么、后学什么、哪里多练、哪里少练
4. 执行	训练系统	将决策转化为可扩展的 rollout 与更新
5. 积累	记忆	将新学到的能力稳定整合进已有知识结构
6. 对齐	方向	保证整个过程不偏离人类真正关心的目标

从这个角度看，通向 AGI 的 Self-Play 从来不是”多打一会儿”这么简单，而是一个完整的学习系统工程。任何一个环节的缺失，都会导致整个系统无法有效运转。

四、为什么这些问题至今尚未被研究透彻

也许有人会问：这些问题听起来都很自然，为什么直到今天还没有被真正解决？答案是：它们每一条都不只是工程难题，而是会触及更深层的智能本质问题。

任务提炼的问题，会触及“什么才算关键矛盾”这一认知核心。
局部反馈的问题，会触及“什么样的中间进展是可学习的”。
课程发现的问题，会触及“能力增长应当遵循怎样的顺序”。
rollout 与归因的问题，会触及“如何在长程决策中高效学习”。
持续记忆的问题，会触及“知识如何沉淀为稳定结构”。
目标漂移的问题，则会触及“系统如何在长期自我优化中保持与人类目标的一致”。

换句话说，这些并不是一些零散的训练技巧，而是在不同层面上共同定义了“一个系统如何像真正的学习者那样成长”。解决这些问题，不仅需要工程上的突破，更需要对智能本身有更深刻的理解。

结论

本文并不认为 Self-Play 天然就等于 AGI，也不认为只要把今天的左右互博规模放大十倍、一百倍，AGI 就会自然出现。但我们确实认为，如果我们认真追问“一个系统如何在较少人工监督下持续自我提升”，那么 Self-Play 会逼着我们正面回答一批最核心的问题：

它如何发现什么值得学？
它如何抓住重点？
它如何获得局部反馈？
它如何安排学习顺序？
它如何低成本训练？
它如何长期积累经验？
它如何不在这个过程中学歪？

如果这些问题被真正打通，那么 Self-Play 很可能不再只是某种特定游戏中的训练技巧，而会变成一种更接近通用智能的学习机制。

而如果这些问题始终没有被解决，那么无论模型多大、算力多强，所谓 Self-Play 最终都可能只是局部成功，而无法真正迈向 AGI。

通向 AGI 的关键，未必是让模型更频繁地和自己对抗，而是让模型学会如何像一个真正的学习者那样：自己发现重点、组织训练、积累经验，并持续修正自己。

居奇 (Ju Qi)

摘要

引言