从 Self-Play 到 AGI:一条可能的道路,以及六个尚未解决的根本问题

May 15, 2026

TL;DR. Self-Play 是通向 AGI 的可能路径之一,但”左右互博 + 更多算力”是一种误读。真正的瓶颈在于系统能否组织自己的学习。本文拆解六个紧密耦合的问题。

摘要

过去十几年,自博弈(Self-Play)在围棋、扑克等规则明确的封闭环境中取得了突破性进展,引发了关于其能否成为通用人工智能(AGI)训练范式的广泛讨论。

本文认为,Self-Play 确实可能是通向 AGI 的重要路径之一,但将其简单等同于“左右互博”并通过扩大规模来实现 AGI 是一种误解。真正的瓶颈不在于单点技术,而在于构建一套能够像人类一样自主组织学习的完整系统

本文系统梳理了 Self-Play 走向 AGI 必须解决的六个核心问题:

  1. 自动任务提炼与分解
  2. 局部反馈获取与迁移
  3. 自主课程发现
  4. 低成本 rollout 与精细归因
  5. 可持续经验积累
  6. 目标漂移与自我欺骗防范

这六个问题形成了一条紧密耦合的依赖链,共同定义了“一个系统如何像真正的学习者那样成长”

关键词: 自博弈;通用人工智能;自主学习;课程发现;持续学习;对齐问题。


引言

自 AlphaGo 在 2016 年击败李世石以来,Self-Play 已经成为人工智能领域最引人注目的技术之一。从围棋到麻将,从星际争霸到德州扑克,一个又一个封闭环境中,系统通过不断与自己对弈,最终达到甚至超越了人类顶级水平。这些惊人的成就自然引发了一个根本性问题:

既然 Self-Play 在这些任务上如此强大,那么它能否进一步扩展,成为通向更通用智能的训练范式?

对此,学术界和工业界形成了两种极端看法。一种观点认为,Self-Play 只适用于“玩具世界”,离复杂多变的真实世界太远;另一种观点则认为,只要算力足够大、模型足够强,Self-Play 自然就能扩展到一切任务。本文认为这两种看法都不够准确。

Self-Play 真正强大的地方,不在于“自己和自己下棋”,而在于它提供了一种无需完全依赖人工标注、能够不断生成训练信号并自我提升的机制。但从单任务超人到通用智能,中间跨越的不是一个数量级的算力,而是一整套训练组织方式的根本变化。AGI 所面对的世界不是单一游戏,而是成千上万个任务、目标和场景的混合体,它们没有统一规则,也没有统一终局分数。

因此,如果 Self-Play 真要走向 AGI,它必须从单环境优化器进化成多任务、自组织、可持续积累的学习系统。本文将系统阐述这一进化过程中必须解决的六个核心问题,分析它们之间的依赖关系,并探讨其深层的智能本质。


一、问题的本质:从”能不能自博弈”到”能不能组织学习”

当人们谈论 Self-Play 时,脑海中往往浮现的是一个传统图景:给定一个明确任务,定义输赢规则,然后让模型不断左右互博,最后根据终局结果更新参数。但如果目标是 AGI,这种想象其实过于狭隘。

现实世界中的复杂任务,往往既没有清晰的终局奖励,也没有唯一正确答案。更重要的是,人类自己并不是通过“端到端吃最终结果”来学习的。人类的学习过程更接近这样一个迭代循环:

  1. 面对复杂问题时,先抓住主要矛盾,忽略大量细枝末节。
  2. 将复杂目标分解成少数几个关键子问题
  3. 判断当前最应该补哪一块能力,确定学习的先后顺序
  4. 局部练习中不断获得反馈并修正错误。
  5. 最后将这些局部能力重新整合成完整的问题解决能力。

这意味着,真正值得研究的不是”模型能否和自己打很多局”,而是:模型能否自己发现问题、组织课程、局部纠错、长期积累,并且不在这个过程中逐渐跑偏。

如果做不到这些,所谓的 Self-Play 充其量只是在重复训练,无法产生真正的能力增长;如果做到了这些,它才可能逐渐逼近一种更通用的学习机制。


二、Self-Play 走向 AGI 的六个核心问题

接下来,我们将上述框架明确整理成六个核心问题。在我们看来,这六个问题构成了”通过 Self-Play 通往 AGI”这条路线的真正瓶颈,每一个都尚未被研究透彻

2.1 自动任务提炼与分解

能否稳定抓住主要矛盾?

第一个问题不是”能不能拆任务”,而是:模型能不能从复杂问题中抓住主要矛盾,而不是陷入细枝末节?

任务分解听起来是一个很自然的过程,但如果没有“抓大放小”的约束,模型很容易走向两个极端:要么拆得过细,形成一大堆低价值的 checklist;要么抓不住重点,把大量算力消耗在无关紧要的局部优化上。这恰恰是当前很多大模型的通病:它们看上去很努力,能列出很多条目、展开很多分析,但真正重要的关键矛盾却没有被准确提炼出来,甚至还会在次要问题上“钻牛角尖”

一个好的 Self-Play 系统首先必须具备一种能力:它不是机械地把大问题切碎,而是能够把复杂任务压缩成少数几个最关键、最值得学习的子问题。这里的重点不是”分解得多完整”,而是“提炼得够不够准”。如果这一关做不好,后面的局部反馈、训练调度、长期积累都会建立在错误的骨架上。

2.2 局部反馈获取

能否形成清晰、可迁移的中间评价?

一旦提炼出关键子问题,系统能否对这些子问题得到稳定、稠密的反馈?

传统 Self-Play 往往依赖终局奖励:赢了还是输了,解对了还是解错了。但在 AGI 面向的复杂任务中,最终结果往往模糊、稀疏、延迟,直接端到端学习很难有效。因此,关键不再是为每个大任务都设计一个完美验证器,而是要让模型在关键子问题层面获得反馈

例如:

  • 做 PPT 时,不是只看最终”做得好不好”,而是看内容组织是否更清晰、层次是否更分明、重点是否更突出。
  • 写文章 时,也不只是看最终得分,而是看论点是否聚焦、论证是否连贯、结构是否合理。

这些反馈未必完全客观,但它们比终局反馈更近、更密,也更有助于归因

这里还有一个重要的判断:我们不应把“跨领域迁移的评价器设计”当作全部负担压在人类手工设计上。相反,我们应当对大模型的泛化能力有一定信心。一旦任务被提炼得足够简单、关键、结构清晰,很多局部反馈本身就更容易跨任务共享。也就是说,迁移更可能来自”问题被提炼对了”,而不是我们事先替模型设计好了所有迁移规则。

2.3 自主课程发现

能否安排合理的学习顺序与轻重缓急?

在给定成千上万个任务之后,系统能否自己找到合适的学习顺序?

很多人谈 Self-Play 时,默认任务已经给定,训练过程只是不断采样、不断对弈。但真正难的地方在于:给你 10000 个任务——

  • 到底先学哪个?
  • 哪些任务现在最值得投入算力?
  • 哪些任务是基础能力,应该优先打底?
  • 哪些任务虽然看上去难,但目前阶段练它们只是浪费?
  • 哪些任务已经掌握得差不多了,不必再花太多 rollout?

这不是一个简单的采样问题,而是课程发现问题。一个真正强大的 Self-Play 系统,不仅要会学,还要会安排自己怎么学。它必须具备某种“学习调度智能”:在有限预算下决定当前最重要的训练方向,自动形成先后顺序与轻重缓急。

如果没有这一层,所谓多任务 Self-Play 很容易退化成一种粗暴的均匀刷题:每个任务都练一点,但没有真正形成能力增长的路径。而人类学习之所以有效,很大程度上恰恰在于我们并不是平均分配精力,而是会不断调整重点。

2.4 大规模 rollout 与精细归因

能否在可承受成本下有效学习?

即使上面三条都成立,训练系统能否以可承受的成本,把这些学习过程真正跑起来?

Self-Play 的一个现实瓶颈在于 rollout 成本非常高。长轨迹、多轮推理、反思修改、工具使用、分支尝试,都会迅速推高采样成本。而复杂任务中的 reward 又是局部化的、延迟的,这就带来了另一个问题:即便生成了轨迹,系统能否准确知道究竟是哪一步带来了改进,哪一步导致了失败?

所以这里其实是两个问题绑在一起:

  1. 能不能便宜地进行大规模 rollout
  2. 能不能把 credit 细致地归因回关键步骤和关键决策

如果 rollout 太贵,系统无法持续进化;如果归因太粗,系统虽然在训练,但学不到真正有用的东西。这一层决定的是:前面的高层学习组织,能否被真正转化为可执行的训练过程。

2.5 可持续经验积累

能否吸收新经验而不灾难性遗忘?

模型能不能一边学新东西,一边不把旧能力洗掉?

这其实是所有持续学习系统都会面对的经典难题。如果 Self-Play 想成为一条通向 AGI 的长期路径,它就不能只是“这一轮会了、下一轮又忘了”。否则系统看起来一直在训练,实际上只是不断重写缓存,能力并没有真正累积。

一个可以长期 Self-Play 的系统,必须具备某种稳定的经验沉淀机制。它要能够把新学到的策略、抽象、技巧整合进已有能力结构,而不是不断发生局部覆盖。否则,多任务学习越往后,任务之间的相互干扰就越严重,系统越可能陷入“学后面忘前面”的恶性循环。这一点也说明,通向 AGI 的关键不只是更大的模型容量,而是更强的长期记忆与持续学习机制

2.6 目标对齐

能否防止长期 Self-Play 中的目标漂移与自我欺骗?

系统能不能在长期自我博弈中,不逐渐偏离人类真正关心的目标?

这是一个非常危险但容易被忽视的问题。一个系统即便能够稳定分解任务、获得局部反馈、安排课程、低成本 rollout、持续记忆,也仍然可能学歪。它可能学会讨好自己的局部评价器,学会钻任务分解的空子,学会在某些看似合理的指标上不断刷分,最终形成一个稳定但错误的自强化闭环。

因此,”不遗忘”还不够,系统还必须”不跑偏”。它记住的东西不只是要多,还得是对的;它优化的目标不只是要稳定,还得真正贴近人类想要的能力提升。这一点是所有长期 Self-Play 路线都必须面对的根本问题。否则系统越会学习,反而可能越会自我欺骗。


三、六个问题的链式依赖关系

需要特别强调的是,这六个问题并不是六个松散的 checklist。它们之间有明显的链式依赖关系,形成了一个完整的学习系统闭环:

阶段 角色 要回答的问题
1. 起点 抽象 抓住主要矛盾,提炼出关键问题
2. 基础 反馈 对这些关键问题形成有效的局部反馈
3. 调度 课程 决定先学什么、后学什么、哪里多练、哪里少练
4. 执行 训练系统 将决策转化为可扩展的 rollout 与更新
5. 积累 记忆 将新学到的能力稳定整合进已有知识结构
6. 对齐 方向 保证整个过程不偏离人类真正关心的目标

从这个角度看,通向 AGI 的 Self-Play 从来不是”多打一会儿”这么简单,而是一个完整的学习系统工程。任何一个环节的缺失,都会导致整个系统无法有效运转。


四、为什么这些问题至今尚未被研究透彻

也许有人会问:这些问题听起来都很自然,为什么直到今天还没有被真正解决?答案是:它们每一条都不只是工程难题,而是会触及更深层的智能本质问题

  • 任务提炼的问题,会触及“什么才算关键矛盾”这一认知核心。
  • 局部反馈的问题,会触及“什么样的中间进展是可学习的”
  • 课程发现的问题,会触及“能力增长应当遵循怎样的顺序”
  • rollout 与归因的问题,会触及“如何在长程决策中高效学习”
  • 持续记忆的问题,会触及“知识如何沉淀为稳定结构”
  • 目标漂移的问题,则会触及“系统如何在长期自我优化中保持与人类目标的一致”

换句话说,这些并不是一些零散的训练技巧,而是在不同层面上共同定义了“一个系统如何像真正的学习者那样成长”。解决这些问题,不仅需要工程上的突破,更需要对智能本身有更深刻的理解。


结论

本文并不认为 Self-Play 天然就等于 AGI,也不认为只要把今天的左右互博规模放大十倍、一百倍,AGI 就会自然出现。但我们确实认为,如果我们认真追问“一个系统如何在较少人工监督下持续自我提升”,那么 Self-Play 会逼着我们正面回答一批最核心的问题:

  • 它如何发现什么值得学
  • 它如何抓住重点
  • 它如何获得局部反馈
  • 它如何安排学习顺序
  • 它如何低成本训练
  • 它如何长期积累经验?
  • 它如何不在这个过程中学歪

如果这些问题被真正打通,那么 Self-Play 很可能不再只是某种特定游戏中的训练技巧,而会变成一种更接近通用智能的学习机制。

而如果这些问题始终没有被解决,那么无论模型多大、算力多强,所谓 Self-Play 最终都可能只是局部成功,而无法真正迈向 AGI。

通向 AGI 的关键,未必是让模型更频繁地和自己对抗,而是让模型学会如何像一个真正的学习者那样:自己发现重点、组织训练、积累经验,并持续修正自己。