📖 教育经历

2019 年 9 月 - 2026 年 6 月，控制科学与工程博士，人工智能与自动化学院，师从罗云峰教授。

研究方向：大语言模型、强化学习、博弈论。

🧑‍💼 工作经历

在字节跳动 Seed 团队从事豆包大模型的后训练工作。聚焦于通过 SFT、RLHF / RLAIF 以及面向推理的奖励建模等方法持续提升模型的对齐质量与综合能力，目标是进一步增强豆包在指令跟随、复杂推理与工具使用等方向上的表现。

Preference-CFR Beyond Nash Equilibrium for Better Game Strategies. (ICML 2025) 提出偏好反事实遗憾最小化算法（Pref-CFR），通过引入偏好与脆弱性参数实现多样化的纳什均衡求解，可在不损失策略强度的前提下定制不同风格的策略，并在德州扑克中展示了不同的打法风格。
Accelerating Nash Equilibrium Convergence in Monte Carlo Settings Through Counterfactual Value Based Fictitious Play (NeurIPS 2024). 提出基于反事实值的蒙特卡洛虚拟对弈算法（MCCFVFP），在德州扑克等大规模复杂博弈中相比传统 MCCFR 收敛速度提升 20–50%。
Real-Time Weighted Fictitious Play: Converging to Equilibrium at the Speed of $O(T^{-1})$ in Games. 提出实时加权虚拟对弈算法（RTWFP），在两人零和博弈中实现 $O(T^{-1})$ 的收敛速度，并扩展到相关均衡及连续时间 FP，在可扩展性与速度上均优于现有算法。
ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models. 提出基于 ELO 评级的序列奖励方法（ERRL），使用序数偏好与 ELO 评分替代传统数值奖励，在 Atari 等长程强化学习任务中取得领先性能。

项目目标：将博弈论问题引入大语言模型的后训练流程，提升 LLM 能力上限。
项目成果：交付了面向博弈场景的 LLM 评估框架与训练框架；训练出的德州扑克 LLM AI 在指令遵循能力提升的同时，整体表现优于 GPT-o3、Grok-4 等模型。
个人工作：提出了一种带有 "LLM Reflection" 机制的新算法，在博弈场景中优于传统强化学习方法；搭建了面向博弈的 LLM 评估框架（已集成进团队体系）以及基于 Verl 的训练框架。

项目目标：为游戏《航海王：燃烧意志》设计多风格 AI 陪玩 NPC。
项目成果：在原有 AI 训练框架之上加入风格演化模块，核心指标提升 80–120%，并在玩法风格上形成清晰区分，部分 AI 已达到可上线水平。
个人工作：作为该项目的主要执行者，在导师指导下实现了多风格 AI 算法，并探索了人类偏好与强化学习相融合的方法，最终沉淀为一篇总结研究发现与潜在应用的研究论文。

项目目标：为华润集团设计 “首/末” 类型土地竞拍中的报价策略。
项目成果：该策略获华润置地集团认可，并在数十宗（每宗超 1 亿美元）的土地竞拍中部署。算法表现优于集团专家方案，报价精度提升 3–4 倍，中标概率提升约 5%，最终被采纳为集团标准土地竞拍策略。
个人工作：基于历史竞拍数据搭建 “首/末” 类竞拍仿真环境，使用 Fictitious Play 算法开发竞价策略；亲历 3 次真实竞拍，总报价规模约 10 亿美元，并据此持续打磨模型。

2026 年 05 月 24 日

AlphaGo 能在封闭棋盘上击败人类顶尖棋手，却做不出《隆中对》式的开放战略推演。这篇文章从 MCTS 与人类决策的对比出发，剖析为什么真正的难点不是「再多算几步」，而是「思考方式根本不同」。

2026 年 05 月 15 日

Self-Play 在封闭环境下取得了巨大成功，但通向 AGI 远不止「扩规模」这么简单。本文梳理了任何自博弈系统若想真正像学习者一样成长，必须正面回答的六个核心问题。

性格开朗乐观，喜欢迎接有挑战性的任务。生活中热爱围棋、电子游戏和足球。

人生的一个巧合是：我喜欢的几乎所有东西——围棋、星际争霸、足球——都先后成为了 DeepMind 的研究对象。这个巧合也是我深信 AI 力量的原因之一。我的目标是基于大语言模型，通过 强化学习、博弈论与多智能体系统 的结合，在研究与产业落地两个维度推进 AGI 的前沿。