📖 教育经历

华中科技大学 — 武汉
2019 年 9 月 - 2026 年 6 月,控制科学与工程博士,人工智能与自动化学院,师从罗云峰教授。
研究方向:大语言模型、强化学习、博弈论。
🧑💼 工作经历

字节跳动 Seed — 豆包大模型后训练(2026 年 7 月 ~ 至今)
在字节跳动 Seed 团队从事豆包大模型的后训练工作。聚焦于通过 SFT、RLHF / RLAIF 以及面向推理的奖励建模等方法持续提升模型的对齐质量与综合能力,目标是进一步增强豆包在指令跟随、复杂推理与工具使用等方向上的表现。
📝 学术论文
- Preference-CFR Beyond Nash Equilibrium for Better Game Strategies. (ICML 2025) 提出偏好反事实遗憾最小化算法(Pref-CFR),通过引入偏好与脆弱性参数实现多样化的纳什均衡求解,可在不损失策略强度的前提下定制不同风格的策略,并在德州扑克中展示了不同的打法风格。
- Accelerating Nash Equilibrium Convergence in Monte Carlo Settings Through Counterfactual Value Based Fictitious Play (NeurIPS 2024). 提出基于反事实值的蒙特卡洛虚拟对弈算法(MCCFVFP),在德州扑克等大规模复杂博弈中相比传统 MCCFR 收敛速度提升 20–50%。
- Real-Time Weighted Fictitious Play: Converging to Equilibrium at the Speed of $O(T^{-1})$ in Games. 提出实时加权虚拟对弈算法(RTWFP),在两人零和博弈中实现 $O(T^{-1})$ 的收敛速度,并扩展到相关均衡及连续时间 FP,在可扩展性与速度上均优于现有算法。
- ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models. 提出基于 ELO 评级的序列奖励方法(ERRL),使用序数偏好与 ELO 评分替代传统数值奖励,在 Atari 等长程强化学习任务中取得领先性能。
💻 实习经历

字节跳动 Seed — 基于博弈的大模型后训练(2025 年 6 月 ~ 2025 年 10 月)
- 项目目标:将博弈论问题引入大语言模型的后训练流程,提升 LLM 能力上限。
- 项目成果:交付了面向博弈场景的 LLM 评估框架与训练框架;训练出的德州扑克 LLM AI 在指令遵循能力提升的同时,整体表现优于 GPT-o3、Grok-4 等模型。
- 个人工作:提出了一种带有 "LLM Reflection" 机制的新算法,在博弈场景中优于传统强化学习方法;搭建了面向博弈的 LLM 评估框架(已集成进团队体系)以及基于 Verl 的训练框架。

vivo — 基于强化学习的 Stable Diffusion 模型微调(2025 年 2 月 ~ 2025 年 4 月)
- 项目目标:使用强化学习对 Stable Diffusion 进行微调,提升生成质量与提示词对齐效果。
- 项目成果:初步结果显示生成图像在质量、文本相关性以及与人类偏好的对齐上均有明显提升,正在持续优化奖励设计与扩大分布式训练规模。
- 个人工作:设计了融合美学评分、文本相关性、多样性与人类反馈的复合奖励模型,并调优了 SD 的强化学习训练链路。
Fen AI — 德州扑克 AI(2023 年 9 月 ~ 2024 年 1 月)
- 项目目标:打造一款对标 Pluribus(业内知名德州扑克 AI)水平的 AI。
- 项目成果:最终 AI 在两人德州扑克中达到了职业玩家水平,多人德州扑克 AI 仍在持续开发中。
- 个人工作:参与核心算法的研发(如 MCCFR、MCCFR pruning),搭建了策略存储与结果可视化等基础组件,并负责算法的参数调优与测试。

字节跳动朝夕光年 — 强化学习实习(2021 年 7 月 ~ 2022 年 3 月)
- 项目目标:为游戏《航海王:燃烧意志》设计多风格 AI 陪玩 NPC。
- 项目成果:在原有 AI 训练框架之上加入风格演化模块,核心指标提升 80–120%,并在玩法风格上形成清晰区分,部分 AI 已达到可上线水平。
- 个人工作:作为该项目的主要执行者,在导师指导下实现了多风格 AI 算法,并探索了人类偏好与强化学习相融合的方法,最终沉淀为一篇总结研究发现与潜在应用的研究论文。
华润集团 — 土地竞拍(2021 年 2 月 ~ 2021 年 6 月)
- 项目目标:为华润集团设计 “首/末” 类型土地竞拍中的报价策略。
- 项目成果:该策略获华润置地集团认可,并在数十宗(每宗超 1 亿美元)的土地竞拍中部署。算法表现优于集团专家方案,报价精度提升 3–4 倍,中标概率提升约 5%,最终被采纳为集团标准土地竞拍策略。
- 个人工作:基于历史竞拍数据搭建 “首/末” 类竞拍仿真环境,使用 Fictitious Play 算法开发竞价策略;亲历 3 次真实竞拍,总报价规模约 10 亿美元,并据此持续打磨模型。
📝 最新博客
简化与复杂的辩证:决策思维的历史演进与实践统一
人类对世界的认知始终在两个极端之间摇摆:一端是试图用最简洁的法则解释一切的还原论冲动,另一端是承认世界无限复杂的系统论视角。这种摇摆并非思维的混乱,而是人类理性发展的必然轨迹。从中世纪经院哲学的奥卡姆剃刀,到古希腊传承至今的第一性原理,再到中国革命实践中诞生的主要矛盾论,这些影响了人类历史进程的思想工具,本质上都是人类在面对复杂世界时发展出的简化武器。然而,当我们将这些简化工具不加区分地应用于所有场景时,又会不可避免地陷入过度简化...