RL | CheaSim Blog

前两篇刚好写了 SGA-MCTS 和 SkillX，今天这篇 SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization 正好能把这条线补完整。如果说 SGA-MCTS 和 SkillX 都是在讨论“怎么把 Agent 经验放到外部系统里”，那 Skill0 问的是另一个更狠的问题：外部技能库能不能只在训练时用，最后把技能内化到模型参数里，让 Agent 测试时不再依赖 runtime skill retrieval？ ...