Skill0:训练时借技能,推理时把技能撤掉

前两篇刚好写了 SGA-MCTS 和 SkillX,今天这篇 SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization 正好能把这条线补完整。 如果说 SGA-MCTS 和 SkillX 都是在讨论“怎么把 Agent 经验放到外部系统里”,那 Skill0 问的是另一个更狠的问题:外部技能库能不能只在训练时用,最后把技能内化到模型参数里,让 Agent 测试时不再依赖 runtime skill retrieval? ...

June 24, 2026 · 5 min · CheaSim