Command Palette
Search for a command to run...
基于最小人类监督的引导式自进化LLM
基于最小人类监督的引导式自进化LLM
Wenhao Yu Zhenwen Liang Chengsong Huang Kishan Panaganti Tianqing Fang Haitao Mi Dong Yu
Abstract
人工智能的自我演化长期以来被视为通向超级智能的一条路径,即模型能够自主地从自身的学习经验中获取、优化并内化知识。然而在实践中,缺乏引导的自我演化系统往往在训练初期便迅速陷入停滞,甚至随着训练进程出现性能退化。这类失败通常源于概念漂移(concept drift)、多样性崩溃(diversity collapse)以及错误演化(mis-evolution)等问题,导致模型不断强化自身偏见,最终收敛至低熵行为模式。为实现模型在低人类监督下稳定且可控的自我演化,我们提出R-Few——一种基于引导式自对弈(Self-Play)的挑战者-求解者框架,通过上下文锚定(in-context grounding)与混合训练机制引入轻量级人类监督。在每一轮迭代中,挑战者(Challenger)采样少量人工标注样本,用于引导合成问题的生成;而求解者(Solver)则在在线、难度自适应的课程机制下,联合训练于人类标注数据与合成数据之上。在数学推理与通用推理等多个基准测试中,R-Few展现出持续且迭代式的性能提升。例如,在数学任务上,Qwen3-8B-Base模型相较于R-Zero提升了+3.0分,其性能已达到与General-Reasoner相当的水平,而后者训练所用的人类数据量是前者的20倍。消融实验验证了上下文锚定的挑战者训练与基于课程的求解者训练之间的互补作用;进一步分析表明,R-Few有效缓解了概念漂移问题,实现了更稳定、更可控的协同演化动态。