不要RL！不要SFT！谷歌推出「监督强化学习」框架

小模型在解决复杂问题时，可验证奖励强化学习（RLVR）、监督微调（SFT）等传统方法经常失效。

在一项新研究中，谷歌团队推出了“监督强化学习”（Supervised Reinforcement Learning，SRL）框架，有效地解决了这一问题。

而且，SRL + RLVR 的组合，能够进一步提升整体性能。

除了推理类基准测试之外，SRL 还可以有效地泛化到 Agentic 软件工程任务中，是一个鲁棒且通用的、面向推理大语言模型（LLM）的训练框架。

1️⃣ 背景LLM 在需要多步推理的问题上往往表现不佳。而对于小型开源模型而言：

1）RLVR 在即使经过多次尝试也很难采样到正确解决方案时，往往导致失败；2）SFT 倾向于通过僵硬的逐个 token 模仿对长演示进行过拟合，缺乏灵活性。

2️⃣ 方法不同于 RLVR 和 SFT，SRL 把复杂推理问题转化为一个逐步决策过程，在专家指导下逐步探索，每一步就是一个小型的学习过程，有即时反馈、有独立思考空间。

具体而言，专家的示范过程被分解为一系列中间动作，每一步都代表一个有意义的决策节点。训练过程中，模型首先生成内部独白，阐述自己的思考过程，然后再执行一个“动作”。在每个步骤上，SRL 都会根据模型预测的动作与专家对应动作之间的相似度给予奖励，从而实现细粒度、可高效计算的监督信号，并能在大规模数据集上扩展应用。

最终，SRL 使小型模型也能学会以往 RLVR 和 SFT 都难以掌握的复杂任务。

3️⃣ 结果SRL 让模型能在复杂的、多步骤的问题上获得稳定学习信号，培养更结构化的推理习惯。

实验证明，在数学推理和 Agentic 软件工程任务中的性能，都优于现有方法；当与 RLVR 结合（即 SRL→RLVR）时，还能形成一种课程学习（curriculum learning）策略，进一步提升性能。

谷歌团队认为，SRL 是一种鲁棒的、可泛化的推理导向训练框架，为训练能够真正“理解与思考”的 AI 模型提供新的路径。

#大模型 #LLM #推理 #强化学习 #SFT #谷歌 #论文 #学术

【纠错】【责任编辑:duan990222】

深度观察

新华全媒头条丨过年囤菜切勿盲目塞进冰箱不同食材要用不同招