不要RL!不要SFT!谷歌推出「监督强化学习」框架
不要RL!不要SFT!谷歌推出「监督强化学习」框架
  • 2026-04-17 07:00:56
    来源:长目飞耳网

    不要RL!不要SFT!谷歌推出「监督强化学习」框架

    字体:

    小模型在解决复杂问题时,可验证奖励强化学习(RLVR)、监督微调(SFT)等传统方法经常失效。

    在一项新研究中,谷歌团队推出了“监督强化学习”(Supervised Reinforcement Learning,SRL)框架,有效地解决了这一问题。

    而且,SRL + RLVR 的组合,能够进一步提升整体性能。

    除了推理类基准测试之外,SRL 还可以有效地泛化到 Agentic 软件工程任务中,是一个鲁棒且通用的、面向推理大语言模型(LLM)的训练框架。

    1️⃣ 背景LLM 在需要多步推理的问题上往往表现不佳。而对于小型开源模型而言:

    1)RLVR 在即使经过多次尝试也很难采样到正确解决方案时,往往导致失败;2)SFT 倾向于通过僵硬的逐个 token 模仿对长演示进行过拟合,缺乏灵活性。

    2️⃣ 方法不同于 RLVR 和 SFT,SRL 把复杂推理问题转化为一个逐步决策过程,在专家指导下逐步探索,每一步就是一个小型的学习过程,有即时反馈、有独立思考空间。

    具体而言,专家的示范过程被分解为一系列中间动作,每一步都代表一个有意义的决策节点。训练过程中,模型首先生成内部独白,阐述自己的思考过程,然后再执行一个“动作”。在每个步骤上,SRL 都会根据模型预测的动作与专家对应动作之间的相似度给予奖励,从而实现细粒度、可高效计算的监督信号,并能在大规模数据集上扩展应用。

    最终,SRL 使小型模型也能学会以往 RLVR 和 SFT 都难以掌握的复杂任务。

    3️⃣ 结果SRL 让模型能在复杂的、多步骤的问题上获得稳定学习信号,培养更结构化的推理习惯。

    实验证明,在数学推理和 Agentic 软件工程任务中的性能,都优于现有方法;当与 RLVR 结合(即 SRL→RLVR)时,还能形成一种课程学习(curriculum learning)策略,进一步提升性能。

    谷歌团队认为,SRL 是一种鲁棒的、可泛化的推理导向训练框架,为训练能够真正“理解与思考”的 AI 模型提供新的路径。

    #大模型 #LLM #推理 #强化学习 #SFT #谷歌 #论文 #学术

    【纠错】【责任编辑:duan990222】