KAIYUN中国·官方网站-开云中国门户入口

Kaiyun中国:华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%准确率还高了-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

Kaiyun中国:华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%准确率还高了

发布时间:2025-05-30 21:55人气:

  S-GRPO适合作为当前Post Training(训练后优化)范式中的最后一步,在确保模型预先存在的推理能力不受损害的情况下,使能模型在思维链的早期阶段即可生成质量更高的推理路径,并在思考充分后隐式地提前退出

  然而,过长的思维链序列的生成也显著增加了计算负载和推理延迟,这提高了这些模型在实际应用中的部署门槛,且引入了很多冗余的思考。

  传统的推理优化Kaiyun官方入口方法,如GRPO(Group Reward Policy Optimization),采用并行生成多条完整推理路径的方式(如下图左侧所示),并通过0/1奖励机制对每条路径的最终答案进行评价。

  然而,这种方法未能充分利用推理过程中的中间信息,也未能有效提升推理效率。

  它通过对单条完整推理路径进行分段截断,生成多个“早退推理”分支(Serial Group),并通过一种指数衰减的奖励机制对这些分支的答案进行评价。

  模型在推理过程中,可以在任意中间步骤停止推理并直接生成答案。这些不同位置的早退路径被用于训练模型,以评估在不同推理深度下的推理质量。

  对于每个早退路径,如果答案正确,则根据其推理深度分配奖励,越早退出推理的正确答案,奖励越高(例如,奖励值按照 的规则递减);如果答案错误,则奖励为0。这种机制不仅鼓励模型尽早得出正确答案,还确保了推理的准确性。

  这些早退路径形成了一个“序列分组”(Serial Group),用于训练模型在不同推理深度下的表现。

  这些优势值用于优化模型参数,最终使模型学会在合适的时机停止推理并生成高质量答案。

  下图直观地展现了S-GRPO在训练过程中如何采样在不同位置提前退出的completions以及赋予奖励。

  对于后续给出正确答案的提前退出,则基于退出位置赋予衰减的正Kaiyun官方入口向奖励值,越早退出收益越高,从而鼓励模型探索简洁且正确的思考。

  评估指标选用准确率和生成token数量两维度评测。实验选用了R1-Distill-Qwen系列模型(7B,14B)和Qwen3系列模型(8B, 14B)。

  相较于vanilla的推理模型,S-GRPO平均提高了0.72到6.08个点准确率的同时降低了35.4%到61.1%的生成长度。

  相比于当前其它SOTA高效推理方法,S-GRPO最好的兼顾了正确性和效率。

  相比于DEER,S-GRPO在困难问题与简单问题上都能有效降低思考长度并维持精确度。

  相比于原始GRPO,S-GRPO显著降低了推理长度的同时有着相近的准确率。

  而与其它的高效推理训练方法相比,S-GRPO保持住了准确率,而它们均对回答的准确率性能有损害。

  通过控制推理时的生成长度预算由短到长,比较S-GRPO与vaniila CoT在GSM8K和AIME 2024上准确率与实际生成长度的变化。

  下图中的实验结果展现出在不同的预算下,S-GRPO都比vaniila CoT的准确率高且生成长度更短。

  此外,实验还表明,在长度预算少的情况下,S-GRPO相比vaniila CoT的准确率增益更显著,实际生成长度相近;在长度预算高的情况下,S-GRPO相比vaniila CoT的实际生成长度更短,准确率略高。

  S-GRPO相比vaniila CoT的两个变化趋势都更平缓。这表明S-GRPO只需要较低的长度预算就可以达到较高的准确率,反映出S-GRPO可以生成简洁且正确的思考路径。

  下表的实验结果表明仅保留two-time rollouts中采样的最短且正确的completion的设置虽然进一步缩短了推理长度,但是会损害模型的推理正确性。

  消去对短输出提供高回报的设计,即所有对正确的采样结果都给予高回报,会导致模型推理依旧冗长,这是由于更长的推理更容易取得正确的结果,模型会收敛到探索长序列推理的方向。

  上图中对比了S-GRPO与vanilla推理过程以及相同thinking budget下硬截断迫使模型给出结论的输出内容对比。

  尽管同样给出了正确的答案,S-GRPO仅使用了一半不到的思考budget,证明了S-GRPO有效解决了overthinking问题。

  假如直接对原始推理内容在相同thinking budget处截断,模型无法基于已有的思考内容得到正确的结论,这说明S-GRPO更精确地定位到了准确的解题思路。

  这样就有效地帮助模型向简洁且正确的思考路径收敛,避免了对于每个解题路径浅尝辄止的underthinking问题。

  大模型首次打破围棋思维「黑盒」,打通科学发现新路径!上海AI Lab发布新一代InternThinker

  雷军发布小米自研3nm芯片系列新品:首搭手机平板和手表,基带模块也亮相了


0830-2509596