在超硬核的“时间线索”推理谜题中,32B小模型借助GRPO击败了其他模型,其推理能力超越了o1、o3 - mini、DeepSeek - R1等,并且训练成本大幅下降100倍。还介绍了研究人员如何对小模型进行强化训练,以及在训练过程中的一些发现,如模型推理长度的变化等内容。
在具有挑战性的“时间线索”(Temporal Clue)逻辑谜题中,这一谜题脱胎于经典桌游Clue并加入新维度,堪称逻辑推理的“珠穆朗玛峰”,它不仅考验模型基本推理能力,还能暴露顶级大模型软肋。基于强化学习微调后的Qwen 2.5 32B,其推理能力完全碾压o1、o3 - mini、R1,甚至追平Claude 3.7 Sonnet,整个模型推理成本暴降100多倍。前谷歌工程师、初创OpenPipe联创Kyle Corbitt和团队将“时间线索”谜题作为模型的“终极试炼场”,提出小模型在复杂推理任务中能否逆袭的假设。他们选用开源的Qwen模型(14B和32B),通过GRPO强化学习进行魔鬼式训练,小模型推理性能显著提升。不过,团队还发现Qwen 14B的推理长度随时间“随机”增加,Qwen 32B的推理长度却在减少,这发生在奖励机制完全不涉及长度的情况下。在AI推理领域,自去年OpenAI推出o系列推理模型后,强化学习掀起狂潮,诸多巨头入局打造高级推理模型,很多基准测试接近饱和,但逻辑推理仍是难题。为此,OpenPipe两位联创决定用RL微调后的小模型挑战复杂推理题。研究人员打造了新基准“时间线索”,将谜题转化为单人逻辑谜题。他们先对顶尖大模型进行测试,包括DeepSeek - R1、o1、o3 - mini、Claude Sonnet 3.7以及开源的Qwen 14B和32B,结果Claude Sonnet 3.7表现最优,开源DeepSeek - R1与o1、o3 - mini性能相当,未经调优的Qwen 2.5 Instruct模型表现平平。那么如何将较小的开源模型训练到前沿水平呢?答案是强化学习。这里LLM是智能体,谜题是环境。研究人员选择了由DeepSeek开发的GRPO算法,它简化训练过程且性能强大。为加速实验省略Kullback - Leibler(KL)散度惩罚。在训练过程中,有诸多环节,如生成模型对谜题任务的响应、对响应评分等基本步骤。在生成响应时使用vLLM推理引擎,Prefix caching很重要,还需解决向vLLM发送过多请求的问题。处理完成内容时使用标准的HuggingFace Transformers AutoTokenizer。Qwen模型虽经过预训练和指令微调,但还不能可靠解决“时间线索”谜题,不过偶尔成功就够了。研究人员通过增加良好推理概率、减少“不良”推理概率,将模型引导至“侦探大师”级水平,采用策略梯度方法计算损失调整权重,使用torchtune库训练。虽然主要用Qwen模型,但也对8B和70B的Llama模型进行实验。torchtune提供多种节省内存和提升性能的工具。模型在经过超过100次迭代训练后实现SOTA级演绎推理能力。训练过程中性能提升遵循幂律分布,研究人员推测模型可能过早收敛于初期有效的贪婪策略。输出长度在训练期间有有趣变化,刚开始响应长度逐步增加后趋于稳定,后期14B模型响应变长,32B模型响应长度显著减少。为定性评估逻辑推理能力提升,团队用Claude Sonnet 3.7分析Qwen 32B模型解谜推理能力,发现训练后模型逻辑推理能力提升。团队还根据Fireworks AI的无服务器定价方案估算Qwen模型成本,发现提出的方法改善了成本与准确率的权衡关系。最后,团队发现仅用16个训练样例就能实现10 - 15%的显著性能提升。
本文总结了在“时间线索”逻辑谜题中,小模型通过GRPO强化学习实现推理能力的逆袭,包括超越部分大模型、推理成本大幅下降,还阐述了模型训练过程中的各种操作、遇到的现象以及最终取得的成果,如实现SOTA级演绎推理能力、改善成本与准确率的权衡关系等。
原创文章,作者:Wonderful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/31072.html