惊!大模型推理能力暴涨,Qwen2.5 - 14B给出希尔伯特问题反例

南航、南通大学、牛津等机构的研究者发现通过高指令的推理指令,DeepSeek - R1有望解决数学上的NP - hard问题,并且在对大模型进行测试时,Qwen2.5 - 14B - Instruct - 1M在指导下给出了希尔伯特问题的反例等相关研究成果。

**一、研究背景与问题提出**在计算复杂性理论中,NP - hard问题是一类极具挑战性的问题,这类问题至少和NP问题一样难,而且不一定能在多项式时间内被验证。像DeepSeek - R1、GPT - 4o、OpenAI o1 - mini等模型在处理某种数学推理难题(SoS)时原本非常困难,正确率仅比纯猜高一点。**二、研究方法与数据构建**研究者构建了SoS - 1K数据集,其中包含约1,000个多项式,并配备了五个精心设计的专家级SoS专业推理指导,分别是多项式阶数、主导搜索方向的非负性、特殊结构的识别、平方形式表达的评估、单项式的二次形式矩阵分解。同时,研究者们还为LLM精心设计了三种不同层次的推理指令集:1. 基础SoS指令(SoS Plain):直接向LLM提问多项式是否可表示为平方和(SoS)。2. 简化SoS指令(SoS Simple):将SoS多项式划分为五个不同类别,每个类别由简洁的一行标准定义。3. 基于推理的完整SoS指令(SoS Reasoning):这是一个结构化的五步框架,用来系统化识别SoS多项式。**三、模型测试与结果呈现**1. **无推理指导时的情况** - 众多SOTA模型在未提供推理指导时,几乎都无法解决SoS问题,准确率基本在60%左右,仅略高于50%的随机猜测基线。2. **有推理指导时的情况** - 一旦使用高质量的推理轨迹进行提示,所有模型的准确率显著提升,最高提升了21%,且推理质量越高,模型表现越好。同时发现专注于推理的LLM通常优于通用LLM,参数较大的模型通常用更少的推理步骤就能正确预测,小模型则需要更多推理过程。 - 在SoS - 1K数据集中随机抽取约340道测试题对多种模型(包括专门的推理模型和通用大模型)进行评估,结果显示不同模型在不同指令下有不同表现。3. **特殊成果** - 对一个预训练的7B模型在SoS1K数据集上进行4小时的监督微调后(仅使用2张A100 GPU),其准确率从54%暴增至70%,响应速度也大幅提高,SoS - 7B仅需DeepSeek - V3和GPT - 4o - mini计算时间的1.8%和5%,超越了671B的DeepSeek - V3和GPT - 4o - mini等更大规模模型。 - Qwen2.5 - 14B - Instruct - 1M在输入高质量推理提示时,利用Motzkin多项式,生成了全新的、此前未见的希尔伯特第十七问题的反例。 - 在研究模型对SoS和非负性的理解时,发现不同提示下模型的表现不同,如使用SoS Reasoning提示能让模型正确识别一些问题,而SoS Plain提示下模型表现不佳。 - 在进一步分析中,探究了模型是否遵循真正的数学逐步验证过程、能否有效从长文本多项式中提取关键信息、SoS推理各步骤准确率提高情况、模型在推理过程中是否“偷懒”以及推理长度如何影响准确性等问题,还指出了当前SOTA模型的局限性,如长输入时的无效样本、处理复杂问题时“走捷径”对准确性的影响以及在特定多项式情况下表现不佳等。

本文总结了关于LLM在数学推理方面的研究成果,包括模型在有推理指导和无推理指导下解决数学难题(特别是与NP - hard问题相关的SoS问题)的表现,Qwen2.5 - 14B - Instruct - 1M给出希尔伯特问题反例等重大成果,同时分析了模型在推理过程中的各种情况以及当前模型存在的局限性等内容。

原创文章,作者:购物狂魔,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/29045.html

(0)
购物狂魔购物狂魔
上一篇 2025年3月4日
下一篇 2025年3月4日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注