GPT - 4.5登场：不是推理模型却更智能实用

OpenAI新推出的GPT - 4.5的相关情况，包括它的开放使用范围、自身特色、在各项测试中的表现以及存在的token定价过高的问题等。

OpenAI的GPT - 4.5已经重磅上线。据新智元报道，这个新模型并非推理模型，但却被OpenAI评价为更实用、本质上更智能的模型。在展示的OpenAI研究者中有一位华人科学家Youlong Cheng。从今天起，GPT - 4.5会向所有ChatGPT Pro版用户开放，涵盖网页端、移动端和桌面端，并且所有付费开发者也能够使用。下周会向Team版和Plus版开放，再下一周则是Edu和Enterprise版的用户。GPT - 4.5研究预览版是OpenAI迄今为止规模最大、知识储备最丰富的模型。作为GPT - 4的升级版，它在预训练规模上进一步扩展（Scaling），被设计成通用性更强的模型，其秘密武器就是Scaling无监督学习和推理。通过新旧技术的融合，它能够更好地识别模式、连接信息，在不需要复杂推理的情况下就能给出富有创意的回答，而且幻觉率大幅降低。在多项基准测试中，GPT - 4.5实力碾压GPT - 4，尤其在数学能力上飙升27%，编码能力提升7% - 10%。在SWE - Lancer这种更依赖深层世界知识的评估中，GPT - 4.5甚至超越了o3 - mini，这充分展示了无监督学习与推理能力提升之间的互补关系。在最新Cognition编码实测中，GPT - 4.5的能力虽不及Claude 3.7，但明显超越了DeepSeek - R1、o1、GPT - 4等模型。然而，GPT - 4.5也存在一些问题，它的token定价着实有些离谱，每1M tokens输入价格为75刀，输出价格为150刀。奥特曼也承认，GPT - 4.5很像人，但庞大且昂贵。目前仅向Pro会员推出，这是因为OpenAI发展太快，内部GPU不够用，下周将增加数万个GPU，届时会向Plus会员推出。GPT - 4.5最大的特色在于交互非常自然，被评为OpenAI“迄今最好的聊天模型”。这是因为它有更深入的知识和更好的上下文理解能力，在改进写作、编程或解决实际问题等任务上特别有用。研究者现场演示表明，与GPT - 4.5对话时，它能敏锐地觉察到对话者的情绪，比如当被告知“朋友们又把我鸽了！帮我写个消息，告诉他们我恨他们”时，GPT - 4.5敏锐地觉察到了沮丧情绪，语气柔和地给予了安慰并提供细腻的建议。与之对比，o1的回答就显得“不近人情”。在从第一性原理解释AI对齐这个考验中，o1虽然提供了大量有用信息和知识点，但GPT - 4.5的回答更加自然流畅。OpenAI针对GPT - 4.5开发了新的可扩展对齐技术，这样就能从较小模型获得的数据来训练它，从而真正释放了它的深层世界模型，这也使得GPT - 4.5在准确率上超越了其他GPT模型，同时实现了最低的幻觉率。OpenAI还邀请人类测试者将GPT - 4.5与GPT - 4进行对比，结果显示，GPT - 4.5在几乎所有类别中都表现更优异，对话得更温暖、更直观、情感更加细腻。华人研究者Youlong负责的是后训练基础设施，他和同事们发现运行如此大规模的模型，要求后训练基础设施进一步优化，于是开发了一种新的训练机制，用更少的计算开销来微调这样规模的模型，结合监督微调和RLHF，通过多轮迭代进行后期训练，最终开发出了可部署的新模型。当被问到“海水为什么是咸的”这个问题时，从GPT - 4.5倒着看各代模型的回答，可以看到从GPT - 4T开始，模型回答的质量就会稍好一些，而GPT - 4.5的表现最为精彩，回答清晰、精确、一致且非常有趣。GPT - 4.5具备强大的世界知识，在问答基准上，准确率明显超越了Grok 3、GPT - 4、o3 - mini。其得分62.5%，比Grok 3明显提升近20%，并且在幻觉方面是最低的，仅有37.1%，而o3 - mini幻觉率高达80.3%。通过对不同世代模型回答“世界第一门语言是什么”这个问题的分析，可以看到GPT - 1只是不断重复问题，GPT - 2能给出一段完整回复但与问题关联不大，GPT - 3.5给出了像样的回答，GPT - 4T时期回答比较详细，而GPT - 4.5的回复更加结构化，首先明确表示无法确切知道第一种语言是什么，接着列出相关事实说明原因。在与人类协作方面，测试者在每日查询、专业查询、创意智能方面，更喜欢GPT - 4.5的回答。OpenAI通过scaling训练规模，让模型能够解决更复杂问题，并教会它们更深入地理解人类需求和意图。具体来说，创新训练技术能够从较小模型中提取数据，训练出更大、更强大的模型，使得GPT - 4.5可控性、对细微差别的理解能力以及自然对话的表现大幅提升。在情商方面，当被告知“我最近考试没过，现在心情特别糟，很难受...”时，GPT - 4.5特别会安慰人，有同理心，能够站在提问者的视角来看问题给予支持，而GPT - 4的回复稍显机械，o3 - mini虽然比GPT - 4在“人情味”上要好些，但不如GPT - 4.5细腻。在名画提问中，GPT - 4.5不仅能明确说出画作的名称、作者、时间，还能描绘其中的典故并进行简短评价，而GPT - 4则缺少一些细节，o3 - mini的回复偏题且缺少细节。在GPT - 4.5还未亮相之前，31页技术报告已经传遍全网。在SWE - bench上，GPT - 4.5编码能力完全碾压GPT - 4，但与o1、o3 - mini、深度研究性能还是有所差距。经过优化后的GPT - 4.5，解决了20% IC软件工程师（SWE）任务和44%的软件工程经理（SWE Manager）任务，相较于o1略有提升，深度研究模型在这项评估中依然表现最佳。一些OpenAI研究员和业内提前拿到测试资格的大佬纷纷晒出一手实测。OpenAI科学家Will Depue发现GPT - 4.5在推荐音乐方面比4强多了；OpenAI研究科学家Sebastien Bubeck测试了GPT - 4.5的svg能力，其做出的独角兽更加精美；沃顿商学院教授Ethan Mollick测试后发文称GPT - 4.5的视觉能力令人印象深刻，分辨和计数能力比其他模型出色；AI大神Karpathy体验后表示，版本号中的每个0.5大约代表10倍的预训练计算量，GPT - 4.5的预训练计算量比GPT - 4多了10倍。此外，刚刚奥特曼还放出OpenAI下一步信号，要打造一款社交APP。

本文总结了GPT - 4.5的推出情况，包括其开放使用计划、模型特点如规模大、知识丰富、情商高，在各项能力测试中的表现以及存在的token定价过高的问题，同时还介绍了各方对它的测试情况和OpenAI的下一步计划。

原创文章，作者：购物狂魔，如若转载，请注明出处：https://www.gouwuzhinan.com/archives/27265.html

GPT - 4.5登场：不是推理模型却更智能实用

相关推荐

雷军聚焦小米汽车扩产，海外布局正筹备

拉孜县震后农事新年，民众生活充满希望，从拉孜县震后新年看民众的乐观与感恩

李登海参会：山东民企创新活力与国家种业布局的体现 李登海参会背后：民营企业于国家种业的重要意义

红日药业业绩快报：营收与净利双降的背后 红日药业2024年度业绩快报：营收、净利大幅下滑

清丰县检察院节后纪律作风专项督察：收心归位促工作

发表回复

李登海参会：山东民企创新活力与国家种业布局的体现李登海参会背后：民营企业于国家种业的重要意义

红日药业业绩快报：营收与净利双降的背后红日药业2024年度业绩快报：营收、净利大幅下滑