OpenAI新推出的GPT - 4.5的相关情况,包括它的开放使用范围、自身特色、在各项测试中的表现以及存在的token定价过高的问题等。
OpenAI的GPT - 4.5已经重磅上线。据新智元报道,这个新模型并非推理模型,但却被OpenAI评价为更实用、本质上更智能的模型。在展示的OpenAI研究者中有一位华人科学家Youlong Cheng。从今天起,GPT - 4.5会向所有ChatGPT Pro版用户开放,涵盖网页端、移动端和桌面端,并且所有付费开发者也能够使用。下周会向Team版和Plus版开放,再下一周则是Edu和Enterprise版的用户。GPT - 4.5研究预览版是OpenAI迄今为止规模最大、知识储备最丰富的模型。作为GPT - 4的升级版,它在预训练规模上进一步扩展(Scaling),被设计成通用性更强的模型,其秘密武器就是Scaling无监督学习和推理。通过新旧技术的融合,它能够更好地识别模式、连接信息,在不需要复杂推理的情况下就能给出富有创意的回答,而且幻觉率大幅降低。在多项基准测试中,GPT - 4.5实力碾压GPT - 4,尤其在数学能力上飙升27%,编码能力提升7% - 10%。在SWE - Lancer这种更依赖深层世界知识的评估中,GPT - 4.5甚至超越了o3 - mini,这充分展示了无监督学习与推理能力提升之间的互补关系。在最新Cognition编码实测中,GPT - 4.5的能力虽不及Claude 3.7,但明显超越了DeepSeek - R1、o1、GPT - 4等模型。然而,GPT - 4.5也存在一些问题,它的token定价着实有些离谱,每1M tokens输入价格为75刀,输出价格为150刀。奥特曼也承认,GPT - 4.5很像人,但庞大且昂贵。目前仅向Pro会员推出,这是因为OpenAI发展太快,内部GPU不够用,下周将增加数万个GPU,届时会向Plus会员推出。GPT - 4.5最大的特色在于交互非常自然,被评为OpenAI“迄今最好的聊天模型”。这是因为它有更深入的知识和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。研究者现场演示表明,与GPT - 4.5对话时,它能敏锐地觉察到对话者的情绪,比如当被告知“朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们”时,GPT - 4.5敏锐地觉察到了沮丧情绪,语气柔和地给予了安慰并提供细腻的建议。与之对比,o1的回答就显得“不近人情”。在从第一性原理解释AI对齐这个考验中,o1虽然提供了大量有用信息和知识点,但GPT - 4.5的回答更加自然流畅。OpenAI针对GPT - 4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,从而真正释放了它的深层世界模型,这也使得GPT - 4.5在准确率上超越了其他GPT模型,同时实现了最低的幻觉率。OpenAI还邀请人类测试者将GPT - 4.5与GPT - 4进行对比,结果显示,GPT - 4.5在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。华人研究者Youlong负责的是后训练基础设施,他和同事们发现运行如此大规模的模型,要求后训练基础设施进一步优化,于是开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型,结合监督微调和RLHF,通过多轮迭代进行后期训练,最终开发出了可部署的新模型。当被问到“海水为什么是咸的”这个问题时,从GPT - 4.5倒着看各代模型的回答,可以看到从GPT - 4T开始,模型回答的质量就会稍好一些,而GPT - 4.5的表现最为精彩,回答清晰、精确、一致且非常有趣。GPT - 4.5具备强大的世界知识,在问答基准上,准确率明显超越了Grok 3、GPT - 4、o3 - mini。其得分62.5%,比Grok 3明显提升近20%,并且在幻觉方面是最低的,仅有37.1%,而o3 - mini幻觉率高达80.3%。通过对不同世代模型回答“世界第一门语言是什么”这个问题的分析,可以看到GPT - 1只是不断重复问题,GPT - 2能给出一段完整回复但与问题关联不大,GPT - 3.5给出了像样的回答,GPT - 4T时期回答比较详细,而GPT - 4.5的回复更加结构化,首先明确表示无法确切知道第一种语言是什么,接着列出相关事实说明原因。在与人类协作方面,测试者在每日查询、专业查询、创意智能方面,更喜欢GPT - 4.5的回答。OpenAI通过scaling训练规模,让模型能够解决更复杂问题,并教会它们更深入地理解人类需求和意图。具体来说,创新训练技术能够从较小模型中提取数据,训练出更大、更强大的模型,使得GPT - 4.5可控性、对细微差别的理解能力以及自然对话的表现大幅提升。在情商方面,当被告知“我最近考试没过,现在心情特别糟,很难受...”时,GPT - 4.5特别会安慰人,有同理心,能够站在提问者的视角来看问题给予支持,而GPT - 4的回复稍显机械,o3 - mini虽然比GPT - 4在“人情味”上要好些,但不如GPT - 4.5细腻。在名画提问中,GPT - 4.5不仅能明确说出画作的名称、作者、时间,还能描绘其中的典故并进行简短评价,而GPT - 4则缺少一些细节,o3 - mini的回复偏题且缺少细节。在GPT - 4.5还未亮相之前,31页技术报告已经传遍全网。在SWE - bench上,GPT - 4.5编码能力完全碾压GPT - 4,但与o1、o3 - mini、深度研究性能还是有所差距。经过优化后的GPT - 4.5,解决了20% IC软件工程师(SWE)任务和44%的软件工程经理(SWE Manager)任务,相较于o1略有提升,深度研究模型在这项评估中依然表现最佳。一些OpenAI研究员和业内提前拿到测试资格的大佬纷纷晒出一手实测。OpenAI科学家Will Depue发现GPT - 4.5在推荐音乐方面比4强多了;OpenAI研究科学家Sebastien Bubeck测试了GPT - 4.5的svg能力,其做出的独角兽更加精美;沃顿商学院教授Ethan Mollick测试后发文称GPT - 4.5的视觉能力令人印象深刻,分辨和计数能力比其他模型出色;AI大神Karpathy体验后表示,版本号中的每个0.5大约代表10倍的预训练计算量,GPT - 4.5的预训练计算量比GPT - 4多了10倍。此外,刚刚奥特曼还放出OpenAI下一步信号,要打造一款社交APP。
本文总结了GPT - 4.5的推出情况,包括其开放使用计划、模型特点如规模大、知识丰富、情商高,在各项能力测试中的表现以及存在的token定价过高的问题,同时还介绍了各方对它的测试情况和OpenAI的下一步计划。
原创文章,作者:购物狂魔,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/27265.html