本文将深入探讨NVIDIA在CES 2025发布的基于Blackwell架构的GeForce RTX 50系列显卡中的RTX 5090 D的性能表现,包括其架构改进、在游戏、LLM、生产力创意软件中的表现以及温度等方面的测试情况。
在CES 2025这个科技盛会上,NVIDIA推出了万众期待的GeForce RTX 50系列显卡,其基于全新的Blackwell架构打造。在这两年间,无论是游戏领域还是其他科技方面,变化日新月异,话题从元宇宙到AI不断更迭,然而GPU始终扮演着不可或缺的角色。作为GPU的开创者,NVIDIA一直站在行业前沿,就像舞台上的主角,为大众带来像素与向量的精彩呈现。今天,我们就聚焦于GeForce RTX 50系列里的佼佼者——GeForce RTX 5090 D,看看它到底有着怎样的性能表现。值得一提的是,RTX 5090 D没有Founders Edition,NVIDIA把发挥空间交给了AIC们,而我们此次拿到的是iGame RTX 5090 D Advanced。从架构方面来看,下一级到GPC段时,可以发现它包含的TPC从Ada Lovelace的6组扩展到了8组。布局上保持不变,有一个独立的光栅引擎,两个ROP分区(每个包含8个ROP单元),每组TPC包含两组SM。到达SM段后,变化较为显著。现在所有的32个CUDA核心都能执行FP32/INT32运算,这使得INT32的算力近乎翻倍。不过在一个时钟周期内,核心只能在FP32和INT32之间二选一进行运算。NVIDIA表示这种设计是为神经网络着色器优化的。同时,Tensor Core和RT Core也有升级,不过我们先把目光放到新的显存上。NVIDIA表示,GDDR7显存选择了PAM3调制,这种调制方式能提升信噪比,增加通道密度。在性能方面,GDDR7带来了更高的带宽,并且比GDDR6X/GDDR6更加节能。顺便一提,PAM3调制还被应用于USB4 v2。第5代Tensor Core继承了上一代架构的特性,并且新增了FP4、FP6的支持,还把FP8 Transformer Engine更新到了第二代。FP4支持备受关注,NVIDIA解释说,随着生成式AI模型能力的提升,常规的FP16模型对硬件尤其是显存的要求越来越高,在单张显卡上运行这些模型变得极为困难。而FP4模型需要的显存更小,在TensorRT模型优化器(Model Optimizer)的支持下几乎没有质量损失,这对整个RTX 50系列都很友好,毕竟不是每张卡都有RTX 5090 D这么大的显存。在新架构中,可见Triangle(三角形)、Cluster(簇)两个名词频繁出现。虽然目前不太清楚这些新组件的具体用途,但结合后面的RTX Mega Geometry技术来看,现在只需要知道Blackwell提供了两倍于Ada Lovelace的Ray - Triangle交叉检测吞吐量就可以了。再看AI - Management Processor(AMP),它在架构图上和GigaThread Engine并列,本质上是一个位于管线前端的RISC - V处理器,支持Windows硬件加速GPU计划,能够更自由地管理GPU。AMP与AI游戏息息相关,比如本地运行LLM时,首次响应时间通常较慢,在知识库聊天机器人里可能还好,但在游戏中就很影响体验,就像你打开游戏加载存档后找NPC接任务,NPC半天憋出一句“你好”,这会严重破坏游戏体验。在Ada Lovelace上的着色器执行重排序(SER)主要针对光线追踪设计,通过对光线追踪任务动态重排序来提高硬件使用率。而Blackwell上的SER 2.0还可以将神经网络的负载直接发送至Tensor Core处理,加速神经网络渲染。NVIDIA表示,Blackwell上的SER重排序逻辑效率达到了前代的2倍,降低开销的同时还能提高精准度。对于3D创作软件来说,长时间渲染一帧不是大问题,但游戏对帧率要求很高。为了让精致的材质在游戏中完整呈现,NVIDIA采用AI替换传统的着色器流程。神经网络着色器会根据屏幕中物体表面的信息到潜空间寻找相应特征并交给解码器,最后生成和传统着色流程接近的材质。这样一来,渲染速度就能满足游戏的帧率需求,神经网络的作用十分神奇。而且这个神经网络是实时运行的,能根据游戏场景变化不断自我训练,从而在每个关卡都提供准确的间接照明体验。在RTX Skin(RTX皮肤)和RTX Neural Faces(RTX神经网络面孔)方面,现实中无论是人的皮肤还是动物的皮肤都是半透明物体,光线会在其中产生散射和反射。但在多数游戏里,人类角色或类似生物很难表现出这种效果,虽然可能有细致的皮肤材质,却难以和光线产生足够真实的交互。于是NVIDIA将源自电影渲染技术的次表面散射引入实时路径追踪领域,这就是RTX Skin。借助这项技术,光线能够射入皮肤内并进行反射和折射,例如让猎头蟹的身体更透亮,腿部也有光线进入。谈到RTX Mega Geometry,先以虚幻引擎5的Nanite为例。Nanite能提供很高的物体精细度,像在《黑神话:悟空》等游戏中表现出色。不过,Nanite呈现的雕塑和建筑虽然精致,但光影很多时候未达到相应水平,这与BVH的构建有关。Nanite会根据屏幕距离自动调整物体三角形的数量,而光线追踪需基于三角形构建BVH用于检测光线碰撞,三角形数量频繁变化时,构建BVH的算法要反复运行,而且为数不清的三角形构建BVH也很困难,毕竟游戏需要帧率。而NVIDIA RTX Mega Geometry在TLAS(顶层加速结构)和BLAS(底层加速结构)两个层级的架构上做了改进。例如Partitioned Top - Level Acceleration Structure(PTLAS,分区顶层加速架构),这是为复杂场景设计的。在很多游戏里,场景中的不少物品如建筑是固定不变的,如果每一帧都构建TLAS是很不划算的。PTLAS把场景内的物体分成多个区域,一些放置静态物品,一个全局分区处理动态物品,从而减轻系统压力,提高效率。在DLSS 4方面,我们逐一分析其组件的更新和协同工作。首先是帧生成,NVIDIA Blackwell的帧生成模型比上一代快了40%,同时显存占用降低30%。而且用于提供光流场信息的不再是RTX 40系列上的光流加速器,而是一个更高效的AI模型。由于DLSS 4多帧生成需要第5代Tensor Core的强大算力来计算光流场和生成多帧,所以这个功能目前是Blackwell架构独占的。此外,超分辨率、光线重建、DLAA也获得了更新,它们的模型从CNN换成了Transformer,这个采用自注意力机制的神经网络适用于从RTX 20 - 50的全线RTX GPU。新模型能够提高画面的稳定性,提升光照细节,给予动态物体更多细节,从DLSS 4测试中的画面差别就能很直观地看到。到了Reflex 2,NVIDIA引入了Frame Warp(帧扭曲)技术。简单来说,在这个队列里,GPU会“抢跑”。如果玩家操作了,Frame Warp会直接从CPU获取最新的鼠标位移信息,让GPU无视队列里等待渲染的帧,直接将鼠标位移和最新一帧同步,这就是名字中Warp(扭曲)的含义。目前NVIDIA Reflex 2还未实装,《The Finals》和《无畏契约》将是未来首批支持的游戏。NVENC和NVDEC新增了Y′CbCr 4:2:2支持。很多摄像机支持录制4:2:2格式的视频,因为4:2:2相比4:4:4更节省储存空间,又比4:2:0能保存更多颜色,这为后期调色留下充足空间。Blackwell新增的4:2:2编解码支持可提高创作者的效率,如减少导出时间、实现更流畅的多路回放等。NVIDIA表示,第6代NVDEC可同步解码和播放多达8个4K60 4:2:2视频流。从外观上看,iGame RTX 5090 D Advanced的三把环形风扇延续了“两大一小”的经典配置。两边风扇直径是107mm,中间是101mm,扇叶均为9片且形状相同,不过中间风扇的转动方向和其他两把不同。中间的圆环是重点,从左右风扇侧往里面看,圆环是红色金属框架的一部分,表面处理很精致,再里面的透明组件是灯带,熟悉iGame系列的玩家能想象到亮机时的样子。iGame在外观细节上一直很用心,侧面金属框架上每个螺丝位都刻有铭文,还做了药丸状和圆形的下沉,配合半透明导风罩,很像科幻作品里宇宙飞船的舰桥。GEFORCE RTX的logo在透明壳体上,Advanced的logo在金属框架上,相互映衬。PCIe 5.0接口在RTX 50系列上首次出现,金手指形状和上一代显卡有细微变化。比较意外的是,iGame RTX 5090 D Advanced的末端没有固定螺丝位,只有右上角一个铭牌,不过iGame会送金属显卡支架。右侧的镂空区域覆盖了格栅,材质和导风罩一样是黑色半透明塑料,斜着看能看出iGame的logo。内部设计方面,作为旗舰产品,iGame RTX 5090 D Advanced是一张重达2.6Kg的显卡,这反映在它的散热模块上。供电采用16 + 7 + 6的配置,所用的MOSFET全部来自MPS的MP97993,可输出电流为50A,电源管理芯片也是MPS的MP29816 - A,可能RTX 50系列这一代电源管理集成度提高了,在PCB上没找到类似显存电源管理芯片的IC。测试平台以AMD锐龙7 9800X3D和X870E主板为核心,选择航嘉MVP P1600X电源确保显卡性能全力发挥,对比显卡只有RTX 4090 D。测试驱动是Beta版的Game Ready驱动,系统是最新版的Windows 11 24H2。游戏记录数据方面,如果游戏自带Benchmark就优先用它提供的成绩,否则用NVIDIA Frameview记录。由于RTX 5090 D的旗舰定位,游戏设置都是预设最高,光线追踪也是只要游戏支持就开全景光线追踪/路径追踪。在基准测试中,RTX 50系显卡现在能在2x,3x和4x三挡之间切换帧生成。2x就是DLSS 3,渲染1帧生成1帧,3x和4x以此类推。NVIDIA App的设置和游戏中的类似,也分成模型选择、帧生成倍数和超分辨率三个选项。在帧率方面,DLSS 4表现很强,DLSS 3单帧生成已使帧率翻倍,DLSS 4最高能生成3帧,让不少4K原生分辨率60fps都达不到的全景光线追踪游戏达到电竞游戏的帧率,不会让4K@360Hz旗舰显示器浪费。延迟方面,随着生成帧率增加延迟会上升,但4x帧生成下的40ms对于3A游戏可接受,像《漫威争锋》这种纯多人游戏只有20ms,和单开超分辨率时的延迟持平,考虑到它是通过DLSS优设而非游戏内集成启动多帧生成,这种延迟表现值得表扬,也可以选择3x帧生成降低延迟。CNN和Transformer两个模型对游戏帧率影响不太好判断,因为被测游戏中只有两款原生支持模型切换。以《赛博朋克2077》为例测试DLSS 4 4x帧生成下不同超分辨率模式对帧率和延迟的影响,结果是帧生成倍数对帧率只有流畅度的区别,对延迟的影响小于超分辨率挡位,开质量挡延迟可能到40ms以上。在常规测试里,4K光栅化成绩中,RTX 5090 D比RTX 4090 D有很大提升。像《赛博朋克2077》和《心灵杀手2》这类RTX 4090 D运行吃力的游戏,RTX 5090 D在4K下能轻松获得流畅帧率。《黑神话:悟空》在4K原生分辨率下RTX 5090 D也接近60fps,表现优秀。对于RTX 4090 D原本运行良好的《刺客信条:幻景》等游戏,RTX 5090 D表现更好,不过这种设置下RTX 5090 D的帧率和功耗一同增长,500W以上的功耗表现惊人。在LLM类别的测试中,虽然涉及模型众多,但在首Token延迟和输出Token速度这些关键指标上,RTX 5090 D在大部分模型里比RTX 4090 D好上30%。在生产力创意软件方面,V - Ray和Blender这类3D创作软件中,RTX 5090 D相比RTX 4090 D获得了25%以上的增幅。温度测试是在开放平台进行,分为待机和满载两个场景。待机场景是进入系统后待机5分钟,满载场景是3DMark Speed Way运行10分钟,用GPU - Z的Log to file功能记录数据,环境温度是22.1摄氏度。iGame RTX 5090 D Advanced的满载温度稳定在65摄氏度上下,延续了上一代的优秀水平,待机温度从37.9缓慢上升到42.5摄氏度,和其他带智能启停的显卡一样。最后,关于DLSS,有些玩家认为AI拉伸填补的像素和AI生成的帧是“假”的。但从图形学“如果它看起来是对的,那么它就是对的”这个定律来看,如果DLSS能让我们眼睛觉得没问题,玩的时候不感觉画面有缺陷,那它创造的游戏体验就比所谓不经AI的“真实”更“真实”。从对照图看,DLSS 4已经有这个实力。这个观点也适用于神经网络渲染,NVIDIA用多个demo展示了RTX Kit神经网络渲染套件的华美画质,如果未来应用神经网络着色器的游戏能给玩家带来足够冲击力的画面,“真”与“假”的争论自然会消失,当然前提是要有一块Blackwell显卡。
本文详细介绍了GeForce RTX 5090 D的架构特性、性能表现(包括游戏、LLM、生产力创意软件)、温度测试以及外观和内部设计等多方面内容。通过与RTX 4090 D对比,展示了RTX 5090 D在性能上的提升,同时也探讨了如DLSS 4等新技术带来的影响以及围绕AI技术在游戏画面中所引发的关于“真”与“假”的思考。
原创文章,作者:购物狂魔,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/2195.html