清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目的更新,阐述其能让24G显存的4090D在本地运行大模型的“满血版”,还会提及相关的测试情况、成本分析以及该方案的限制等内容。
随着大规模语言模型(LLMs)迅速发展,模型的规模和复杂程度急剧攀升,其部署与推理往往需要海量的计算资源,这无疑给个人研究者以及小型团队设置了重重障碍。在2月10日,清华大学KVCache.AI团队携手趋境科技,对外公布了KTransformers开源项目的更新情况。令人振奋的是,仅仅一块具有24G显存的4090D,就能够在本地运行DeepSeek - R1、V3的671B“满血版”。其预处理速度最高能达到286 tokens/s,而推理生成速度最高可达14 tokens/s。KTransformers致力于优化本地机器上的LLM部署,从而助力解决资源受限的难题。该框架运用了异构计算、先进的量化技术、稀疏注意力机制等一系列创新的手段,大大提升了模型的计算效率,并且具备处理长上下文序列的能力。KTransformers的更新一经发布,众多开发者纷纷使用自己的设备进行测试。他们惊喜地发现,在本地运行完全不成问题,甚至显存的消耗比github里的技术文档中提及的显存消耗还要少,实际的内存占用约为380G,显存占用约14G。此外,有用户在对方案成本进行分项分析之后表示,只需不到7万元就能实现R1模型的本地运行。与A100/H100服务器动则200万元的高昂价格相比,这一方案的成本便宜了95%以上。在之前,具有671B参数的MoE架构大模型DeepSeek - R1常常出现推理服务器高负荷宕机的现象。如果选择其他云服务商提供的专属版云服务器,则需要按照GPU小时来计费。这样高昂的成本让中小团队望而却步,而且市面上的“本地部署”方案大多是参数量大幅缩水的蒸馏版。然而,KTransformers开源项目近期的更新成功地打破了大模型推理算力的门槛:支持24G显存在本地运行DeepSeek - R1、V3的671B“满血版”。早在DeepSeek - V2时代,这个项目就因为“专家卸载”技术而声名远扬。它能够支持236B参数的大模型在仅有24GB显存的消费级显卡上流畅运行,将显存需求削减到十分之一。KTransformers开源项目重点关注的是在资源有限的情况下进行大模型的本地部署。Ktransformers开发团队的一名成员称:“在项目创立之初,我们就已经讨论过项目的场景和目标。我们针对的是中小型用户的场景,用专业术语来讲,就是低并发 + 超低显存的场景。目前,显存的成本和CPU的内存成本已经不在一个数量级上了,对于中小用户来说,内存可能完全充足,但是要找到一个显存很大的显卡却非常困难。”有B站的up主经过实测发现,本地部署的速度能够达到约6 - 8 tokens/s,这一速度与硅基流动免费版的速度相近(不过硅基流动存在上下文关联数、输出数限制等因素)。还有用户规划出了这套方案的成本:CPU为Gold 6454S,两颗的价格在1.4万左右(QS版);主板选用技嘉ms73,价格在6500元以内(双路主板一共16个DDR5 RDIMM接口);内存方面,单根64G的RDIMM DDR5服务器内存要1800元,总共1T需要3万元左右;显卡可以选择低档4060Ti 16G,大概3999元,不过更加建议4090 24G,因为这样可以增加上下文长度。该用户总结称,整体成本不到7万元,相较于A100/H100服务器动辄200万元的价格,便宜了95%以上。就算是租用服务器,每小时也得花费数千元。当然,这个本地方案仍然存在诸多限制。例如,推理速度无法与高价的服务器相媲美,并且只能为单人服务,而服务器可以同时满足几十个用户的需求。目前,整个方案也依赖于英特尔的AMX指令集,其他品牌的CPU暂时还无法进行这些操作。而且这一方案主要是针对DeepSeek的MOE模型,对于其他主流模型的运行效果可能并不理想。有用户认为,从短期来看,KTransformers可能会刺激消费级显卡(如4090)的需求,尤其是高显存型号。不过,内存涨价的可能性较低,因为其核心创新在于优化显存利用率,而非直接增加内存消耗。但对于英伟达的影响并不会太大,因为这项技术归根结底是对现有资源的优化,而非颠覆硬件需求。
本文总结了清华大学KVCache.AI团队和趋境科技的KTransformers开源项目的更新成果,该成果能让24G显存运行大模型“满血版”,还阐述了测试情况、成本优势、方案限制以及对硬件市场可能产生的影响等内容。这一成果对中小团队在本地运行大模型有积极意义,但也存在一定局限性。
原创文章,作者:Foster,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/17355.html