DeepSeek爆火后出现的算力缺口问题展开。首先讲述了DeepSeek走红后用户量激增带来算力需求大增,导致服务器资源紧张,从而暂停API服务充值的情况。接着尝试对算力缺口大小进行估算,通过用户量和竞品等因素进行分析。最后探讨了从短期到长期多管齐下填补算力缺口的办法,包括与云服务商合作以及技术突破等方面的内容。
01
DeepSeek爆火之后,出现了明显的算力缺口。
“服务器繁忙,请稍后再试。”这可能是DeepSeek在这段时间里,用户最常得到的回应了。
DeepSeek在春节期间,凭借产品的快速更新迅速走红,其用户数量在极短的时间内急剧飙升。据统计,DeepSeek应用上线仅仅20天,日活跃用户数(DAU)就已经突破了2000万。这样庞大的用户数量的迅猛增长,无疑带来了巨大的算力需求。这使得服务器资源变得极为紧张,以至于DeepSeek不得不暂停API服务充值,优先保障现有用户的使用体验。
随后,DeepSeek发表声明称:“当前服务器资源紧张,为避免对您造成业务影响,我们已暂停API服务充值。存量充值金额可继续调用,敬请谅解!”并且还提到,暂停充值只是为了优先保障现有用户的使用体验,这并非是一个永久性的决策。
DeepSeek暂停充值的消息一经公布,就引发了用户的担忧和广泛的讨论。
02
那么,这个算力缺口到底会有多大呢?
这其实是一个很难精确估计的问题,毕竟算力可以通过购买或者租赁等动态方式来解决。不过,我们能够根据用户量和竞品等情况,来估算DeepSeek对算力的需求量,以及其在运营时需要面对的成本压力。
按照国泰君安证券分析师舒迪、李奇的测算,假设DeepSeek的日均访问量为1亿次,每次提问10次,每次提问的回复用到1000个token(1000个token大概对应750个英文字母),那么DeepSeek每秒的推理算力需求为1.6×1019TOPs。在这种普通推理情境下,如果假设DeepSeek采用的是FP8精度的H100卡做推理,利用率为50%,那么推理端H100卡的需求为16177张,A100卡的需求为51282张。
我们无法确切得知DeepSeek拥有多少算力,但是从“DeepSeek - V3模型在训练过程中使用了2048张H800 GPU,这些GPU的总计算能力为3.97 exaFLOPs(3.97百亿亿FLOPs)”“DeepSeek母公司幻方量化作为国内的私募资产管理巨头,早在2021年便储备了超过1万块英伟达A100/H100 GPU集群”等新闻线索中,能够大致推测出DeepSeek手上的算力情况。
在成本方面,可以参考“前辈”豆包。有机构预计豆包在2025年的MAU有望接近ChatGPT达到2亿,并针对这个用户量对豆包大模型算力需求(非字节全部业务算力需求)对应产业链各环节需求进行了测算。
豆包背后有字节跳动的支持,而DeepSeek作为一家初创企业,面对这样的成本,显然需要一定的时间来获得融资并成长。
点评:DeepSeek - R1的出彩之处在于,它通过重新设计训练流程,采用少量SFT数据、多轮强化学习的方法,在提高模型准确性的同时,还显著降低了内存占用和计算开销。Deepseek - R1提供的是一种低成本训练的方法,但并不是只能通过低成本来进行训练。从这个角度来看,“成本创新”并不等同于“削减算力”,DeepSeek始终强调的是“性价比”的训练路径,只是算法创新在AI大模型发展过程中的比重或者话语权变得更重了而已。
03
多管齐下填补算力缺口
早期,DeepSeek主要依靠自建数据中心,与ChatGPT背后的微软Azure云服务相比,其算力储备存在显著的差距。它的特殊模型架构(如MOE架构)在推理阶段需要更高的算力,但是在上线之前的优化准备不足,导致资源占用过高。
短期来看,DeepSeek联合云服务商(如华为昇腾云、腾讯云)提供算力支持等方式来缓解压力是最为快速有效的办法。华为云作为官方唯一合作伙伴,不仅能够提供大规模的算力支持,还能够协助优化网络攻击防御和用户需求响应。
除了直接租赁算力之外,DeepSeek还可以与云服务商进行联合研发,针对DeepSeek的特定需求对算力资源进行优化和定制。这有助于提高算力资源的利用效率,同时降低算力成本。
从长远来看,技术突破才是解决算力缺口最有效的手段。DeepSeek可以与云服务商进行联合研发,借助云计算的弹性扩展能力,在用户访问量激增的时候动态调配算力,从而实现针对DeepSeek的特定需求对算力资源进行优化和定制。
前不久,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:一块24G显存的4090D就可以在本地运行DeepSeek - R1、V3的671B“满血版”。预处理速度最高能够达到286 tokens/s,推理生成速度最高能达到14 tokens/s。KTransformers更新发布之后,不少开发者也纷纷在自己的设备上进行测试。他们惊喜地发现,本地运行完全没有问题,显存消耗甚至比github里的技术文档中提到的还要少,实际内存占用约380G,显存占用约14G。
点评:从云计算到本地部署,相信多种途径并行一定能够解决DeepSeek的算力缺口问题。反过来,DeepSeek的开源策略降低了云厂商的部署门槛,使云厂商能够快速整合模型能力。金山云、优刻得等通过开源模型轻松部署“杀手级应用”,同时反哺DeepSeek的算力需求。国产算力厂商(如华为昇腾)与DeepSeek适配,最终推动“国产算力 国产大模型”的闭环生态,加速云计算国产化进程。
本文总结了DeepSeek爆火后出现算力缺口的情况,包括因用户量激增而暂停API服务充值。还探讨了算力缺口大小的估算方式,从不同方面分析了DeepSeek对算力的需求和面临的成本压力。最后阐述了填补算力缺口的多种方法,如短期与云服务商合作、长期技术突破等,并且提到DeepSeek的开源策略对云厂商和整个生态的积极影响。
原创文章,作者:Daniel Adela,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/27782.html