2025年中国AI初创公司DeepSeek在AI领域的一系列动作及其产生的影响。DeepSeek发布开源多模态人工智能模型Janus - Pro以及AI推理大模型R1,其低成本高性能的特点在全球AI市场引发震动,还在华尔街和AI界引发蝴蝶效应,导致部分AI算力板块相关公司股价下跌。同时探讨了DeepSeek对算力价值的冲击、在系统工程上的创新以及它的崛起对AI行业格局、商业策略、应用普及和模型开发趋势等方面的影响。
2025年,AI领域的开局充满活力,令人激动不已。在中国,有一家AI初创公司DeepSeek正引领着一场新的AI变革浪潮,这股热潮甚至蔓延到了除夕夜。1月28日凌晨时分,DeepSeek突然有大动作,发布了开源多模态人工智能模型Janus - Pro,并且宣称在GenEval和DPG - Bench基准测试中战胜了DALL - E 3和Stable Diffusion。仅仅在一周之前,DeepSeek刚刚推出了AI推理大模型R1。这个模型可不简单,它具备不逊色于OpenAI o1的高性能,而且训练成本极低,这一特性直接在全球AI市场引发了强烈的“震动”,在本周一度登上苹果免费APP排行榜的首位。随着DeepSeek热度不断攀升,在大洋彼岸,它在华尔街和AI界产生了类似蝴蝶效应的连锁反应。AI领域内外都在激烈辩论AI的泡沫与价值,而股市首先受到冲击,风暴来临。美东时间1月17日收盘时,英伟达股价大幅下跌16.86%,市值一夜之间就蒸发了5888.62亿美元(约合人民币4.27万亿元),这一数据创下了美股历史上最大单日个股蒸发规模的记录。博通的情况也不容乐观,大跌17.40%;台积电下跌13.33%,这两家公司的市值都跌落到1万亿美元以下。此外,美光科技下跌11.71%,AMD下跌6.37%。面对如此剧烈的股价波动以及DeepSeek的发展,1月28日,英伟达向21世纪经济报道记者作出回应。英伟达表示:“DeepSeek是一项非常卓越的人工智能进展,也是测试时扩展的绝佳范例。DeepSeek的研究展示了如何运用该技术,借助广泛可用的模型以及完全符合出口管制规定的算力,创建新模型。推理过程需要大量NVIDIA GPU和高性能网络。如今我们有三条扩展定律:持续适用的预训练和后训练定律,以及新的测试时扩展定律。”从英伟达的回应中可以看出,英伟达肯定了DeepSeek在AI领域取得的进步,同时澄清了出售的GPU芯片是合规的,并且表示GPU仍将有大量需求。短期内,以英伟达为首的算力产业链在经历了迅猛上涨之后,面临着回调受挫的压力;而从长期来看,对于AI前景的展望还需要动态观察。值得注意的是,此次股价暴跌主要集中在AI算力板块,或者说是AI芯片的上下游领域,而互联网等软件大厂的股价只是微跌甚至有所上涨。例如,微软仅下跌2.14%,亚马逊微涨0.24%,Meta上涨1.91%,Salesforce上涨3.96%。从中我们可以发现一个趋势,在AI要素三角——算法、算力、数据当中,算力面临着价值重估的挑战。DeepSeek在受到算力制约的情况下另辟蹊径,通过算法进化和高质量数据,在一定程度上对芯片巨头们构建的算力壁垒造成了冲击。另一方面,大模型训练成本和推理成本的下降,未来将会加速催化AI应用的爆发。软件行业正在经历重生,新的软硬件体系也在重新构建,只有大家一起把AI这个蛋糕做大,才能够促进整体市场的繁荣。DeepSeek最近被人们赋予了很多有趣的标签,像“英伟达算力大空头”“来自东方的神秘力量”“AI的斯普特尼克时刻”“AI界拼多多”“AI界SpaceX”等等,它已然成为AI界一颗耀眼的创业新星。DeepSeek最为人所传颂的突破就在于效率和成本方面。根据公开信息,在2024年底,DeepSeek - V3开源基础模型发布之后,其性能可以对标GPT - 4o,而训练成本仅仅只需要2048块英伟达H800,总花费约为557.6万美元。同样是开源模型,Meta的Llama 3.1训练使用了16384块英伟达H100 GPU,GPT - 4o模型的训练成本约为1亿美元,使用的英伟达GPU数量也在万块以上。在过去,上万的加速卡是训练模型的常规门槛,但DeepSeek正在打破这种常规。虽然R1的训练成本目前还不清楚,但是它的API定价远远低于OpenAI o1,R1每百万输入tokens在1 - 4元人民币,每百万输出tokens为16元人民币。OpenAI在前两年独领风骚之后,现在迎来了更多强劲的竞争对手。在DeepSeek最新的Janus - Pro公布之后,OpenAI的CEO Sam Altman也忍不住对DeepSeek进行了评论,并且还剧透了自己公司即将发布新品。1月28日上午,Sam Altman在社交平台上表示:“Deepseek的R1是一个令人印象深刻的模型,尤其是考虑到性价比。我们显然会推出更好的模型,而且看到一个新的竞争者真是令人振奋!我们将发布一些新版本。不过最让我们兴奋的还是能够继续推进我们的研究路线图,我们相信,现如今比以往任何时候都更加需要计算力让我们的使命成功。全球将会大量使用人工智能,下一代模型也将令人惊叹,期待将AGI以及更多技术带给大家。”首先,从大模型横向对比来看,开源的力量正在不断放大。实际上在2024年,DeepSeek就凭借V2开源模型的高性价比一举成名,国内的公司纷纷跟进降价,到了2025年,这场价格战的战火已经蔓延到全球的AI企业。同时,当前更受关注的是,业内人士认为,DeepSeek R1的成功可能会削弱英伟达等AI芯片需求的预期。与其他创业公司、科技巨头相比,DeepSeek既然能够以更低的算力成本提供高计算性能的大模型,那么在不使用大量最尖端芯片的情况下,就有机会突破壁垒。因此,这也引发了业界对算力巨额投资的质疑。可以说,DeepSeek戳破了大模型高成本的现状,算力的比重和角色正在发生变化。尤其是到了推理时代,异构计算的结构配比又将会发生变化。所以我们看到,不光是英伟达,博通、AMD等公司股价一同下跌,尤其是英伟达狂飙的增速可能面临下滑。英伟达近期经历了多次股价波动,股价下滑的因素是多方面的,包括大盘回调、利润增速下降、高估值隐忧、GB200交付问题、劲敌增多、各国反垄断审查等等。各种背景因素交织着情绪,在资本市场上相互拉扯。但是英伟达创始人兼CEO黄仁勋一直强调,Blackwell平台的产品需求高,数据中心领域还将持续增长。随着接下来2月底新一季度财报的发布,英伟达将会作出更多回应,只是短期内还将承受压力。然而,这并不意味着算力从此就变得一文不值。有了前期算力基建的基础,才能够涌现出如此多的创新。从长期来看,AI应用的爆发仍然需要算力的支持。当前,美股科技巨头们仍然在进行算力军备竞赛。美国最新公布的“星际之门”AI基础设施计划,由OpenAI、软银和甲骨文等公司合作开展,计划在未来4年内筹集5000亿美元,用于建设超大规模数据中心。微软计划在2025年在AI基础设施上投入800亿美元,Meta CEO扎克伯格最近刚表示,Meta计划在2025年投资600亿至650亿美元的资本支出,投入到AI战略中。摩根士丹利(Morgan Stanley)2024年11月发布的报告显示,亚马逊、Google、Meta和微软2025年的资本支出合计将达到3000亿美元左右,2026年将进一步增长至3365亿美元,这些支出多数将投入固定资产,例如数据中心和房地产。接下来,如何更有效率地使用算力、打造更先进的算力网络,将成为新的考验。一位AI从业者向21世纪经济报道记者评价DeepSeek时说道:“DeepSeek价格是拼多多,它的性价比无需多言;工程上是SpaceX,SpaceX在供应链降低成本上有目共睹,DeepSeek也是如此;软件上则是苹果,苹果并不太强调参数,软硬件优化达到高性能体验是它的实力。”多位业内人士向记者分析称,DeepSeek的创新集中在系统工程上,在训练大模型的各个环节中都进行了升级迭代,从而形成了强大的新模型。例如,DeepSeek采用了MoE架构模型(Mixture of Experts,专家混合)、MLA多层注意力架构、FP8混合精度训练框架、各类通信技术、MTP技术(Multi - Token Prediction,多token预测)、蒸馏R1等等,在各个环节上进行工程化的创新升级,让效率持续上升。很多架构或者技术并不是DeepSeek原创的,但是DeepSeek却将这些技术应用得非常娴熟。以MoE架构为例,MoE架构是一种用于提升深度学习模型性能和效率的架构,最早由谷歌提出,将模型划分为多个“专家”,动态选择最相关的专家参与特定项目的计算。如何让专家高效地满载运转,就是各家的本事了,目前看来DeepSeek做到了更优的动态调节。又比如MTP技术,其实是Meta此前率先提出的技术,相比传统生成一个Token,MTP技术能同步生成多个Token,这就加快了AI生成的速度。DeepSeek很快就将MTP引入,并且应用得更快更好。同时,在数据方面,DeepSeek也处理得很好,数据量大、质量高。当然,也有专家指出,DeepSeek存在偏科现象,尤其擅长数学和编程,大模型还有进步空间,在基础技术上也要进一步突破。或许,DeepSeek并没有达到范式的创新,但是工程上的创新、应用的创新,也在孕育新的变革。不断推陈出新的新模型,DeepSeek也向外界展示了更多的可能性,新一代的AI路径正在生成中。虽然DeepSeek探索出了低成本的大模型训练方法,但是前期的投入却不少。DeepSeek孵化于国内顶级量化基金幻方量化,创始人梁文锋是浙江大学大学信息与通信工程专业硕士,2023年4月才成立了子公司DeepSeek,但是幻方量化已经在AI的路上布局多年。根据官网介绍,幻方量化成立于2015年,到了2017年底,几乎所有的量化策略都已经采用AI模型计算。2018年进一步确立以AI为发展方向,但是复杂的模型计算需求使得单机训练遭遇算力瓶颈,同时日益增加的训练需求和有限的计算资源产生了矛盾,寻求大规模算力解决方案。在此背景下,2019年成立了幻方AI,致力于AI算法与基础应用研究,研发团队自研幻方“萤火一号”AI集群,搭载了500块显卡,2020年“萤火一号”总投资近2亿元,搭载1100加速卡;2021年开始,幻方AI投入10亿建设“萤火二号”,2022年突破了一期的物理限制,算力扩容翻倍。这也意味着,从2019年开始,幻方就开始购买卡建设AI集群,当时chatGPT还没有全球爆火,但是幻方就已经拿到了AI昂贵的船票,并在2021年左右就达到了万卡的储备。此前就有大厂高管向记者表示,金融和医疗是目前生成式AI应用最广的领域,因为数据基本上云且完备合规。从这个逻辑看来,从金融创业公司跑出来AI大模型也不奇怪,而且DeepSeek的一大商用场景就已经是量化金融。对于创业公司与大厂的竞争,此前梁文锋接受暗涌采访时谈道:“说实话我们不太care这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的主要目标还是去实现AGI。目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。”谈及其他中国的大模型创业公司,梁文锋表示,可能活下来2到3家,那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。新锐AI企业DeepSeek凭借其R1模型的强劲表现和现象级爆发,成为行业焦点。极低的训练成本展现出媲美主流大模型的性能,这一成果在AI领域引发了巨大轰动,并对行业格局带来了影响。目前看来,DeepSeek的崛起或许标志着AI技术从“规模优先”转向“效率优先”的新阶段。数据显示,我们的人脑功耗仅20瓦(相当于一盏节能灯),却支持复杂的认知功能,未来大模型或许能进一步朝着大脑的方向进化。可以确定的是,来到新的一年,AI竞技场上的技术创新和行业竞争将进入全新层次。其一,DeepSeek为AI市场注入了新的变量,在其推动下,AI巨头可能不得不调整商业策略,降价以应对竞争压力。未来,行业内的价格战或愈演愈烈,迫使企业优化成本结构,探索更具吸引力的商业模式。其二,低成本催生应用爆发,AI普及正在加速,DeepSeek的技术突破降低了AI服务的总体成本,让更多传统行业能以更低门槛部署AI解决方案。这将加速AI在各行各业的渗透,进一步推动数字化转型。同时,低成本还使定制化AI应用成为可能,个人和中小型企业均可打造专属AI服务,催生个性化AI时代的到来。其三,算力价值面临重估,R1模型展现的高效算力利用引发了行业对计算资源价值的重新思考。传统上,AI模型的发展高度依赖于昂贵的硬件资源,然而,DeepSeek通过优化架构减少了对算力的需求,这可能导致算力市场的供需关系发生结构性变化。未来,企业将更加注重通过算法创新提升效率,而非一味增加硬件投入。与此同时,在最高端算力受限的情况下,国产芯片也有新的替代机会。其四,DeepSeek正在掀起效率革命,小而精模型或成新趋势。DeepSeek的成功表明,在AI模型开发中,“更大”并不一定代表“更优”,效率导向的大模型开发或成为新潮流。人脑功耗仅20瓦(相当于一盏节能灯),却支持复杂的认知功能,或许接下来的进化。
2025年DeepSeek在AI领域的发展引起广泛关注,其发布的模型在性能和成本上具有显著优势,引发了全球AI市场的震动并在华尔街产生蝴蝶效应。它对算力价值提出挑战,促使行业重新思考算力与算法、数据的关系。同时,DeepSeek在系统工程上的创新展示了新的AI发展路径,尽管存在不足但仍推动了AI从规模优先向效率优先转变,这将影响AI巨头的商业策略、加速AI应用普及、催生新的模型开发趋势等多方面变革。
原创文章,作者:东海凝丝,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/4398.html