DeepSeek这一热门话题展开,讲述了它在春节期间持续霸榜的情况。包括OpenAI受其影响推出o3 - mini模型并调整相关策略,华为云与硅基流动推出基于华为云昇腾云服务的DeepSeek推理服务,SemiAnalysis揭秘DeepSeek成功的关键因素,还有它对英伟达、美国白宫政策的影响,以及它与ChatGPT日活增长的对比等多方面内容。
大年初四,DeepSeek依旧是春节期间热度极高的话题,热度丝毫未减,持续霸屏。DeepSeek面临着十分复杂的局势,一方面巨头企业官宣接入,另一方面多国政府下场质疑,这种冰火两重天的局面尚未平息(例如DeepSeek在美国就处于这样的情况:五大巨头接入,而政府却诚惶诚恐)。就在这种局势下,OpenAI似乎被“逼急”了,在凌晨亮出全新推理模型o3 - mini,并且在ChatGPT首次向所有用户免费提供推理模型,不过o3 - mini的API定价还是高于DeepSeek模型(这可真是重磅消息:OpenAI推出o3 - mini新模型,难道是被DeepSeek逼急了?但定价仍比不上DeepSeek)。o3 - mini发布之后,OpenAI的CEO萨姆·阿尔特曼(Sam Altman)在Reddit上有诸多表态。他提到要学习DeepSeek将推理模型的思考过程公开,因为OpenAI的闭源策略似乎站在了历史错误的一边,所以他们要重新思考开源策略,并且他还坦言OpenAI的领先优势已经不如之前那么大了。继美国两大云巨头之后,华为云也加入进来。就在今日,华为云宣布与硅基流动联合推出并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。尽管o3 - mini已经发布,但这并没有分散大众对DeepSeek的讨论热度。就在昨天,半导体研究和咨询公司SemiAnalysis的一项新报告对DeepSeek成功的关键因素进行了揭秘并且做出推测:DeepSeek拥有的Hopper架构的GPU数量至少大约有5万块,而且在GPU方面的投资已经超过5亿美元;它预训练运行的GPU成本为600万美元,但要注意这只是其中一部分成本,并不包括硬件本身的研发和总体拥有成本(TCO)等重要部分;为了吸引人才,DeepSeek给有潜力的候选人提供超过130万美元(折合约942万人民币)的年薪;DeepSeek的关键创新多头潜注意力(MLA)能将每个查询KV量减少93.3%,这大大降低了推理价格。DeepSeek的成功在硅谷引起了轩然大波。今日上午,英伟达创始人兼CEO黄仁勋被紧急召进美国白宫,与美国总统唐纳德·特朗普(Donald Trump)讨论DeepSeek以及收紧AI芯片出口的事宜。据知情人士透露,特朗普认为这家中国公司的出现意味着“美国公司不必花费大量资金来构建低成本AI替代品”。此外,会议还提到政府将在今年春天进一步限制AI芯片出口,以确保美国及其盟友继续拥有先进的计算能力。昨晚,国内AI产品分析平台AI产品榜发布的数据显示,DeepSeek上线18天的日活已经达到1500万,而ChatGPT达到1500万的日活花费了244天,DeepSeek的增速是ChatGPT的13倍。截止到现在,DeepSeek依然在苹果应用商店157个国家/地区位列第一名,持续霸榜。这场围绕DeepSeek的讨论仍然在激烈进行。Meta首席科学家杨立昆发文尖锐地评论,他认为在硅谷圈子里存在一种“常见病”:错位的优越感。这种病症发展到高级阶段时,就会认为自己的小圈子已经垄断了好的想法,到了末期就会假设来自其他地方的创新都是通过作弊获得的。下面详细说说OpenAI的回应、DeepSeek的制胜秘籍以及推理成本下降相关的情况。一、OpenAI回应定价、针对开源策略认错、剧透GPT - 5、坦言领先优势变小阿尔特曼和OpenAI的首席研究官Mark Chen、首席产品官Kevin Weil等出现在Reddit上,在回复用户问题的时候多次提到DeepSeek,并且透露了OpenAI的新研究进展。OpenAI首次回应o3 - Mini价格没有竞争力时,OpenAI API研究主管Michelle Pokrass称,o3 - Mini相比于美国托管版本的DeepSeek具有竞争力。他还称赞DeepSeek是一个非常好的模型,并且表示“我们将保持比往年更少的领先优势”。看到开源的DeepSeek发布,阿尔特曼对OpenAI的闭源策略进行了反思。他透露OpenAI正在讨论(发布一些模型权重等),他说:“我个人认为我们在这里站在了历史错误的一边,需要找出不同的开源策略,但并非OpenAI的每个人都同意这种观点,这也不是我们目前的首要任务。”DeepSeek的R1模型可以向用户显示模型中间的思考过程,阿尔特曼称OpenAI将效仿DeepSeek的做法:“是的,我们很快会展示一个更有用、更详细的版本。感谢R1让我们有所更新。”这意味着OpenAI可能更多地揭示其所谓的推理模型的“思考过程”。OpenAI首席产品官Kevin Weil还剧透了OpenAI的新进展。4o的图像生成功能可能要几个月后推出;高级语音更新即将推出,GPT - 5的发布还没有时间表;OpenAI计划将文件附加功能添加到推理模型中;完整的o3模型将在几周、不到几个月的时间内完整亮相。二、DeepSeek的制胜秘籍:手握6万块GPU,千万年薪招人半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测。其研究显示,DeepSeek不是外界所传的“副业”,其GPU投资已经超过5亿美元,DeepSeek拥有至少大约5万块Hopper架构的GPU,其中可能大约有1万块H800、1万块H100、3万块H20、1万块A100,这些GPU在幻方量化和DeepSeek之间共享,用于交易、推理、训练和研究。报告分析表明,DeepSeek的总服务器资本支出约为16亿美元(折合约116亿人民币),运营此类集群的成本高达9.44亿美元(折合约68亿人民币)。DeepSeek的价格和效率在本周引起了业界的狂热讨论:DeepSeek用不到600万美元的成本,干翻了硅谷巨头们花费数十亿美金训练的AI模型。但SemiAnalysis的报告提到,这个说法存在错误,这类似于将产品物料清单的特定部分并将其归因为全部成本,预训练成本在总成本中只占很小的一部分,600万美元只包含其预训练运行的GPU成本,只是模型总成本的一部分,不包括硬件本身的研发和总体拥有成本(TCO)等重要部分。作为参考,Claude 3.5 Sonnet的训练成本为数千万美元,但这并不是Anthropic所需的总成本,他们还需要资金进行实验、提出新架构、收集和清理数据、支付员工工资等。其报告还提到,DeepSeek在寻找人才方面也投入了大量资金。目前,该公司的员工人数在150人左右,且公司岗位并没有被预先定义,会根据招聘人员灵活定义。DeepSeek选择在国内寻找人才,并且不考虑其此前的资历,非常注重能力和好奇心。这家公司会定期在北京大学和浙江大学等顶尖大学举办招聘活动,其许多员工都毕业于浙江大学。报告提到,该公司此前还为有前途的候选人提供超过130万美元(折合约942万人民币)的年薪,这一薪资水平远高于国内大型科技公司以及大模型创企。在第三方招聘软件BOSS直聘中,DeepSeek公开的在招职位有37个,核心系统研发工程师、深度学习研究员薪资水平最高为50 - 80K、60 - 90K,除实习生其他岗位均为14薪。大多数情况下,DeepSeek不依赖外部方或提供商,运行自己的数据中心,不依赖外部方或提供商。这为实验开辟了更多领域,使他们能够跨堆栈进行创新。三、推理成本下降,多token预测、多头潜注意力两大创新推理成本骤降是AI进步的一个显著特征。一个明显的例子就是,笔记本电脑上运行的小模型目前已经与GPT - 3性能相当,而后者需要一台超级计算机进行训练和多个GPU进行推理。换句话说,算法改进允许使用较少的计算量来训练和推理具有相同能力的模型,而且这种模式正一遍又一遍上演。到目前为止,在这种模式下AI实验室的策略是花费更多钱来获得更多智能。据估计,算法的进步是每年提升4倍,这意味着每过一年实现相同能力所需的计算量就会减少到1/4。Anthropic的首席执行官达里奥·阿莫迪(Dario Amodei)认为,算法的进步甚至更快,可以产生10倍的改进。就GPT - 3质量的推理定价而言,成本下降到1/1200。该报告还调查了GPT - 4的成本,在曲线早期也有类似的成本下降趋势。虽然随着时间的推移成本差异减少,但在这种情况下,我们看到算法改进和优化使成本降低到1/10,能力提高了。需要明确的是,DeepSeek率先达到了这个级别的成本和能力,并且其独特之处还在于发布了开放权重,SemiAnalysis认为其成本甚至会继续降低到1/5。DeepSeek是如何如此迅速地赶上来的?答案是,推理具有更快的迭代速度和更低成本唾手可得的成果,且与以前的范式相比,计算量更小。但以前的范式依赖于预训练,因价格昂贵难以实现稳健的收益。新范式侧重于通过合成数据生成和现有模型后训练中的强化学习进行推理能力,从而以更低的价格获得更快的收益。较低的进入门槛与简单的优化相结合,意味着DeepSeek能够比平时更快地复制o1方法。未来,随着研发人员弄清楚如何在这一新模式中实现更大规模的发展/应用等,预计不同模型之间能力匹配的时间差距将会拉大。DeepSeek的爆火在于其破解了架构创新的密码并解锁了领先实验室尚未能够实现的创新,其中包括Training (Pre and Post) 模型预训练和后训练以及多头潜在注意力(MLA)。1、Training(Pre and Post)模型预训练和后训练DeepSeek V3以前所未有的规模利用了多标记预测(MTP),其添加的注意力模块可以预测接下来的几个Token,而不是单个Token。这提高了模型在训练期间的性能,并且可以在推理期间丢弃。这一方法以较低的计算能力提高了性能。还有一些额外的考虑因素,例如在训练中采用FP8精度。此外,该模型也是混合专家模型,由许多其他专注于不同事物的较小专家模型组成。MoE模型面临的一个难题是如何确定哪个Token属于哪个子模型。DeepSeek基于门控网络(Gating Network),以不降低模型性能的平衡方式将Token路由到正确的子模型,这提升了训练效率并降低了推理成本。尽管业界有人担心混合专家模型使得效率提高可能会减少该领域的相关投资,但Dario指出,功能更强大的模型经济效益非常可观,以至于任何节省的成本都会迅速重新投资于构建更大的模型。MoE的效率提高不会减少整体投资,而是会加速AI扩展工作。R1的强大能力得益于基础模型V3,强化学习提供了两大能力,一是Formatting(确保它提供连贯输出)二是有用性和无害性(确保模型有用)。推理能力是在合成数据集上对模型进行微调期间出现的。不过R1论文中没有提到计算,这是因为提到使用了多少计算会表明他们的GPU比他们的叙述所暗示的要多。这种规模的强化学习需要大量的计算,尤其是生成合成数据。R1论文中还提到,能使用推理模型的输出对其进行微调,将非推理的较小模型转换为推理模型。数据集管理总共包含800k个样本,现在任何人都可以使用R1的思维链输出来制作自己的数据集,并在这些输出的帮助下制作推理模型。未来,我们可能会看到更多较小的模型展示推理能力,从而使得小型模型的性能提高。2、Multi - head Latent Attention(MLA)多头潜在注意力另外一项关键创新是MLA,负责显著降低DeepSeek的推理价格。其原因是MLA将每个查询所需的KV Cache(键 - 值缓存)数量减少了约93.3%。KV Cache是Transformer中的一种内存机制,它存储代表对话上下文的数据,从而减少不必要的计算。KV Cache会随着对话上下文的增长而增长,并产生相当大的内存限制,大幅减少每个查询所需的KV Cache数量会减少每个查询所需的硬件数量,从而降低成本。报告认为,DeepSeek是在以成本价提供推理服务来获取市场份额,实际上并没有盈利。结语:DeepSeek发布,中美AI竞争格局大洗牌DeepSeek的发布对整个行业产生了全方位、深层次的影响。从OpenAI新发布的o3 - mini也可以看出,中美之间的AI竞争格局正在改变,中国企业在开源领域的积极作为,让美国不得不重新审视其限制开源的策略。从产业竞争格局来看,DeepSeek的横空出世重塑了全球AI产业的竞争版图,这或许也将促使各国重新审视AI发展战略,加强在AI领域的投入和合作,共同推动AI技术的进步。春节期间DeepSeek掀起的这场AI风暴仍在中美乃至全球科技、政金界产生持续影响,并不断发酵,已经成为改变AI科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。
本文总结了DeepSeek在春节期间成为热门话题的现象,包括它在市场、企业竞争、技术创新等多方面带来的影响。讲述了OpenAI的应对措施,DeepSeek成功背后的诸多因素如GPU投资、人才招聘、技术创新等,还阐述了其对中美AI竞争格局以及全球AI产业版图的重塑作用。
原创文章,作者:Sorrowful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/7103.html