DeepSeek被舆论过度追捧的现象,探讨应该基于哪些共识来客观讨论它,从没有从0到1的创新、确实完成了AI算力成本缩减、它的成功很大部分依靠人文能力等方面进行分析,最后提出要理性看待DeepSeek,将其从神坛上带下来。
过年的时候,我尽情享受休息时光,对读者要求写DeepSeek的催促心怀愧疚而选择无视。后来我发现,这催更现象可不只出现在科技博主这里。在一个和AI毫无关系的搞笑博主评论区,我看到有网友说:“你怎么还不讲DeepSeek?它让美国股市血雨腥风,粉碎了美国人的幻想,那些欧美科技公司都坐不住了。”这种“热情”持续升温,各种言论铺天盖地。像“科技巨头全报废了”“AGI马上实现”“普通人再不学DeepSeek就晚了”之类的说法不断涌现。甚至还有像DeepSeek遭受境外大规模网络攻击,然后各大科技公司顶尖高手隐迹江湖,中国红客出手相救这样充满戏剧性的情节。谈到DeepSeek时,我们似乎很容易陷入一种狂热情绪。这其中当然有DeepSeek自身足够优秀的因素,也有近年来AI大热的影响,但不可否认,地缘因素也起到了推动作用。很多人迫切想要一个“外国人害怕、服气”的故事,在科技领域更是如此。为了迎合这种情绪,媒体和公众人物往往推波助澜。比如将对DeepSeek的讨论上升到哲学、国运、历史走向这样的高度。而这些讨论在流量的作用下被不断放大,层层断章取义,很快就让一个AI模型承受了它本不该承受的地位、责任和期望,这就是所谓的“推上神坛”。然而,神坛之上并不好过。以往的经验告诉我们,接下来往往就是“伤仲永”“泡沫破裂”之类的舆论反噬。对于刚刚崭露头角的DeepSeek及其研发团队来说,这种走向是弊大于利的。所以,我们有必要讨论一下,现阶段可以基于哪些共识来客观地讨论DeepSeek。或者说,尝试拆掉舆论为它筑起的神坛,还原一个更真实、更朴素的DeepSeek。首先,不妨抛出一个“爆论”。与社交媒体上的观点截然不同,DeepSeek其实并没有实现从0到1的核心技术突破。DeepSeek大火之后,其研发团队和科技产业相关人士都在强调中国AI不能只是跟随,必须完成从0到1的突破。这个观点没错,但目前的DeepSeek可能还无法成为这个观点的例证。所谓的核心技术突破,应该是主要技术路径的变革,或者实现效果的巨大提升。DeepSeek目前最令人惊艳的技术能力,一个是R1模型带火的思维链推理过程,另一个是其联网检索的RAG效果表现出色。
但这两条技术路径都不是DeepSeek开创的。思维链的兴起一般认为是OpenAI发布的o1模型。去年9月o1模型公布后,全球主流大模型纷纷跟进思维链、推理大模型等能力,虽然各家名称不同,但整体技术路线基本一致。DeepSeek确实更完整、详细地展示了思维链的过程,但也能明显看到其中大模型幻觉还很严重。在联网检索方面,其他厂商也早有布局,也就是所谓的RAG检索 - 增强 - 生成机制。这项技术最初是为了解决大模型不具备实时信息的问题,并帮助矫正大模型幻觉。早在2023年,百度发布文心一言时,RAG就已经是其核心能力的一部分。不过,没有从0到1的创新,并不意味着没有创新。DeepSeek在模型能力的优化方面做了大量开拓性工作,比如通过GRPO算法让模型更加高效。可以说,DeepSeek整合了业界主流的、经过验证的技术路线,在这个基础上完成了模型优化、能力提升和用户体验升级。我们总是渴望从0到1的创新,总是期待石破天惊的突破。但客观地说,第一步和第一万步,迈出的意义是一样的。那么,DeepSeek真正引起全球关注的价值在哪里呢?在短短一个春节的发酵之后,很多人可能都忘记了它最初出圈是因为通过软件和架构创新,用极低的算力成本完成了DeepSeek - V3模型的训练。DeepSeek - V3是我们今天使用的R1模型的基础模型。在研发团队发表的论文中,可以看到其仅用550万美元的算力训练成本就完成了6710亿参数大模型的训练。即使这项统计仅局限于基础模型训练的算力成本,不包含后续应用模型的强化学习、模型推理以及人才成本、综合成本等项目,但这无疑颠覆了大模型训练的主流成本模型。最终DeepSeek实现的效果,也基本达到了以o1为代表的主流大模型的水平。虽然在模型效果上很难说有全面超越,但它确实通过软件算法的革新降低了硬件成本。让低成本模型的效果不逊色于高成本模型,让开源模型的效果能够追赶闭源模型。而DeepSeek“降低AI算力成本”的突破,恰好发生在全球主流AI玩家囤积高端GPU以构筑产业护城河,以及美国对中国禁售高端AI芯片企图打压中国AI的关键节点上。于是就有了DeepSeek实现AI民主化,甚至有助于打破地缘科技垄断的说法,从而出现了一款中国AI大模型让整个美国股市震荡的戏剧性场景。DeepSeek实现的训练效率提升和训练成本下降,在特殊的产业环境和国际环境下产生了连锁反应。但问题是,很多平时不关注AI的朋友,可能不知道AI大模型算力越大效果越好的Scaling Laws,也不清楚算力垄断和禁售的背景信息,只知道短视频上说DeepSeek横空出世,外国人都慌了、怕了。这种缺乏前因后果的联想,为DeepSeek凭空打造了一座本不属于它的神坛。推而广之,我们很多人都喜欢那种天才式的、充满戏剧性的创新。但在现实中,往往只有通过工程化能力,不断优化、降低成本、提高效率,技术创新才有应用和普及的可能。例如,我们都知道爱迪生发明了电灯,但容易忽略大规模电网实现了电力成本的极大下降。如果每家都要自己发电,那世界将一片漆黑。“我们把成本打下来了。”这句有点荒诞、俗套且略带反讽意味的话,其实是中国产业化能力的一个缩影。我们也不妨大方承认,包括DeepSeek在内的中国AI,在未来很长一段时间内最擅长的就是降低成本。DeepSeek爆火之后,很多人都说这是技术的巨大胜利,预言AI的崛起会让人文社科和人文工作失去价值。甚至“DeepSeek来了,学文科还有意义吗?”这样的话题登上了热搜。但如果我们多使用DeepSeek,仔细分析它与其他模型的区别,就会发现一个相反的观点:DeepSeek恰好证明了文科和人文能力在AI时代有多么重要。当我们随机询问一些人对DeepSeek的使用体验时,他们可能会说和DeepSeek对话感觉更有人情味。但这种人情味,在很大程度上不是理解、推理等AI技术层面的“人情味”,而是模型在对话过程中展现出了大量的幽默感、网感,以及更符合年轻群体的对话习惯。还有就是DeepSeek具有相对更精妙的修辞能力、优美的文笔和不错的综合人文素养。
这些能力让DeepSeek更贴近年轻用户的对话习惯和审美需求,并且能够给出更有话题性和传播性的回答。但问题是,这些能力其实和技术关系不大,而是在很大程度上与训练语料的选取等人文能力紧密相关。比如,让DeepSeek写首诗,它能写出文艺青年喜爱的语调与修辞。而其他主流国内大模型虽然也能写得平仄工整、辞藻华丽,但一眼看上去就像是酷似打油诗的“老干体”。再比如,让DeepSeek预测一些未来趋势之类的问题,它的回答会特别像网络科幻小说。虽然经不起推敲,但就是能让年轻人感觉很厉害、很燃。这些优点的来源不是技术,而是在于研发团队的年轻化、高审美,并且重视模型训练过程中的人文要素。反观很多主流大模型,由于最终听取汇报的领导层普遍是45岁以上、缺乏人文学科背景的中年男士,最终导致大模型对话充满官腔。与其说年轻人在支持DeepSeek,不如说年轻人在支持自己的话语权和审美权。顺便一提,DeepSeek的另一个人文优势是它目前还有些“百无禁忌”。然而监管的铁拳虽迟但到,大家不必对AI的犀利和大胆抱有幻想。DeepSeek以一种巧妙的方式,实现了用户对话体验更好、传播效果更优秀。这些在技术层面之外的东西,或许能够引起AI公司对产品体验的反思,以及对人文能力的重视。如果我们一味吹捧DeepSeek的技术,而忽略其人文体验,那其实是很可惜的。综合以上这些方面,我们可以勾勒出一个比较完整、没有神圣光环的DeepSeek:它是一次综合的突破。这种突破由技术创新、人文素养、开源和低成本策略等要素构成,并且在特殊的产业周期和国际环境背景下被放大。DeepSeek不是石破天惊的技术革命,但它足够成熟、足够有新意。这也在一定程度上解释了为什么欧美的AI大佬和专家对它比较一致的看法是“令人印象深刻”。DeepSeek没有一步登天,我们也不必幻想一步登天。它只是向前迈进了一大步,我们完全可以为迈出这一步而感到自信和骄傲。我也非常反对中国只有DeepSeek这种言论。事实上,中国有清晰的AI产业格局,有坚实的自主化AI软硬件体系,有数十万AI开发者,还有非常积极的AI政策导向。这些都是孕育更多DeepSeek的土壤。有这些因素在,我坚信会有更多的DeepSeek出现。直到AI工业革命开启,直到AGI的曙光出现。为何不把DeepSeek从神坛上带下来呢?理性、从容地看待它,充分利用它,利用中国AI事业的一切成果,才是AI在中国真正走向成熟的表现。王阳明说,山高万仞,只登一步。DeepSeek这一步有它的意义,迈出这一步后,不妨停下来听听山风,轻松一下。但也要清醒地知道,我们还在山间。休息好了,高兴够了,只有一件事要做,那就是迈出下一步。
文章指出DeepSeek被舆论过度追捧,分析了它并非从0到1的技术创新,而是在模型优化、算力成本缩减和人文能力等方面有一定成果。这种追捧背后有地缘因素和流量放大的作用。呼吁要理性看待DeepSeek,将其从神坛上带下来,同时也表明中国有着良好的AI发展土壤,会有更多成果出现。
原创文章,作者:东海凝丝,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/13742.html