本文将深入探讨DeepSeek在全球科技领域引发的一系列连锁反应,包括对AI发展路径、规模法则、通用人工智能发展道路、算力与算效追求以及开源等多方面的影响,同时分析中国在人工智能领域的实力与发展方向等重要问题。
近日,DeepSeek横空出世,在全球科技界掀起轩然大波,从学界到业界都展开了广泛讨论与深入思考。《科技导报》2025年第3期刊发李国杰院士的《DeepSeek引发的AI发展路径思考》,对DeepSeek背后的AI发展路径相关问题深入剖析,见解深刻、专业且富有启发性,现呈现给广大读者。
1. DeepSeek引发全球性科技震撼的缘由
DeepSeek的出现是人工智能发展史上的标志性事件。短短7天,其用户增长超1亿,创造了新的用户增长速度世界纪录。与此同时,芯片巨头英伟达股价单日暴跌17%,市值缩水5890亿美元,创下美国上市公司单日最大损失纪录。DeepSeek的崛起打破了“高算力和高投入是发展人工智能唯一途径”以及“集成电路制程优势 = 人工智能技术霸权”的观念,引领人工智能进入以算法和模型架构优化为主,重视数据质量与规模、理性提高算力的新时期。这也标志着中国科技公司从“追赶者”变为“规则改写者”,在全球瞩目的人工智能领域以颠覆性创新挑战西方AI霸权。
全球人工智能龙头企业纷纷接纳DeepSeek,彰显其强大影响力。微软率先宣布将DeepSeek R1模型添加到Azure AI Foundry云平台,供开发者构建云应用和服务。亚马逊云科技、英伟达、超威半导体等公司也相继在其AI服务平台部署DeepSeek V3和R1模型。尽管部分国家政府抵制,少数媒体恶意诋毁,但上亿用户和众多大公司基于DeepSeek的性价比和自身体验选择融入其生态。DeepSeek推出的高效、低成本推理模型和开源商业模式将引领AI行业新潮流。
DeepSeek的V3和R1模型受欢迎,源于其在模型算法和系统软件层面的重大创新。DeepSeek - V3模型参数量达6710亿,采用自主研发的混合专家模型架构,每层有256个细分领域的路由专家和1个共享专家,每次调用仅激活约370亿个参数,大幅降低训练计算成本。其改进的多头潜在注意力机制减少键值缓存开销,使显存占用降至其他大模型的5% - 13%,提升了模型运行效率。DeepSeek - R1模型摒弃传统监督微调,提出群组相对策略优化,直接通过强化学习从基础模型激发推理能力,大大降低数据标注成本、简化训练流程。DeepSeek揭示了推理模型开发比想象简单,各行业都可参与的真相,它在已有成果基础上实现技术突破。
第三波人工智能兴起后,美国政府、AI龙头企业和投资界认为发展人工智能需高算力,英伟达的GPU被视为实现人工智能计算性能最高的芯片。美国企图通过控制GPU销售称霸全球人工智能领域,特朗普就职第二天就签署法案,投资5000亿美元打造人工智能基础设施。然而,DeepSeek的出现让人们看到,以英伟达为代表的美国AI龙头企业并非不可战胜,DeepSeek震撼全球正是揭示真相的力量。
2. “规模法则(Scaling Law)”是否触顶
2020年1月,OpenAI发表论文提出规模法则:“通过增加模型规模、数据量和计算资源,可显著提升模型性能。”在AI领域,规模法则被一些人奉为“公理”,但它只是OpenAI等公司研制大模型的经验归纳,从科研角度是一种技术发展趋势猜想,从投资角度是对技术路线的押注。人工智能探索道路多样,将一种猜想当作科学公理不科学。近几年大模型训练实际效果表明,要实现大模型性能线性增长,模型规模、数据量和算力投入需高指数性增长,这种增长不可能持久。鼓吹“Scaling Law”的人常以理查德·萨顿的文章为依据,但萨顿本人近年也反思,指出规模法则虽提升模型性能但非万能钥匙,AI系统还需具备多种能力,难以仅靠增加算力实现。
现在说规模法则走到尽头缺乏依据,与人脑神经连接复杂性相比,人工神经网络还有很大差距。继续扩大规模和增加数据量能否取得相应回报,需看实际效果。GPT - 5未能问世可能暗示规模扩张效果已不明显,图灵奖得主杨立昆和OpenAI前首席科学家等直言规模法则已触顶。DeepSeek的出现促使AI界思考技术发展路线问题:是继续追求高算力还是另辟蹊径优化算法?DeepSeek标志着人工智能训练模式从外延式发展转向内涵式发展,它没有否定算力的重要性,将来推理所需算力会成为主要需求,而绿色发展是必须遵循的原则,降低人工智能能耗是重要目标。
3. 发展“通用人工智能”(AGI)的路径选择
“通用人工智能”概念模糊且缺乏广泛共识。OpenAI追求的AGI是AI在多领域以人类水平处理复杂问题的能力。人工智能界存在莫拉维克悖论,能解复杂问题的人工智能不一定是通用人工智能,许多人认为能应对预料之外情况才叫“通用”,所以学术界更关注智能系统持续学习和自我改进能力,人工智能的通用性不仅体现在语言处理,还包括与人一样基于常识与外部世界互动的能力。
人工智能是对人类智能某方面的再现和超越,所谓“通用”是相对的,要认识其局限性,不能盲目追求能解决所有问题的人工智能,应根据实际需求将相对通用的技术落地。实现通用智能是渐进过程,目前技术离真正通用智能还有差距。DeepSeek和OpenAI都以发展“通用人工智能”为目标,但路径不同。OpenAI相信规模法则,扩大模型规模先做通用基础模型再“蒸馏”出行业垂直模型,走“由通到专”的路,仍需解决保持泛化能力同时提高特定领域性能和效率的问题。DeepSeek走“由专到通”的路,通过模型算法和工程优化进行系统级创新,为受限资源下探索通用人工智能开辟新道路,其“混合专家模型”集小智为大智、专智为通智。“小而精”的模型将发展方向从to B引向to C,从“横向通吃”转向“纵向做精”,但整合多个专用模型为通用模型也面临技术和工程问题。通用与专用的竞争在技术发展中普遍存在,“由通到专”和“由专到通”的人工智能道路孰能走通有待历史评判,也许最终通专融合,构建新的产业生态。
4. 发展人工智能应追求高算力还是高算效(高能效)
图灵被视为人工智能奠基人,他提出可用计算模拟人类智能的假说,暗示计算等价于智能,大模型出现使算力作用空前提高,但我们要思考高算力是否是人工智能本质要求。发展人工智能初衷是模拟人脑,人脑是计算效率和能效极高的装置,功耗仅20W左右,其采用分布式模拟计算,而计算机高能耗源于软硬件分离的数字计算。深度学习奠基人辛顿提出“凡人计算”新方向,采用与人脑一样的存算一体模拟计算模式,追求高算效和高能效,这是发展人工智能的长远正确方向。
DeepSeek发布后,斯坦福大学华裔科学家李飞飞指导的团队以阿里通义千问模型为基础,通过“蒸馏”谷歌模型并结合SFT技术,用16个英伟达H100 GPU训练26分钟,花费不到50美元就成功训练出s1模型,其性能超过OpenAI的模型。这种低成本模型通用性可能不如大公司模型,但在某些应用上性能可媲美高端模型,显示出人工智能低成本化有很大提升空间。低成本是技术普及的基本要求,蒸汽机、电力和计算机都是成本降低后才普及的,人工智能也会如此。目前盲目追求高算力使成本居高不下,阻碍了大规模普及,DeepSeek开辟了低成本发展人工智能的道路,标志着AI进入追求高算效和高能效为主的新阶段。
5. “开源”的强大威力
过去开源大模型性能与龙头企业闭源大模型有差距,而DeepSeek性能追上闭源模型,增强了开源社区信心。图灵奖得主杨立昆认为这表明开源模型正在超越闭源模型,改变AI发展模式比单项技术突破更重要。尽管生成式人工智能发展迅速,但多数企业不敢将数据交给私有AI平台生成垂直模型,担心数据泄露技术机密,这是人工智能难以在各行业落地的根本原因。DeepSeek的彻底开源模式解决了这一难题,全球企业和用户可将其模型下载到本地,断网也能“蒸馏”出高效垂直模型,实现了技术民主化。
长期以来,美国AI龙头公司夸大开源AI安全风险,试图通过监管抑制开源AI。实际上,开源模型对全球AI供应链至关重要,发展中国家尤其需要。若美国继续设置障碍,中国有望在开源AI全球供应链中占据核心地位,使更多企业采用中国企业技术方案。真正的AI竞争是生态系统、商业模式和价值观的竞争,开源模型让开发者能轻松调用强大AI工具,不受大公司约束,将提升AI进化速度。DeepSeek的开源战略表明,在AI竞赛中拥抱开源者将赢得未来。
6. 中国在人工智能领域是否具备引领全球的实力
有人认为ChatGPT是0到1的突破,DeepSeek只是1到N的扩展,这种观点不符合人工智能发展历史轨迹。人工智能没有明确的0到1界限,只有智能化水平不断提高的过程。长期以来,中国人工智能企业多重视应用和商业模式创新,追求快速盈利,较少参与核心技术创新。随着经济和技术积累,中国企业开始具备原创能力,DeepSeek可能是一个分水岭,标志着中国AI产业从“技术跟跑”迈向“技术并跑和领跑”。
应承认中国在人工智能基础研究和核心技术方面与美国仍有差距。中国的论文发表总数和专利授权数量虽超过美国,但引用最多的源头性论文大多出自美国,美国也是顶尖AI模型的主要来源国。不过中国在AI领域进步速度很快,根据相关统计,在机器学习顶级会议发表的论文中,中国作者数量增长迅速。人工智能是拼智力的新兴产业,具有不对称性,一个小企业凭借聪明头脑就能挑战大龙头企业。DeepSeek只是中国有潜力的人工智能企业之一,还有其他企业展现出强大技术实力和全球竞争力。中国已有一批创新型小企业进入世界前列,开始展现引领全球的实力。DeepSeek的成功说明算法优化和系统级工程优化在人工智能发展中不可或缺,中国庞大的工程师队伍是优势,进入并跑状态后不必过于在意与美国的时间差,年轻一代科研主力要有信心在人工智能研究和应用上领先美国。
7. 中国实现人工智能自立自强的发力点
实现人工智能自立自强,国家的顶层规划和资金支持固然重要,但人才使用培养和产业生态构建也不可或缺,关键是要有自信心。DeepSeek成功源于其创始人梁文锋的自信,他认为中国AI不能永远做跟随者。DeepSeek的用人模式打破传统,拒绝经验丰富者,选择初出茅庐的年轻人,这种用人理念带来创新动力,也对传统教育和人才聘用模式提出警示。
构建自主可控的产业生态是实现人工智能自立自强最困难的部分。英伟达的“护城河”是其软件生态,DeepSeek冲击了该生态但未完全绕过,其生态壁垒仍存在。长远来看,需开发更优秀的自主可控AI软件工具系统,重构AI软件生态,相关部门应组织全国力量,调动企业积极性来完成。资金投入不是决定AI成败的唯一因素,但中国投资市场规模急剧萎缩值得警醒,美国在AI投资上远超中国,正常的金融支持对发展AI是必要的。政府和资本界应构建健康的科创金融生态,为创新提供动力,促使更多DeepSeek出现。产业生态的形成还需市场牵引,国家应通过政策引导,推广AI应用,提高国产硬件和软件的市场占有率,重视芯片设计和大模型的开源战略,在有限算力下通过协同创新发挥硬件极致性能,优化适配算力资源与人工智能平台,使中国人工智能科研和应用走在世界前列。
本文全面深入地探讨了DeepSeek对人工智能发展路径多方面的影响,包括对传统观念的冲击、促使对规模法则的重新审视、提供通用人工智能发展的新思路、引领从高算力到高算效的转变以及展示开源的巨大力量等。同时,也分析了中国在人工智能领域的现状、实力以及实现自立自强的方向,如在技术创新、人才培养与聘用、产业生态构建和资金投入等方面的努力方向等重要内容。
原创文章,作者:东海凝丝,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/26063.html