蒸馏技术崛起,基础模型巨头何去何从? 廉价AI时代:蒸馏技术打破大模型垄断?

本文聚焦于当下人工智能开发成本降至历史新低的现象,深入剖析了“模型蒸馏技术”这一关键因素。介绍了蒸馏技术的原理、应用案例以及其发展历程,探讨了该技术对人工智能行业的多方面影响,包括对基础模型厂商盈利前景的冲击以及基础模型未来的出路等问题。

3月10日消息,当下,人工智能开发成本正降至前所未有的低点。更低廉的开发技术让广大AI开发者兴奋不已,不过,这一变化并非完全只有好处。当成本降至谷底,那些大科技公司在基础模型上的巨额投资就需要有合理的解释了。

大家不禁会问,打造一家人工智能公司到底要花多少钱呢?随着大语言模型研发成本的不断降低,这个数字每天都在变小。

一方面,人工智能算力成本持续下降;另一方面,能用极低成本训练出优质大模型的“模型蒸馏技术”也在不断普及。这种新型廉价开发技术让AI开发者欢呼雀跃,但并非所有人都觉得这是好事,一些企业甚至感受到了寒意。这项有着悠久历史的技术正被赋予新的价值:对大多数人来说是福音,对特定群体而言意味着复杂的挑战,而对于AI的未来更是意义深远。

蒸馏技术解构

人工智能开发者和专家指出,蒸馏技术的核心是利用一个模型来提升另一个模型。具体来说,就是让一个较大的“教师”模型生成应答和推理路径,然后让一个较小的“学生”模型模仿其行为模式。

有消息称,中国公司DeepSeek(深度求索)仅用约500万美元的成本就训练出了能与OpenAI抗衡的模型,这一消息在业界引起了巨大轰动。它还引发了股市恐慌,由于担忧芯片需求下降,英伟达市值一度惨跌6000亿美元(不过这一预测目前尚未成真)。

今年1月份,加州大学伯克利分校的研究团队发布研究成果,表明他们用不到1000美元的算力成本就训练出了两个新模型。到了2月份,斯坦福大学、华盛顿大学以及艾伦人工智能研究所的研究人员更进一步,用更低的成本训练出了一个可用的推理模型。

这些显著的突破都得益于蒸馏技术。

通常情况下,这项技术会和微调技术(fine - tuning)搭配使用,能在训练阶段以远低于其他方法的成本提升模型性能。开发者常用这两种技术赋予模型特定的专业知识或技能。比如,可以把Meta开发的通用基础模型蒸馏成精通美国税法的专家系统;也可以利用DeepSeek的R1推理模型对Llama进行蒸馏,增强其推理能力,让Llama在生成答案需要较长时间时,能逐步展示推理过程。

美国知名半导体分析机构SemiAnalysis的分析师在今年1月份发布的报告中提到:“R1模型中最有意思的部分,或许就在于用推理模型的输出对一些非推理的小模型进行微调,使它们转变为具备推理能力的模型。”

除了价格低廉,DeepSeek还把R1推理模型作为教师,发布其他开源模型的蒸馏版本。要知道,DeepSeek的全尺寸模型以及Llama的最大版本规模过于庞大,只有特定硬件才能支持其运行,而蒸馏技术恰好有助于解决这一问题。图灵资本(Touring Capital)合伙人萨米尔·库马尔(Samir Kumar)表示:“经过蒸馏的模型体积更小、参数更少、内存占用更低,甚至可以在手机或边缘设备上运行。”

值得一提的是,DeepSeek的突破性还在于,经过蒸馏的模型性能不仅没有因规模缩减而下降,反而有所提升。

蒸馏技术虽非新生事物,却已悄然蜕变

蒸馏技术最早出现在2015年,源于谷歌人工智能元老杰夫·迪恩(Jeff Dean)、杰弗里·辛顿(Geoffrey Hinton)以及谷歌DeepMind研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)共同撰写的一篇论文。维尼亚尔斯近期透露,该论文曾被NeurIPS顶会拒稿,理由是该技术“对领域影响有限”。然而,十年后的今天,蒸馏技术却突然成为了AI讨论的核心议题。与过去相比,如今蒸馏技术威力提升的原因在于可用作教师模型的开源模型在数量和质量上都有了飞跃。今年1月份,IBM LLM Granite技术管理总监凯特·索尔(Kate Soule)在播客中表示:“DeepSeek通过MIT许可开源迄今最强大的模型,实质上正在侵蚀各大厂商守护核心模型的紧闭大门。”

蒸馏技术的应用边界

索尔提到,互联网开源模型库Hugging Face平台上满是诸如Meta Llama和阿里巴巴Qwen等传统模型的蒸馏版本。实际上,Hugging Face存储的约150万个模型中,有3万个名称中带有“distill”字样,这通常意味着它们经过了蒸馏。不过,目前还没有蒸馏模型进入Hugging Face的榜单前列。就像实体店里的一元店,蒸馏技术虽然性价比顶尖,但可选范围有限且存在缺陷:专精某项任务的蒸馏模型在其他领域的表现可能会变差。

苹果公司研究人员曾尝试构建“蒸馏扩展定律”,通过教师模型的规模、目标模型规模和算力投入等参数预测蒸馏效果。他们发现,在特定条件下,当使用高质量的教师模型时,蒸馏效果优于传统的监督学习,但当教师模型过大时,性能提升就会停滞。

尽管如此,这一技术仍有助于缩短从概念到原型的距离,普遍降低了人工智能创业门槛。不过,多位人工智能专家强调,这种捷径并不否定昂贵基础模型的必要性,但确实动摇了大模型厂商的盈利前景。

基础模型还有出路吗?

英伟达首席执行官黄仁勋在公司最新财报发布后接受采访时表示:“如今全球几乎所有AI开发者都在使用DeepSeek的R1来蒸馏新模型。”蒸馏技术带来了机遇,但对OpenAI和Anthropic等公司耗巨资开发的专有大模型构成了威胁,有可能遭到对抗。云平台Hyperbolic联合创始人张杰表示:“我认为基础模型将会越来越趋于同质化。预训练模型的能力存在天花板,我们正逼近这个极限。”张杰认为,大语言模型巨头的出路在于打造受欢迎的产品而非模型本身,这或许解释了Meta选择部分开源Llama模型的战略考量。

此外,基础模型公司还可以采用更激进的策略。匿名谷歌DeepMind研究员表示,具备推理能力的模型可以通过隐藏推理步骤或“痕迹”来防止被蒸馏。虽然OpenAI在大型o1推理模型中隐藏了完整的推理路径,但新发布的o3 - mini版本则展示了这些信息。特朗普政府人工智能政策顾问戴维·萨克斯(David Sacks)在今年1月份接受采访时说:“未来几个月,头部人工智能公司将围剿蒸馏技术。”

不过,在开源人工智能的“狂野西部”,要通过限制蒸馏来遏制技术扩散谈何容易。IBM LLM Granite的索尔直言:“Hugging Face充斥着大量GPT模型生成的、未经授权的格式化训练数据集。这早已经是公开的秘密。”

Anthropic和OpenAI均未对此置评。

蒸馏技术崛起,基础模型巨头何去何从? 廉价AI时代:蒸馏技术打破大模型垄断?

本文围绕人工智能开发成本降低这一现象,重点阐述了蒸馏技术的原理、应用、发展及对行业的影响。蒸馏技术凭借低成本和高性能的优势,给AI行业带来新机遇,同时也冲击了基础模型厂商的盈利模式。基础模型厂商面临挑战,需探索新的出路,如打造受欢迎的产品或采取激进策略防止模型被蒸馏,但在开源环境下限制技术扩散难度较大。

原创文章,作者:Sorrowful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/32781.html

(0)
SorrowfulSorrowful
上一篇 2025年3月10日
下一篇 2025年3月10日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注