中国DeepSeek被指违规,美国科技界震动

中国人工智能初创公司DeepSeek在过去一周成为硅谷热议对象,还触发了美国科技股“崩盘”。OpenAI称DeepSeek可能使用其专有模型违反服务条款,而DeepSeek尚未回应。同时美国政府在评估DeepSeek技术影响,特朗普对DeepSeek技术也有表态。文章还深入探讨了数据蒸馏技术以及DeepSeek模型能脱颖而出的原因,也提到了过度依赖蒸馏技术可能存在的问题等。

中国的人工智能初创企业DeepSeek,在刚刚过去的这一周成为了硅谷的热门话题,并且还引发了本周一美国科技股的“崩盘”现象。

1月29日的时候,OpenAI宣称,他们发现有迹象表明中国的DeepSeek人工智能初创公司利用其专有模型来训练自己的开源模型,并且暗示这一行为可能违背了OpenAI的服务条款。不过,OpenAI并没有进一步详细说明到底是哪些证据。要知道,OpenAI的服务条款明确规定,用户是不可以“复制”其任何服务的,也不能“使用其输出来开发与OpenAI竞争的模型”。

中国DeepSeek被指违规,美国科技界震动

一种“常见技术”引发了争议。和Meta的Llama开源模型能够免费使用不一样,OpenAI的模型系统是封闭的,不过个人用户还是可以通过付费接入其编程接口(API)来获取数据。截至发稿之时,DeepSeek还没有作出回应。

在此之前,美国政府就表示正在组织专家紧急评估DeepSeek的技术以及其可能带来的影响。美国白宫负责AI和加密货币事务的大卫·萨克斯(David Sacks)表示,在接下来的几个月里,美国那些领先的人工智能公司将会采取措施,试图阻止其他公司获取“蒸馏技术”。

DeepSeek模型所取得的技术突破已经引起了美国总统特朗普的关注。特朗普在周一的时候表示,DeepSeek这个中国的AI应用程序应当成为美国公司的“激励因素”,他说道:“如果中国的企业能够开发出成本更低的人工智能技术,美国的公司也会跟着做。你不需要花费数十亿美金,而是花更少的钱,就有望找到相同的解决方案。”

数据蒸馏是业内一种常见的技术手段,其含义是通过一系列的算法和策略,对原始的、复杂的数据进行诸如去噪、降维、提炼等操作,进而得到更加精炼、有用的数据。数据蒸馏的目的是把复杂模型中的知识提炼到简单模型之中。

根据DeepSeek - V3的技术文档,该模型利用数据蒸馏技术生成的高质量数据提高了训练效率。通过已有的高质量模型来合成少量的高质量数据,把这些数据作为新模型的训练数据,从而达到接近在原始数据上进行训练的效果。

“以前大模型的训练就像是采用题海战术,在大量的数据当中进行训练。而蒸馏就像是让在题海战术里历练过的优秀大模型做新模型的老师,筛选出有效的题目,然后再让新的大模型进行训练。”一位计算机研究人员这样解释道。

不过之前有学者认为,蒸馏技术存在“隐性天花板”,这种技术虽然能够提高模型的训练效率,但是依靠这种技术开发出来的模型是无法超越基础模型的能力的。当需要把能力扩展到新的领域或者应对以前从未遇到过的挑战的时候,这种限制就会变得更加明显;而且这种技术在多模态数据方面的效果也不好。

然而DeepSeek的模型在某种程度上打破了这种在业内普遍存在的观念,其大模型的水平已经能够和原始的基础模型相提并论了。这也是引起美国担忧的根本原因之一。就在1月28日凌晨,DeepSeek发布了最新的视觉模型Janus - Pro,这个模型在多模态理解和文生图指令遵从能力方面都有了显著的提升,并且在多个基准上超越了DALL - E 3与Stable Diffusion。

英国伦敦大学学院(UCL)的名誉教授、计算机科学家彼得·本特利在接受采访的时候曾经称:“蒸馏技术对于那些没有OpenAI或者谷歌那样巨额研发预算的小型机构的研究进展将会产生重大的影响。”

“蒸馏模型”为什么能够超越原创呢?

一位美国科技巨头公司AI相关项目的开发人员对第一财经记者表示:“我不觉得蒸馏像Llama这样的开源模型有什么问题,特别是像DeepSeek这样在蒸馏之后采取开源的模型,实际上是有存在的合理性的,这样能够加速大模型的迭代,没有必要让所有的公司都从头开始训练大模型,那样会造成资源的浪费。”

他还表示,全球有很多AI初创公司同样使用多种大模型的蒸馏融合技术,从而形成了所谓的“多专家模型”(MoE),这样的蒸馏模型是有可能在性能方面超越原始模型的,因为它具有更强的泛化能力,能够得到更加丰富的信息,从而提升最终的性能。

“这就好比你有一个团队,里面有本科生、研究生、博士生、工业界初级工程师、资深工程师,当你遇到问题的时候,可以把不同难度的任务分配给不同的‘专家’。这样就会以最高效的方式给出最匹配的答案。”他解释说。

上述人士分析认为,核心的关键问题不在于DeepSeek蒸馏了其他的大模型,而是在于同样是在蒸馏开源模型的基础上,为什么DeepSeek能够脱颖而出,仅仅投入如此低廉的成本就能够实现这么高的性能,并不是所有的公司投入这些资源之后都能够做到的。

他觉得,DeepSeek完美地平衡了多专家模型、训练时长、预训练、后训练等工作,使得投入和产出达到了一个最高效的值。“当你做得好到对别人有威胁了,总会有一些官司找上门来。”他表示。

但是也有AI研究人员指出,过度依赖蒸馏技术这种“捷径”,会导致研发人员为了快速取得成果而放弃对基础模型的探索。上海交通大学副教授刘鹏飞在一篇学术报告中提到:“蒸馏技术为在数学推理任务中取得显著的性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处,但它掩盖了一系列深刻的挑战,无法提出根本性的解决方案。”

本文总结了中国DeepSeek公司在人工智能领域引发的一系列事件,从被OpenAI指控可能违规使用其专有模型,到美国政府对其技术评估,特朗普对其技术的看法等。深入探讨了数据蒸馏技术的原理、优势和存在的问题,还分析了DeepSeek模型在蒸馏技术基础上脱颖而出的原因,以及过度依赖蒸馏技术可能带来的隐患等多方面的内容。

原创文章,作者:购物狂魔,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/6028.html

(0)
购物狂魔购物狂魔
上一篇 2025年1月31日
下一篇 2025年1月31日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注