中国科技公司阿里巴巴在1月29日(农历新年第一天)发布了Qwen 2.5 - Max人工智能模型新版本,该版本表现几乎全面优于一些知名的人工智能模型。同时介绍了DeepSeek公司在过去三周迅速崛起给国内外竞争对手带来压力,其发布的模型引发一系列反应,如字节跳动发布旗舰AI模型更新等,还回顾了DeepSeek之前的模型引发的价格战以及其创始人对于AGI目标的追求,并且对比了DeepSeek与大型科技公司在运营模式等方面的不同。
1月29日,据路透社消息,中国科技巨头阿里巴巴于周三推出了Qwen 2.5人工智能模型的全新版本。据悉,这个新版本有着相当出色的表现,甚至超越了备受赞誉的DeepSeek - V3。值得一提的是,Qwen 2.5 - Max的发布时机十分特殊,恰逢农历新年的首日,在这个时候,大多数的中国人都已经下班,踏上了归家与家人团聚的旅程。这一发布情况表明,中国的人工智能初创公司DeepSeek在过去三周里的迅速崛起,就像一颗投入平静湖面的石子,不仅在海外竞争对手中激起了千层浪,在国内的同行之间也引发了不小的震动。阿里巴巴云部门在其官方微信公众号发表声明指出,Qwen 2.5 - Max的性能几乎在各个方面都优于GPT - 4o、DeepSeek - V3以及Llama - 3.1 - 405B这些由OpenAI和Meta所推出的先进的开源AI模型。DeepSeek于1月10日推出了基于DeepSeek - V3模型的人工智能助手,并且在1月20日又发布了R1模型。这一系列动作在硅谷引起了轩然大波,科技股也因此遭受重创。这家中国初创公司,据说其开发和使用成本相当低廉,这一情况让投资者对美国那些领先的人工智能公司的巨额支出计划产生了怀疑。然而,DeepSeek的成功并非仅仅带来了国外的震动,在国内,它也促使竞争对手们竞相对自己的AI模型进行升级。就在DeepSeek - R1发布仅仅两天之后,TikTok的所有者字节跳动就发布了其旗舰AI模型的更新版本。字节跳动声称这个更新后的模型在AIME(一项用于衡量AI模型对复杂指令的理解和响应能力的基准测试)中的表现要优于微软支持的OpenAI的o1,这一说法与DeepSeek宣称其R1模型在多个性能基准测试中可与OpenAI的o1相媲美相呼应。回顾DeepSeek的发展历程,其V3模型的前身DeepSeek - V2在去年5月发布之后,就在国内AI模型领域引发了一场价格战。DeepSeek - V2是开源的,而且价格极为便宜,每100万个代币(这是AI模型处理的数据单位)仅需1元人民币(约0.14美元)。这一低价策略使得阿里巴巴的云部门不得不宣布将多款型号的价格下调幅度高达97%。在中国,其他的科技公司也纷纷效仿这种价格调整策略,其中就包括百度。百度在2023年3月推出了中国首个ChatGPT版本,还有中国市值最高的互联网公司腾讯。DeepSeek的神秘创始人梁文峰在7月接受中国媒体Waves的一次极为罕见的采访时表示,这家初创公司的关注点并不在价格战上,对于他们而言,实现AGI(通用人工智能,OpenAI将其定义为在大多数具有经济价值的任务上超越人类的自主系统)才是最主要的目标。尽管像阿里巴巴这样的中国大型科技公司拥有数十万名员工,但DeepSeek的运作模式却更像是一个纯粹的研究实验室,其成员主要是来自中国顶尖大学的年轻毕业生和博士生。梁文峰在7月的采访中表达了他的观点,他认为中国那些最大型的科技公司可能并不太适合人工智能行业的未来发展。他还将大型科技公司高昂的成本和自上而下的管理结构与DeepSeek的精益运营以及松散的管理风格进行了鲜明的对比,并指出大型基础模型需要持续创新,而科技巨头在这方面的能力是有限的。
本文总结了阿里巴巴发布新的人工智能模型以及DeepSeek的发展和影响。DeepSeek的崛起给国内外竞争对 手带来压力,国内竞争中,它的发展促使其他公司升级模型并引发价格战,其创始人表明追求AGI的目标,与大型科技公司在运营和目标上存在差异。
原创文章,作者:Sorrowful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/5076.html