马斯克Grok3发布会：豪言背后的现实考验

Sorrowful • 2025年2月19日 09:41 • 汽车 • 阅读 36

马斯克带领xAI团队发布Grok3这一事件，包括发布前的预热、发布会上的豪言壮语，以及发布后测试者体验发现的问题，还有Grok3在训练资源投入与性能表现对比方面的情况等多方面内容，从而探讨AI模型发展面临的问题。

北京时间2月18日，科技界迎来了一场备受瞩目的大事件。马斯克和他的xAI团队在直播中向全世界展示了Grok系列的最新成果——Grok3。在发布会还未开始之前，马斯克就不断地进行预热，释放出各种各样关于Grok3的信息，这使得全球观众对Grok3充满了期待，这种期待值就像气球一样，被越吹越大，直至顶峰。在直播过程中，马斯克充满自信地向大家展示了Grok3在数学、科学以及编程领域的出色表现。他甚至还大胆地预言，Grok3将会在SpaceX的火星探索任务中发挥助力作用，并且在未来三年内很有可能会带来能够获得诺贝尔奖级别的科学突破。不过呢，这些听起来很厉害的话到底能不能成真，还得交给时间去验证。发布会结束不久，许多测试者就迫不及待地去体验Grok3的Beta版本了。他们还想出了一些经典的难题来考验这个所谓的“AI天才”。就比如说，当向Grok3提问“9.11与9.9哪个大”这样一个看似非常简单的问题时，Grok3给出的答案却是错误的，这让人大感意外。这个测试结果在网络上迅速传播开来，引发了广泛的讨论。实际上，早在发布会前的预热阶段，马斯克就曾经非常自信地宣称，xAI即将推出一个能够超越DeepSeek R1的AI模型。但是呢，经过众多测试者的亲身体验之后发现，Grok3的表现并没有明显地比DeepSeek R1或者o1 - Pro等其他主流模型要好。甚至有些测试者还指出，Grok3在某些方面的表现还比不上之前的版本。需要注意的是，为了训练出Grok3这个“AI天才”，马斯克投入了大量的资源。据他透露，Grok3的训练使用了超过20万张H100 GPU，总的训练小时数达到了两亿小时。这个数字实在是让人惊叹不已，同时也引发了整个行业对于模型训练未来发展方向的热烈讨论。然而，有网友进行了对比发现，使用2000张H800训练两个月的DeepSeek V3，在算力消耗上仅仅是Grok3的263分之一，可是两者在榜单上的差距却不到100分。这一系列的事实都表明，随着AI模型体积不断地增大，性能提升所带来的边际效应变得越来越明显了。就算是拥有海量高质量数据的xAI，也遇到了优质训练数据不足的瓶颈。面对这样的困境，马斯克在社交媒体上不断强调现在的版本仅仅是测试版，完整版将会在未来的几个月内推出，而且他还亲自当起了产品经理，鼓励用户反馈问题。不过，Grok3的表现确实给那些想要通过投入大量资源来训练出更强大模型的后来者敲响了警钟。随着模型参数体积的快速增长，训练成本也在不断飙升。如何在有限的资源下让模型性能达到最大化，已经成为整个行业迫切需要解决的问题。也许，就像OpenAI前首席科学家Ilya Sutskever说的那样，“预训练模型的时代即将结束”，未来的AI系统需要具备真正的自主性和类人脑的推理能力。

本文总结了马斯克的xAI团队发布Grok3的相关情况，包括发布前的高期待、发布会上的美好愿景、发布后的测试表现不佳、训练资源投入巨大但性能提升不明显等问题，指出随着模型增大性能提升边际效应明显，优质训练数据不足成为瓶颈，同时强调了如何在有限资源下提升模型性能是行业面临的问题。

原创文章，作者：Sorrowful，如若转载，请注明出处：https://www.gouwuzhinan.com/archives/19880.html