马斯克20万块GPU炼出Grok-3,暴击DeepSeekR1数学屠榜!疯狂复仇OpenAI

芯通社 2025-02-18 16:50


【导读】马斯克口中全世界最聪明大模型Grok-3,终于震撼登场!20万块GPU训出的模型,实属全球首次。果然,Grok-3已火速屠榜多个排行榜,击败o3-mini(high)和DeepSeek-R1。

人类史上首个在20万块GPU上训出的模型终于问世!

刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——

Grok-3(Beta)、Grok-3 mini

首个推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算

首个AI智能体「DeepSearch」:联网深入搜索

图片

一股OpenAI发布会的味道扑面而来

据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何?

图片

图片

世界最大超算集群Colossus已有20万块GPU:10万块GPU同步训练(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)

在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。

在著名大模型LMSYS Arena排行榜中,Grok-3(chocolate终于揭秘)刷榜,Elo评分超1400位列最高,没有任何一个模型能与之相比。

Grok-3的数学能力十分惊人,几乎能完成大部分美国数学专业能力测试的题目。

图片

更令人惊喜的是,Grok-3此次还带来了推理模型——Grok-3 Reasoning,在回答问题时会展示出思维过程。

进入聊天入口,直接选择「Think」模式,即可开启魔法。

此外,还有「Big Brain」模式、智能体「深度搜索」(Deep Search)模式同步上线。

图片

几天前,马斯克曾在预告中放出豪言,「这是地球上最聪明的AI」,此言不虚。

图片

总爱搞点事情的奥特曼,一会儿说GPT-4.5让自己深刻感受到AGI,一会儿又要开源模型全网投票。

图片

甚至有网友提议,不如咱就7:30pm发布GPT-4.5吧!奥特曼:这不太好吧。

奥特曼的这番言论,摆明了是要扰乱军心。据传言,Grok-3发布这一历史性时刻,OpenAI全员观战。

图片

OpenAI前脚发布的o3-mini刚刚击败了R1,如今又被Grok-3追回。不知今晚,GPT-4.5会不会降临?

暴击o3-mini、DeepSeek-R1,解锁测试时计算


有人说,Grok-3是终极的Scaling Law测试,如今看来,事实如此。

图片

从2023年Grok-1首次面世,到Grok-1.5,再到Grok-2逐步迭代,模型推理性能飞速飙升的同时,还吞噬了大量的算力。

图片

图片

Grok-3家族,更是将「测试时计算」发挥到了极致。10万块H100超算,训出的野兽几乎无「模」能敌。

它成为首个Elo评分打破1400的模型,在所有分类测试中位列第一。

图片

在多项基准测试中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。

可以说,迄今为止最强「推理模型」,全部败给了Grok-3 Reasoning,可以说,它是名副其实的「世界上最聪明的模型」。

团队表示,允许Grok去进行更长时间的思考和推理。

图片

在最新的数学基准AIME 2025上,Grok-3两款新模型性能同样刷新SOTA,分别拿下了93和90分。

图片

顺便提一句,Grok-3思维链和o3-mini套路一样——防止被偷家xAI掩盖了部分思考过程。

图片

图片
接下来,让我们一睹Grok-3强大的推理能力。

高级推理Think

首先是一个太空飞船任务,生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。
注意,这个问题的难点在于,过程中涉及到了大量数学和物理模型的计算。在此之前,团队从未试过让大模型去计算航天的发射窗口。
在「Think」模式下,可以看到Grok的思维痕迹,甚至可以进去看看Grok在解决问题时到底在想什么。
图片
图片
Grok 3很快生成了完整可运行的3D动画。在代码中,Grok-3数值上求解了开普勒定律。
图片
下图是3D动画的画面,直观展示了任务过程中,太阳、地球、火星和飞船之间的位置关系。
甚至,宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径,这种穿越每26个月发生一次。接下来,我们现在正处于一个过渡窗口期。
研究者经过检查后激动表示:Grok-3给的答案完全正确!
最后马斯克揭开谜底:其实,这就是SpaceX真正的探索轨道。他充满信心地表示,两年内,地球和火星就会被连接在一起。
图片
很快有网友评论,「可以确认,Grok-3强得离谱!」
与之相对比的是,o1、o1-pro、o3-mini(high)全都在这个问题上栽了:生成一段代码,实现从地球发射、登陆火星,然后在下一个发射窗口返回地球的3D动画。
「它们生成的代码能跑是能跑,但很不幸,飞船根本就没靠近过火星,更别说回来了。」该网友表示。
图片
然后团队又让Grok-3制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。
「显然,如果你让AI去创作一款像俄罗斯方块这样的游戏,互联网上有许多例子,或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。
所以,现场他们让Grok-3制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体,这次他们使用了「Big Brain」模式,可以使用更多计算能力的一种模式。
Grok-3随后开始使用python编写代码,可以看出它调用了pygame、random和time这3个库来完成游戏的编写。
图片
代码完成后,Grok-3生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行,虽然游戏逻辑有些随意,但是界面挺美观。
「我们在x.ai准备好成立一个游戏工作室了吗?」演示人员激动地说道,「是的,所以我们正在x.ai启动一个人工智能游戏工作室。」
图片
在此过程中,研究者们讨论道:最好的AI模型,必须像人类一样思考,会去想所有可能的对策和解法,会自我批评、回溯,还会从第一性原理去思考。
甚至,Grok能够了解自己的逻辑和推理过程中的一些失误所在,更正自己的错误,将一些数学推理过程概念化,而现实生活中,也正是这些问题的延伸。
研究者表示,真正令人兴奋的就是,可以用Grok-3去完成现实世界中的任务,比如打造一辆特斯拉,或者去发射火箭。
这正是Grok团队目前正在思考的问题。

深度搜索DeepSearch

没想到,这一次马斯克还带来了Grok-3首个智能体——DeepSearch。
图片
DeepSearch是Grok的第一代智能体,能够在互联网上进行更深入的搜索。
它允许用户对互联网和X平台进行全面搜索。该模式分析大量信息,并通过快速高效的搜索过程提供详细、合理的答案。
此外,它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自X的内容,它会尽量遵守这个要求,因此可控性更强,也更智能。
图片
我们可以问DeepSearch智能体:下一次星舰发射是什么时候?
可以看到,在左边,它展示出了搜索和推理的过程,而在右边,则展示出了深度思考过程,以及模型正在浏览什么样的网址和网页。
图片
最终,智能体给出了答案:25年2月24日。
图片
游戏玩家还可以提问:在Poe 2中最硬核的流派是什么?
除了给出答案——炼狱师召唤流之外,智能体还在回答中给出了如何获得更多武器的攻略。
图片
因此,比起现在普通的搜索引擎,使用Grok智能体能节约更多的时间。
Grok团队表示,从此,或许所有实习生都要失业了,我们需要的只是向大模型下任务。每个月花40美元,就能带来数十亿美元的回报。

马斯克:一周内所有功能上线,几个月内全面开源


所以,Grok-3到底什么时候开放?
对此,马斯克表示,订阅Premium Plus的X用户现在已经可以用上了。
而Grok忠实粉丝则可以单独订阅SuperGrok,从而解锁深度搜索和思考模型等先进功能,并成为早体验新特性的那一波。
全新网址是grok.com,另外App Store里也可以下载了。
马斯克强调,最新版本一定是网页版,App Store里是比较落后的。
目前,Grok-3每天都在更新推理功能,马斯克放话说:一周内,Grok的所有功能都将上线!
图片

图片

传送门:https://grok.com/

Q&A

什么时候出语音助手版?会花一周时间。
Grok-3 API什么时候上线?几周内。
Grok 3语音模式是原生的,还是文本转语音?它是Grok-3的一个变体,能理解你说的话,并且直接生成音频。
Grok-3能否将音频转录成文本?没问题。这个声音模型不仅仅是语音转文字那么简单,它还具备对话记忆功能,能记得和你之前的交互记录。
马斯克表示,几个月之后会对Grok-3进行全面的开源。
Grok-3最令人兴奋的部分是什么?训练模型,以及百分百的逻辑推理,都是最难的部分,就像你需要随时随地设计宇宙的最新进展。
如何设计这样一个史上最难推理模型?研究者表示,我们花了24个月去打磨这个模型,确定它在逻辑推理上有了最新进展,同时他们使用了一个废弃工厂,数据中心之所以落地在孟菲斯,是因为既需要算力,又需要能源功能,需要1/4吉瓦来向GPU供能,同时还需要冷却设施。
此前,从没有人真正在数据中心实现过液冷,但Grok团队做到了!
为了进一步对数据中心供能,我们使用了特斯拉的Megapacks,并且重新计算了建筑物的能源供给。最终证明:团队的计算是有效的!
而且,过程中还需要把不同计算机联结在一起,共享信息。在此过程中,团队会看到模型之间供给不平衡的情况。
一方面,是对建筑供能和节能的重新设计;另一方面,团队设计了大模型,设计了全新的算法过程。
研究者表示,不知道其他大模型是否也像Grok-3一样,需要如此多的人力和物力。
当然,团队也希望在接下来,减少模型的能耗,把数据中心的耗能从1/4吉瓦降低下来,或许需要重新设计,让它成为世界上效率最高的数据中心。

AI大牛高度好评:Grok-3成就惊人

提前拿到内测资格后,AI大佬Karpathy展开了一番评测,分享的感悟比一篇文章还要长。
总结来说,Grok-3推理模型最领先,解决了卡坦岛(Settler's of Catan)难题。上传GPT-2论文后,Grok-3完成了简单的查找问题。
它没有解决黎曼假设难题,仅是说「这是一个伟大未解决的难题」。
在体验「深度搜索」功能时,结合了思考+深度研究的能力,能对需要研究、查找的问题提供高质量回答,并给出参考链接。
最后,Karpathy给出的评价是,「Grok-3 + Thinking表现似乎达到了与o1 Pro(每月200美元)相当的水平,并且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking」。
大约一年前,xAI团队从0开始的,这么短时间内就达到了顶尖水平,这是前所未有的惊人成就。
图片
Grok-3同样通过了物理模拟测试,效果堪比o3-mini。
图片
图片
xAI联创同样表示,「我们改进模型和系统的速度,比任何单一的里程碑都更重要。Grok-3证明了我们能够在19个月内从零起步达到了最先进的水平」。
图片
此外,xAI工程师还曝出了即将上线的「高级语音模式」

图片



,时长00:12


Grok-3横空出世,再次把xAI带回到世界第一梯队。

用马斯克的一句话做个总结——要判断哪家公司会在技术竞争中胜出,你只需要关注其创新速度的一阶导数和二阶导数。
图片
xAI团队胜利的这一刻,值得被记录。
图片
奥特曼的AGI也准备就绪。
图片
来源:新智元
参考资料:
https://x.com/i/broadcasts/1gqGvjeBljOGB



免责声明

本平台所刊载的所有资料及图表仅供参考使用。刊载这些文档并不构成对任何股份的收购、购买、认购、抛售或持有的邀约或意图。投资者依据本网站提供的信息、资料及图表进行金融、证券等投资项目所造成的盈亏与本网站无关。除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因,或会存在不当使用的情况,如部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系及时处理,共同维护良好的网络创作环境。




芯通社

- SemiWebs -


专注半导体-手机通信-人工智能

请长按下面二维码关注芯通社


伙伴们

错过也许就是一辈子
还不快关注我们?






芯通社 专注半导体/手机通信/人工智能/区块链等科技领域!
评论 (0)
  • 本文介绍瑞芯微RK356X系列复用接口配置的方法,基于触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。复用接口介绍由下图可知,红圈内容当前引脚可配置为SPI0或者PWM0功能。由标准系统固件以及相关系统手册可得,当前接口默认配置为SPI0功能:console:/ # ls dev/spidev0.0dev/spidev0.0再由原理图可知当前GPIO为GPIO0_C3
    Industio_触觉智能 2025-03-28 18:14 152浏览
  • 真空容器内部并非wan全没有压强,而是压强极低,接近于零。真空状态下的压强与容器内外气体的分子数量、温度以及容器本身的性质有关。一、真空与压强的基本概念真空指的是一个空间内不存在物质或物质极少的状态,通常用于描述容器或系统中气体的稀薄程度。压强则是单位面积上所受正压力的大小,常用于描述气体、液体等流体对容器壁的作用力。二、真空状态下的压强特点在真空状态下,容器内部的气体分子数量极少,因此它们对容器壁的作用力也相应减小。这导致真空容器内部的压强远低于大气压强,甚至接近于零。然而,由于技术限制和物理
    锦正茂科技 2025-03-29 10:16 160浏览
  • Shinco音响拆解 一年一次的面包板社区的拆解活动拉开帷幕了。板友们开始大显身手了,拆解各种闲置的宝贝。把各自的设计原理和拆解的感悟一一向电子爱好者展示。产品使用了什么方案,用了什么芯片,能否有更优的方案等等。不仅让拆解的人员了解和深入探索在其中。还可以让网友们学习电子方面的相关知识。今天我也向各位拆解一个产品--- Shinco音响(如下图)。 当产品连接上电脑的耳机孔和USB孔时,它会发出“开机,音频输入模式”的语音播报,。告诉用户它已经进入音响外放模式。3.5mm耳机扣接收电脑音频信号。
    zhusx123 2025-03-30 15:42 82浏览
  • 文/杜杰编辑/cc孙聪颖‍3月11日,美国总统特朗普,将自费8万美元购买的特斯拉Model S,开进了白宫。特朗普此举,绝非偶然随性,而是有着鲜明的主观意图,处处彰显出一种刻意托举的姿态 。特朗普也毫不讳言,希望他的购买能推动特斯拉的发展。作为全球电动车鼻祖,特斯拉曾凭借创新理念与先进技术,开辟电动汽车新时代,引领行业发展潮流。然而当下,这家行业先驱正深陷困境,面临着前所未有的挑战。就连“钢铁侠”马斯克自己都在采访时表示“非常困难”,的确是需要美国总统伸手拉一把了。马斯克踏入白宫的那一刻,特斯拉
    华尔街科技眼 2025-03-28 20:44 176浏览
  • 在智能家居领域,无线门铃正朝着高集成度、低功耗、强抗干扰的方向发展。 WTN6040F 和 WT588F02B 两款语音芯片,凭借其 内置EV1527编解码协议 和 免MCU设计 的独特优势,为无线门铃开发提供了革命性解决方案。本文将深入解析这两款芯片的技术特性、应用场景及落地价值。一、无线门铃市场痛点与芯片方案优势1.1 行业核心痛点系统复杂:传统方案需MCU+射频模块+语音芯片组合,BOM成本高功耗瓶颈:待机电流
    广州唯创电子 2025-03-31 09:06 66浏览
  • 一、真空容器的定义与工作原理真空容器是一种能够创造并保持一定真空度的密闭容器。其工作原理通常涉及抽气系统,该系统能够逐渐抽出容器内部的气体分子,从而降低容器内的气压,形成真空环境。在这个过程中,容器的体积并不会因抽气而改变,但容器内的压力会随着气体的抽出而逐渐降低。二、真空容器并非恒压系统真空容器并非一个恒压系统。恒压系统指的是在外部环境变化时,系统内部压力能够保持相对稳定。然而,在真空容器中,随着气体的不断抽出,内部压力会持续降低,直至达到所需的真空度。因此,真空容器内部的压力是变化的,而非恒
    锦正茂科技 2025-03-29 10:23 145浏览
  • 3月27日,长虹中玖闪光超高剂量率电子射线放射治疗系统(e-Flash)临床试验项目在四川大学华西医院正式启动,标志着该项目正式进入临床试验阶段。这不仅是我国医学技术领域的一项重大突破,更是我国在高端医疗设备研发和应用方面的重要里程碑。e-Flash放射治疗系统适用于哪些病症,治疗周期为多久?会不会产生副作用?治疗费用高不高……随着超高剂量率电子射线放射治疗系统(e-Flash)正式进入临床试验阶段,社会各界对该项目的实施情况尤为关注。对此,中国工程院院士范国滨,以及四川大学华西医院、四川省肿瘤
    华尔街科技眼 2025-03-28 20:26 306浏览
  • 在智能语音设备开发中,高音量输出是许多场景的核心需求,例如安防警报、工业设备提示、户外广播等。 WT588F02BP-14S 和 WTN6040FP-14S 两款语音芯片,凭借其内置的 D类功放 和 3W大功率输出 能力,成为高音量场景的理想选择。本文将从 性能参数、应用场景、设计要点 三大维度,全面解析这两款芯片的选型策略。一、核心参数对比与选型决策参数WT588F02BP-14SWTN6040FP-14S输出功率3W@4Ω(THD<1%)3W@4Ω(THD<0.8%)功
    广州唯创电子 2025-03-28 09:15 122浏览
  • 在智能语音交互设备开发中,系统响应速度直接影响用户体验。WT588F系列语音芯片凭借其灵活的架构设计,在响应效率方面表现出色。本文将深入解析该芯片从接收指令到音频输出的全过程,并揭示不同工作模式下的时间性能差异。一、核心处理流程与时序分解1.1 典型指令执行路径指令接收 → 协议解析 → 存储寻址 → 数据读取 → 数模转换 → 音频输出1.2 关键阶段时间分布(典型值)处理阶段PWM模式耗时DAC模式耗时外挂Flash模式耗时指令解析2-3ms2-3ms3-5ms存储寻址1ms1ms5-10m
    广州唯创电子 2025-03-31 09:26 99浏览
  • 真空容器的材料选择取决于其应用场景(如科研、工业、医疗)、真空等级(低真空、高真空、超高真空)以及环境条件(温度、压力、化学腐蚀等)。以下是常见材料及其优缺点分析:1. 不锈钢(如304、316L)优点:耐腐蚀性强:316L含钼,耐酸碱和高温氧化,适合高真空和腐蚀性环境。高强度:机械性能稳定,可承受高压差和外部冲击。低放气率:经电解抛光或镀镍处理后,表面放气率极低,适合超高真空系统(如粒子加速器、半导体镀膜设备)。易加工:可焊接、铸造,适合复杂结构设计。缺点:重量大:大型容器运输和安装成本高。磁
    锦正茂科技 2025-03-29 10:52 47浏览
  • 本文介绍OpenHarmony5.0 DevEco Studio开发工具安装与配置,鸿蒙北向开发入门必备!鸿蒙北向开发主要侧重于应用层的开发,如APP开发、用户界面设计等,更多地关注用户体验、应用性能优化、上层业务逻辑的实现,需要开发者具备基本的编程知识、对操作系统原理的简单理解,以及一定的UI设计感。由触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,支持开源鸿蒙OpenHarmony3.2至5.0系统,适合鸿蒙开发入门学习。下载与安装开发工具点下面链接下载:
    Industio_触觉智能 2025-03-28 18:16 206浏览
  • 在工业控制与数据采集领域,高精度的AD采集和实时显示至关重要。今天,我们就来基于瑞芯微RK3568J + FPGA国产平台深入探讨以下,它是如何实现该功能的。适用开发环境如下:Windows开发环境:Windows 7 64bit、Windows 10 64bitLinux开发环境:Ubuntu18.04.4 64bit、VMware15.5.5U-Boot:U-Boot-2017.09Kernel:Linux-4.19.232、Linux-RT-4.19.232LinuxSDK:LinuxSD
    Tronlong 2025-03-28 10:14 186浏览
  •        随着智能驾驶向L3级及以上迈进,系统对实时性的要求已逼近极限。例如,自动紧急制动(AEB)需在50毫秒内完成感知、决策到执行的全链路响应,多传感器数据同步误差需小于10微秒。然而,传统基于Linux-RT的方案在混合任务处理中存在天然缺陷——其最大中断延迟高达200微秒,且多任务并发时易引发优先级反转问题。据《2024年智能汽车电子架构白皮书》统计,超60%的车企因实时性不足被迫推迟舱驾一体化项目落地。为旌电子给出的破局之道,是采用R5F(实
    中科领创 2025-03-29 11:55 241浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦