史上最大开源LLM,参数高达3140亿!马斯克如约开源Grok,10小时狂揽10000颗Star

ittbank 2024-03-18 17:40

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

气「OpenAI 不 Open」以至于对其发起诉讼之后,马斯克践行自己自由、开放的原则,在刚刚过去的周末里选择重磅开源自家的 AI 大模型——Grok-1(https://github.com/xai-org/grok-1)。

距离 Grok-1 开源仅过去了 10 个小时,该项目便获得了 10k 的 Star,成为众人关注的焦点所在。

马斯克的 xAI 公司开源 Grok-1,高达 3140 亿参数

这款 Grok 大模型,是马斯克集结 Deepmind、微软、特斯拉、学术界多位大佬于 2023 年 7 月成立的人工智能初创公司 xAI 所带来的成果。

Grok 的设计初衷,灵感来源于英国作家道格拉斯·亚当斯所写的一系列科幻小说《银河系漫游指南》,和 ChatGPT 一样,可以以对话方式回答问题,也能联网,而有所不同的是,Grok 已集成到 X 社交媒体平台中,可以“实时访问”该平台上的所有信息,还可以回答大多数其他 AI 系统拒绝回答的尖锐问题,甚至就如何提问给出建议。

订阅 X 的高级功能用户可以向 Grok 提出问题并收到答复。

根据 xAI 在其官方博客更新的公告显示,其开源的 Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家(MoE)模型。

xAI 团队表示,“这是 Grok-1 预训练阶段的原始基础模型检查点,该阶段于 2023 年 10 月结束。这意味着该模型没有针对任何特定应用(例如对话)进行微调。

该模型的详细情况:

  • 基于大量文本数据训练的基础模型,未针对任何特定任务进行微调。

  • 314B 参数的混合专家模型, 25% 的权重对给定 token 有效

  • xAI 于 2023 年 10 月在 JAX 和 Rust 上使用自定义训练堆栈从头开始训练。

同时 Grok-1 是在 Apache 2.0 许可证下发布权重和架构。

值此,在 X 平台上,来自 LangChainAI 的工程师 Andrew Kean Gao 还对 Grok 架构进一步地展开深入分析。

他说道,“我刚刚浏览了 http://model.py ,对于这个 314B 开源的庞然大物,竟然没有附加任何条件。”

详细来看,Grok-1 是一个 314 B 的 Mixture-of-Experts(MoE)模型(8 个专家 2 个是活跃的),860 亿的激活参数,这比 Llama-2 的 70B 参数还要多

此外,Grok-1 使用的旋转位置嵌入(RoPE)而非固定位置嵌入。

再者,Grok-1  tokenizer 词汇大小为 131,072(与 GPT-4 类似) 2^17,嵌入大小为 6,144(48*128);64 个 Transformer 层,每层都有一个解码器层:多头注意力块和密集块,键值大小 128。

其中,多头注意模块有 48 个 head 和 8 个键/值 (KV),KV 大小为 128。

密集块(密集前馈块):加宽因子为 8,隐藏层大小为 32768。

每个 token 从 8 个专家中选出 2 个。

  • 旋转位置嵌入大小为 6144,这是有道理的,因为它与模型的输入嵌入大小相同。

  • 上下文长度:8,192 个词块

  • 精度 bf16

Grok-1 的性能

关于 Grok-1 的详细细节,此前 CSDN 也曾报道过。

根据官方公告显示,为 Grok 提供动力的引擎 Grok-1,是在数万个 GPU 集群(外媒 Techcrunch 透露,可能是由 Oracle 提供的)上花了几个月时间开发的,训练数据来自网络(截至 2023 第三季度)和人类助手的反馈,xAI 将其称之为“AI 导师”。

在 Grok-1 之前,xAI 公司也训练了一个具有 330 亿个参数的原型 LLM (Grok-0)。这个早期模型在标准 LM 基准测试上接近 LLaMA 2 (70B) 功能,但只使用了一半的训练资源。之后,xAI 团队在推理和编码能力方面取得了重大改进,最终推出了 Grok-1,这是一种功能更强大的最先进的语言模型,在 HumanEval 编码任务中实现了 63.2%,在 MMLU 上实现了 73%。

为了验证 Grok-1 的能力,xAI 团队使用了一些衡量数学和推理能力的标准机器学习基准进行了一系列评估。

根据测试结果显示,Grok-1 目前处于中等水平,超过了 GPT-3.5、LLaMA 2 70B,但是距离 Claude 2、GPT-4 等大模型还有一定的距离。

使用指南

当前,Grok-1 面向所有人开放,而要开始使用该模型,可以先确保下载 checkpoint 并将 ckpt-0 目录放入 checkpoint。然后,运行:

pip install -r requirements.txtpython run.py

进而测试代码。

脚本在测试输入上加载检查点和模型样本。

值得注意的事,Grok-1 参数量高达 314B 个参数,其模型体积庞大,需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

xAI 团队在 GitHub 项目仓库里面也直言道:该资源库中 MoE 层的实现并不高效。选择这种实现方式是为了避免需要定制内核来验证模型的正确性。

你可以使用 torrent 客户端和下面磁铁链接下载权重:

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

详细使用指南也可以通过 GitHub 项目地址:github.com/xai-org/grok 进行速览。

开源 or 闭源

一直以来,关于究竟是该构建开源还是闭源的大模型,业界存有巨大的争议。对于 OpenAI 等公司而言,如今的 AI 存在不少未可知的风险,开源有可能造成技术被滥用,所以闭源似乎优于开源。

但是在马斯克等人看来,通过开放代码让所有人有权查看和使用有助于使技术更加安全。所以在此次开源 Grok 之际,马斯克还暗讽了 ChatGPT,希望让其“告诉我们更多有关 OpenAI 开放部分的信息....”

马斯克认为,任何话题都不应该成为聊天机器人的禁区。不过,他也警醒道:

“我的一位朋友提醒我澄清清醒人工智能的危险性质,尤其是强制多样性。

如果一个人工智能被设定为不惜一切代价推动多元化,就像 Google Gemini 那样,那么它就会不择手段地造成这种结果,甚至有可能杀人。”

亚利桑那州立大学计算机科学教授 Subbarao Kambhampati 同样认为,开源当今的人工智能技术是最安全的方法。

不过,也有不少用户担心马斯克只是做了初步开源 Grok-1 的计划,就没有后续跟进,毕竟他此前对 X 的推荐算法也做了开源,但只是开源之后就似乎没有更新过。

针对这一担忧,马斯克也现身回应有关开源 X 推荐算法时说道,“还有很多工作要做,但这个平台已经是迄今为止最透明、最求真的平台(说实话,门槛并不高)”。

不管怎样,马斯克成立的 xAI 公司仅仅用了 8 个月不仅创建了 Grok,还将 Grok-1 开源出来,其行动速度远超乎众人的想象,甚至 OpenAI 的员工也表达了他们对 Grok 的强烈兴趣。

而 Grok 的发布可能会给所有其他 LLM 提供商(尤其是其他竞争对手的开源提供商)带来不小的压力,但有竞争才有进步,对于普通用户而言,也是一件好事。

正如英伟达科学家 Jim Fan 评价道:「有史以来最大的开放 LLM,由世界级团队训练;通过磁力链接发布;Apache 2.0;314B;专家混合(8 个活跃中的 2 个)。就连激活参数仅(86B)就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的内容。」

来源:

Grok 开源地址:https://github.com/xai-org/grok-1

官方博客公告:https://x.ai/blog/grok-os

https://x.ai/blog/grok

ittbank 让电子库存因技术而改变的ITT模式电商平台。引领和适应市场,以共享经济理念的创客及工程师为核心、以免费开放用户生成的数据为基础,为其提供高性价比的应用解决方案和及时精准的供求信息,快速提高产品开发周期和生产直通率、提升电子器件的应用附加值。
评论
  • 飞凌嵌入式基于瑞芯微RK3562系列处理器打造的FET3562J-C全国产核心板,是一款专为工业自动化及消费类电子设备设计的产品,凭借其强大的功能和灵活性,自上市以来得到了各行业客户的广泛关注。本文将详细介绍如何启动并测试RK3562J处理器的MCU,通过实际操作步骤,帮助各位工程师朋友更好地了解这款芯片。1、RK3562J处理器概述RK3562J处理器采用了4*Cortex-A53@1.8GHz+Cortex-M0@200MHz架构。其中,4个Cortex-A53核心作为主要核心,负责处理复杂
    飞凌嵌入式 2025-01-24 11:21 172浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 839浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 312浏览
  • 书接上回:【2022年终总结】阳光总在风雨后,启航2023-面包板社区  https://mbb.eet-china.com/blog/468701-438244.html 总结2019,松山湖有个欧洲小镇-面包板社区  https://mbb.eet-china.com/blog/468701-413397.html        2025年该是总结下2024年的喜怒哀乐,有个好的开始,才能更好的面对2025年即将
    liweicheng 2025-01-24 23:18 157浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 231浏览
  • 故障现象 一辆2007款日产天籁车,搭载VQ23发动机(气缸编号如图1所示,点火顺序为1-2-3-4-5-6),累计行驶里程约为21万km。车主反映,该车起步加速时偶尔抖动,且行驶中加速无力。 图1 VQ23发动机的气缸编号 故障诊断接车后试车,发动机怠速运转平稳,但只要换挡起步,稍微踩下一点加速踏板,就能感觉到车身明显抖动。用故障检测仪检测,发动机控制模块(ECM)无故障代码存储,且无失火数据流。用虹科Pico汽车示波器测量气缸1点火信号(COP点火信号)和曲轴位置传感器信
    虹科Pico汽车示波器 2025-01-23 10:46 177浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 1058浏览
  • 随着AI大模型训练和推理对计算能力的需求呈指数级增长,AI数据中心的网络带宽需求大幅提升,推动了高速光模块的发展。光模块作为数据中心和高性能计算系统中的关键器件,主要用于提供高速和大容量的数据传输服务。 光模块提升带宽的方法有两种:1)提高每个通道的比特速率,如直接提升波特率,或者保持波特率不变,使用复杂的调制解调方式(如PAM4);2)增加通道数,如提升并行光纤数量,或采用波分复用(CWDM、LWDM)。按照传输模式,光模块可分为并行和波分两种类型,其中并行方案主要应用在中短距传输场景中成本
    hycsystembella 2025-01-25 17:24 139浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 197浏览
  • 项目展示①正面、反面②左侧、右侧项目源码:https://mbb.eet-china.com/download/316656.html前言为什么想到要做这个小玩意呢,作为一个死宅,懒得看手机,但又想要抬头就能看见时间和天气信息,于是就做个这么个小东西,放在示波器上面正好(示波器外壳有个小槽,刚好可以卡住)功能主要有,获取国家气象局的天气信息,还有实时的温湿度,主控采用ESP32,所以后续还可以开放更多奇奇怪怪的功能,比如油价信息、股票信息之类的,反正能联网可操作性就大多了原理图、PCB、面板设计
    小恶魔owo 2025-01-25 22:09 199浏览
  • 前篇文章中『服务器散热效能不佳有解吗?』提到气冷式的服务器其散热效能对于系统稳定度是非常重要的关键因素,同时也说明了百佳泰对于散热效能能提供的协助与服务。本篇将为您延伸说明我们如何进行评估,同时也会举例在测试过程中发现的问题及改善后的数据。AI服务器的散热架构三大重点:GPU导风罩:尝试不同的GPU导风罩架构,用以集中服务器进风量,加强对GPU的降温效果。GPU托盘:改动GPU托盘架构,验证出风面积大小对GPU散热的影想程度。CPU导风罩:尝试封闭CPU导风罩间隙,集中风流,验证CPU降温效果。
    百佳泰测试实验室 2025-01-24 16:58 67浏览
  • 不让汽车专美于前,近年来哈雷(Harley-Davidson)和本田(Honda)等大型重型机车大厂的旗下车款皆已陆续配备车载娱乐系统与语音助理,在路上也有越来越多的普通机车车主开始使用安全帽麦克风,在骑车时透过蓝牙连线执行语音搜寻地点导航、音乐播放控制或免持拨打接听电话等各种「机车语音助理」功能。客户背景与面临的挑战以本次分享的客户个案为例,该客户是一个跨国车用语音软件供货商,过往是与车厂合作开发前装车机为主,且有着多年的「汽车语音助理」产品经验。由于客户这次是首度跨足「机车语音助理」产品,因
    百佳泰测试实验室 2025-01-24 17:00 94浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦