应激的Llama,开源的困局

原创 脑极体 2025-04-24 18:04


在DeepSeek R1-V3、GPT-4o、Claude-3.7的强势围攻下,Meta坐不住了。曾作为开源之光的Llama在一年的竞争内连连失利,并没有研发出让公众惊艳的功能。创始人扎克伯格下达死命令,今年4月一定要更新。


于是我们迎来它仓促的答卷——一款在实测中让人大跌眼镜的模型Llama4,号称10m token的上下文长度频频出错、初代小球测试难以完成、9.11>9.9的比大小失误……这场本应扎眼的亮相从期待变成群嘲。上线几天内,高管离职、测试作弊等丑闻被内部员工爆料证实。



作为开源生态的标杆,Llama系列曾以Llama 2的辉煌战绩——衍生超过7000个变体、累计下载超3亿次,定义了商业级开源大模型的黄金时代。而短短两年间,这场由Meta主导的开源运动在技术内卷中逐步迷失初心,进入到一种缺乏创新的恶性内卷。


再加上,开源模型并不靠C端会员制付费变现,短期盈利无望。既如此,Llama为何急着更新?国内外的开源模型又在卷什么呢?



Meta最新发布的Llama 4系列包括Scout(1000万Token上下文窗口)、Maverick(编码与推理对标DeepSeek V3)和尚未发布的Behemoth(2880亿活跃参数),官方声称其是有史以来最强多模态大模型。


不过,24h就被打脸了。


发布第二天就有内部员工爆料,Llama4的基准测试存在严重造假,模型远远达不到开源sota标准,但为了赶在四月底前发布,领导将各个benchmark的测试集混合在post-training过程中,拿出了一个“看起来可以”的结果。


显而易见,技术掺水的后果是关键性能的严重缺陷。在社交媒体X和Reddit的用户实测中,Llama4多项任务明显落后于前代产品与同量级模型,公众并不为这样的噱头买单。


代码能力差强人意。在Polyglot编程测试中,Maverick版本的正确率仅为15.6%~16%,几乎垫底,与Meta声称的“编码能力超越DeepSeek”严重不符。其402B的参数规模并未带来优势,反而被32B参数的Qwen-QwQ等模型超越,基准测试结果严重失真。



核心卖点多模态能力未达预期,用户实测发现其图像理解能力甚至不如谷歌去年开源的Gemma 2,且在长上下文任务中表现不稳定,随着token长度增加性能显著下降。



Llama4的登场不仅没什么亮点,还面临着刷分造榜、砸钱走下坡路等污点。既然完全没训练好,Meta干嘛上赶着自己给自己找不快呢?


它太焦虑了,焦虑到即使只是一个登不上台面的残次品,也要黔驴技穷似地端上桌。


一方面,GPT-4o、Claude3.7等头部闭源模型在多模态、代码能力上的领先让Meta在海外市场苦不堪言;另一方面,DeepSeek V3等后起之秀的登场又让它在开源社区作为引领者的光环黯然失色。


内外夹击下,扎克伯格不得不设立四月ddl逼研发团队拿出作品,试图挽回公众的信心,但如此高压的战线反而弄巧成拙。没有时间搞创新的技术部不得不压缩测试周期,在模型未达预期情况下强行上线。


竞争和管理的双重高压让团队在内卷中丢失了技术本位的初心。其沿用的传统技术DPO虽简化了RLHF流程,但在数学、代码等复杂任务上表现不稳定。而相比GPT-4o的多模态架构,Llama 4的改进更像是仰赖Scaling law的小修小补,疯狂堆叠参数,忽略了对底层架构的探索。


急于求成的Meta,既没有耐心打磨技术,也没有遵守行业伦理,陷入了恶性内卷的开源困境。



从2023年起,一月一更新的头部模型军备赛让模型竞争陷入了恶性内卷。相似的训练数据、趋同的架构让众多产品高度同质化乏善可陈。GPT-4o、Claude等实力雄厚的闭源模型便脱颖而出。


让人疑惑的是,选择开源路径Llama,为何也要焦虑?它不靠会员订阅盈利,是否更新好像并不能带来更多实质的利润。


实际上,开源并不意味着放弃商业化,开源和闭源有着不同的盈利逻辑。闭源是直接卖产品,通过订阅付费赚钱,开源是为了构筑坚实的生态壁垒靠定制化服务占领未来的市场。


开源如何赚钱?通俗地讲,开源就相当于美食店的试吃,店家每天出100份免费甜点,为的是让顾客买更多的甜点。模厂开放免费的token使用次数,就是像美食店一样打响自己的名气,吸引有实力的企业和开发者购买定制化服务。


开源模型的第一笔生意是高性能API的销售。基础服务虽免费,但企业可提供高性能API服务,按调用量收费。DeepSeek-R1的API定价为每百万输入Token 1元,每百万输出tokens 16元。免费token额度用完了或者基础API满足不了需求,用户就倾向于使用付费版保持业务流程的稳定性。



此外,实力雄厚的政企客户是大模型商业化的主力军。出于高保密性和定制化需求,不少企业会购买模厂的私有化部署服务。厂商收取技术费用,根据需求提供定制化的模型训练、微调以及后续的系统维护升级服务。据悉,大模型私有化底座建设基本是千万打底,某模厂销售透露,部署他们公司最新的模型最少2000万,可以理解为五星级餐厅的私人晚宴和满汉全席。


其次,部分厂商选择开源与闭源并行的双轨路线。开源基础版满足通用需求,闭源高级版服务付费市场。相当于先给你一道开胃菜,你自己选择要不要再上主食。2023年的智谱就是一个典型,公司开源ChatGLM-6B等模型建立生态,同时推出闭源的千亿参数模型GLM-130B,向B端收费。



最后,开源其实是一道商业化的桥梁,目的是建构开发者生态社区,通过降低门槛、提高粘性、分层变现。举个例子,饭店提供试吃小菜建立了自己的吃货群,但同时也卖碗筷、卖调料品、卖店里游乐设施的体验服务。


大模型也是一样的道理,开源吸引的一大批开发者就是他的生态,可以植入广告收取广告费,可以卖云服务,也可以卖配套的AI产品。


实际上,开源就是为了抢生态。用户越多,未来的盈利渠道越丰富,但一旦性能被超越,开发者流失,会引发连锁反应。


所以Meta这么着急发布Llama4就是怕自己再不努力,开发者就会转向DeepSeek等更优模型。而前期苦心经营的AI生态一松动,看不到用户基数的云计算合作伙伴(如微软Azure)也会离席,导致间接盈利渠道萎缩,商业变现受阻。


更重要的是,前期AI大模型主要是打口碑效应,一旦落后,市场竞争力就会下降,而失去用户和合作伙伴的Llama在行业内部也逐步失去了辨识度。这意味着,提起开源大模型,人们讨论Llama的次数将会越来越少。


落后即淘汰的压力,迫使Meta必须在极短时间内推出Llama 4,哪怕牺牲模型质量。



天下没有免费的午餐,也没有免费的生意。


Meta对于开源的热衷,隐含着扎克伯格对大模型市场生态的渴望,这在一众国内公司中也不无体现。


在DeepSeek等企业的带动下,国内大模型公司纷纷加入开源浪潮,例如曾坚持走闭源路线的百度也宣布在2025年6月全面开源文心4.5系列。


不过,Llama4的失利也提醒我们,模型开源不能陷入恶性内卷,基础模厂找准差异化线路很重要。


一方面,要坚持创新带来的性能提升。DeepSeek的全栈开源能在短时间打破B端、G端两个市场,关键在于其MoE底层架构大大降低成本、提升效率。而Llama 4迷信scaling law,通过堆砌参数涌现智能的道路已不可通,未来破局的关键在攻克多模态、小样本前沿领域。


并且,基准测试不等于真实体验,不要一味追求sota而忽略了实际场景中的应用体验。与Llama 4不同,DeepSeek前期并没有给自己贴上登顶sota的光环,在海内外用户实测中赢得关注的它更有信服力。


另一方面,战略是关键,做好商业化关乎开源模型的生死存亡。



比如,阿里Qwen系列通过全模态开源吸引开发者使用云计算等基础设施,形成场景闭环。他们的模型在前期只是一个引子,明码标价的商品实则是云服务。而主攻AI的智谱清言没有其他东西卖,选择了开源闭源双轨并行的策略,开源吸引开发者生态,向B端和G端提供付费的定制解决方案。这说明,企业一定要结合自己的基因思考变现策略,抓准目标市场,想清楚他们的客户期待怎样的服务。


除了卖模型的人,使用模型的人也要注意,开源模型并非万全之策,存在隐性限制。


首先,部分开源模型会在许可证中明确禁止商业应用,仅限学术研究,如Meta llama2限制月活超7亿公司使用,削弱了开源的自由;其次,许多开源模型仅公开架构,不公开数据源和代码集,开发者只能基于现有模型微调;当然,部署也有一定的门槛,模型微调需要英伟达显卡等昂贵的计算资源,普通开发者难以承担。


实际选择开源模型时,AI开发者和软件ISV服务商一定要谨慎阅读各种附带条款和协议,避免许可证限制与法务风险;除了开源模型,开发者也可跟闭源模厂开发商业化版本,减少后期风险。


总之,Llama的一时落败告诉我们:没有技术巩固的开源生态,终是一盘散沙。开源模型厂商想靠吸引广大开发者培育用户粘性,必须保持性能领先,告别无效内卷,走向技术创新。



·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论 (0)
  • 探针台作为半导体制造与测试的核心设备,通过精密定位与多环境适配能力,支撑芯片研发、生产及验证全流程。以下是其关键应用领域与技术特性:一、核心功能支撑1.‌电性能测试与分析‌l 在晶圆切割前,探针台直接接触芯片电极,测量阈值电压、漏电流、跨导等200余项参数,用于评估良品率及优化工艺设计。l 支持单晶体管I-V曲线测量,定位栅极氧化层厚度偏差(精度达0.2nm),为器件性能分析提供数据基础。2.‌纳米级定位与测量‌l 定位精度达±0.1μm,满足5nm及以下制程芯片的
    锦正茂科技 2025-04-27 13:09 151浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 96浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 209浏览
  •   无人机部件仿真与模型验证平台系统解析   北京华盛恒辉无人机部件仿真与模型验证平台系统是无人机研发的核心工具,通过多元功能、创新架构和广泛应用,推动无人机技术发展。以下从核心功能、技术架构、应用场景、优势及发展趋势展开解析。   应用案例   目前,已有多个无人机部件仿真与模型验证平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机部件仿真与模型验证平台。这些成功案例为无人机部件仿真与模型验证平台的推广和应用提供了有力支持。   一、核心功能   三维建模与可视化
    华盛恒辉l58ll334744 2025-04-26 16:39 260浏览
  •   北京华盛恒辉电磁环境适应性测试系统是针对复杂电磁环境进行仿真、测试与评估的关键设备,以下从系统功能、技术架构、应用场景、核心优势、发展趋势五个维度展开全面解析:   应用案例   目前,已有多个电磁环境适应性测试系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁环境适应性测试系统。这些成功案例为电磁环境适应性测试系统的推广和应用提供了有力支持。   一、系统功能   复杂电磁环境构建   全生命周期测试能力   实时监测与反馈   二、技术架构   模块化设
    华盛恒辉l58ll334744 2025-04-26 17:21 200浏览
  • 探针台作为高精度测试设备,在光电行业的关键器件研发、性能测试及量产质量控制中发挥核心作用,主要涵盖以下应用场景与技术特性:一、光电元件性能测试1.‌光电器件基础参数测量‌l 用于LED、光电探测器、激光器等元件的电流-电压(I-V)特性、光功率、响应速度等参数测试,支撑光通信、显示技术的器件选型与性能优化。l 支持高频信号测试(如40GHz以上射频参数),满足高速光调制器、光子集成电路(PIC)的带宽与信号完整性验证需求。2.‌光响应特性分析‌l 通过电光转换效率测
    锦正茂科技 2025-04-27 13:19 115浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 87浏览
  • 速卖通,作为阿里巴巴集团旗下的跨境电商平台,于2010年横空出世,彼时正值全球电商市场蓬勃发展,互联网的普及让跨境购物的需求日益增长,速卖通顺势而为,迅速吸引了全球目光。它以“让天下没有难做的生意”为使命,致力于打破国界限制,搭建起中国商家与全球消费者之间的桥梁。在其发展的黄金时期,速卖通取得的成绩令人瞩目。在欧洲市场,速卖通一度成为第一大电商平台。根据第三方机构《欧洲跨境商务》的评选,速卖通凭借出色的服务和消费者口碑,在“欧洲十大跨境电商平台”中脱颖而出,力压来自美国的亚马逊和eBay等电商巨
    用户1742991715177 2025-04-26 20:23 195浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 76浏览
  •  集成电路封装测试是确保芯片性能与可靠性的核心环节,主要包括‌晶圆级测试(CP测试)‌和‌封装后测试(FT测试)‌两大阶段,流程如下:一、晶圆级测试(CP测试)1.‌测试目的‌:在晶圆切割前筛选出功能缺陷或性能不达标的晶粒(Die),避免后续封装环节的资源浪费,显著降低制造成本。2.‌核心设备与操作‌l ‌探针台(Prober)‌:通过高精度移动平台将探针与晶粒的Pad jing准接触,实现电气连接。l ‌ATE测试机‌:提供测试电源、信号输入及功能向量,接收晶粒反
    锦正茂科技 2025-04-27 13:37 185浏览
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 66浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 238浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 115浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 79浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 121浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦