Meta开源大模型Llama-4-Maverick基准测试排名暴跌

WitDisplay 2025-04-14 16:21

4月14日消息,LMArena 更新了 Meta 最新发布的开源大模型  Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena  提供“特供版”Llama 4 大模型的质疑。

4月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth  三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于  Gemini 2.5 Pro。然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现  Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。

4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

目前开源版同款Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

AI行业交流群
图片

WitDisplay 智慧显示(Wit Display)由资深科技媒体人创立,跟踪全球显示产业链、AIoT产业最新动态.
评论 (0)
  • 导读在汽车测试和现代工业领域,功耗控制与效率优化是工程师们不断追求的目标。虹科PCAN Router系列设备以其卓越的性能和灵活性,为CAN/CAN FD网络中的报文转换提供了高效解决方案。本文将探讨虹科PCAN Router系列设备如何在保持高效工作的同时,通过低功耗模式和高效唤醒功能,满足对能耗有严格要求的应用场景。虹科PCAN Router系列网关1 低功耗模式的优势与实现在实际的工作场景中,可能会出现一些对功耗要求存在限制的情况。鉴于此,可以灵活设置虹科PCAN Router系
    虹科汽车智能互联 2025-04-21 15:45 57浏览
  • 导读在当今快速发展的智能通讯领域,时间敏感网络(TSN)已成为确保网络通信高可靠性和低延迟的关键技术。IEEE 802.1 Qci作为TSN的一个重要组成部分,提供了一套强大的机制来管理网络流量,确保关键数据流的优先级和带宽得到保障。本文将深入探讨IEEE 802.1 Qci协议的基本概念、工作原理以及虹科提供的Qci解决方案,帮您理解如何通过精确的流量控制来提升网络的稳定性和效率。虹科TSN解决方案01# 技术简介时间敏感网络(TSN)通过IEEE 802.1 Qci标准定义了一种关
    虹科工业智能互联 2025-04-21 16:17 69浏览
  •   海上安全事件应急处置系统平台深度解析   一、平台概述   北京华盛恒辉海上安全事件应急处置系统平台融合现代信息技术、通信技术、GIS、大数据分析及 AI 等技术,旨在快速响应船舶碰撞、火灾、溢油等海上突发事件,实现科学决策与高效资源调配,保障海上生命财产安全、减少环境污染。   应用案例   目前,已有多个海上安全事件应急处置系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上安全事件应急处置系统。这些成功案例为海上安全事件应急处置系统的推广和应用提供了有力支持
    华盛恒辉l58ll334744 2025-04-21 15:21 79浏览
  •   电磁信号模拟平台解析   北京华盛恒辉电磁信号模拟平台作为模拟复杂电磁环境的系统,在无线通信、电子对抗等多领域广泛应用。以下从功能、技术特性、应用场景及发展趋势展开详细解读。   应用案例   目前,已有多个电磁信号模拟平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁信号模拟平台。这些成功案例为电磁信号模拟平台的推广和应用提供了有力支持。   一、核心功能   复杂电磁环境建模:构建贴近真实的电磁环境,涵盖各类干扰因素。   多通道信号模拟:模拟多通道电磁信号
    华盛恒辉l58ll334744 2025-04-21 15:10 85浏览
  •   有效数据智能分拣系统详解   北京华盛恒辉有效数据智能分拣系统融合人工智能、大数据分析与机器学习等前沿技术,实现海量数据自动化分类、筛选、整理及分配。凭借强大的数据处理效能,助力企业精准提取关键信息,优化决策流程,提升运营效率。以下从系统架构、核心功能、技术特性、应用场景及发展趋势展开解读。   应用案例   目前,已有多个有效数据智能分拣系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效数据智能分拣系统。这些成功案例为有效数据智能分拣系统的推广和应用提供了有力支持。
    华盛恒辉l58ll334744 2025-04-21 16:46 91浏览
  •   有效数据智能分拣系统平台深度解析   一、系统概述   北京华盛恒辉有效数据智能分拣系统平台融合人工智能、机器视觉、物联网及大数据分析技术,为物流包裹、数据信息等提供高效精准的智能化分拣处理方案。通过自动化设备与智能算法协同运作,取代传统人工分拣模式,显著提升分拣效率、降低错误率,满足电商、快递及供应链不断增长的业务需求。   应用案例   目前,已有多个有效数据智能分拣系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效数据智能分拣系统。这些成功案例为有效数据智能分
    华盛恒辉l58ll334744 2025-04-21 16:22 110浏览
  •   海上安全事件应急处置系统解析   北京华盛恒辉海上安全事件应急处置系统是为应对船舶碰撞、火灾等海上突发事件打造的综合管理体系,通过技术与协同机制,实现快速响应救援、优化资源配置,守护海上生命、财产与环境安全。以下从系统构成、功能、技术、应用及趋势展开阐述。   应用案例   目前,已有多个海上安全事件应急处置系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上安全事件应急处置系统。这些成功案例为海上安全事件应急处置系统的推广和应用提供了有力支持。   一、系统构成
    华盛恒辉l58ll334744 2025-04-21 15:50 66浏览
  • 导读在智能汽车技术发展浪潮中,车辆控制系统的智能化、网络化已成为行业发展的必然趋势。虹科PEAK智行定位车控系统,集成了尖端科技,能够实现车辆全方位监控与控制。从实时GPS定位到CAN/CAN FD信号处理,虹科方案不仅提升了车辆的智能化水平,更在安全性和效率上迈出了革命性的一步。虹科PEAK智行定位车控系统,通过CAN/CAN FD信号实现车辆的精准控制,包括加减速、转弯、倒退等动作,模拟真实车辆平台的动态表现。该系统搭载了虹科各型号设备,通过紧密协作,实时反映车辆位置、总线报文等信息,实现车
    虹科汽车智能互联 2025-04-21 16:04 64浏览
  • 北京贞光科技有限公司作为紫光同芯授权代理商,深耕电子元器件领域数十载,专为汽车与工业客户提供车规级安全芯片及配套服务。公司整合硬件供应、软件SDK与技术支持为一体,配备专业团队提供选型咨询与现场指导,助力客户实现完整的芯片应用解决方案。在全球芯片供应链重构的大背景下,我国车规级芯片产业正迎来前所未有的发展机遇。北京贞光科技有限公司作为紫光同芯授权代理商,深耕电子元器件领域数十载,专为汽车与工业客户提供车规级安全芯片及配套服务。公司整合硬件供应、软件SDK与技术支持为一体,配备专业团队提供选型咨询
    贞光科技 2025-04-21 16:10 62浏览
  • 导读Linux驱动程序领域再添新成员,PLIN驱动程序现已正式发布。这一新驱动程序为使用LIN接口的用户提供了一个便捷、高效的解决方案。本文将展示如何安装PLIN驱动程序,以及如何在Linux环境下进行基本的PLIN通信操作,确保您能够快速掌握并应用这一新工具。继我们在Linux环境下成功推出CAN/CAN FD接口驱动程序后,现在我们为LIN接口带来了同样兼容Linux的驱动程序。免费软件包中不仅包含了驱动程序本身,还提供实用工具和一份易于理解的快速入门指南。用户下载后,需要根据当前使用的Li
    虹科汽车智能互联 2025-04-21 14:56 56浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦