Omdia最新报告|2025年度中国商用大模型厂商评测报告

原创 Omdia 2025-04-14 12:00


Omdia在去年九月发布了2024年中国商用大模型厂商评测报告以来,深度求索(DeepSeek) 在2024底的强势崛起重新定义了中国大模型市场的竞争格局。在两个月内,DeepSeek发布的大模型在特定基准参数上与国际厂商模型不相上下,甚至更胜一筹。中国的生成式人工智能(GenAI)市场正式进入DeepSeek时代,一个主张开源开放共存共荣的时代。



尽管其他厂商正在努力追赶,争取在技术突破和商业影响方面取得突破,市场竞争依旧剧烈。GenAI 的变现途径仍然模糊不清。大模型厂商都不约而同地采用专家混合(MoE)架构,并推出多模态和深度推理模型。榜单上的厂商只来自两大阵营:云大厂和明星初创企业。虽然市场将继续快速增长,但同时也有几家初创公司基于成本的关系正考虑放弃开发预训练的大模型。因此,Omdia认为市场会在2025 年有进一步的整合。从长远来看,预计少数的大模型厂商将在持续开发预训练深度推理大模型,而大部分的厂商会将资源投向小模型、行业模型、高级优化技术和智能体等细分赛道。

业界重大发布


  • 202411 – 腾讯开源其最强的混元Large

  • 2024年12月 – DeepSeek发布V3。

  • 2025年1月 – DeepSeek发布R1。

  • 2025年1月 – 阿里发布最新顶配模型Qwen2.5-Max。

  • 20251 – 字节发布深度推理模型豆包1.5-pro

  • 20252 – DeepSeek开源一系列模型优化科技。

  • 20252 – 阿里发布开源深度推理模型QwQ

  • 20252 – 腾讯发布最新混元模型Turbo S

  • 20252 – 百度发布文心一言4.5和推理模型X1

  • 20253 – 腾讯发布基于Mamba架构的开源深度推理模型T1


评测标准


此次评测侧重于大模型对通用知识和特定领域特定任务处理能力。本评测中评估的产品是大模型的语言能力水平和知识深度,以及基于这些大模型的相应聊天机器人。


Omdia 主要用两个维度来评测厂商,即模型能力和执行能力。


模型能力的评测主要借助来自主要研究和独立第三方基准的数据,重点关注大大模型以准确、可预测和安全的方式执行通用任务和特定领域任务的能力。大大模型能力、一致性和安全性评估完全基于著名的学术研究论文和第三方评估。这种方法可确保评估过程不受参与者的偏见和影响。


  • 通用任务执行能力:主要用CLiBFoundaBenchOpen LLM Leaderboard 2OpenCompass SuperCLUELHMKEAC-EVALC3BenchConceptmath的评测结果。同时也会考虑国际基准,如 MMLUHellaSwag LMSYS等。


  • 对齐:主要用AlignBench的评测结果。


  • 安全性: 主要用CHiSafetyBench、CRiskEval、MLLMGuard和S-Eval。


  • 特定领域任务执行能力和可信度: 主要用CFLUE、SuperCLUE-Fin、CMB、CS-Bench和NewsBench的评测结果,同时也会考虑国际基准,如HumanEval和MBPP。


  • 深度推理能力:参考主流人工智能评估基准,包括Arena-Hard、GPQA-Diamond、MMLU-Pro、Frontier Math和LiveBench。


  • 智能体能力:主要用Berkeley Function Calling Leaderboard v3的评测结果。


  • 多模态人工智能MMMU MMMU-Pro 是用于评估这种能力的标准基准。


  • 推理能力:参考主流人工智能评估基准,包括Arena-HardGPQA-DiamondMMLU-ProFrontier Math LiveBench


  • 智能体能力:主要用Berkeley Function Calling Leaderboard v3 的评测结果。


  • 多模态人工智能MMMU MMMU-Pro 是用于评估这种能力的标准基准。

执行力的评测主要基于Omdia自身定性的研究来评测以下七点:


  • 创新力:指厂商在支持 GenAI开发和部署的基础设施方面的创新,如芯片、云基础设施、开发平台以及智算中心。


  • 战略和路线图:指厂商针对特定垂直需求、目标受众以及与合作伙伴的需求而开发的创新。


  • 上市战略:指厂商进入市场的渠道以及对大模型的销售和营销支持。


  • 直行业覆盖率:指大模型所能服务的垂直行业。


  • 客户数量:指大模型的客户总数,尤其是大型国内客户和国际客户。


  • 部署服务:指厂商帮助企业实施基于大模型的定制应用程序的能力。


  • 合作伙伴和生态系统:指厂商在本地市场和全球渠道分销合作伙伴及系统集成商的多样性,以及对全球开源生态系统的贡献。

评测结果


由于可供选择的范围广泛,Omdia 通过对 14 家主要大模型供应商进行基准测试,旨在为中国商业大模型用户提供指导。我们的评估主要基于第三方基准、各种GenAI技术的创新以及通过一级和二级研究获得的商业性能信息。


以下是评估结果(供应商名称按英文字母顺序排列):

  • 领导者: 阿里巴巴、百度、DeepSeek、腾讯、智谱

  • 挑战者: 百川、字节跳动、华为、科大讯飞、MiniMax、商汤

  • 具潜力者: 零一万物、月之暗面、阶跃星辰


领先者必须拥有顶级的通用和特定领域任务性能。阿里、DeepSeek、百度、智谱和腾讯这些大模型在能力、一致性和安全性方面都获得了高分。其中,阿里胜在大模型多模态和深度推理能力以及模型的丰富性。DeepSeek不仅自身模型表现卓越,将开源模型的能力发挥极致,带动开源潮流,还凭着优秀的模型优化技术领先大部分厂商。2025年的智谱在智能体方面有亮眼的突破。百度和腾讯则继续保持在特定领域任务执行的卓越表现。


同时,这些厂商的大模型具有多种商业化战略,并为 GenAI应用开发和部署提供了强有力的支持。大多数市场领导者都涵盖了各种 GenAI能力,从芯片到云基础设施、大模型库、开发人员工具和服务。企业需要满足多种技术要求来充分发挥大模型的能力,包括可靠的数据收集和管理流程、访问人工智能训练和推理芯片、模型托管、部署、维护平台以及模型集成和更新支持。领先的厂商必须具备解决这些问题的能力,而阿里、百度和腾讯利用自身强大的云基础设施为企业有效的解决的这方面的挑战。


市场挑战者主要包括中国的云计算和人工智能巨头,它们拥有强大的基础设施和通用人工智能能力。它们并不缺乏开发强大大模型的资源。相反,它们将重点放在选定的用例或专有解决方案上。华为和商汤主要服务企业。字节跳动和MiniMax聚焦于消费者应用。百川在2025年更是做出转型,主要聚焦在医疗和金融两大行业。


小结


中国大模型市场正式进入DeepSeek时代。DeepSeek的崛起象征着中国厂商已经贴近甚至在某些方面超越了国际厂商的能力。这次评测背后的真正意义是中国厂商再次显示他们在既定赛道上的卓越竞争力。


与此同时,DeepSeek让中国厂商看到了全栈GenAI产品以外的商机。在积极支援DeepSeek大模型的同时,厂商们也在积极开发自身的开源深度推理大模型和多模态模型,接下来会将资源投向小模型、行业模型和智能体等赛道。


此份中国大模型厂商竞争力评测报告仅是代表着Omdia对目前大模型市场的一个主观判断。由于围绕大模型的技术发展迅速,在创新速度丝毫没有减慢的情况下要做出非常完善的比较是很困难的。虽然Omdia尽力做到全面的覆盖及考量,此评测不足之处仍敬请见谅。尽管如此,Omdia会持续跟进,对大模型市场发展提出独特观点。


本文作者

苏廉节

首席分析师 - AI&IoT



文章版权和解释权归微信平台Omdia所有

Omdia隶属于Informa TechTarget, Inc. (纳斯达克代码: TTGT),是一家专注于技术研究与咨询的机构。通过深入科技市场的洞察力和可行性建议,Omdia帮助组织做出明智的增长决策。


omdia.com

Joyce.Liu@Omdia.com


Omdia Omdia是全球通信、数字媒体与IT行业中富有权威的独立研究机构,为各国运营商、设备供应商等TMT行业参与者提供客观和极具商业价值的市场研究与咨询服务。此平台致力于分享Omdia与TMT行业最新发展动态的深入分析。
评论 (0)
  • 据国际精益六西格玛研究所(ILSSI)成员大卫·哈钦斯(David Hutchins)的回忆,在“六西格玛”名称出现前,摩托罗拉组建了约100个质量改进团队,接受朱兰博士制作的16盘录像带培训,名为《朱兰论质量改进》(Juran on Quality Improvement),为了推广这种严谨的分析方法(朱兰博士视频中的核心内容),摩托罗拉前首席执行官鲍勃·加尔文创造了“六西格玛”这一标签,用以表彰这种“最顶尖"的方法。大卫·哈钦斯(David Hutchins)是朱兰博士的好友,也为他的工作做
    优思学院 2025-04-22 12:03 72浏览
  • 职场烂摊子,每个人都难免遇上如果你在职场待久了,总会碰到一些让人无奈的情况:比如刚接手的项目混乱不堪、前任同事留下的任务一团乱麻,甚至有时因为自己的疏忽造成麻烦。面对这种烂摊子,烦躁、焦虑、甚至怀疑人生的情绪都会扑面而来。但如果你冷静想想,会发现真正消耗你的,往往不是工作本身,而是持续不断的心理内耗。那么问题来了,如何摆脱内耗,快速有效地“自救”?摆脱内耗,从情绪中抽离我曾经历过一个典型的职场烂摊子:前任项目负责人突然辞职,项目资料缺失严重,进度远远落后,客户抱怨不断。当时接手后的第一反应就是慌
    优思学院 2025-04-21 18:21 43浏览
  •   电磁兼容故障诊断系统平台深度解析   北京华盛恒辉电磁兼容(EMC)故障诊断系统平台是解决电子设备在复杂电磁环境下性能异常的核心工具。随着电子设备集成度提升与电磁环境复杂化,EMC 问题直接影响设备可靠性与安全性。以下从平台架构、核心功能、技术实现、应用场景及发展趋势展开全面剖析。   应用案例   目前,已有多个电磁兼容故障诊断系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁兼容故障诊断系统。这些成功案例为电磁兼容故障诊断系统的推广和应用提供了有力支持。  
    华盛恒辉l58ll334744 2025-04-22 14:29 73浏览
  •   北京华盛恒辉基于GIS的电磁态势可视化系统软件是将地理空间信息与电磁态势数据相结合,通过图形化手段直观展示电磁环境态势的系统。这类软件在军事、通信、无线电管理等领域具有广泛应用,能够辅助用户进行电磁频谱分析、干扰监测、态势研判和决策支持。以下是关于此类系统的详细介绍:   应用案例   目前,已有多个电磁态势可视化系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁态势可视化系统。这些成功案例为电磁态势可视化系统的推广和应用提供了有力支持。   一、系统功能   电磁
    华盛恒辉l58ll334744 2025-04-22 11:44 73浏览
  • 在汽车行业的变革浪潮中,智界汽车的诞生备受瞩目。作为华为与奇瑞两大巨头携手合作的结晶,智界汽车自孕育之初便承载着众人的期待,被视为融合前沿科技与卓越制造的典范,有望在竞争激烈的新能源汽车市场中开辟出一片新天地。2024年,智界品牌首款车型智界S7正式上市,凭借华为的技术赋能,如先进的鸿蒙智能座舱、强大的HUAWEI ADS高阶智能驾驶辅助系统,以及奇瑞多年积累的深厚造车底蕴,在上市前赚足了眼球。智界S7的亮相,犹如一颗投入平静湖面的石子,激起了层层涟漪,消费者对其充满了好奇与期待,行业内也纷纷将
    用户1742991715177 2025-04-21 20:28 79浏览
  • 引言:老龄化社会的健康守护需求随着全球老龄化进程加速,老年人的健康管理与生活质量成为社会焦点。记忆衰退、用药混乱、日程遗漏等问题频发,催生了智能健康设备的市场需求。WTR096录音语音芯片,凭借其高度集成的录放音、计时时钟与计划管理功能,为老年人量身打造了一站式健康管理方案,重新定义智能语音时钟的价值。功能亮点:1. 用药安全守护:多维度提醒,拒绝遗忘多时段精准提醒:支持一天内设置多个用药时间(如早、中、晚),适配复杂用药需求。个性化语音定制:家属可录制专属提醒语音(如“上午9点,请服用降压药”
    广州唯创电子 2025-04-22 08:41 94浏览
  • 4 月 19 日,“增长无界・智领未来” 第十六届牛商大会暨电子商务十大牛商成果报告会在深圳凤凰大厦盛大举行。河南业之峰科技股份有限公司总经理段利强——誉峰变频器强哥凭借在变频器领域的卓越成就,荣膺第十六届电子商务十大牛商,携誉峰变频器品牌惊艳亮相,以十几年如一日的深耕与创新,书写着行业传奇。图 1:誉峰变频器强哥在牛商大会领奖现场,荣耀时刻定格牛商大会现场,誉峰变频器强哥接受了多家媒体的专访。面对镜头,他从容分享了自己在变频器行业二十年的奋斗历程与心路感悟。谈及全域营销战略的成功,誉峰变频器强
    电子与消费 2025-04-22 13:22 88浏览
  • 近期,金融界消息称,江西万年芯微电子有限公司申请一项名为“基于预真空腔体注塑的芯片塑封方法及芯片”的专利。此项创新工艺的申请,标志着万年芯在高端芯片封装领域取得重要突破,为半导体产业链提升注入了新动能。专利摘要显示,本发明公开了一种基于预真空腔体注塑的芯片塑封方法,方法包括将待塑封的大尺寸芯片平铺于下模盒腔体内的基板并将大尺寸芯片的背向表面直接放置于基板上以进行基板吸附;将上模盒盖合于下模盒形成塑封腔,根据基板将塑封腔分为上型腔以及下型腔;将下型腔内壁与大尺寸芯片间的空隙进行树脂填充;通过设置于
    万年芯 2025-04-22 13:28 71浏览
  •   电磁兼容(EMC)故障诊断系统软件解析   北京华盛恒辉电磁兼容故障诊断系统软件是攻克电子设备电磁干扰难题的专业利器。在电子设备复杂度攀升、电磁兼容问题频发的背景下,该软件于研发、测试、生产全流程中占据关键地位。以下为其详细介绍:   应用案例   目前,已有多个电磁兼容故障诊断系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁兼容故障诊断系统。这些成功案例为电磁兼容故障诊断系统的推广和应用提供了有力支持。   一、软件核心功能   干扰与敏感分析:深度剖析电磁干
    华盛恒辉l58ll334744 2025-04-22 14:53 78浏览
  •   卫星通信效能评估系统平台全面解析   北京华盛恒辉卫星通信效能评估系统平台是衡量卫星通信系统性能、优化资源配置、保障通信服务质量的关键技术工具。随着卫星通信技术的快速发展,特别是低轨卫星星座、高通量卫星和软件定义卫星的广泛应用,效能评估系统平台的重要性日益凸显。以下从技术架构、评估指标、关键技术、应用场景及发展趋势五个维度进行全面解析。   应用案例   目前,已有多个卫星通信效能评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星通信效能评估系统。这些成功案例为卫
    华盛恒辉l58ll334744 2025-04-22 16:34 65浏览
  • 引言:工业安全与智能化需求的双重驱动在工业安全、环境保护及家庭安防领域,气体泄漏引发的安全事故始终是重大隐患。随着传感器技术、物联网及语音交互的快速发展,气体检测报警器正朝着智能化、低成本、高可靠的方向演进。WT588F02B-8S语音芯片,以“离在线语音更换+多协议通信”为核心优势,为气体检测报警器提供了一套高效、灵活的低成本语音解决方案,助力开发者快速响应市场需求。产品功能与市场需求1. 核心功能:从监测到预警的全流程覆盖实时气体监测:支持一氧化碳、臭氧、硫化氢等多种气体浓度检测,精度可达p
    广州唯创电子 2025-04-22 09:14 68浏览
  • 在消费金融的赛道上,马上消费曾是备受瞩目的明星企业。自2015年成立以来,它以年均 30% 的净利润增速一路狂奔,成为持牌消费金融公司的标杆,2023年更是斩获19.82亿元净利润,风光无限。然而,2024年却成了马上消费的一道分水岭。2024年上半年,其营收为77.38亿元,同比下降2.11%;净利润更是同比骤降20.66%,仅为10.68亿元,创下历史最大跌幅 。与此同时,不良贷款率攀升至2.5%,不良余额高达16.54亿元,核心资本充足率降至12.72%,融资
    用户1742991715177 2025-04-21 21:29 100浏览
  •   电磁干扰抑制系统平台深度解析   一、系统概述   北京华盛恒辉电磁干扰抑制系统在电子技术快速发展、电磁环境愈发复杂的背景下,电磁干扰(EMI)严重影响电子设备性能、稳定性与安全性。电磁干扰抑制系统平台作为综合性解决方案,通过整合多元技术手段,实现对电磁干扰的高效抑制,确保电子设备稳定运行。   应用案例   目前,已有多个电磁干扰抑制系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁干扰抑制系统。这些成功案例为电磁干扰抑制系统的推广和应用提供了有力支持。   二
    华盛恒辉l58ll334744 2025-04-22 15:27 72浏览
  •   北京华盛恒辉机场保障能力评估系统软件深度解析   在航空运输业快速发展的背景下,机场保障任务愈发复杂,传统人工评估方式已无法满足高效精准的管理需求。机场保障能力评估系统软件作为提升机场运行效率、保障飞行安全的关键工具,其重要性日益凸显。   应用案例   目前,已有多个机场保障能力评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润机场保障能力评估系统。这些成功案例为机场保障能力评估系统的推广和应用提供了有力支持。   一、系统功能模块   数据采集与整合模块  
    华盛恒辉l58ll334744 2025-04-22 10:28 88浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦