昇腾910NPU是什么水平,在DeepSeek一体机中表现如何?

智能计算芯世界 2025-04-21 08:41

图片

昇腾DeepSeek一体机是基于自研昇腾AI芯片(如Ascend 910B、910C)与DeepSeek大模型深度结合的AI解决方案,旨在提供高性能、低成本、国产化的AI算力平台。本文从一体机的技术、产品、架构、规格性能、定制化、产业生态等维度进行详细剖析。


更多昇腾技术参考自国内AI芯片:昇腾AI处理器”,“国内AI芯片:昇腾AI计算模式”,“国内AI芯片:昇腾AI核心单元”。

本文所有资料都已上传至智能计算芯知识”星球。如《60+份AI Agent技术报告合集》”,“《清华大学:DeepSeek报告13部曲合集》”,“浙江大学:DeepSeek技术20篇(合集)”,“290+份DeepSeek技术报告合集”,“《100+份AI芯片技术修炼合集》”,“800+份重磅ChatGPT专业报告”,“《12+份Manus技术报告合集》,加入星球获取严选精华技术报告。

华为昇腾910B是一款专为AI训练和推理任务设计的高性能处理器芯片,展现出卓越的性能表现。

昇腾910B制造工艺与架构设计


制造工艺方面,910B采用了前沿的7纳米工艺制程技术,这一技术为其带来了高性能与低能耗的显著优势。
在架构设计层面,910B植根于华为自主研发的达芬奇架构之上,该架构巧妙地融入了大规模的片上异构处理核心以及尖端的高速互连技术。这种创新设计确保了不同处理核心间能够实现顺畅高效的信息沟通与协同计算能力,从而使得910B在处理各类复杂的人工智能任务时,能够展现出更为卓越的效率与性能。

昇腾910B算力表现


峰值算力:华为昇腾910B在FP16精度下展现出了惊人的峰值算力,其数值可高达376TFLOPS(不过,实际数值会因不同报道以及测试环境而存在一定差异,但整体处于较高水平)。这一数据远超众多同类产品,例如英伟达A100的峰值算力为312TFLOPS,910B相比之下优势显著。凭借如此强大的算力,910B在处理那些对计算规模有极高要求的任务时,能够展现出卓越的性能,具备明显的优势。

多精度支持:华为昇腾910B具备出色的多精度支持能力,它不仅能够支持FP16精度,还兼容FP32、INT8、INT4等多种不同的精度格式。这种多精度的支持特性,使得910B在面对各种具有不同精度要求的任务时,能够更加灵活地进行处理,并且有效提升处理效率。

昇腾910B显存和带宽


显存容量:华为昇腾910B搭载了64GB的HBM2E显存。尽管在与部分竞品对比时,其显存容量稍显逊色,但在整个行业中,这样的配置依旧处于领先地位。如此大容量的显存,为910B在处理大规模数据集时提供了充裕的存储空间,有力保障了数据处理的高效性。

带宽表现910B配备了高速的PCIe 5.0接口,并且拥有较高的内部带宽。这一特性极大地加速了数据的传输速度,使得数据能够在各个组件之间快速流转,进而显著提升了整个系统的性能。

昇腾910B显存和带宽


应用场景:华为昇腾910B具备极为广泛的应用范围,深度渗透至自动驾驶、AI一体机、能源、金融、公共事业、交通运输、电信通讯、制造业以及教育等众多行业领域。在这些行业里,910B凭借智能中枢、昇腾智巡、昇腾智行、昇腾制造等一系列针对性解决方案,为各行业的智能化转型与升级提供了强大助力,推动行业向更高效、更智能的方向发展。

生态系统:在行业内,英伟达的CUDA生态系统长期占据着领先地位。不过,华为昇腾910B所采用的自研CANN编程库也正处于蓬勃发展阶段。随着华为在人工智能领域不断加大投入力度,并积极构建完善的生态体系,CANN编程库的成熟度将持续提升,其开发者社区的规模也有望实现进一步扩张,为开发者提供更加丰富的资源和更广阔的发展空间。

昇腾DeepSeek一体机

昇腾DeepSeek一体机的核心竞争力源于硬件与软件的深度协同。

昇腾910B/910C芯片技术:

工艺与算力:910B采用7nm工艺,FP16算力280 TFLOPS,INT8算力140 TOPS。910C进一步优化至SMIC N+2工艺,FP16提升至约320 TFLOPS,接近英伟达H100的60%-70%性能。

能效优化:通过动态电压频率调整(DVFS)和手写CUNN内核,功耗降低至约250W(910C),比H100(700W)节能显著。

异构计算支持:集成AI Core(基于达芬奇架构)、AI CPU和DVPP模块,支持多任务并行。

DeepSeek模型优化:

MoE架构:DeepSeek采用稀疏专家混合(Mixture-of-Experts)架构,每token仅激活少量参数(约4%),推理效率提升2倍。

DualPipe算法:通过计算与通信重叠,跨节点通信开销降至近零,训练671B参数模型仅用2048块H800 GPU,耗时2个月。

软件栈适配:MindSpore与CANN深度优化,支持从CUDA到CUNN的无缝转换,开发者迁移成本降低80%。

昇腾910C引入手写CUNN内核(类似CUDA的PTX指令),针对Transformer模型优化矩阵乘法,推理延迟从10ms降至6ms。

DeepSeek通过多头潜在注意力(MLA)机制,提升复杂任务(如数学推理)的准确率,推理吞吐量达每秒500 token。


二、昇腾DeepSeek一体机的系统架构

昇腾DeepSeek一体机采用模块化、分布式设计:

硬件层:

核心:昇腾910B/910C + 鲲鹏920 CPU。

存储:NVMe SSD(单机容量达16TB)。

网络:RoCE v2(200Gbps带宽),支持超大规模集群。RoCE网络采用非均匀Bruck算法,集群通信效率提升50%,网络成本占比降至20%以下。

软件层:

MindSpore框架提供模型训练和微调工具。

CANN软件栈优化算子调度,推理效率提升30%。CANN支持ACL接口,开发者可自定义高性能算子,适配特定行业需求。

分布式计算:

支持多卡并行(8/16/32卡),通过HCCL库实现高效通信。


三、昇腾DeepSeek一体机的产品形态

昇腾DeepSeek一体机分为两大类产品线:

训推一体机(FusionCube A3000 DS版):

支持DeepSeek V3(671B参数)和R1全系列模型的训练与推理。

FusionCube支持模块化扩展,可从单机8卡扩展至集群1024卡,训练效率随规模线性提升。

面向需要定制化模型的客户,如金融风控、医疗研发。

推理一体机(Atlas系列):

内置DeepSeek-R1不同规模模型(32B、70B、671B)。

Atlas 300I Pro推理卡单卡功耗仅150W,支持80路1080p视频实时分析。

主打高效推理,适配边缘和云端部署。


四、昇腾DeepSeek一体机的规格、性能与配置

规格:

单卡:24GB LPDDR4X内存,带宽204.8 GB/s。

单卡FP16算力对比:910C(320 TFLOPS) vs H100(1410 TFLOPS),但能效比达1.8:1。

集群:8卡(入门)、32卡(高端)。

集群扩展性:32卡配置下,算力达8960 TOPS (INT8),功耗仅8kW。

性能:

推理:671B模型每秒500 token,延迟6ms。

训练:14.8万亿token预训练,效率接近H100的90%。

配置:

支持鲲鹏、海光等国产CPU,兼容性强。


五、昇腾DeepSeek一体机的定制化

昇腾DeepSeek一体机的定制化能力是其一大亮点,无论是硬件配置的灵活调整,还是软件层面的模型优化,都能精准适配不同行业和企业的需求。这种高度灵活性不仅降低了使用门槛,还大幅提升了部署效率和性价比。以下从硬件、软件和案例三个方面深入剖析。

硬件定制:灵活配置满足多样需求

昇腾DeepSeek一体机的硬件设计采用模块化理念,用户可以根据算力需求和预算自由调整卡数、存储容量和网络带宽。这种“搭积木”式的定制方式,让它既能服务小型企业,也能支撑超大规模智算中心。

软件定制:模型蒸馏与行业微调

昇腾DeepSeek一体机提供软件层面的深度定制,包括轻量化模型蒸馏和行业专属微调版本。这种能力让企业无需从零开始训练大模型,而是直接基于已有框架快速构建专用AI工具。

定制化案例:中国电信“息壤智算一体机”

中国电信基于昇腾DeepSeek一体机定制的“息壤智算一体机”是典型成功案例。该产品针对5G边缘计算场景优化,融合昇腾算力和DeepSeek模型,支持低延迟推理和实时数据处理。

来源:网络综合整理

图片
下载链接:
重磅合集
1、《70+篇半导体行业“研究框架”合集》
2、《56+份智能网卡和DPU合集
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

《290+份DeepSeek技术报告合集》

《42篇半导体行业深度报告&图谱(合集)

亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势

SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)
2025新技术前瞻专题系列合集

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。


图片

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


图片
图片

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 123浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 159浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 180浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 219浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 172浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 136浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 196浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 157浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 155浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 207浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 168浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦