昇腾910NPU是什么水平，在DeepSeek一体机中表现如何？

智能计算芯世界 2025-04-21 08:41 882浏览 0评论 0点赞

EPC专家实战拆解：电机能效优化技巧 UCIe 2.0协议“死磕指南”！Avery VIP如何实现0缺陷互连？

昇腾DeepSeek一体机是基于自研昇腾AI芯片（如Ascend 910B、910C）与DeepSeek大模型深度结合的AI解决方案，旨在提供高性能、低成本、国产化的AI算力平台。本文从一体机的技术、产品、架构、规格性能、定制化、产业生态等维度进行详细剖析。

更多昇腾技术参考自“国内AI芯片：昇腾AI处理器”，“国内AI芯片：昇腾AI计算模式”，“国内AI芯片：昇腾AI核心单元”。

本文所有资料都已上传至“智能计算芯知识”星球。如“《60+份AI Agent技术报告合集》”，“《清华大学：DeepSeek报告13部曲合集》”，“浙江大学：DeepSeek技术20篇（合集）”，“《290+份DeepSeek技术报告合集》”，“《100+份AI芯片技术修炼合集》”，“800+份重磅ChatGPT专业报告”，“《12+份Manus技术报告合集》”，加入星球获取严选精华技术报告。

华为昇腾910B是一款专为AI训练和推理任务设计的高性能处理器芯片，展现出卓越的性能表现。

昇腾910B制造工艺与架构设计

制造工艺方面，910B采用了前沿的7纳米工艺制程技术，这一技术为其带来了高性能与低能耗的显著优势。

在架构设计层面，910B植根于华为自主研发的达芬奇架构之上，该架构巧妙地融入了大规模的片上异构处理核心以及尖端的高速互连技术。这种创新设计确保了不同处理核心间能够实现顺畅高效的信息沟通与协同计算能力，从而使得910B在处理各类复杂的人工智能任务时，能够展现出更为卓越的效率与性能。

昇腾910B算力表现

峰值算力：华为昇腾910B在FP16精度下展现出了惊人的峰值算力，其数值可高达376TFLOPS（不过，实际数值会因不同报道以及测试环境而存在一定差异，但整体处于较高水平）。这一数据远超众多同类产品，例如英伟达A100的峰值算力为312TFLOPS，910B相比之下优势显著。凭借如此强大的算力，910B在处理那些对计算规模有极高要求的任务时，能够展现出卓越的性能，具备明显的优势。

多精度支持：华为昇腾910B具备出色的多精度支持能力，它不仅能够支持FP16精度，还兼容FP32、INT8、INT4等多种不同的精度格式。这种多精度的支持特性，使得910B在面对各种具有不同精度要求的任务时，能够更加灵活地进行处理，并且有效提升处理效率。

昇腾910B显存和带宽

显存容量：华为昇腾910B搭载了64GB的HBM2E显存。尽管在与部分竞品对比时，其显存容量稍显逊色，但在整个行业中，这样的配置依旧处于领先地位。如此大容量的显存，为910B在处理大规模数据集时提供了充裕的存储空间，有力保障了数据处理的高效性。

带宽表现：910B配备了高速的PCIe 5.0接口，并且拥有较高的内部带宽。这一特性极大地加速了数据的传输速度，使得数据能够在各个组件之间快速流转，进而显著提升了整个系统的性能。

昇腾910B显存和带宽

应用场景：华为昇腾910B具备极为广泛的应用范围，深度渗透至自动驾驶、AI一体机、能源、金融、公共事业、交通运输、电信通讯、制造业以及教育等众多行业领域。在这些行业里，910B凭借智能中枢、昇腾智巡、昇腾智行、昇腾制造等一系列针对性解决方案，为各行业的智能化转型与升级提供了强大助力，推动行业向更高效、更智能的方向发展。

生态系统：在行业内，英伟达的CUDA生态系统长期占据着领先地位。不过，华为昇腾910B所采用的自研CANN编程库也正处于蓬勃发展阶段。随着华为在人工智能领域不断加大投入力度，并积极构建完善的生态体系，CANN编程库的成熟度将持续提升，其开发者社区的规模也有望实现进一步扩张，为开发者提供更加丰富的资源和更广阔的发展空间。

昇腾DeepSeek一体机

昇腾DeepSeek一体机的核心竞争力源于硬件与软件的深度协同。

昇腾910B/910C芯片技术：

工艺与算力：910B采用7nm工艺，FP16算力280 TFLOPS，INT8算力140 TOPS。910C进一步优化至SMIC N+2工艺，FP16提升至约320 TFLOPS，接近英伟达H100的60%-70%性能。

能效优化：通过动态电压频率调整（DVFS）和手写CUNN内核，功耗降低至约250W（910C），比H100（700W）节能显著。

异构计算支持：集成AI Core（基于达芬奇架构）、AI CPU和DVPP模块，支持多任务并行。

DeepSeek模型优化：

MoE架构：DeepSeek采用稀疏专家混合（Mixture-of-Experts）架构，每token仅激活少量参数（约4%），推理效率提升2倍。

DualPipe算法：通过计算与通信重叠，跨节点通信开销降至近零，训练671B参数模型仅用2048块H800 GPU，耗时2个月。

软件栈适配：MindSpore与CANN深度优化，支持从CUDA到CUNN的无缝转换，开发者迁移成本降低80%。

昇腾910C引入手写CUNN内核（类似CUDA的PTX指令），针对Transformer模型优化矩阵乘法，推理延迟从10ms降至6ms。

DeepSeek通过多头潜在注意力（MLA）机制，提升复杂任务（如数学推理）的准确率，推理吞吐量达每秒500 token。

二、昇腾DeepSeek一体机的系统架构

昇腾DeepSeek一体机采用模块化、分布式设计：

硬件层：

核心：昇腾910B/910C + 鲲鹏920 CPU。

存储：NVMe SSD（单机容量达16TB）。

网络：RoCE v2（200Gbps带宽），支持超大规模集群。RoCE网络采用非均匀Bruck算法，集群通信效率提升50%，网络成本占比降至20%以下。

软件层：

MindSpore框架提供模型训练和微调工具。

CANN软件栈优化算子调度，推理效率提升30%。CANN支持ACL接口，开发者可自定义高性能算子，适配特定行业需求。

分布式计算：

支持多卡并行（8/16/32卡），通过HCCL库实现高效通信。

三、昇腾DeepSeek一体机的产品形态

昇腾DeepSeek一体机分为两大类产品线：

训推一体机（FusionCube A3000 DS版）：

支持DeepSeek V3（671B参数）和R1全系列模型的训练与推理。

FusionCube支持模块化扩展，可从单机8卡扩展至集群1024卡，训练效率随规模线性提升。

面向需要定制化模型的客户，如金融风控、医疗研发。

推理一体机（Atlas系列）：

内置DeepSeek-R1不同规模模型（32B、70B、671B）。

Atlas 300I Pro推理卡单卡功耗仅150W，支持80路1080p视频实时分析。

主打高效推理，适配边缘和云端部署。

四、昇腾DeepSeek一体机的规格、性能与配置

规格：

单卡：24GB LPDDR4X内存，带宽204.8 GB/s。

单卡FP16算力对比：910C（320 TFLOPS） vs H100（1410 TFLOPS），但能效比达1.8:1。

集群：8卡（入门）、32卡（高端）。

集群扩展性：32卡配置下，算力达8960 TOPS (INT8)，功耗仅8kW。

性能：

推理：671B模型每秒500 token，延迟6ms。

训练：14.8万亿token预训练，效率接近H100的90%。

配置：

支持鲲鹏、海光等国产CPU，兼容性强。

五、昇腾DeepSeek一体机的定制化

昇腾DeepSeek一体机的定制化能力是其一大亮点，无论是硬件配置的灵活调整，还是软件层面的模型优化，都能精准适配不同行业和企业的需求。这种高度灵活性不仅降低了使用门槛，还大幅提升了部署效率和性价比。以下从硬件、软件和案例三个方面深入剖析。

硬件定制：灵活配置满足多样需求

昇腾DeepSeek一体机的硬件设计采用模块化理念，用户可以根据算力需求和预算自由调整卡数、存储容量和网络带宽。这种“搭积木”式的定制方式，让它既能服务小型企业，也能支撑超大规模智算中心。

软件定制：模型蒸馏与行业微调

昇腾DeepSeek一体机提供软件层面的深度定制，包括轻量化模型蒸馏和行业专属微调版本。这种能力让企业无需从零开始训练大模型，而是直接基于已有框架快速构建专用AI工具。

定制化案例：中国电信“息壤智算一体机”

中国电信基于昇腾DeepSeek一体机定制的“息壤智算一体机”是典型成功案例。该产品针对5G边缘计算场景优化，融合昇腾算力和DeepSeek模型，支持低延迟推理和实时数据处理。

来源：网络综合整理

下载链接：

「重磅合集」

1、《70+篇半导体行业“研究框架”合集》

2、《56+份智能网卡和DPU合集》

3、《14份半导体“AI的iPhone时刻”系列合集》

4、《21份走进“芯”时代系列深度报告合集》

5、《800+份重磅ChatGPT专业报告》

6、《92份GPU技术及白皮书汇总》

7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解（星球版）》

《290+份DeepSeek技术报告合集》

《42篇半导体行业深度报告&图谱（合集）

亚太芯谷科技研究院：2024年AI大算力芯片技术发展与产业趋势

SSD闪存技术基础知识全解（知识星球版）

服务器基础知识全解（知识星球版）

存储系统基础知识全解（知识星球版）

2025新技术前瞻专题系列合集

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1680篇粉丝：208人

关注  私信

昇腾910NPU是什么水平，在DeepSeek一体机中表现如何？

昇腾910B制造工艺与架构设计

昇腾910B算力表现

昇腾910B显存和带宽

带宽表现：910B配备了高速的PCIe 5.0接口，并且拥有较高的内部带宽。这一特性极大地加速了数据的传输速度，使得数据能够在各个组件之间快速流转，进而显著提升了整个系统的性能。

昇腾910B显存和带宽

昇腾DeepSeek一体机

昇腾910B/910C芯片技术：

工艺与算力：910B采用7nm工艺，FP16算力280 TFLOPS，INT8算力140 TOPS。910C进一步优化至SMIC N+2工艺，FP16提升至约320 TFLOPS，接近英伟达H100的60%-70%性能。

能效优化：通过动态电压频率调整（DVFS）和手写CUNN内核，功耗降低至约250W（910C），比H100（700W）节能显著。

异构计算支持：集成AI Core（基于达芬奇架构）、AI CPU和DVPP模块，支持多任务并行。

DeepSeek模型优化：

MoE架构：DeepSeek采用稀疏专家混合（Mixture-of-Experts）架构，每token仅激活少量参数（约4%），推理效率提升2倍。

DualPipe算法：通过计算与通信重叠，跨节点通信开销降至近零，训练671B参数模型仅用2048块H800 GPU，耗时2个月。

软件栈适配：MindSpore与CANN深度优化，支持从CUDA到CUNN的无缝转换，开发者迁移成本降低80%。

二、昇腾DeepSeek一体机的系统架构

硬件层：

软件层：

分布式计算：

三、昇腾DeepSeek一体机的产品形态

训推一体机（FusionCube A3000 DS版）：

推理一体机（Atlas系列）：

四、昇腾DeepSeek一体机的规格、性能与配置

规格：

性能：

配置：

五、昇腾DeepSeek一体机的定制化

硬件定制：灵活配置满足多样需求

软件定制：模型蒸馏与行业微调

定制化案例：中国电信“息壤智算一体机”

最近文章

热门文章

推荐

最新资讯