DeepSeek的国产AI芯片天团

原创 电子工程世界 2025-02-10 08:02

遥想两年前,ChatGPT给了世界一记AI冲击,而DeepSeek无疑是第二记冲击。我们不仅对DeepSeek强劲的性能所震撼,也让远在大洋彼岸的OpenAI、谷歌、META等一众玩家感受到莫大压力,从而纷纷继续“卷”起来,效仿DeepSeek的“开源”模式。

对于DeepSeek本身,人们关注其如何在有限算力实现强大性能,更关注其在重重条令围城之下的未来之路。而在最近,全世界的芯片厂商集体出动,纷纷宣布支持DeepSeek。尤其是众多国产AI芯片厂商,集体发力,为DeepSeek建立了一个坚实的后盾。


缘起:DeepSeek成功背后



为什么DeepSeek能够掀起如此巨浪?因为令人惊讶的是,目前普遍认为DeepSeek仅仅用了550万美元的成本实现了openAI上亿美元做到的事。总结起来,DeepSeek有四点创新:

第一,拉低整体成本。信息显示,DeepSeek V3模型的训练总计耗用278.8万GPU小时,相当于在2048块H800 GPU集群上训练约2个月,成本为557.6万美元。相比之下,GPT-4o的训练成本约为1亿美元,需使用上万块性能更强的H100 GPU。同时,DeepSeek V3的成本仅为Llama 3的7%。AI专家指出,达到DeepSeek V3级别的能力需接近16000颗GPU的集群。

之所以有很低的成本,是DeepSeek的模型架构与主流设计有所不同,采用了细颗粒度的MoE(混合专家)结构。虽然细颗粒度MoE并非首创,例如阿里也在探索这一方向,但DeepSeek通过这一架构在推理时仅激活部分参数,从而显著降低成本。此外,DeepSeek在推理机制中引入了LLA,与市场上常见的多头注意力机制不同,后者需要所有参数参与计算,而DeepSeek仅激活少量参数,进一步提升了效率。当前先进模型大多采用邓氏架构,而DeepSeek的创新在于通过细颗粒度MoE和LLA实现了更高效的推理。

第二,训练方法。传统方法为FP32和FP16的混合精度,DeepSeek则采用FP8参数,比较敏感的组件还是FP16。分布式混合精度目前做的比较少,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率。

第三,编程不同。DeepSeek采用了NVIDIA PTX指令集(Parallel Thread Execution ISA)来提升执行效能。PTX是NVIDIA GPU最底层的控制语言,用更细颗粒度来调度底层单元,将硬件调度细化。不过,此处需要注意PTX并非是CUDA的替代品,对于大部分开发者来说学习门槛较高,所以才有了CUDA来简化开发过程。

第四,AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIe消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用得比较灵活。

虽说在各种突破之下,DeepSeek的表现惊人。但对大多数用户来说,也许更多的体验是“服务器繁忙,请稍后再试”,除了国外对于DeepSeek的攻击以外,也许DeepSeek的算力真的不够用了。

根据国泰君安证券分析师舒迪、李奇测算,假设DeepSeek日均访问量为1亿次、每次提问10次,每次提问的回复用到1000个token,1000个token大概对应750个英文字母,则DeepSeek每秒的推理算力需求为1.6*1019TOPs。在这种普通推理情境下,假设DeepSeek采用的是FP8精度的H100卡做推理,利用率50%,那么推理端H100卡的需求为16177张,A100卡的需求为51282张。

这种情况下,AI芯片就显得格外重要了。


后盾:国产芯片撑起一片天



事实上,芯片算力一直都在追着大模型奔跑。换句话说,未来算力需求一定难以满足现在AI发展,DeepSeek未来会面对

据OpenAI测算,自2012年以来,AI模型训练算力需求每3~4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。而连摩尔定律中,芯片计算性能翻一番的周期为18~24个月,更何况摩尔定律已经出现放缓迹象。专家预测,未来几年OpenAI仅训练模型⾄少还需要200~300亿美元的硬件,Google需要200-300亿美元,Anthropic需要100-200亿美元,未来几年至少投入1000亿美元纯粹用到训练⼤模型。

 
芯片厂商当然没有错过DeepSeek这一机会,比如在春节期间,国外芯片厂商接连宣布支持DeepSeek:

  • 1月25日,AMD将DeepSeek-V3模型集成于Instinct MI300X GPU;

  • 1月31日,NVIDIA NIM微服务预览版支持DeepSeek-R1模型英伟达;

  • 1月31日,英特尔DeepSeek模型能在酷睿AIPC上离线使用;

  • 2月1日,英特尔Gaudi 2D Al加速器支持DeepSeek Janus Pro模型。

自从AI大模型来了,英伟达喝汤喝到撑,GPU也就成了香饽饽。但在地缘政治局势愈发紧张的现如今,国内高端AI芯片不断被围追堵截。因此,自主可控成了不可不谈的问题。近几日,DeepSeek获国产芯片厂商力挺,成为支撑DeepSeek的“天团”。
1.华为:华为云宣布与硅基流动联合首发并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务;DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上线昇腾社区;华为DCS AI全栈解决方案中的重要产品—ModelEngine,全面支持DeepSeek大模型R1&V3和蒸馏系列模型的本地部署与优化,加速客户AI应用快速落地;

2.沐曦:Gitee AI联合沐曦首发全套DeepSeek R1千问蒸馏模型,全免费体验;DeepSeek-V3满血版在国产沐曦GPU首发体验上线;

3.天数智芯:成功完成与 DeepSeek R1 的适配工作,并且已正式上线多款大模型服务,其中包括DeepSeek R1-Distill-Qwen-1.5B、DeepSeek R1-Distill-Qwen-7B、DeepSeek R1-Distill-Qwen-14B等;

4.摩尔线程:基于Ollama开源框架,完成了对DeepSeek-R1-Distill-Qwen-7B蒸馏模型的部署,并在多种中文任务中展现了优异的性能;

5.海光信息:DeepSeek V3和R1模型完成海光DCU适配并正式上线;海光DCU成功适配DeepSeek-Janus-Pro多模态大模型;

6.壁仞科技:DeepSeek R1在壁仞国产AI算力平台发布,全系列模型一站式赋能开发者创新;

7.太初元碁:基于太初T100加速卡2小时适配DeepSeek-R1系列模型,一键体验,免费API服务;

8.云天励飞:完成 DeepEdge10 “算力积木”芯片平台与DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B大模型的适配,可以交付客户使用;

9.燧原科技:完成对DeepSeek全量模型的高效适配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。截至目前,DeepSeek的全量模型已在庆阳、无锡、成都等智算中心完成了数万卡的快速部署;

10.昆仑芯:完成全版本模型适配,这其中包括DeepSeek MoE 模型及其蒸馏的Llama/Qwen等小规模dense模型;

11.灵汐芯片:完成了DeepSeek-R1系列模型在灵汐KA200芯片及相关智算卡的适配,助力国产大模型与类脑智能硬件系统的深度融合;

12.鲲云科技:全新一代的可重构数据流AI芯片CAISA 430成功适配DeepSeek R1蒸馏模型推理;

13.希姆计算:仅用数小时就将DeepSeek-R1全系列蒸馏模型快速适配到自研RISC-V开源指令集的推理加速卡系列之上,并落地全国多个千卡级以上智算中心;

14.算能:算能自研RISC-V开源指令集融合服务器SRM1-20,成功适配并本地部署DeepSeek-R1-Distill-Qwen-7B/1.5B模型;

15.清微智能:可重构计算架构RPU芯片已完成DeepSeek-R1系列模型的适配和部署运行;

16.龙芯中科:搭载龙芯3号CPU的设备成功启动运行DeepSeek R1 7B模型,实现本地化部署;

17.瀚博:已完成DeepSeek-V3与R1全系列模型训推适配,单机可支持V3与R1 671B全量满血版模型部署。


复盘:国产AI芯片发展现状



前两年,美国千方百计阻止英伟达向中国出售尖端AI芯片,不想放弃中国市场的英伟达,迅速推出中国特供版,但对国内来说,却不香了。所谓中国特供芯片,性能砍了25%,但减量不减价,国产厂商则纷纷点名华为,尤其是华为升腾910B芯片。那么,除了华为,我国还有哪些AI芯片企业值得关注?

AI芯片主要分为GPGPU(通用图形处理器)、FPGA(可编程逻辑器件)、ASIC(专用集成电路)、存算一体和类脑芯片几种。根据在网络中的位置,又可以分为云端AI芯片 、边缘和终端AI芯片。

GPU/GPGPU与GPU不同,GPGPU就是将GPU图形显示部分“摘掉”,全力走通用计算,特别适合用在深度学习训练方面。目前国内GPU存在许多玩家,整个行业也经历过一轮洗牌。

FPGA:可编程的灵活性是任何其它计算芯片无法替代的,同时它在AI领域也具备一定计算能力,但相对来说,FPGA的成本就相对高一些了,而且FPGA开发也很难,软件生态没有GPGPU的CUDA那么方便。

 
ASIC:性能强、功耗低,NPU也是加入神经单元的一种ASIC,不过针对特定算法计算,算法是无法修改的,想要做另一种算法就要再造一种ASIC芯片,前期开发需要FPGA辅助进行。

值得一提的是,TPU,全称Tensor Processing Unit,是一种专为处理张量运算而设计的ASIC芯片,由谷歌自研在2016年推出首款产品,目前国内也有中昊芯英这一玩家。

 
存算一体:能耗比极佳,能够突破存储墙和功耗墙,但商业化进程加速了,而且据说ST也准备在未来发布具有存算一体芯片的MCU。

 
类脑计算:性能更强、功耗更低,算法也变成了SNN,但全世界都在研究之中,还未商业化。

 
可重构计算:能够重新配置的数据流处理器架构,专为特定用例量身定制,可在其“计算结构”上并行执行经过特殊优化的代码。特别是在低功耗嵌入式和边缘计算中,并且需要支持通用编程语言的专有软件堆栈(编译器)。

目前,可重构计算的玩家包括清微智能、鲲云科技、千芯科技、澜起科技。(可参考文章:AI芯片即将被颠覆?效率比CPU100倍,功耗比GPU1000》)


融合:千行百业正在被重塑



DeepSeek诞生的本身,也在促进着国内所有行业的发展,形成了一个循环的产业链。千行百业,正在因为DeepSeek而重塑,各行各业也不断支持DeepSeek。

1.汽车产业:吉利汽车、东风汽车、东风旗下岚图汽车等均宣布了接入DeepSeek,大模型“上车”已经成为大趋势;

2.手机:华为系统级智能体小艺在HarmonyOS NEXT(原生鸿蒙)上接入了DeepSeek最新的R1模型,OPPO Find N5也将接入DeepSeek;

3.云计算:阿里云、百度智能云、腾讯云、华为云已经官宣支持 DeepSeek大模型;

4.教育应用:网易有道、云学堂均宣布全面拥抱DeepSeek-R1;

5.网络安全:360、奇安信、启明星辰、安恒、北信源、天融信、国投智能、安博通、永信至诚、亚信、拓尔思、观安信息均宣布接入DeepSeek;

6.生物医药:恒瑞医药、医渡科技、智云健康、豫资开勒均宣布了DeepSeek的接入与部署;

7.电信运营商:三大运营商中国移动、联通、电信全面宣布接入DeepSeek;

8.软件公司:远光软件、安恒信息、当虹科技、万兴科技、金慧软件接入DeepSeek模型。

总之,DeepSeek作为一次“全民狂欢”,其意义非凡。为了契合这个话题,我们也问了DeepSeek自己对于自己诞生的意义,它的回答是:DeepSeek的诞生不仅是技术上的突破,更是对AI未来形态的积极探索。它通过开源共享、垂直应用和AGI愿景,推动AI从“工具”向“伙伴”演进,同时助力中国在全球AI竞争中占据更重要的战略地位。其意义不仅限于商业成功,更在于为人类与AI共生的未来提供了一种可能性。


· END ·


欢迎将我们设为“星标”,这样才能第一时间收到推送消息。

关注EEWorld旗下订阅号:“汽车开发圈”

回复“Auto”,免费领Autosar入门与实践资料包!


扫码添加小助手回复“进群”

和电子工程师们面对面交流经验



电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论 (0)
  • 引言汽车行业正经历一场巨变。随着电动汽车、高级驾驶辅助系统(ADAS)和自动驾驶技术的普及,电子元件面临的要求从未如此严格。在这些复杂系统的核心,存在着一个看似简单却至关重要的元件——精密电阻。贞光科技代理品牌光颉科技的电阻选型过程,特别是在精度要求高达 0.01% 的薄膜和厚膜技术之间的选择,已成为全球汽车工程师的关键决策点。当几毫欧姆的差异可能影响传感器的灵敏度或控制系统的精确性时,选择正确的电阻不仅仅是满足规格的问题——它关系到车辆在极端条件下的安全性、可靠性和性能。在这份全面指南中,我们
    贞光科技 2025-03-12 17:25 119浏览
  • 2025年,科技浪潮汹涌澎湃的当下,智能数字化变革正进行得如火如荼,从去年二季度开始,触觉智能RK3562核心板上市以来,受到了火爆的关注,上百家客户选用了此方案,也获得了众多的好评与认可,为客户的降本增效提供了广阔的空间。随着原厂的更新,功能也迎来了一波重大的更新,无论是商业级(RK3562)还是工业级(RK3562J),都可支持NPU和2×CAN,不再二选一。我们触觉智能做了一个艰难又大胆的决定,为大家带来两大重磅福利,请继续往下看~福利一:RK3562核心板149元特惠再续,支持2×CAN
    Industio_触觉智能 2025-03-12 14:45 34浏览
  • 北京时间3月11日,国内领先的二手消费电子产品交易和服务平台万物新生(爱回收)集团(纽交所股票代码:RERE)发布2024财年第四季度和全年业绩报告。财报显示,2024年第四季度万物新生集团总收入48.5亿元,超出业绩指引,同比增长25.2%。单季non-GAAP经营利润1.3亿元(non-GAAP口径,即经调整口径,均不含员工股权激励费用、无形资产摊销及因收购产生的递延成本,下同),并汇报创历史新高的GAAP净利润7742万元,同比增长近27倍。总览全年,万物新生总收入同比增长25.9%达到1
    华尔街科技眼 2025-03-13 12:23 76浏览
  • 本文介绍Android系统主板应用配置默认获取管理所有文件权限方法,基于触觉智能SBC3588行业主板演示,搭载了瑞芯微RK3588芯片,八核处理器,6T高算力NPU;音视频接口、通信接口等各类接口一应俱全,支持安卓Android、Linux、开源鸿蒙OpenHarmony、银河麒麟Kylin等操作系统。配置前提在配置前,建议先将应用配置成系统应用,不然配置后系统每次重启后都会弹窗提示是否获取权限。应用配置成系统应用,可参考以下链接方法:瑞芯微开发板/主板Android系统APK签名文件使用方法
    Industio_触觉智能 2025-03-12 14:34 57浏览
  • 文/Leon编辑/cc孙聪颖作为全球AI领域的黑马,DeepSeek成功搅乱了中国AI大模型市场的格局。科技大厂们选择合作,接入其模型疯抢用户;而AI独角兽们则陷入两难境地,上演了“Do Or Die”的抉择。其中,有着“大模型六小虎”之称的六家AI独角兽公司(智谱AI、百川智能、月之暗面、MiniMax、阶跃星辰及零一万物),纷纷开始转型:2025年伊始,李开复的零一万物宣布转型,不再追逐超大模型,而是聚焦AI商业化应用;紧接着,消息称百川智能放弃B端金融市场,聚焦AI医疗;月之暗面开始削减K
    华尔街科技眼 2025-03-12 17:37 172浏览
  • DeepSeek自成立之初就散发着大胆创新的气息。明明核心开发团队只有一百多人,却能以惊人的效率实现许多大厂望尘莫及的技术成果,原因不仅在于资金或硬件,而是在于扁平架构携手塑造的蜂窝创新生态。创办人梁文锋多次强调,与其与大厂竞争一时的人才风潮,不如全力培养自家的优质员工,形成不可替代的内部生态。正因这样,他对DeepSeek内部人才体系有着一套别具一格的见解。他十分重视中式教育价值,因而DeepSeek团队几乎清一色都是中国式学霸。许多人来自北大清华,或者在各种数据比赛中多次获奖,可谓百里挑一。
    优思学院 2025-03-13 12:15 75浏览
  • 一、行业背景与用户需求随着健康消费升级,智能眼部按摩仪逐渐成为缓解眼疲劳、改善睡眠的热门产品。用户对这类设备的需求不再局限于基础按摩功能,而是追求更智能化、人性化的体验,例如:语音交互:实时反馈按摩模式、操作提示、安全提醒。环境感知:通过传感器检测佩戴状态、温度、压力等,提升安全性与舒适度。低功耗长续航:适应便携场景,延长设备使用时间。高性价比方案:在控制成本的同时实现功能多样化。针对这些需求,WTV380-8S语音芯片凭借其高性能、多传感器扩展能力及超高性价比,成为眼部按摩仪智能化升级的理想选
    广州唯创电子 2025-03-13 09:26 67浏览
  • 文/杜杰编辑/cc孙聪颖‍主打影像功能的小米15 Ultra手机,成为2025开年的第一款旗舰机型。从发布节奏上来看,小米历代Ultra机型,几乎都选择在开年发布,远远早于其他厂商秋季主力机型的发布时间。这毫无疑问会掀起“Ultra旗舰大战”,今年影像手机将再次被卷上新高度。无意臆断小米是否有意“领跑”一场“军备竞赛”,但各种复杂的情绪难以掩盖。岁岁年年机不同,但将2-3年内记忆中那些关于旗舰机的发布会拼凑起来,会发现,包括小米在内,旗舰机的革新点,除了摄影参数的不同,似乎没什么明显变化。贵为旗
    华尔街科技眼 2025-03-13 12:30 89浏览
  • 在追求更快、更稳的无线通信路上,传统射频架构深陷带宽-功耗-成本的“不可能三角”:带宽每翻倍,系统复杂度与功耗增幅远超线性增长。传统方案通过“分立式功放+多级变频链路+JESD204B 接口”的组合试图平衡性能与成本,却难以满足实时性严苛的超大规模 MIMO 通信等场景需求。在此背景下,AXW49 射频开发板以“直采+异构”重构射频范式:基于 AMD Zynq UltraScale+™ RFSoC Gen3XCZU49DR 芯片的 16 通道 14 位 2.5GSPS ADC 与 16
    ALINX 2025-03-13 09:27 47浏览
  • 一、行业背景与需求痛点智能电子指纹锁作为智能家居的核心入口,近年来市场规模持续增长,用户对产品的功能性、安全性和设计紧凑性提出更高要求:极致空间利用率:锁体内部PCB空间有限,需高度集成化设计。语音交互需求:操作引导(如指纹识别状态、低电量提醒)、安全告警(防撬、试错报警)等语音反馈。智能化扩展能力:集成传感器以增强安全性(如温度监测、防撬检测)和用户体验。成本与可靠性平衡:在复杂环境下确保低功耗、高稳定性,同时控制硬件成本。WTV380-P(QFN32)语音芯片凭借4mm×4mm超小封装、多传
    广州唯创电子 2025-03-13 09:24 81浏览
  •        随着人工智能算力集群的爆发式增长,以及5.5G/6G通信技术的演进,网络数据传输速率的需求正以每年30%的速度递增。万兆以太网(10G Base-T)作为支撑下一代数据中心、高端交换机的核心组件,其性能直接决定了网络设备的稳定性与效率。然而,万兆网络变压器的技术门槛极高:回波损耗需低于-20dB(比千兆产品严格30%),耐压值需突破1500V(传统产品仅为1000V),且需在高频信号下抑制电磁干扰。全球仅有6家企业具备规模化量产能力,而美信科
    中科领创 2025-03-13 11:24 57浏览
  • 前言在快速迭代的科技浪潮中,汽车电子技术的飞速发展不仅重塑了行业的面貌,也对测试工具提出了更高的挑战与要求。作为汽车电子测试领域的先锋,TPT软件始终致力于为用户提供高效、精准、可靠的测试解决方案。新思科技出品的TPT软件迎来了又一次重大更新,最新版本TPT 2024.12将进一步满足汽车行业日益增长的测试需求,推动汽车电子技术的持续革新。基于当前汽车客户的实际需求与痛点,结合最新的技术趋势,对TPT软件进行了全面的优化与升级。从模型故障注入测试到服务器函数替代C代码函数,从更准确的需求链接到P
    北汇信息 2025-03-13 14:43 74浏览
  • 在海洋监测领域,基于无人艇能够实现高效、实时、自动化的海洋数据采集,从而为海洋环境保护、资源开发等提供有力支持。其中,无人艇的控制算法训练往往需要大量高质量的数据支持。然而,海洋数据采集也面临数据噪声和误差、数据融合与协同和复杂海洋环境适应等诸多挑战,制约着无人艇技术的发展。针对这些挑战,我们探索并推出一套基于多传感器融合的海洋数据采集系统,能够高效地采集和处理海洋环境中的多维度数据,为无人艇的自主航行和控制算法训练提供高质量的数据支持。一、方案架构无人艇要在复杂海上环境中实现自主导航,尤其是完
    康谋 2025-03-13 09:53 73浏览
  • 曾经听过一个“隐形经理”的故事:有家公司,新人进来后,会惊讶地发现老板几乎从不在办公室。可大家依旧各司其职,还能在关键时刻自发协作,把项目完成得滴水不漏。新员工起初以为老板是“放羊式”管理,结果去茶水间和老员工聊过才发现,这位看似“隐形”的管理者其实“无处不在”,他提前铺好了企业文化、制度和激励机制,让一切运行自如。我的观点很简单:管理者的最高境界就是——“无为而治”。也就是说,你的存在感不需要每天都凸显,但你的思路、愿景、机制早已渗透到组织血液里。为什么呢?因为真正高明的管理,不在于事必躬亲,
    优思学院 2025-03-12 18:24 87浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦