如果DeepSeek成功改用国产GPU,英伟达在人工智能领域的垄断地位将被打破……

DeepSeek自上线以来便以迅猛的速度在全球范围内获得了广泛关注,其日活用户数在短时间内突破2000万,成为全球增速最快的AI应用之一。作为一家中国人工智能初创企业,外部算力(主要是GPU)限制逐渐成为制约其进一步发展的瓶颈,如今他们正致力于通过优化其大模型技术的硬件兼容性来应对潜在的外部算力限制。

DeepSeek与ChatGPT日活用户增长趋势对比来源:AI产品榜

近期,有报道指出DeepSeek正在绕过英伟达的CUDA(Compute Unified Device Architecture,软硬体统一计算架构)编程框架,直接使用底层硬件指令集(PTX),为未来适配中国国产图形处理器(GPU)做准备。这一举措不仅标志着中国AI技术在硬件兼容性上的重大突破,也为全球AI产业的发展带来了新的启示。

(来源:DeepSeek

绕开CUDA,直接采用PTX实现更高效的训练

据多家媒体报道,DeepSeek在研发大型语言模型时,选择了直接使用英伟达的中间指令集框架Parallel Thread Execution (PTX),而不是常用的CUDA编程框架。这种方法不仅能够更高效地利用硬件资源,提供更加细粒度的操作控制,还能避免由于CUDA的通用性导致的训练灵活性损失。

分析表明,这种做法相当于绕过了硬件对训练速度的限制,使得DeepSeek能够在五天内完成其他模型需要十天才能完成的训练任务,极大地提高了效率和灵活性。

韩国未来资产证券(Mirae Asset Securities Research)在对DeepSeek技术论文进行分析时发现,该模型的硬件效率之所以能比Meta等高出10倍,正是因为DeepSeek选择了从头开始重建一切。

(来源:X)

据Tom’s Hardware报道,DeepSeek内部拥有一些擅长写PTX语言的内部开发者,这使得其在硬体适配方面更加得心应手。只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达GPU硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。

CUDA是英伟达开发的软硬体整合技术,是一种高级语言,它允许开发者利用英伟达的图形处理器(GPU)进行计算。开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在 GPU 等硬件上具体如何执行计算的,从而能够降低开发难度。

举例来说,假如一个人会写汇编语言,虽然能非常高效地操作计算机,但是,汇编语言对于非专业出身的人员难度非常高,哪怕执行一个给变量赋值操作都需要好几条命令,并且还要了解寄存器、内存等计算机基础概念。而由于CUDA大大降低了研发大模型的难度,因此全球大模型开发商都倾向选择使用英伟达的CUDA技术,可以说CUDA 便是为了方便开发基于 GPU 的算法设计的。

然而,DeepSeek却选择了另辟蹊径,从头开始重建模型,这一做法虽然复杂且难以维护,但却为其未来适配中国国产GPU打下了坚实的基础。

适配国产GPU,提升硬件兼容性和自主可控性

DeepSeek这一策略的背后,是对未来可能面临的算力供应问题的深思熟虑。

2025年2月,摩尔线程智能科技公司宣布成功部署DeepSeek蒸馏模型推理服务,验证了其自研全功能GPU在复杂AI任务中的支持能力。摩尔线程还计划开放自主设计的夸娥(KUAE)GPU智算集群,支持DeepSeek V3、R1模型及新一代蒸馏模型的分布式部署。

同样在2月,华为昇腾与潞晨科技联合发布了基于国产昇腾910B芯片的DeepSeek-R1系列推理API。这一合作通过自研推理引擎深度适配优化昇腾算力,使得DeepSeek-R1的推理性能能够比肩高端GPU。DeepSeek-R1系列还支持NV H800等常见算力,进一步释放了异构集群的潜力,满足不同场景下的推理需求。

此外,沐曦2月2日联合中国开源大模型平台Gitee AI发布了全套DeepSeek-R1千问蒸馏模型;天数智芯在2月4日宣布完成与DeepSeek-R1模型的适配工作,并上线多个大模型服务。

国外芯片企业也纷纷表态,1月25日,AMD宣布将DeepSeek-V3模型集成到其Instinct MI300X GPU上;1月31日,英伟达官宣其NVIDIA NIM微服务预览版支持DeepSeek-R1模型;1月31日,英特尔宣布DeepSeek能够在英特尔产品上运行,包括搭载英特尔处理器的AI PC。

推动国产AI生态建设

DeepSeek开源模型在多语言理解和复杂推理任务中展现了卓越性能,其贡献不仅在于技术上的领先,更在于持续支持和赋能开源社区。通过与国产GPU厂商的深度合作,DeepSeek为国内AI开发者提供了更强大的硬件支持和更灵活的开发环境。开发者可以基于国产GPU和DeepSeek模型,更高效地进行AI应用开发,推动AI技术在更多领域的落地应用。

通过DeepSeek提供的蒸馏模型,大规模模型的能力可以迁移至更小、更高效的版本,在国产GPU上实现高性能推理。此举不仅验证了国产全功能GPU对复杂AI任务的支持能力,也为通用人工智能(AGI)技术的普及化提供了可行路径。

国内又有更多云巨头加入到支持行列中。昨天下午,阿里云和百度智能云先后官宣了对DeepSeek-V3、DeepSeek-R1模型的支持。百度智能云更是直接公布了模型的输入和输出价格。加之此前的华为云、腾讯云,目前国内四大云巨头都已正式支持DeepSeek。此前海外的AWS、微软智能云等云巨头已官宣支持。

责编:Luffy
  • 好文,透彻
您可能感兴趣
此次合作被视为汽车与高科技企业融合的标杆案例,可能带动更多车企与机器人公司合作,例如在物流、售后等领域。分析师预测,未来3-5年,“具身智能+汽车”将催生千亿级市场,尤其在特种车辆(如消防、勘探)和高端乘用车领域。
此次部署也体现了人形机器人在工业领域的突破性应用。目前,Walker S1已在比亚迪、奥迪一汽等多家工厂进行实训,展现了其在协同搬运、分拣及检测等任务中的高效表现。
2025中国IC领袖峰会以“观沧海风云,磨芯剑锋芒”为主题,围绕AI、EDA工具、RISC-V等芯片设计热点话题,邀请了全球芯片设计产业链代表性企业探讨和分享了产业前沿的最新技术和行业最新的发展趋势。
Cadence AI借用大语言模型,再通过结合引擎优化,就可以加速IC设计、验证流程,进一步缩短芯片设计时长,大幅提升工程师的研发效率。
市场需求的强劲驱动是晶圆厂扩张的核心动力。AI、高性能计算、汽车电子、物联网等领域的快速发展对先进制程和成熟制程的需求持续增长。
DeepSeek降低了AI应用的成本,这是否意味着对AI芯片的需求就降低了?适配DeepSeek的AI芯片设计又应该是什么样的?来看看芯易荟的理解...
Silicon Labs(芯科科技)和Arduino宣布建立合作伙伴关系,旨在通过Arduino Nano Matter开发板(基于芯科科技的MGM240系列多协议无线模块)的两阶段合作来简化Matter协议的设计和应用
随着数据中心耗电量急剧增加,行业更迫切地需要能够高效转换电力的功率半导体。
Keysight AI(KAI)系列端到端解决方案,旨在帮助客户通过使用真实世界的AI工作负载仿真,从而验证AI集群组件来扩展数据中心的AI处理能力。
Diodes首次推出先进的锑化铟(InSb)霍尔器件传感器系列,可检测旋转速度和测量电流,适用于笔记本电脑、手机、游戏手柄等消费产品应用,以及各种家电中的电机。
点击左上角“锂电联盟会长”,即可关注!1研究概述锂离子电池在循环过程中产生的体积膨胀会显著影响其电化学性能和机械稳定性,而外部压力边界条件作为调控电池退化行为的关键因素,近年来受到广泛关注。本研究探究
点击左上角“锂电联盟会长”,即可关注!白宫发言人卡罗琳·莱维特在新闻发布会上证实,美国将于今晚午夜对中国征收 104% 的关税。她在讲台上表示:“如果中国伸出援手并达成协议,特朗普将会非常慷慨,但他会
雷神EM-i超级电混,与比亚迪DM-i、本田iMMD、荣威DMH、五菱灵犀混动,同属单档串并联混动构型。它有发动机、P1发电机、P3电机三个动力部件,分为纯电、增程/串联、直驱/并联三种工作模式。 雷
2025年4月9日至11日,以“科技引领,“圳”聚创新”为主题的第十三届中国电子信息博览会(CITE2025)在深圳会展中心盛大举办。作为国内知名的液晶显示面板高新技术企业,龙腾光电已连续十三年受邀参
新经济,新格局,新动能,数字化力量正在重构开关电源产业生态,驱动全链革新。 随着技术的迭代,未来开关电源的研发正朝着智能化、高频化和节能环保的方向发展,作为行业领先的开关电源智造企业,创联
美光科技启动 “关税附加费” 征收计划,全球存储产业震荡2025 年 4 月 9 日凌晨,美国存储芯片巨头美光科技正式对美国客户征收 “关税附加费”。这源于特朗普政府 2 月推行的 “对等关税” 政策
扫码立即报名4月22日,飞凌嵌入式“2025嵌入式及边缘AI技术论坛”将在深圳举行,论坛以“新生态,智未来”为主题,旨在汇聚行业智慧,探讨嵌入式技术与边缘AI的深度融合与创新应用。飞凌嵌入式邀请到了瑞
点击左上角“锂电联盟会长”,即可关注!2025年4月7日晚间,宁德时代(股票代码:300750)发布公告,宣布了一项重磅的股份回购计划。公司拟使用不低于40亿元且不超过80亿元的自有或自筹资金,通过集
点击上方“C语言与CPP编程”,选择“关注/置顶/星标公众号”干货福利,第一时间送达!最近有小伙伴说没有收到当天的文章推送,这是因为微信更改了推送机制,导致没有星标公众号的小伙伴刷不到当天推送的文章,