DeepSeek团队神操作：用“汇编”取代CUDA让性能狂飙！

原创 EETOP 2025-01-29 11:31 1328浏览 0评论 0点赞

【直播】云仿真加速：中小IC验证效率翻倍秘诀 AI、GUI开发的工程师必修课，不容错过！

在人工智能领域，DeepSeek 引发了巨大轰动。它借助由 2048 块英伟达 H800 GPU 组成的集群，仅用约两个月时间就完成了拥有 6710 亿参数的混合专家（MoE）语言模型训练，效率比 Meta 等人工智能行业领军企业高出 10 倍。据 @Jukanlosreve 援引韩国未来资产证券（Mirae Asset Securities Korea）的分析，这一突破得益于大量细粒度的优化措施，以及采用了类似汇编语言的英伟达并行线程执行（PTX）编程，而非英伟达的 CUDA 编程。

英伟达的并行线程执行（PTX）是英伟达公司专为其图形处理器（GPU）设计的一种中间指令集架构。PTX 处于高级 GPU 编程语言（如 CUDA C/C++ 或其他语言前端）与低级机器代码（流式汇编，即 SASS）之间。PTX 是一种接近硬件底层的指令集架构，它将 GPU 视为数据并行计算设备，因而能够实现细粒度的优化操作，例如寄存器分配以及线程 / 线程束级别的调整，而这些功能是 CUDA C/C++ 等其他编程语言所无法实现的。一旦将 PTX 转换为 SASS，便会针对特定一代的英伟达 GPU 进行优化处理。

例如，在训练其 V3 模型时，DeepSeek 对英伟达 H800 GPU 进行了重新配置：在 132 个流式多处理器中，专门分配了 20 个用于服务器间的通信任务，此举可能是为了对数据进行压缩和解压缩处理，以克服处理器的连接限制，进而加快数据传输速度。为了最大限度地提升性能，DeepSeek 还采用了先进的流水线算法，可能还进行了更为精细的线程 / 线程束级别的调整操作。

这些改进措施远远超出了标准的 CUDA 级开发范畴，然而，其维护难度极高已是业内公认的事实。因此，这种程度的优化成果充分体现了 DeepSeek 工程师团队卓越的技术水平。受美国相关限制措施的影响，全球 GPU 短缺问题进一步加剧，这迫使像 DeepSeek 这样的企业不得不采取创新解决方案，而 DeepSeek 也成功实现了技术突破。然而，目前尚无法明确 DeepSeek 为取得这些成果在研发过程中投入的资金数额。

这一突破性进展对市场造成了一定的冲击，部分投资者认为，新的人工智能模型对高性能硬件的需求将会降低，这对英伟达等公司的产品销售产生了不利影响。行业资深人士，如英特尔前首席执行官帕特・基辛格则认为，人工智能等应用领域能够充分利用其所能获取的全部计算能力。对于 DeepSeek 的这一突破，基辛格认为这为在大众市场中的大量廉价设备中集成人工智能技术提供了可行途径。OpenAI 首席执行官山姆・阿尔特曼也对 DeepSeek 给予了 “令人印象深刻” 的评价。然而在 2023 年，他曾表示与 DeepSeek 展开竞争几乎是不可能之事。

欢迎关注我们，并“设为星标” 可第一时间收到我们的推送消息

================================

创芯大讲堂开年钜惠！

【芯片课·狂省25%】