3 月 1 日,AI 领域新势力 DeepSeek 在知乎官方账号发布《DeepSeek-V3/R1 推理系统概览》一文,毫无保留地公开了其推理系统的关键技术细节,首次披露理论成本与利润率,犹如一颗重磅炸弹,在 AI 行业激起千层浪,吸引了众多从业者、投资者与技术爱好者的目光。
推理系统优化策略
DeepSeek-V3/R1 推理系统将优化目标锁定为实现更大的吞吐和更低的延迟。为达成这一目标,其采用了大规模跨节点专家并行((Expert Parallelism/EP)技术。通过将每层256个专家中的8个动态激活,系统利用EP策略将专家分散至多GPU节点,进行计算,大幅增加了 batch size(批尺寸),进而显著提升 GPU 矩阵乘法效率,让 GPU 算力得以充分发挥,有效提高了系统的吞吐量。同时,专家分散使得每个 GPU 的访存需求减少,降低了延迟。

在具体实现中,系统采用“预填充-解码”两阶段差异化并行策略:
- 预填充阶段:部署单元横跨4个节点,每个GPU处理9个路由专家和1个共享专家,实现高吞吐量;
- 解码阶段:扩展至18个节点,每个GPU管理2个路由专家和1个共享专家,优化实时交互性能。
但大规模跨节点专家并行技术也为系统带来了跨节点通信、多节点数据并行、负载均衡等诸多挑战。为此,DeepSeek 通过规模化跨节点专家并行、双批次重叠策略、动态负载均衡算法(覆盖预填充、解码及专家计算)等一系列技术手段,巧妙地隐藏传输耗时,实现了高效的负载均衡,确保系统在复杂环境下仍能稳定高效运行,最大化资源利用率。在解码阶段,将 Attention 层细分并采用五阶段流水线,实现更流畅的通信 - 计算重叠,进一步提升性能。
成本与利润揭秘
文章披露的理论成本和利润率数据成为最大亮点。
DeepSeek V3 和 R1 的所有服务均基于英伟达 H800 GPU 运行,利用白天和晚上服务负荷的差异,DeepSeek 建立了灵活的资源调配机制:白天负荷高时,所有节点全力投入推理服务;晚上负荷低时,则减少推理节点,将闲置资源用于研究和训练。
假设 GPU 租赁成本为 2 美元 / 小时,经计算,DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入(缓存命中输入0.14美元/百万、未命中0.55美元/百万,输出2.19美元/百万),理论上一天的总收入可达 562027 美元,成本利润率高达 545%。
不过,DeepSeek 也明确表示,实际收入会低于理论值,原因在于 V3 定价低于 R1,且部分服务免费,夜间还有折扣优惠。例如,2 月 26 日,DeepSeek 在 API 开放平台推出错峰优惠活动,夜间 API 调用价格大幅下调,V3 降至原价 50%,R1 降至 25% 。在2025年2月27日至28日的24小时内,系统处理了6080亿输入token和1680亿输出token,但仅部分服务实现货币化。
尽管如此,这一数据仍显示出 DeepSeek 在成本控制和利润最大化方面的强大能力。
开源周助力技术突围,引发行业变革预期
此次技术揭秘正值 DeepSeek 的 “开源周” 活动期间。在过去一周,DeepSeek 每天开源一个代码库,涵盖 FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies、Fire - Flyer 文件系统(3FS)以及基于 3FS 的数据处理框架 Smallpond 等。这些开源成果看似独立,实则相互协作,覆盖从并行计算到存储优化的全链路技术,构建起一套高效的系统,为行业发展提供了新的思路与技术支撑,吸引了全球开发者的关注。
知乎社区对此反响强烈,大模型领域知名答主“刘聪NPL”评价:“这些工程实践几乎不可能在国外AI公司完成”,而“思维链开源”模式(即研发思路公开)正在成为AI社区的新范式。
这一系列开源举措不仅展现了 DeepSeek 的技术自信,也为 AI 领域的开源生态注入了新活力。开源社区的力量有望加速相关技术的迭代与创新,推动整个行业朝着更高效、更开放的方向发展。有国外网友赞叹 DeepSeek 的技术实力,甚至猜测其实际技术水平可能更高,认为这些开源成果或许只是 “冰山一角”。
树立标杆,引发市场连锁反应
DeepSeek 的这一披露在行业内引发了广泛讨论,众多分析师纷纷发表观点。
中金公司研报指出,DeepSeek 推理降本将刺激推理需求增长,直接拉动推理硬件市场,为下游应用生态创造更大想象空间。
中信证券认为,Deepseek在模型训练成本降低方面的最佳实践,料将刺激科技巨头采用更为经济的方式加速前沿模型的探索和研究,同时将使得大量AI应用得以解锁和落地。算法训练带来的规模报酬递增效应以及单位算力成本降低对应的杰文斯悖论等,均意味着中短期维度科技巨头继续在AI算力领域进行持续、规模投入仍将是高确定性事件。
平安证券则认为,DeepSeek 通过算法创新提升算力利用率,冲击了海外 “堆算力” 的模型训练模式。虽然短期内可能使市场对训练算力需求预期放缓,但长期来看,在 AGI 愿景驱动和 AI 应用普及的大趋势下,推理侧算力需求空间将进一步拓宽。
此外,DeepSeek 的低成本策略也在市场竞争中展现出强大优势。其模型训练成本仅为同类产品的 1% - 5%,DeepSeek - R1 的 API 定价远低于 OpenAI 同类产品,加速了市场渗透。就在 DeepSeek 发布文章同日,OpenAI 发布的 GPT - 4.5 研究预览版,其输入token价格高达75美元/百万,是DeepSeek R1定价的535倍,输出价格差距更达30倍。
相比之下,DeepSeek 的价格优势明显,不少网友在对比后吐槽 OpenAI 收费昂贵。这一悬殊差异引发开发者热议,有投资人测算,若按理论利润率,DeepSeek年化收入(ARR)可达2亿美元,估值或超百亿美元。
围绕成本的争议:技术探讨还是商业博弈?
然而,DeepSeek 披露的数据也引发了行业内的争议。北京潞晨科技有限公司董事长尤洋与硅基流动创始人袁进辉围绕 DeepSeek 的成本问题展开了激烈争论。
尤洋认为,DeepSeek 文章中的数据是在极端理想化情况下得出的,实际的 MaaS(模型即服务)业务面临诸多挑战,如测试速度与实际场景差异、机器利用率不稳定等,按照他的测算,DeepSeek 的 MaaS 业务难以盈利。潞晨科技甚至宣布暂停 DeepSeek API 服务,尽管尤洋后来强调对 DeepSeek 模型本身并无贬低之意。
袁进辉则指出,DeepSeek 的 V3/R1 架构与主流模型差异大,现有供应商难以达到其效率水平,但随着 DeepSeek 开源关键模块,社区复现的难度将降低。这场争论背后,不仅涉及对 DeepSeek 成本和盈利模式的探讨,还牵扯出两家公司之间关于抄袭等问题的指责,使得事件变得更加复杂。
技术红利如何兑现?
DeepSeek 发布《DeepSeek-V3/R1 推理系统概览》,无论是技术创新、成本控制,还是引发的行业讨论,都为 AI 行业发展提供了重要参考。但尽管技术优势显著,DeepSeek仍面临多重挑战:
- 架构独特性:其高度定制化的EP架构与主流模型差异较大,第三方平台需深度适配才能复现效率5;
- 商业化平衡:免费服务与折扣策略虽扩大用户基数,但可能延缓盈利进程;
- 地缘风险:欧美对其“低成本训练”的质疑尚未完全消散,需持续以技术透明化应对
DeepSeek在文章中明确,未来将聚焦车规芯片、AI芯片等高价值场景,推动工具链的智能化升级。其第三代FPGA验证系统HuaPro P3已支持芯擎科技等车企的芯片开发,预示技术落地的新方向。
随着 DeepSeek 加速研发 DeepSeek - R2 推理模型,且有望提前发布,支持更多语言推理和更好的代码生成,未来其在 AI 领域的表现值得期待,也将持续推动行业竞争与创新。
