算力荒缓解，自主化智算还有必要吗？

原创脑极体 2024-12-20 18:02

泰克电源、数字万用表、探头大促 低价玩转泰克信号发生器PF1440

2023年大炼模型兴起，全球范围内都出现了算力供不应求、一卡难求的情况。各地纷纷兴建数据中心、智算中心，来解决国产大模型的算力短缺问题。

今年算力市场又倒向了另一个方向，算力开始过剩和大量闲置了。

主要体现在，高端显卡囤积居奇的生意不好做了，“GPU倒爷”的朋友圈已经从“欲购从速，过时不候”，变成了“A100/H100滞销，帮帮我们”。而算力租赁市场，理想情况下的上架率应该是80%，但很多集群只能达到30%甚至更低，投入大量资金建设的算力闲置，租不出去。

于是一种声音开始甚嚣尘上，认为算力荒已经缓解了，供过于求，应该放慢自主化智算的建设。还有人说，智算中心建的太多了，大模型都用不完了。

发展自主化智算，到底还有没有必要？

还记得2023年算力荒焦灼、智算建设突飞猛进的时候，倪光南院士曾提到过：各地盲目建设各种低水平智算中心，让人唏嘘不已，一定要警惕“技术房地产”和“数字烂尾楼”。所谓“技术房地产”，就是算力资源卖不出去，只能变成一堆放着服务器的砖头水泥房子，闲置在那里。

短短一年多时间，从算力短缺到算力过剩，究竟是怎么发生的？目前来看，闲置算力主要集中在三种情况：

1.用不起。英伟达的高端显卡GPU是AI训练的首选，2023年一度一卡难求。以N卡为主的智算资源闲置，一是因为巨头们此前已经大量囤积采购了GPU，需求减少；二是炒作之后价格昂贵，即使价格回落，中小企业还是用不起。在很多讨论“算力过剩”的评论区，我们总能看到“降价试试”的留言，说明高端AI算力的需求仍在，只是昂贵的N卡被价格劝退了。

2.不好用。国产卡组成的算力集群，也存在上架率不高、资源闲置的问题，主要是不好用。因为国产卡的集中度不高，一个千卡或万卡集群，往往是由各类国产算力卡组成的，异构算力之间的协同调度，涉及大量工程化细节，没有做好就无法开箱即用。勉强用了，又时不时出现业务中断、算效不高、恢复训练慢等各种问题，导致客户流失。这类被迫闲置的国产算力，正是没有考虑配套，盲目建设的低水平智算中心。

3.用不上。“百模大战”之后，企业不再大炼模型，预训练的算力需求也就大幅下降，算力市场开始转向以推理算力为主。但推理市场的爆发，需要一个过程，目前AI的行业渗透率还比较低，总体不到10%，很多企业对AI的投入以尝试为主，还没有大规模爆发。所以，训练用算力开始出现闲置，而推理用算力还未大规模崛起，因此短缺问题尚未完全显现。

低水平算力的闲置与过剩，再一次警醒我们：一个繁荣健康的算力市场，关键不是建出来，而是用起来。

这种情况下，仍然大力发展自主化智算，还有必要吗？

我们认为，这个问题的答案不该有犹豫，要旗帜鲜明地，鼓励自主化智算基础设施的继续建设、加速建设。

首先，从长期看，国内智算属于后发，基础仍然薄弱。

中国智算的进步速度是很快的，但也要客观看到，美国这样的IT先行者，从20世纪90年代以来就在IT建设上大力投入。根据彼得森国际经济研究所的消息，在2024年美国在电子制造业建设方面（主要是芯片）的投资，就超过了1996年至2020年（24年的时间跨度）的总投资。而产业界，xAI、Meta、OpenAI等海外AI巨头，都在积极布局十万卡、五十万卡规模的智算集群。

所以，国内自主化智算近年来的发展虽然迅猛，也是在积极补课，打牢基础。这时候如果停止，不仅会前功尽弃，还会让中美在AI基础设施上的差距进一步拉大。

从近期看，自主化AI算力需求仍然没有得到充分满足，算力荒仍在。

一方面，海外AI算力进口受到限制，极不稳定。目前，国内AI训练芯片市场英伟达占据了80%～80%的市场份额，要避免威胁供应链安全，这种情况必须尽快改变。上海的“算力浦江”智算行动实施方案（2024—2025年）要在2025年，实现新建智算中心的国产算力芯片使用占比超过50%；《北京市算力基础设施建设实施方案（2024—2027年）》则提出，2027年要具备100%自主可控智算中心建设能力。

三年左右，从不到20%发展到100%。所以，如今的自主化智算不是太多了，而是还不够。

与此同时，算力需求仍在增长。大模型的规模法则仍在继续，以Sora为代表的视频生成模型对算力的需求量是LLM大模型的数倍，已经出现了“一栋楼放不下一个模型”“一个模型需要多个集群”的情况，超万卡智算中心是必不可少的基础设施，目前国内的十万卡集群还远远不足。

此外，大炼模型的阶段虽然结束了，但基础模型的市场集中度提高和能力提高，又会释放AI应用需求，促进AI的行业渗透率、普及率，导致AI推理算力的需求爆发，急需要更多高质量算力来满足。目前部分国产AI算力集群的利用率极高，西安昇腾智能科技有限公司的人工智算中心算力使用率就高达98.5%；曙光在长沙的5A级智算中心，也吸引上百家企业入驻，实现万余个商业应用接入。因此，随着产业智能化升级的继续推进，国产AI算力荒不是已经解决，而是从现在开始重视和应对。

互联网产业的核心，当然不是宽带和机房，但没有“宽带高速公路”，就没有美国互联网经济的爆发；移动互联网的核心，也不是基站，但没有广泛覆盖的4G基站，就没有智能手机和移动应用软件的兴起。AI大模型也是一样， AI作为一种依附在基础设施之上的软件技术，核心不是智算，但没有自主化智算，国内AI绝不可能独善其身、独自蓬勃发展。

因此，自主化智算并不存在过剩，更不该就此放慢发展。

综上，“国内AI算力过剩”，是个假问题，“如何合理地推进自主化智算的建设”，才是真问题。

解决这个真问题，国内智算产业已经来到了承上启下的新阶段。不仅要追求把智算中心“建起来”，还要能运营好、用起来。

因此，智算厂商的竞争，也从售卖硬件资源与智算解决方案，转变为多维度、综合性、长期服务的竞争。比如华为昇腾AI全栈、中科曙光的“立体计算”、宁畅的“全局智算”、联想的“万全生态”，新华三的“1+N”智算等，以更全面的能力，支撑自主化智算的建设运营。

追求全面，并不意味着胡子眉毛一把抓，目前来看，智算厂商们主要集中解决自主化AI算力的几个痛点问题：

1.异构问题。目前，国产AI芯片还无法规模化出货，市场集中度较低，因此都是以混合算力的形式，来加入智算集群。多元异构算力的协同调度、管理、算效、业务可靠性等，面临很多技术挑战。如果一个企业或开发者，要针对ABCD不同厂商的卡进行适配开发，是不可能的。所以，就需要智算厂商提供相应的系统平台，屏蔽底层异构硬件的复杂性，让大家用好国产算卡。比如联想的万全异构智算平台，实现异构化AI算力的管理与调配；新华三面向异构智算的智能管理平台，一站式应对多样化的AI应用场景。

2.算效问题。解决“低质量算力过剩，自主化高质量算力不足”的结构性问题，需要进一步提高国产AI的性能。面对工艺制程的限制，可以通过软硬件系统的无缝配合，从而实现国产算卡性能的充分释放。以昇腾为例，就与昇思紧密结合，为各类智算场景提供高性能的自主化AI算力，深圳鹏城实验室的“鹏城云脑Ⅱ”就依托昇腾实现了中国首个自主可控的E级智能算力平台，可以提供不低于1000Pops的整机AI计算能力。

3.运营问题。如今，一些地方在智算中心建设之前，开始提出上架率、收益率等要求，需要保证项目投运后有一定的使用率。同时，也会要求建设方提供设计、使用、运营等一体化服务，避免智算中心因无人运营而成为“数字烂尾楼”。以用促建、以服促用，已经是自主化智算发展的必然潮流。比如新华三与杭州市合作，打造“图灵小镇”，培育AIGC产业和数字人才；中科曙光“立体计算”主张“算力建设、应用赋能、生态共生”三位一体，推动多元算力向新质生产力转化，目前已经在5A级智算中心落地实践。