算力荒缓解,自主化智算还有必要吗?

原创 脑极体 2024-12-20 18:02


2023年大炼模型兴起,全球范围内都出现了算力供不应求、一卡难求的情况。各地纷纷兴建数据中心、智算中心,来解决国产大模型的算力短缺问题。


今年算力市场又倒向了另一个方向,算力开始过剩和大量闲置了。


主要体现在,高端显卡囤积居奇的生意不好做了,“GPU倒爷”的朋友圈已经从“欲购从速,过时不候”,变成了“A100/H100滞销,帮帮我们”。而算力租赁市场,理想情况下的上架率应该是80%,但很多集群只能达到30%甚至更低,投入大量资金建设的算力闲置,租不出去。



于是一种声音开始甚嚣尘上,认为算力荒已经缓解了,供过于求,应该放慢自主化智算的建设。还有人说,智算中心建的太多了,大模型都用不完了。


发展自主化智算,到底还有没有必要?



还记得2023年算力荒焦灼、智算建设突飞猛进的时候,倪光南院士曾提到过:各地盲目建设各种低水平智算中心,让人唏嘘不已,一定要警惕“技术房地产”和“数字烂尾楼”。所谓“技术房地产”,就是算力资源卖不出去,只能变成一堆放着服务器的砖头水泥房子,闲置在那里。


短短一年多时间,从算力短缺到算力过剩,究竟是怎么发生的?目前来看,闲置算力主要集中在三种情况:


1.用不起。英伟达的高端显卡GPU是AI训练的首选,2023年一度一卡难求。以N卡为主的智算资源闲置,一是因为巨头们此前已经大量囤积采购了GPU,需求减少;二是炒作之后价格昂贵,即使价格回落,中小企业还是用不起。在很多讨论“算力过剩”的评论区,我们总能看到“降价试试”的留言,说明高端AI算力的需求仍在,只是昂贵的N卡被价格劝退了。



2.不好用。国产卡组成的算力集群,也存在上架率不高、资源闲置的问题,主要是不好用。因为国产卡的集中度不高,一个千卡或万卡集群,往往是由各类国产算力卡组成的,异构算力之间的协同调度,涉及大量工程化细节,没有做好就无法开箱即用。勉强用了,又时不时出现业务中断、算效不高、恢复训练慢等各种问题,导致客户流失。这类被迫闲置的国产算力,正是没有考虑配套,盲目建设的低水平智算中心。


3.用不上。“百模大战”之后,企业不再大炼模型,预训练的算力需求也就大幅下降,算力市场开始转向以推理算力为主。但推理市场的爆发,需要一个过程,目前AI的行业渗透率还比较低,总体不到10%,很多企业对AI的投入以尝试为主,还没有大规模爆发。所以,训练用算力开始出现闲置,而推理用算力还未大规模崛起,因此短缺问题尚未完全显现。


低水平算力的闲置与过剩,再一次警醒我们:一个繁荣健康的算力市场,关键不是建出来,而是用起来。



这种情况下,仍然大力发展自主化智算,还有必要吗?


我们认为,这个问题的答案不该有犹豫,要旗帜鲜明地,鼓励自主化智算基础设施的继续建设、加速建设。


首先,从长期看,国内智算属于后发,基础仍然薄弱。


中国智算的进步速度是很快的,但也要客观看到,美国这样的IT先行者,从20世纪90年代以来就在IT建设上大力投入。根据彼得森国际经济研究所的消息,在2024年美国在电子制造业建设方面(主要是芯片)的投资,就超过了1996年至2020年(24年的时间跨度)的总投资。而产业界,xAI、Meta、OpenAI等海外AI巨头,都在积极布局十万卡、五十万卡规模的智算集群。



所以,国内自主化智算近年来的发展虽然迅猛,也是在积极补课,打牢基础。这时候如果停止,不仅会前功尽弃,还会让中美在AI基础设施上的差距进一步拉大。


从近期看,自主化AI算力需求仍然没有得到充分满足,算力荒仍在。


一方面,海外AI算力进口受到限制,极不稳定。目前,国内AI训练芯片市场英伟达占据了80%~80%的市场份额,要避免威胁供应链安全,这种情况必须尽快改变。上海的“算力浦江”智算行动实施方案(2024—2025年)要在2025年,实现新建智算中心的国产算力芯片使用占比超过50%;《北京市算力基础设施建设实施方案(2024—2027年)》则提出,2027年要具备100%自主可控智算中心建设能力。


三年左右,从不到20%发展到100%。所以,如今的自主化智算不是太多了,而是还不够。



与此同时,算力需求仍在增长。大模型的规模法则仍在继续,以Sora为代表的视频生成模型对算力的需求量是LLM大模型的数倍,已经出现了“一栋楼放不下一个模型”“一个模型需要多个集群”的情况,超万卡智算中心是必不可少的基础设施,目前国内的十万卡集群还远远不足。


此外,大炼模型的阶段虽然结束了,但基础模型的市场集中度提高和能力提高,又会释放AI应用需求,促进AI的行业渗透率、普及率,导致AI推理算力的需求爆发,急需要更多高质量算力来满足。目前部分国产AI算力集群的利用率极高,西安昇腾智能科技有限公司的人工智算中心算力使用率就高达98.5%;曙光在长沙的5A级智算中心,也吸引上百家企业入驻,实现万余个商业应用接入。因此,随着产业智能化升级的继续推进,国产AI算力荒不是已经解决,而是从现在开始重视和应对。



互联网产业的核心,当然不是宽带和机房,但没有“宽带高速公路”,就没有美国互联网经济的爆发;移动互联网的核心,也不是基站,但没有广泛覆盖的4G基站,就没有智能手机和移动应用软件的兴起。AI大模型也是一样, AI作为一种依附在基础设施之上的软件技术,核心不是智算,但没有自主化智算,国内AI绝不可能独善其身、独自蓬勃发展。


因此,自主化智算并不存在过剩,更不该就此放慢发展。



综上,“国内AI算力过剩”,是个假问题,“如何合理地推进自主化智算的建设”,才是真问题。


解决这个真问题,国内智算产业已经来到了承上启下的新阶段。不仅要追求把智算中心“建起来”,还要能运营好、用起来。


因此,智算厂商的竞争,也从售卖硬件资源与智算解决方案,转变为多维度、综合性、长期服务的竞争。比如华为昇腾AI全栈、中科曙光的“立体计算”、宁畅的“全局智算”、联想的“万全生态”,新华三的“1+N”智算等,以更全面的能力,支撑自主化智算的建设运营。



追求全面,并不意味着胡子眉毛一把抓,目前来看,智算厂商们主要集中解决自主化AI算力的几个痛点问题:


1.异构问题。目前,国产AI芯片还无法规模化出货,市场集中度较低,因此都是以混合算力的形式,来加入智算集群。多元异构算力的协同调度、管理、算效、业务可靠性等,面临很多技术挑战。如果一个企业或开发者,要针对ABCD不同厂商的卡进行适配开发,是不可能的。所以,就需要智算厂商提供相应的系统平台,屏蔽底层异构硬件的复杂性,让大家用好国产算卡。比如联想的万全异构智算平台,实现异构化AI算力的管理与调配;新华三面向异构智算的智能管理平台,一站式应对多样化的AI应用场景。



2.算效问题。解决“低质量算力过剩,自主化高质量算力不足”的结构性问题,需要进一步提高国产AI的性能。面对工艺制程的限制,可以通过软硬件系统的无缝配合,从而实现国产算卡性能的充分释放。以昇腾为例,就与昇思紧密结合,为各类智算场景提供高性能的自主化AI算力,深圳鹏城实验室的“鹏城云脑Ⅱ”就依托昇腾实现了中国首个自主可控的E级智能算力平台,可以提供不低于1000Pops的整机AI计算能力。



3.运营问题。如今,一些地方在智算中心建设之前,开始提出上架率、收益率等要求,需要保证项目投运后有一定的使用率。同时,也会要求建设方提供设计、使用、运营等一体化服务,避免智算中心因无人运营而成为“数字烂尾楼”。以用促建、以服促用,已经是自主化智算发展的必然潮流。比如新华三与杭州市合作,打造“图灵小镇”,培育AIGC产业和数字人才;中科曙光“立体计算”主张“算力建设、应用赋能、生态共生”三位一体,推动多元算力向新质生产力转化,目前已经在5A级智算中心落地实践。



回顾这一年多来,国内智算的发展突飞猛进,取得了举世瞩目的成绩,我们不必再为算力荒而忧心忡忡。但人无远虑必有近忧,AI算力的自主化之路不能就此戛然而止,而要一鼓作气,再加把劲,把已经取得的成果夯实,为接下来的智能浪潮做好准备。


避免低质量算力过剩,与加速自主化智算发展,这两件事可以并行不悖,也应该理性分开看待。


·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 54浏览
  • By Toradex秦海1). 简介为了保证基于 IEEE 802.3 协议设计的以太网设备接口可以互相兼容互联互通,需要进行 Ethernet Compliance 一致性测试,相关的技术原理说明请参考如下文章,本文就不赘述,主要展示基于 NXP i.MX8M Mini ARM 处理器平台进行 1000M/100M/10M 以太网端口进行一致性测试的测试流程。https://www.toradex.com
    hai.qin_651820742 2024-12-19 15:20 103浏览
  • ​本文介绍PC电脑端运行VMware环境下,同时烧录固件检测不到设备的解决方法。触觉智能Purple Pi OH鸿蒙开发板演示,搭载了瑞芯微RK3566芯片,类树莓派设计,Laval官方社区主荐,已适配全新OpenHarmony5.0 Release系统!PC端烧录固件时提示没有发现设备按照各型号烧录手册中进入loader模式的操作方法,让开发板连接到PC端。正常来说开发板烧录时会显示“发现一个LOADER设备”,异常情况下,会提示“没有发现设备”,如下图所示: 解决步骤当在烧录系统固
    Industio_触觉智能 2024-12-18 18:07 78浏览
  • 由于该文反应热烈,受到了众多工程师的关注,衷心感谢广大优秀工程师同仁的建言献策。特针对该技术点更新一版相关内容! 再次感谢大家的宝贵建议!填充铜(Solid Copper)和网格铜(Hatched Copper)是PCB设计中两种不同的铺铜方式,它们在电气性能、热管理、加工工艺和成本方面存在一些区别:1. 电气性能:填充铜:提供连续的导电层,具有极低的电阻和最小的电压降。适合大电流应用,并能提供优秀的电磁屏蔽效果,显著提高电磁兼容性。网格铜:由于铜线之间存在间隔,电阻相对较高,电压降也
    为昕科技 2024-12-18 17:11 116浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 51浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 82浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 63浏览
  • 在强调可移植性(portable)的年代,人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电,不论是其双向连接设计,面板与键盘底座可分离的独特功能,再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式,让使用者在不同的使用情境下都能随意调整,轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计,潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处:Microsoft Comm
    百佳泰测试实验室 2024-12-19 17:40 145浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 44浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 45浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 92浏览
  • 沉寂已久的无人出租车赛道,在2024年突然升温了。前脚百度旗下萝卜快跑,宣布无人驾驶单量突破800万单;后脚特斯拉就于北京时间10月11日上午,召开了以“We,Robot”为主题的发布会,公布了无人驾驶车型Cybercab和Robovan,就连低调了好几个月的滴滴也在悄悄扩编,大手笔加码Robotaxi。不止是滴滴、百度、特斯拉,作为Robotaxi的重磅选手,文远知行与小马智行,也分别在10月份先后启动美股IPO,极氪也在近日宣布,其与Waymo合作开发的无人驾驶出行汽车将大规模量产交付,无人
    刘旷 2024-12-19 11:39 125浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦