算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。算力基础设施是新型信息基础设施的重要组成部分,呈现多元泛在、智能敏捷、安全可靠、绿色低碳等特征,对于助推产业转型升级、赋能科技创新进步、满足人民美好生活需要和实现社会高效能治理具有重要意义。
AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
英伟达发布新一代GPU架构,NVLink连接技术迭代升级
大模型语言模型:从理论到实践
技术展望2024:AI拐点,重塑人类潜力
英伟达GTC专题:新一代GPU、具身智能和AI应用
2024年策略:AI鼎新,与时偕行
《半导体行业深度报告合集(2024)》
《AI应用专题系列合集》
在第二届“华彩杯”算力大赛启动会上,中国工程院院士邬贺铨作了《算力十问》的主题演讲。
一问:如何准确衡量算力?
邬贺铨指出,现有测算方法难以精准衡量算力。国内企业服务器的出货量并不等于国内市场的使用量,而且进口国外的服务器未统计在内;服务器出货量也不等于上架量,更不等于已经加电使用量。通常服务器集群的算力不等于集群内服务器算力之和;通过问卷调研方法收集的数据也未必能全面反映目前实际使用情况。
二问:超算、通算、智算三类算力是否可以互相调剂?
超算和通算可否承担生成式大模型的训练和推理任务?智算适合承担目前超算和通算的任务吗?建设兼具三类节点能力的融合算力中心会有利于三类算力的调度吗?
三问:三类算力有无合理比例?
邬贺铨认为,不同地区需求不同,不可能有固定的比例。通常国家与区域创新中心城市对超算有较大需求;机密性和时延敏感性决定了城市政务数据和重要企业关键数据尽量在同城通算;东部地区的AI训练任务重、智算比例高;西部算力枢纽也需要增加智算能力,但一般西部地区以配置通算为主。
四问:何谓合适的算存比?
邬贺铨强调,存力与算力需配合,避免因存力短缺造成算力等待而影响处理效率。而存力按位于服务器内外分为内存与外存,对于CPU密集型计算任务,影响算力效率与性能的主要是内存,据分析合理的算存比是GFlops/GB为1;对I/O密集计算任务,需频繁访问外存,如何考虑计入外存力的算存比合理取值,值得商榷。邬贺铨同时指出,存力有HDD机械硬盘和SDD固态硬盘之分,后者可节能70%,但我国SDD仅占24.7%,不及美国一半。
五问:如何根据大模型参数量及训练数据量来设计算力需求?
AI模型参数是指深度神经网络各层神经元间连接矩阵的权重和偏置,模型输出值=权重×输入值+偏置。
算力规模(峰值Flops)≈8×训练数据(tokens Byte)×模型参数/训练时间(秒)×算力利用率(0.3~0.55)。
存力规模(Byte)≈10×模型参数×计算精度(Byte)。
理论上可以通过增加训练时长来降低对大模型训练算力的需求,但训练时长的增加意味算力芯片集群出错的次数增加,为应对出错所需存盘开销也增加,计算效率显著下降。据OpenAI的经验,模型大小和数据集大小及用于训练的算力规模三个因素同时放大才有最佳效果,据分析,当不受其他两个因素的制约时,大模型性能与单个因素都有幂律关系。
六问:如何利用边缘与终端的算力?
当边缘/终端具有70亿参数以上的推理能力时,边缘/终端可离线进行推理任务,目前手机可支持130亿参数,2024年还会出现支持千亿参数的手机。当边缘/终端仅具有10亿参数的推理能力时,需要与云端协同提供智能能力。邬贺铨提出,单终端算力小,数以亿计的终端算力集合就非常可观,但跨终端的协同计算是否可行值得商榷。
七问:异地算力节点的协同可行吗?
邬贺铨认为,将算力集群扩展到跨域,多个异地的算力节点共同承担一个计算任务,实时性的交互要求光传输系统无损和确定性时延,任何丢包和抖动都无法保证计算效率;在异属异构的场景下异地协同计算的实施可操作性更是挑战。他强调,集约化建设大型算力节点比分布异地协同能够显著提升能效和算力效率,东数西算和数据灾备都需要在异地算力枢纽间建立广域连接,但这仅是算力任务的转移而不是异地实时协同计算。
八问:算力的接入需要集中管理与指配吗?
不通过国家算力调度平台能够构建全国一体化算力网和算力大市场吗?或者可以由算力节点拥有方和需求方联合建立算力服务联盟,以市场机制来沟通供需。另外,在强调企业为主体发挥市场有效作用的前提下,还需要强化有为政府的角色,通过建立结对子等东西部联动机制强化区域间算力协同。
九问:算网协同做什么和如何做?
算力与网络往往属于不同的运营主体,跨运营商的协同调度也有管理难题。而且网络通常并不感知所承载的数据属性。当前,首先要厘清算网协同的标准与方法,发挥IPv6的分段选路、SRV6作为算网协同统一承载协议的作用,通过编程空间实现云网/算网的融通。
十问:如何解除中小企业使用算力的顾虑?
邬贺铨建议,政府站台主导建设面向中小企业的云智平台,降低企业利用算力的门槛和对安全的担心。
来源:C114通信网
下载链接:
服务器行业深度报告:AI和“东数西算”双轮驱动,服务器再起航
AI时代的3D内容生产工具
复盘与未来推演(AI应用):追本溯源之后,我们相信什么?
深度研究:量子计算:人工智能与新质生产力的“未来引擎”
多模态,AI大模型新一轮革命
2024前沿人工智能安全的最佳实践
人工智能大模型工业应用准确性测评
2024 AI智算产业趋势展望分析报告
边缘智能:铺平人工智能的“最后一公里”
泛半导体产业黑灯工厂发展研究洞察白皮书
PCIe标准的演进和测试要求
《英伟达GTC 2024技术汇总》
1、英伟达GTC 2024主题演讲:见证AI的变革时刻 2、展望GTC变革,共享AI盛宴 3、英伟达GTC专题:新一代GPU、具身智能和AI应用
英伟达GTC专题:新一代GPU、具身智能和AI应用(精华)
2024年策略:AI鼎新,与时偕行
人工智能生成图像的危害分析与网络真实性保护(2024)
家庭大脑白皮书(2024):大模型时代智慧家庭应用新范式
《半导体行业深度报告合集(2024)》
《70+篇半导体行业“研究框架”合集》
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。