摩尔定律原来的解读是“芯片性能每18个月翻一倍”,后来由于工艺微缩遇到瓶颈,改变成“24个月翻一倍”。同时,内存墙、IO墙、功耗墙等系一系列短期内无法彻底解决的问题,让数据中心从一切以CPU为核心,逐步走向DSA异构化,DSA的黄金时代被开启。
微服务和云原生,带来了Serverless;高性能 、低CPU开销网络 ,带来了Diskless;SoC 片内总线和 DC 网络融合 ,让MemLess 成为可能(如 CXL Fabric ),Datacenter as a Computer 更近一步……纵观英伟达产品的路标,从DGX-1、DGX-Z的演进路线图发现,很多时候是在通过堆GPU的方式扩展HBM。而HBM是通过高级封装的方式达到大带宽,这意味着我们现在买了很多英伟达的GPU,实际上是买了HBM,因此MemLess是下一个重点方向。
“我今年参加了三次RISC-V相关的峰会,发现目前很多从业者对于RISC-V的印象还是停留在MCU或是偏终端的产品领域。”在8月28日举办的第三届滴水湖中国RISC-V产业论坛上,苏州库瀚信息科技有限公司系统工程副总裁刘亚南 重点谈了目前整个数据中心领域的需求、趋势及其中RISC-V架构的现状。
苏州库瀚信息科技有限公司系统工程副总裁 刘亚南
如今,在摩尔定律濒临消亡之际,以生成式人工智能(AIGC)为代表的新型数字经济,正点燃数据中心新一轮军备竞赛。刘亚南认为,RISC-V相关技术目前在应用生态及算力层面仍在成长阶段。“随着AI大模型等技术的快速发展,数字经济涌现新场景,对底层软硬件系统提出新要求,RISC-V开源指令集具备低碳低功耗、模块化、精简开放等优势,应用生态较为简单、算力要求相对低的数据中心I/O场景将会是RISC-V大芯片的首个爆发式应用。”
据介绍,库瀚基于 RISC-V指令集自研基础设施服务芯⽚库瀚eSPU,实现存算⽹I/O聚合设计,在单颗芯片中实现PCIe Switch、智能网卡以及CPU的I/O互联能力,精简存储、⽹络数据I/O通路,优化现有以通⽤CPU为核心的专用服务器架构中不必要的软硬件系统算力冗余及⾼昂的基础设施投资、运维、能耗成本(如存储服务器、AI服务器)。
在系统架构上,库瀚采用三种不同的RISC-V架构。控制面采用一些Hybrid的大核和中核,来运行一些FDX(软件定义存储)软件栈,利用混合的高性能RISC-V做软件处理。数据面 (Data Plane)的前端网络会利用400G的总带宽,做一些Packet Buffer和Protocol Engine处理。
在SDS存储服务器形态上,一颗eSPU 芯片就能替代CPU(x86 / ARM ARM)、PCIe Switch 、RDMA 网卡,网络与存储数据面直通,大幅度降低TCO 、提升能效比。如下框图,左边是传统的SDS存储服务器的典型配置,中间是x86或ARM CPU。而eSPU的存储服务器(下图右)直接通过光模块输入后,通过处理直接连到存储后端。
在Diskless解决方案上,库瀚方案可以无缝对接开源框架(DPDK)和分布式存储生态(DAOS / Ceph / 伙伴SDS),实现迁移最小化、效益最大化。
下图左边展示了其方案优势、生态融合的特点,右边则是大致的集群拓扑。通过数据中心的以太网交换机,连到下面的存储集群,存储集群二次拉远,形成eSPU存储节点。
无状态x86节点,负责存储协议解析、数据服务、空间和Cache管理等。eSPU存储节点,则承载全局FTL、硬件EC、数据缩减等数据面功能。
eSPU方案的第三部分就是AI Hub。与Diskless类似,eSPU AI服务器形态,用一颗eSPU芯片替代PCle Switch、高性能网卡,大幅度降低国产AI服务器的IO成本(网络和存储)。
eSPU AI服务器对比传统AI服务器的竞争优势
PCIe Switch和RDMA高性能网络,通过eSPU片上Non Blocking网络,实现Data Plane数据直通,避免CPU参与的DMA两次搬运,提升有效数据带宽和能效比。
据介绍,库瀚eSPU可以以100W功耗实现1000万IOPS读写性能、400Gbps RDMA网络带宽,面向I/O互联场景下对性能、功耗有极致追求的智算中⼼、云数据中⼼及企业专业⽤户。
同时刘亚南表示,基于软硬件融合技术储备及设计能⼒,库瀚支持与客户开展⾼度灵活的AI系统、存储系统、⽹络系统前沿技术联合开发与定制,以⾼能效存力、运力解决⽅案帮助客户成功。
公司介绍
库瀚科技由高层次海归人才/前海力士美国存储解决方案CTO兼高级副总裁杨国华博士携工业界精英团队联合创办,公司从事高能效数据I/O管理/存储/网络基础设施芯片设计及解决方案产业化,扎根中国本土,技术创业团队专业范畴覆盖存储/网络I/O核心芯片及固软件架构设计领域,优势领域包括分布式存储、数据库、AI训练数据I/O管理,致力于打造全RISC-V架构的低碳高性能数据中心IT基础设施生态。