通用GPU芯片BR100是壁仞科技首款通用GPU芯片产品。该芯片针对AI训练、推理,以及更广泛的通用计算场景而设计,主要应用于数据中心部署场景,兼具高算力、高能效、高通用性等特点,创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。

“全球通用GPU算力纪录,第一次由一家中国企业创造。”在壁仞科技发布会上,壁仞科技创始人、董事长、CEO张文宣布,中国的通用GPU芯片正式迈入“每秒千万亿次计算”新时代。

科技创始人、董事长、CEO张文   图片来源:科技官网

8月9日,壁仞科技在上海发布首款通用GPU芯片BR100,创出全球算力纪录,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。BR100的正式发布,标志着中国企业第一次打破了此前一直由国际巨头保持的通用GPU全球算力纪录。

除了广受关注的BR100通用GPU芯片之外,壁仞科技还正式发布了自主原创架构——壁立仞,创造全球性能纪录的OAM服务器——海玄,以及OAM模组——壁砺100,PCIe板卡产品——壁砺104,以及自主研发的BIRENSUPA软件平台。

全球算力新纪录

算力将成为数字经济引擎和智能社会基石。随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染,部份GPU被用于图形渲染以外领域的计算成为通用GPU。

据悉,通用GPU芯片BR100是壁仞科技首款通用GPU芯片产品。该芯片针对AI训练、推理,以及更广泛的通用计算场景而设计,主要应用于数据中心部署场景,兼具高算力、高能效、高通用性等特点,创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。

综合来看,其旗舰产品BR100有8项核心特性:

1.先进制造及封装技术:采用7nm制程工艺,在1074mm²芯片面积上集成了770亿颗晶体管,并应用了前沿的Chiplet与2.5D CoWoS封装技术,能够兼顾高良率与高性能。

2.高性能及高能效比:核心性能媲美英伟达最新推出的旗舰计算产品H100 GPU,较英伟达A100算力提升3倍以上。

3.多数据精度支持:除了原生支持FP32、BF16、FP16、INT8等主流数据精度外,还支持壁仞原创定义的TF32+数据精度。与TF32相比,TF32+在满足相同动态表示范围的前提下,增加了5位尾数(mantissa),可实现比TF32更高的数据精度与吞吐性能,适用于大量的乘加计算。

4.先进内存系统:64GB HBM2e片外内存,数据速率高达3.2Gbps,带宽高达1.64TB/s,总计位宽4096bit。

5.先进互连系统:原创BLink高速GPU互连技术,采用最新高速serDes技术,支持8卡点对点全互连,聚合带宽达512GB/s,创国内互连带宽纪录;采用最新一代主机接口PCIe 5.0并率先支持CXL 2.0通信协议,双向带宽高达128GB/s。

6.安全虚拟实例(SVI):最高支持8个独立实例,每个实例物理隔离并配备独立的硬件资源,可独立运行。

7.国密安全规范:专用硬件加解密IP,支持 AES等常用安全加密算法,符合国密一级安全规范。

8.OCP规范硬件系统:符合OCP规范的OAM模组,最高支持550W TDP风冷散热,并在通用UBB主板上实现8卡点对点全互连。

“壁立仞”芯片架构

BR100之所以能够实现国际领先的算力,最底层的支撑来源于自主原创的芯片架构。针对通用大算力GPU面临的内存墙、功耗墙、并行性、互连和指令集架构等挑战,壁仞科技原创设计了训推一体芯片架构“壁立仞”,并为其通用GPU打造了完备的BIRENSUPA软件开发平台。

在发布会上,壁仞科技联合创始人、CTO洪洲,详细介绍了原创架构——壁立仞,“壁立仞架构以数据流为中心,对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。”

壁仞科技团队在微架构上,以通用计算核的设计为中心,搭配强大的张量计算引擎,来进行加速计算;同时采用自研指令集,以更高效地实现各功能运行。

具体来看,BR100有32个SPC流式处理器簇,每个SPC有16个EU执行单元,每4个EU可配置成1个CU计算单元,每个SPC共4096个线程。而每个EU有16个通用流式处理器,同时包含采用脉动3D GEMM架构的专用张量引擎。

BR100总计拥有8192个通用流式处理器、512组专用张量加速引擎,共128K个线程,配备256MB分布式共享L2级缓存,支持多SPC间数据共享,并可配置成大容量的scratchpad,还能支持不同层次的近存储计算。

其自研的GPGPU架构及指令集搭配多级缓存架构,可实现大模型训练下的数据重用;基于NoC的通讯架构,支持共享数据多播机制,可以与分布式缓存配合实现高效通信,大大减少对片外带宽的需求,并大幅降低功耗。

采用Chiplet技术

除了架构设计外,BR100还采用了许多业界领先的芯片技术,包括风头渐盛的chiplet。洪洲向芯东西解释说,对于可明确划分功能模块的芯片,或在公司产品线非常丰富、产品线之间可重复使用特定模块的情况下,采用自研chiplet方案进行SoC功能模块的复用可以缩短设计周期、降低设计成本并大幅提升良率。这要求芯片设计团队具备对高速接口、大芯片封装有丰富经验。

值得关注的是,BR100芯片采用了Chiplet与2.5D CoWoS封装技术,突破了大尺寸芯片制造与封装中的光罩尺寸限制问题,做到高良率与高性能的兼顾。据介绍,这是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。

“BR100采用了Chiplet设计理念,让芯片总面积可以突破光罩尺寸对单芯片面积的限制,集成更多的算力和通用性逻辑;此外,通过缩小单个计算芯粒的面积,还可以同时提升产能与良率,进而极大地降低硅片的成本,并支持更灵活的产品策略。”洪洲介绍。

科技联合创始人、CTO洪洲   图片来源:科技官网

壁仞科技还现场发布了壁仞科技BR100系列的另一款产品BR104,该款芯片同样基于壁立仞架构,拥有1个计算芯粒,性能约为BR100的一半,同样超越了国际厂商的在售旗舰产品。

“Chiplet设计让我们可以通过一次流片,同时得到两种芯片,大大加快了迭代速度,同时覆盖不同层级的市场。”洪洲表示。

据悉,壁仞科技创立于2019年,致力于研发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。截至目前,壁仞科技已完成B轮融资,总融资额超50亿元人民币,屡屡刷新半导体领域融资速度及融资规模纪录,成为成长势头最为迅猛的“独角兽”企业。

本文内容参考科技官网、芯东西综合报道

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
Intel刚刚发布了新一代桌面显卡Arc B580和B570,关键是还支持AI帧生成和低延迟...
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
借着传说中Intel在中国举办的有史以来规模最大的生态大会,谈谈AI PC生态于2024收官之际大致发展到了哪儿...
台积电的1.6纳米芯片“A16”技术具有多项创新点,其中最显著的是其超级电源轨(SPR)背面供电网络。这一技术是台积电首创,专为高性能计算产品设计,旨在提高芯片的性能和降低功耗。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的