据悉该芯片属于并行超低功耗 (PULP) 平台项目,包含两个计算单元(CPU),每个采用了 216 个 32 位 RISC-V 内核的 Chiplet设计、未知数量的 64 位浮点单元 (FPU),以及两颗来自美光的 16GB HBM2E 内存。

由瑞士苏黎世联邦理工学院(ETH Zurich)和博洛尼亚大学的工程师团队联合开发的 Occamy 处理器已接近完成。这颗芯片在2021年4月20日开始研发,2022年7月基于GlobalFoundries 12nm FinFET技术流片成功,同年10月采用GlobalFoundries 65nm Hedwig无源硅中介层进行流片。这两次流片都得到了Fraunhofer IIS的Europractice-IC团队支持。

据悉, Occamy 团队成员只有不到25人,其中大部分是博士生。

目前已知的一些芯片特性

据悉该芯片属于并行超低功耗 (PULP) 平台项目,包含两个计算单元(CPU),每个采用了 216 个 32 位 RISC-V 内核的 Chiplet设计、未知数量的 64 位浮点单元 (FPU),以及两颗来自美光的 16GB HBM2E 内存。这颗处理器的内核通过中介层实现互连,双块 CPU 估计峰值性能为: FP64 时达到 0.768 TFLOp/s,在 FP32 时达到 1.536 TFLOp/s,在 FP16 时达到 3.072 TFLOp/s,在 FP8 精度时达到 6.144 TFLOp/s。

65纳米无源硅中阶层Hedwig配备两个Occamy计算Chiplet,每个芯片都有来自美光的专用16GB HBM2e DRAM和用于芯片间通信的die-to-die接口

在该芯片中,研发人员将名为 Snitch 的小型超高效有序 32 位 RISC-V 整数内核,与通过单指令多数据 (SIMD) 增强的大型多精度 FPU相结合,实现以下 FP 格式的功能:FP64 (11,52)、FP32 (8,23)、FP16 (5,10)、FP16alt (8,7)、FP8 (5,2)、FP8alt (4,3)。 除了标准的 RISC-V 融合乘法累加 (FMA) 指令外,两种 8 位和两种 16 位 FP 格式还具有新的扩展和点积和三加数求和(exsdotp、exvsum 和 vsum ) 指令。

为了在数据并行 FP 工作负载上实现超高效计算,研发人员利用了两个自定义架构扩展:数据可预取寄存器文件条目和重复缓冲区。 相应的 RISC-V ISA 扩展流语义寄存器 (SSR) 和 FP 重复指令 (FREP) 使 Snitch 内核能够为计算绑定内核实现高于 90% 的 FPU 利用率。

据悉该团队还设计了新的扩展,用于提高稀疏数据结构和模版的效率,这些扩展将在不久的将来提供。

每个 Occamy 每颗Chiplet包含超过 216 个 Snitch 内核,这些内核以四个计算集群为一组进行组织。 每个集群在八个计算内核和一个高带宽(512 位)DMA 增强内核之间共享一个紧密耦合的内存,用于编排数据流。 基于 AXI 的宽多级互连和专用 DMA 引擎有助于管理巨大的片上带宽。 支持 CVA6 Linux 的 RISC-V 核心管理所有计算集群和系统外围设备。 每个Chiplet都有一个专用的 16GB 高带宽内存 (HBM2e),并且可以通过 19.5 GB/s 宽、源同步技术独立的die-to-die DDR 链路与相邻的Chiplet进行通信。 

Occamy包括6组4个计算集群,host CVA6,来自Rambus的HBM2e控制器IP,以及一个源同步串行DDR  die-to-die链接

Occamy 是一款用于 AI 和高性能计算工作负载的低功耗芯片,其轻量级的 32 位 CPU 核心更像是一个控制芯片,负责将任务重新路由到 AI 核心。今天的 AI 工作负载在很大程度上依赖于 GPU 和 AI 核心等加速器来进行训练和推理,研究人员希望开源芯片也可以用于太空中的 AI 工作负载。

单个 Occamy 芯片以 1GHz 的频滤运行时功耗是 10 瓦,因此两个芯片加上 HBM 内存会使最终芯片的功耗增加一倍以上。Occamy 的具体功耗没有被透露,据悉团队正在等待合作伙伴Fraunhofer IZM将芯片组装进系统,预计很快就可以收集(和公布)测量到的相关数据。

无心插柳的Chiplet设计

这款 432 核芯片是新旧技术的有趣结合,当下热门的Chiplet设计优点之一是允许在芯片封装内混合和匹配新旧技术,例如模拟或数字处理器,后续还可以在封装中添加其他功能模块,以便在需要时加速某些工作负载。每颗 Occamy 芯片中都有 216 个 RISC-V 内核和用于矩阵计算的 FPU,这颗尺寸72mm2 的小小芯片上总计大约分布了 10 亿晶体管,与英特尔 2011 年制造的四核 Sandy Bridge 芯片大致相同(大三倍)。

苏黎世联邦理工学院Occamy 团队表示,该项目最初是其在 2020 年 Hot Chips 会议上提出的 Manticore 高性能架构概念的偶然成果。在会议之后,GlobalFoundries找到了PULP平台团队,提出了将概念架构转化为真正的硅设计的令人兴奋的建议。

目前的研究原型,用于展示和探索基于 RISC-V 的架构在 2.5D 集成Chiplet系统中的可扩展性、性能和效率。该项目由GlobalFoundries提供技术支持、专家建议、生态系统赋能和流片预算, Rambus提供HBM2e 控制器 IP 和集成支持, Micron提供HBM2e DRAM 供应和集成支持,新思科技(Synopsys)在EDA工具许可以及 Avery在HBM2e DRAM 验证模型上的支持使该项目成为可能。此外合作伙伴们也对该项目给予了资金上的支持。

作为对比,英特尔 Alder Lake 裸片尺寸为 163 mm2。就性能而言,英伟达 A30 GPU 具有 24GB HBM2 显存,可提供 5.2 FP64/10.3 FP64 的 Tensor TFLOPS 以及 330/660 (稀疏性) INT8 TOPS。

欧洲航天局看好的芯片

据公开资料显示,Occamy是 欧洲航天局(ESA) 正在考虑用于航天计算的众多芯片之一。他们制定了一个EuPilot 计划(European PILOT Project),旨在通过创建一套在欧洲设计、实施、制造和部署的自主加速器,交付第一个基于全欧洲开源和开放标准的软件和硬件集成 HPC 系统。 加速器将采用新的欧洲 Global Foundries 先进工艺技术制造,以展示欧洲技术的独立性。

EuPilot计划正在开发本土处理器以减少对专有 x86 和 Arm架构芯片的依赖,也在为超级计算机、人工智能、物联网和自动驾驶汽车开发自主可控芯片。

虽然此前很多报道称Occamy项目是针对太空项目开发的,但根据《电子工程专辑》从苏黎世联邦理工学院Occamy项目团队独家获悉,该团队并未为针对对太空探索等方案来设计这个项目,所以它不是作为EUPilot计划的一部分设计的

不过ESA 对这些芯片很感兴趣,因为它将允许太空中的设备执行片上数据分析。虽然不能保证 ESA 会让该芯片投入太空运行,但它是正在探索用于航天计算的众多处理器之一。美国这边,NASA 也采用了 Microchip 和 SiFive 的 RISC-V 芯片来升级其航天计算机。

据介绍,Occamy 可以在 FPGA 上进行仿真运算,该实现已在两个 AMD Xilinx Virtex UltraScale+ HBM FPGA 和 Virtex UltraScale+ VCU1525 FPGA 上进行了测试。设计 Occamy 芯片的研究人员希望芯片设计能够被采用并被低成本地复用,衍生产品可能会在汽车、航空电子设备和太空中找到合适的应用场景。这些领域需要高性能和极高的能源效率,而RISC-V在这些领域中正迅速获得青睐。据悉该团队也在积极寻找在未来项目中与ESA 合作的方案。

责编:Luffy
阅读全文,请先
您可能感兴趣
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
今年的CadenceLIVE中国用户大会上,Cadence谈到在芯片领域之外,数据中心、生命科学、航空航天等系统设计领域的仿真技术应用相当有限,这对Cadence而言是重要的市场机会。与此同时AI技术的发展,也在推动着市场前行...
对于大多数片上系统(SoC)设计而言,最关键的任务不是RTL编码,甚至不是创建芯片架构。如今,SoC主要是通过组装来自多个供应商的各种硅片知识产权(IP)模块来设计的。这使得管理硅片IP成为设计过程中的主要任务。
英特尔的嵌入式多裸片互连桥(EMIB)技术,旨在解决异构集成多芯片和多芯片(多芯粒)架构日益增长的复杂性,在今年的设计自动化大会(DAC)上掀起了波澜。它提供了先进的IC封装解决方案,包括规划、原型设计和签核,涵盖了2.5D和3D IC等广泛的集成技术。
在苹果A17 Pro芯片率先采用3nm工艺以后,今年底PC处理器也将全面进入3nm时代。聚焦于2025年的显然就是2nm、20A及18A工艺了——半导体尖端制造工艺进入所谓的埃米时代。本文除了谈到埃米级工艺的关键技术点和三大代工厂的工艺计划表,还将探讨埃米时代不同以往的行业特征。
为了确保英国市场的竞争不受影响,CMA将对这一收购事宜进行调查。CMA称,允许相关方提交有关该交易可能对英国竞争产生影响的初步意见。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
‍‍Mobileye 将终止内部激光雷达开发Mobileye 宣布终止用于自动驾驶的激光雷达的开发,并裁员 100 人。Mobileye 认为,下一代 FMCW 激光雷达对可脱眼的自动驾驶来说必要性没
‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
‍‍‍‍上市PCB厂商竞国(6108)日前出售泰国厂给予陆资厂胜宏科技后,近日惊传台湾厂惊传12月前关厂,并对客户发布通知预告客户转移生產,最后出货日期2024年12月25日。至於后续台湾厂400名员
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解