在2020年国际固态电路研讨会(ISSCC)处理器分会现场,首先由AMD的两场演讲(这还是第一次)拉开了序幕。随后三星和联发科就各自最新的5G智能手机芯片分别发表了演讲,还有来自CEA技术公司的研究项目/概念验证(POC)设计、德州仪器(TI)的车用系统级芯片(SoC),以及IBM最新的Z系列大型主机处理器。
由于该会议主要聚焦于电路设计,每家公司仅重点介绍其处理器中一个或多个独特的电路设计特点。
ISSCC是半导体行业历史最悠久的技术会议之一,每年二月举办。参会者都是来自学术界和产业界的专家,大家共同探讨IC电路设计中的最新挑战。
今年的会议涵盖了一系列主题,包括锁相环、低功耗电路、存储器、SerDes、DSP和处理器设计等。特别值得一提的是,几家领先的芯片供应商参与了处理器分会场演讲,当然还有研究机构和学术界的一些研究项目演讲,全部都是围绕高密度芯片的设计。下面是处理器分会场上最有趣的精彩环节。
AMD Zen 2和EPYC chiplet(芯粒)
AMD连续发表了两场演讲 ,首先谈论了其最新EPYC服务器处理器所采用的Zen 2 CPU内核设计,然后探讨了EPYC chiplet(芯粒)架构,AMD采用这种架构将64个CPU内核集成到一个小封装内,而没有造成一个大尺寸的裸片。这种芯粒设计也让AMD能够将三种裸片设计应用于众多产品和市场中。
在Zen 2 现场演示PPT中,AMD演讲者介绍了使用台积电7nm工艺制造第一款x86处理器时所遇到的挑战。EPYC服务器处理器的设计目标是使一颗芯片中的CPU内核数量增加一倍,而且不能超出芯片封装插槽的功耗上限。此外,每个CPU内核的每周期指令执行性能要在SPECint2006基准上提升15%。此前关于Zen2 架构的变化已经有了很多论述。在此次ISSCC的演讲中,AMD着重讨论了电路设计方面的挑战。
AMD的设计非常模块化,其基本单元包括:内含4个CPU内核的CPU模组(CCX)、L2和L3高速缓存,以及Infinity Fabric 系统互连。利用这种4核CPU模组,AMD可以将设计范围从笔记本电脑(4-8核)扩展到服务器(高达64核)。即便增加了更多L3缓存,CCX模组的尺寸还是从上一代的44mm2缩减至Zen 2架构的31.3mm2。
7nm工艺制程设计需要添加更多的金属层。结果,金属层布线规则发生了变化,设计迹线从10.5减少到6条。迹线的减少带来了挑战(高度降低且驱动强度也下降),但又带来了许多好处,比如漏电流降低、每周期电容减少9%,并缩减了裸片尺寸。
AMD采用了多种设计技术,如时钟整形,并采用了五种不同的触发器设计,这对关键的时序环路很重要。为了获得更好的性能,设计人员还将3%的功率预算转移到了组合逻辑上。通过这一系列电路优化设计 ,AMD可以将时钟速率提高到4.7 GHz,并在时钟速率接近原Zen内核时降低了工作电压。
AMD的第二场演讲介绍了针对Zen 2服务器产品做出的chiplet策略改变。AMD获得的主要优势之一是,仅流片三个裸片,就能打造出能够满足多个市场需求的产品。当芯片分散在整个封装中时,使用芯粒还能带来散热的好处。
AMD的目标是将每个插槽的芯片性能大幅提升,其结果是第二代EPYC处理器的CPU内核数量增加了一倍。这使得AMD有望每隔2.5年将性能提升一倍(SPECint 2006)。新的EPYC处理器也改善了内存延迟。由于使用了芯粒架构,AMD得以成功打造出更具竞争力的服务器芯片,若按照以往在单芯片上实现的方法根本是不可行也不经济的,因为它很容易就会超出64内核的上限。
AMD还通过使用更小的芯粒优化了成本结构,提高了裸片良率。AMD将昂贵的7纳米工艺用于内核缓存裸片(CCD),而将DRAM和PCIe逻辑转移到由GlobalFoundries制造的12nm I/O裸片上。每个CCD由两个CCX模组(一个CCX模组包含四个Zen 2内核),以及L2和L3缓存组成,其中86%的CCX专用于CPU和L3缓存。每个CCD就是一个微型SoC,还需要在裸片上集成电源管理、Infinity Fabric系统互连、时钟等。
要满足所有这些要求面临着许多挑战。由于存储控制器集中在一个独立芯片上来控制所有CCX模组,新的EPYC处理器的平均内存延迟得到了优化。但是,最佳情况下的延迟仍然需要脱离CCD来访问内存。结果,AMD的设计重点转向减少Infinity Fabric的延迟,最终最佳情况下的延迟只有4纳秒。
由于AMD决定保持EPYC封装尺寸和引脚不变,因此当裸片数量从第一代EPYC的4个增加到第二代EPYC的9个时,就需要紧密的芯片/封装协同设计。布线路径非常紧密,需要较深的CCD芯粒下的布线信号到达离中心I/O裸片较远的CCD裸片。
ISSCC的其它演讲讨论也涉及了这种电路设计问题,就是在处理器承受重负载时需要补偿内部压降的电路。AMD为此采用了电流分流器,即额外电流,来抑制压降,还可以延长时钟。相同的低压差(LDO)设计能够实现单个内核的线性调节,并根据每个内核的功能调整电压以节省能耗。
概念验证(POC)处理器集成96个内核和一个有源内插器
在此次会议中亮相的还有一款尚未量产的96核处理器芯片,同样也采用了芯粒设计。但区别在于,AMD使用带有专用I/O裸片的多芯片模块,而这颗96核芯片则使用整合I/O逻辑的有源硅内插器(interposer)。
该设计包含6个芯粒,集成了96个内核,其运算能力达到220 GOPS。它由CEA-Leti设计,意法半导体制造。其目的是为了验证双裸片设计的概念,即芯粒和有源内插器(active interposer)。虽然这种设计使用的是同质芯粒,但未来的设计可能使用异质处理单元。与AMD EPYC的设计一样,CEA的目标是,在单个裸片处理能力不足的情况下,添加更多的处理单元。该芯片的一个潜在应用是自动驾驶,这类应用通常需求数百GOPS的处理能力。
采用有源内插器就可以从处理单元中卸载那些能够工作于旧的工艺节点的许多功能模块,其中包括电源管理、内存接口和I/O。对于这种特殊设计,CEA采用带有2D网格的分布式互连。内插器上的互连采用混合设计,即短距离用无源信道,而长距离用有源信道。该设计还使用一种创新的异步QDI逻辑,与片上路由器的异步网络进行通信。
处理单元芯粒采用带有体偏的FDSOI 28nm LPLV制程工艺,而有源内插器则采用65 nm工艺。该芯片使用较老的工艺节点,其目标是展示其自身的设计与制造方式 。芯粒使用传统的标准裸片测试技术进行测试,但只有当所有单元都组装完成后才测试有源内插器。进入量产后,由于会采用更先进的工艺节点,制造流程可能会有所不同。
三星和联发科的7 nm 5G手机芯片
大会展示的两款5G手机SOC分别来自联发科(MediaTek)和三星(Samsung),两者都专注于针对Arm big.LITTLE架构的处理器内核混合设计问题。此外,两者都探讨了处理单元在重负载下的内部压降检测问题。
首先演讲的是三星,他们选择构建一组三集群CPU内核,而非Arm的big.LITTLE提供的双集群架构。在这种三集群架构中,有两个是Arm授权的内核,但性能最高的内核则是由三星自己根据Arm架构许可而设计的,即两个M4内核。双M4内核包含一个单独的3 MB L3高速缓存,对标Intel i5性能级别。
在中等功耗/性能范围内,三星使用Arm Cortex-A75内核。而高效能的“小”内核则是大名鼎鼎的Cortex-A55。三星M4内核与Cortex-A55内核在功耗/性能上的差距太大,因此三星增加了Cortex-A75内核来弥补这一差距。三星还添加了一个具有1024 MAC的神经处理单元,但没有提供更多细节。
压降在高性能处理器中是一个问题。若通过维持高供电电压来增加过多保护带,那么功耗就会比较高。在一个更高效的标称电压下,当某个特别耗电的单元(如运行高分辨率游戏的GPU)处于负载状态时,内部电阻下降会导致内部电压下降到规格要求以下。SOC厂商会设计专用电路来检测这些压降,并采取措施来缓解这个问题。他们的方法是延长时钟以减慢电路运行速度,并通过有效降低时钟速度来降低功耗。三星使用的环形振荡器电路可以根据电压的变化改变速度。振荡器配置一个计数器与阈值进行比较,在时钟管理单元(CMU)中设置一个标志,检测到压降时就使时钟速度减半。
而联发科则采用另一种方法来选择CPU内核,它坚持采用Arm big.LITTLE 方案,联发科称之为双齿轮设计。联发科使用新推出的Cortex-A77 CPU,用作实现较高性能的大核。联发科还指出,Cortex-A55的小核并没有跟上性能核心的发展。他们没有增加中等性能的内核,而是努力将A77的电压范围扩大到更低的速度。三星只有两个性能内核,联发科有四个A77内核。四个A77和四个A55内核共享一个中等大小的2 MB L3缓存。
为解决压降问题,联发科最初的做法是在裸片(电容)上设置一个可以提供瞬时电流的存储电荷,但这样增加了宝贵的裸片尺寸。最终,他们决定采用时钟延伸来节省裸片空间。
联发科的最大改变是选择使用锁频环(FLL),而非锁相环(PLL)。FLL采用双时钟设计,不会丢失时钟周期,但由于其允许振荡器随电压变化,因此设计的确定性较低。借助FLL电路,联发科技能够将最低电压Vmin提高约35mV,从而节省了约10%的功耗。联发科还为该芯片设计了一种新颖的JTAG解决方案,该方案带有一个网关TAP,可对测试电路进行分层访问。
联发科芯片还带有WiFi 6功能,支持5G独立组网模式(SA)和非独立组网模式(NSA)。该CPU芯片总尺寸只有9.4 mm2,内置的Cortex-A77内核可支持高达2.6 GHz的时钟速度。该芯片还配有一个Arm Mali G-77九核GPU。
TI汽车芯片支持ASIL-D标准
TI的处理器是专为汽车应用而设计的。这款芯片属于Jacinto 7 SoC系列,其设计融合了Arm Cortex处理器和TI自家的C71 DSP。在这种设计中,TI在单芯片上创建了多个隔离域,这样芯片的某些部分能够达到ISO26262 ASIL-D的安全要求,而其它部分只要求符合ASIL-B标准。
唤醒域符合ASIL-D标准,带有一个专用Cortex-M处理器,用于引导管理、加密加速、可信执行环境和安全存储等。
MCU域也达到了ASIL-D标准,配有一个Cortex-R处理器。它可以与对安全有严格要求的外围设备进行通信。
主域符合ASIL-B等级,配有Cortex-A处理器和TI的C71x DSP,以及用于音频处理和后向兼容支持的C66 DSP。C71x DSP采用64位、16发射超长指令集(VLIW)结构,可以支持4240个整数MAC/周期(8位)。TI为ADAS视觉传感器增加了许多视觉预处理功能,以增强传感器数据处理能力。此外,TI还增加了一个深度和运动感知加速器(DMPA),用于判断2D物体的运动,并在两幅图像之间建立矢量场。这些信息可用于评估物体穿过车辆路径的可能性。
IBM Z系列大型机处理器集成更多内核
IBM久负盛名的大型计算机还在不断进化。其最新的Z15处理器包括12个内核,无需热气管即可达到5.2 GHz的时钟速度,因为IBM使用水冷技术来应对高功耗。当别家的处理器已经转向7nm制程时,IBM却继续使用GlobalFoundries 久经考验的14nm工艺,因为需要嵌入式DRAM(eDRAM)。IBM Power和Z系列处理器都依赖eDRAM在芯片上配置大容量缓存,但GlobalFoundries的14nm制程将是eDRAM扩展道路的终结。
尽管与前代产品处于同一工艺节点,但Z15设计者却在同一裸片区域内增加了两个额外的CPU内核,并将单线程性能提高了10%。缩小内核的大部分工作都依赖于更紧凑的电路设计。为进一步缩减裸片面积,他们从芯片上移除了调压器,并重新设计了eDRAM以提高密度。
除了添加了两个额外CPU内核之外,设计人员还增加了一个密码加速器和排序/归并加速器。芯片的最终面积是696mm2,与其前代产品基本一样。保持相似的裸片尺寸减少了热设计和机械设计的重新设计工作。
由于时间的限制,每场演讲只能涵盖芯片设计的几个要点。但是,此次会议让我们直观地体会到,以最低功耗达到最高性能的设计权衡事实上极其复杂。同时,我们还可以看出,随着新工艺节点的优势减弱(尤其是在成本方面),芯片设计的重心正转向架构强化和更高级的电路设计。
(参考原文:ISSCC 2020: Chiplets, 5G, and Automotive Processors)
责编:Amy Guan
本文为《电子工程专辑》2020年4月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅