ISSCC是半导体行业历史最悠久的技术会议之一,今年的会议涵盖了一系列主题,包括锁相环、低功耗电路、存储器、SerDes、DSP和处理器设计等,几家领先的芯片供应商参与了处理器分会场演讲,全部都是围绕高密度芯片的设计。

在2020年国际固态电路研讨会(ISSCC)处理器分会现场,首先由AMD的两场演讲(这还是第一次)拉开了序幕。随后三星和联发科就各自最新的5G智能手机芯片分别发表了演讲,还有来自CEA技术公司的研究项目/概念验证(POC)设计、德州仪器(TI)的车用系统级芯片(SoC),以及IBM最新的Z系列大型主机处理器。

由于该会议主要聚焦于电路设计,每家公司仅重点介绍其处理器中一个或多个独特的电路设计特点。

ISSCC是半导体行业历史最悠久的技术会议之一,每年二月举办。参会者都是来自学术界和产业界的专家,大家共同探讨IC电路设计中的最新挑战。

今年的会议涵盖了一系列主题,包括锁相环、低功耗电路、存储器、SerDes、DSP和处理器设计等。特别值得一提的是,几家领先的芯片供应商参与了处理器分会场演讲,当然还有研究机构和学术界的一些研究项目演讲,全部都是围绕高密度芯片的设计。下面是处理器分会场上最有趣的精彩环节。

AMD Zen 2和EPYC chiplet(芯粒)

AMD连续发表了两场演讲 ,首先谈论了其最新EPYC服务器处理器所采用的Zen 2 CPU内核设计,然后探讨了EPYC chiplet(芯粒)架构,AMD采用这种架构将64个CPU内核集成到一个小封装内,而没有造成一个大尺寸的裸片。这种芯粒设计也让AMD能够将三种裸片设计应用于众多产品和市场中。

在Zen 2 现场演示PPT中,AMD演讲者介绍了使用台积电7nm工艺制造第一款x86处理器时所遇到的挑战。EPYC服务器处理器的设计目标是使一颗芯片中的CPU内核数量增加一倍,而且不能超出芯片封装插槽的功耗上限。此外,每个CPU内核的每周期指令执行性能要在SPECint2006基准上提升15%。此前关于Zen2 架构的变化已经有了很多论述。在此次ISSCC的演讲中,AMD着重讨论了电路设计方面的挑战。

AMD的设计非常模块化,其基本单元包括:内含4个CPU内核的CPU模组(CCX)、L2和L3高速缓存,以及Infinity Fabric 系统互连。利用这种4核CPU模组,AMD可以将设计范围从笔记本电脑(4-8核)扩展到服务器(高达64核)。即便增加了更多L3缓存,CCX模组的尺寸还是从上一代的44mm2缩减至Zen 2架构的31.3mm2。

7nm工艺制程设计需要添加更多的金属层。结果,金属层布线规则发生了变化,设计迹线从10.5减少到6条。迹线的减少带来了挑战(高度降低且驱动强度也下降),但又带来了许多好处,比如漏电流降低、每周期电容减少9%,并缩减了裸片尺寸。

AMD采用了多种设计技术,如时钟整形,并采用了五种不同的触发器设计,这对关键的时序环路很重要。为了获得更好的性能,设计人员还将3%的功率预算转移到了组合逻辑上。通过这一系列电路优化设计 ,AMD可以将时钟速率提高到4.7 GHz,并在时钟速率接近原Zen内核时降低了工作电压。

AMD的第二场演讲介绍了针对Zen 2服务器产品做出的chiplet策略改变。AMD获得的主要优势之一是,仅流片三个裸片,就能打造出能够满足多个市场需求的产品。当芯片分散在整个封装中时,使用芯粒还能带来散热的好处。

AMD的目标是将每个插槽的芯片性能大幅提升,其结果是第二代EPYC处理器的CPU内核数量增加了一倍。这使得AMD有望每隔2.5年将性能提升一倍(SPECint 2006)。新的EPYC处理器也改善了内存延迟。由于使用了芯粒架构,AMD得以成功打造出更具竞争力的服务器芯片,若按照以往在单芯片上实现的方法根本是不可行也不经济的,因为它很容易就会超出64内核的上限。

AMD还通过使用更小的芯粒优化了成本结构,提高了裸片良率。AMD将昂贵的7纳米工艺用于内核缓存裸片(CCD),而将DRAM和PCIe逻辑转移到由GlobalFoundries制造的12nm I/O裸片上。每个CCD由两个CCX模组(一个CCX模组包含四个Zen 2内核),以及L2和L3缓存组成,其中86%的CCX专用于CPU和L3缓存。每个CCD就是一个微型SoC,还需要在裸片上集成电源管理、Infinity Fabric系统互连、时钟等。

要满足所有这些要求面临着许多挑战。由于存储控制器集中在一个独立芯片上来控制所有CCX模组,新的EPYC处理器的平均内存延迟得到了优化。但是,最佳情况下的延迟仍然需要脱离CCD来访问内存。结果,AMD的设计重点转向减少Infinity Fabric的延迟,最终最佳情况下的延迟只有4纳秒。

由于AMD决定保持EPYC封装尺寸和引脚不变,因此当裸片数量从第一代EPYC的4个增加到第二代EPYC的9个时,就需要紧密的芯片/封装协同设计。布线路径非常紧密,需要较深的CCD芯粒下的布线信号到达离中心I/O裸片较远的CCD裸片。

ISSCC的其它演讲讨论也涉及了这种电路设计问题,就是在处理器承受重负载时需要补偿内部压降的电路。AMD为此采用了电流分流器,即额外电流,来抑制压降,还可以延长时钟。相同的低压差(LDO)设计能够实现单个内核的线性调节,并根据每个内核的功能调整电压以节省能耗。

概念验证(POC)处理器集成96个内核和一个有源内插器

在此次会议中亮相的还有一款尚未量产的96核处理器芯片,同样也采用了芯粒设计。但区别在于,AMD使用带有专用I/O裸片的多芯片模块,而这颗96核芯片则使用整合I/O逻辑的有源硅内插器(interposer)。

该设计包含6个芯粒,集成了96个内核,其运算能力达到220 GOPS。它由CEA-Leti设计,意法半导体制造。其目的是为了验证双裸片设计的概念,即芯粒和有源内插器(active interposer)。虽然这种设计使用的是同质芯粒,但未来的设计可能使用异质处理单元。与AMD EPYC的设计一样,CEA的目标是,在单个裸片处理能力不足的情况下,添加更多的处理单元。该芯片的一个潜在应用是自动驾驶,这类应用通常需求数百GOPS的处理能力。

采用有源内插器就可以从处理单元中卸载那些能够工作于旧的工艺节点的许多功能模块,其中包括电源管理、内存接口和I/O。对于这种特殊设计,CEA采用带有2D网格的分布式互连。内插器上的互连采用混合设计,即短距离用无源信道,而长距离用有源信道。该设计还使用一种创新的异步QDI逻辑,与片上路由器的异步网络进行通信。

处理单元芯粒采用带有体偏的FDSOI 28nm LPLV制程工艺,而有源内插器则采用65 nm工艺。该芯片使用较老的工艺节点,其目标是展示其自身的设计与制造方式 。芯粒使用传统的标准裸片测试技术进行测试,但只有当所有单元都组装完成后才测试有源内插器。进入量产后,由于会采用更先进的工艺节点,制造流程可能会有所不同。

三星和联发科的7 nm 5G手机芯片

大会展示的两款5G手机SOC分别来自联发科(MediaTek)和三星(Samsung),两者都专注于针对Arm big.LITTLE架构的处理器内核混合设计问题。此外,两者都探讨了处理单元在重负载下的内部压降检测问题。

首先演讲的是三星,他们选择构建一组三集群CPU内核,而非Arm的big.LITTLE提供的双集群架构。在这种三集群架构中,有两个是Arm授权的内核,但性能最高的内核则是由三星自己根据Arm架构许可而设计的,即两个M4内核。双M4内核包含一个单独的3 MB L3高速缓存,对标Intel i5性能级别。

在中等功耗/性能范围内,三星使用Arm Cortex-A75内核。而高效能的“小”内核则是大名鼎鼎的Cortex-A55。三星M4内核与Cortex-A55内核在功耗/性能上的差距太大,因此三星增加了Cortex-A75内核来弥补这一差距。三星还添加了一个具有1024 MAC的神经处理单元,但没有提供更多细节。

压降在高性能处理器中是一个问题。若通过维持高供电电压来增加过多保护带,那么功耗就会比较高。在一个更高效的标称电压下,当某个特别耗电的单元(如运行高分辨率游戏的GPU)处于负载状态时,内部电阻下降会导致内部电压下降到规格要求以下。SOC厂商会设计专用电路来检测这些压降,并采取措施来缓解这个问题。他们的方法是延长时钟以减慢电路运行速度,并通过有效降低时钟速度来降低功耗。三星使用的环形振荡器电路可以根据电压的变化改变速度。振荡器配置一个计数器与阈值进行比较,在时钟管理单元(CMU)中设置一个标志,检测到压降时就使时钟速度减半。

而联发科则采用另一种方法来选择CPU内核,它坚持采用Arm big.LITTLE 方案,联发科称之为双齿轮设计。联发科使用新推出的Cortex-A77 CPU,用作实现较高性能的大核。联发科还指出,Cortex-A55的小核并没有跟上性能核心的发展。他们没有增加中等性能的内核,而是努力将A77的电压范围扩大到更低的速度。三星只有两个性能内核,联发科有四个A77内核。四个A77和四个A55内核共享一个中等大小的2 MB L3缓存。

为解决压降问题,联发科最初的做法是在裸片(电容)上设置一个可以提供瞬时电流的存储电荷,但这样增加了宝贵的裸片尺寸。最终,他们决定采用时钟延伸来节省裸片空间。

联发科的最大改变是选择使用锁频环(FLL),而非锁相环(PLL)。FLL采用双时钟设计,不会丢失时钟周期,但由于其允许振荡器随电压变化,因此设计的确定性较低。借助FLL电路,联发科技能够将最低电压Vmin提高约35mV,从而节省了约10%的功耗。联发科还为该芯片设计了一种新颖的JTAG解决方案,该方案带有一个网关TAP,可对测试电路进行分层访问。

联发科芯片还带有WiFi 6功能,支持5G独立组网模式(SA)和非独立组网模式(NSA)。该CPU芯片总尺寸只有9.4 mm2,内置的Cortex-A77内核可支持高达2.6 GHz的时钟速度。该芯片还配有一个Arm Mali G-77九核GPU。

TI汽车芯片支持ASIL-D标准

TI的处理器是专为汽车应用而设计的。这款芯片属于Jacinto 7 SoC系列,其设计融合了Arm Cortex处理器和TI自家的C71 DSP。在这种设计中,TI在单芯片上创建了多个隔离域,这样芯片的某些部分能够达到ISO26262 ASIL-D的安全要求,而其它部分只要求符合ASIL-B标准。

唤醒域符合ASIL-D标准,带有一个专用Cortex-M处理器,用于引导管理、加密加速、可信执行环境和安全存储等。

MCU域也达到了ASIL-D标准,配有一个Cortex-R处理器。它可以与对安全有严格要求的外围设备进行通信。

主域符合ASIL-B等级,配有Cortex-A处理器和TI的C71x DSP,以及用于音频处理和后向兼容支持的C66 DSP。C71x DSP采用64位、16发射超长指令集(VLIW)结构,可以支持4240个整数MAC/周期(8位)。TI为ADAS视觉传感器增加了许多视觉预处理功能,以增强传感器数据处理能力。此外,TI还增加了一个深度和运动感知加速器(DMPA),用于判断2D物体的运动,并在两幅图像之间建立矢量场。这些信息可用于评估物体穿过车辆路径的可能性。

IBM Z系列大型机处理器集成更多内核

IBM久负盛名的大型计算机还在不断进化。其最新的Z15处理器包括12个内核,无需热气管即可达到5.2 GHz的时钟速度,因为IBM使用水冷技术来应对高功耗。当别家的处理器已经转向7nm制程时,IBM却继续使用GlobalFoundries 久经考验的14nm工艺,因为需要嵌入式DRAM(eDRAM)。IBM Power和Z系列处理器都依赖eDRAM在芯片上配置大容量缓存,但GlobalFoundries的14nm制程将是eDRAM扩展道路的终结。

尽管与前代产品处于同一工艺节点,但Z15设计者却在同一裸片区域内增加了两个额外的CPU内核,并将单线程性能提高了10%。缩小内核的大部分工作都依赖于更紧凑的电路设计。为进一步缩减裸片面积,他们从芯片上移除了调压器,并重新设计了eDRAM以提高密度。

除了添加了两个额外CPU内核之外,设计人员还增加了一个密码加速器和排序/归并加速器。芯片的最终面积是696mm2,与其前代产品基本一样。保持相似的裸片尺寸减少了热设计和机械设计的重新设计工作。

由于时间的限制,每场演讲只能涵盖芯片设计的几个要点。但是,此次会议让我们直观地体会到,以最低功耗达到最高性能的设计权衡事实上极其复杂。同时,我们还可以看出,随着新工艺节点的优势减弱(尤其是在成本方面),芯片设计的重心正转向架构强化和更高级的电路设计。

(参考原文:ISSCC 2020: Chiplets, 5G, and Automotive Processors)

责编:Amy Guan

本文为《电子工程专辑》2020年4月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

阅读全文,请先
您可能感兴趣
随着这一项目的投产,特斯拉在全球范围内的储能业务将进一步扩展,有助于满足全球市场对清洁能源存储解决方案日益增长的需求。
自研AI芯片计划是OpenAI在硬件领域的一次重要战略调整。如果此次试产过程顺利进行,OpenAI将能够量产其首款自研AI芯片,并可能在今年晚些时候测试英伟达AI芯片的替代品。
AMD股价暴跌成为市场关注的焦点,在2月5日盘后交易中一度暴跌超过10%,市值蒸发约200亿美元,创下自2023年以来的最大单日跌幅。在同一时间段内,AMD的主要竞争对手英伟达的股价大幅上涨,涨幅高达160%......
2024年全年,小米市值增加4440亿人民币,比亚迪市值增加2459亿人民币……
在成本方面,使用特定水平AI的成本每12个月下降约10倍,较低的价格会促进更多使用。从2023年初的GPT-4到2024年中期的GPT-4o,每个token的价格下降了约150倍。
2024 年,全球半导体市场迎来了历史性的增长。销售额首次突破 6000 亿美元,达到 6276 亿美元(约 4.58 万亿元人民币)……
全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
简化物联网连接:应用就绪型软件构建模块
据业内人士2月11日透露,三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是,每周平均工作超过52小时的员工可获得三天带薪休假,每周工作超过60小时的员工可获得六天带薪休假。上个月,三星显示
在当今竞争激烈的商业环境中,企业运营效率的高低往往决定了其在市场中的地位和生存能力。而信息化系统的应用,正逐渐成为企业提升运营效率的关键因素。众所周知,信息化系统能够实时监控企业生产、销售等各个环节的
会议时间:2025年3月13日 13:15--16:35会议地点:无锡富力喜来登酒店 • 三楼齐厅会议地址:无锡市滨湖区梁溪路49号会议介绍物联网作为新一代信息技术高度集成和综合运用的载体,在日常生产
2月10日盘后,光峰科技发布公告,于近日收到某知名车企出具的开发定点通知书,将为其旗下新时代科技品牌的SUV车型供应智能座舱显示产品,预计2025年内量产供货。光峰科技认为,随着消费者对智能座舱需求的
周一,埃隆·马斯克与一群投资者提出以974亿美元收购ChatGPT开发商OpenAI,这一金额远低于这家人工智能公司最近1570亿美元的估值。OpenAI首席执行官萨姆·奥特曼在X平台上发文,立即拒绝
现货促销让采购/更简单/更高效为了更好地帮助大家采购芯片,实现供需资源的无缝对接。AMEYA360决定开启【现货促销】专栏,通过AMEYA360微信公众号,每天推送原厂现货促销物料,助力广大用户制定更
恩智浦 NXP 荷兰当地时间昨日宣布已同边缘 NPU 企业 Kinara 达成最终协议,计划以 3.07 亿美元现金收购后者。这笔交易预计将于 2025 上半年完成,但须满足包括监管部门批准在内的惯例
  电子无尘车间在设计时需要重视多个问题,以确保生产环境的洁净度、生产效率和安全性。以下是需要重视的设计问题,具体随合洁科技电子洁净工程公司一起来了解下吧! &emsp
 △广告 与正文无关 近日,南浔区举行项目签约仪式,晶洲长三角TGV玻璃基板半导体工艺装备研发及产业化项目、玻璃基板PVD镀膜设备研发及生产项目签约落户南浔。据悉,苏州晶洲装备科技有限公司是目前国内唯
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇2月15日,芯片超人开年首场芯片大会,2025年AI