ISSCC是半导体行业历史最悠久的技术会议之一,今年的会议涵盖了一系列主题,包括锁相环、低功耗电路、存储器、SerDes、DSP和处理器设计等,几家领先的芯片供应商参与了处理器分会场演讲,全部都是围绕高密度芯片的设计。

在2020年国际固态电路研讨会(ISSCC)处理器分会现场,首先由AMD的两场演讲(这还是第一次)拉开了序幕。随后三星和联发科就各自最新的5G智能手机芯片分别发表了演讲,还有来自CEA技术公司的研究项目/概念验证(POC)设计、德州仪器(TI)的车用系统级芯片(SoC),以及IBM最新的Z系列大型主机处理器。

由于该会议主要聚焦于电路设计,每家公司仅重点介绍其处理器中一个或多个独特的电路设计特点。

ISSCC是半导体行业历史最悠久的技术会议之一,每年二月举办。参会者都是来自学术界和产业界的专家,大家共同探讨IC电路设计中的最新挑战。

今年的会议涵盖了一系列主题,包括锁相环、低功耗电路、存储器、SerDes、DSP和处理器设计等。特别值得一提的是,几家领先的芯片供应商参与了处理器分会场演讲,当然还有研究机构和学术界的一些研究项目演讲,全部都是围绕高密度芯片的设计。下面是处理器分会场上最有趣的精彩环节。

AMD Zen 2和EPYC chiplet(芯粒)

AMD连续发表了两场演讲 ,首先谈论了其最新EPYC服务器处理器所采用的Zen 2 CPU内核设计,然后探讨了EPYC chiplet(芯粒)架构,AMD采用这种架构将64个CPU内核集成到一个小封装内,而没有造成一个大尺寸的裸片。这种芯粒设计也让AMD能够将三种裸片设计应用于众多产品和市场中。

在Zen 2 现场演示PPT中,AMD演讲者介绍了使用台积电7nm工艺制造第一款x86处理器时所遇到的挑战。EPYC服务器处理器的设计目标是使一颗芯片中的CPU内核数量增加一倍,而且不能超出芯片封装插槽的功耗上限。此外,每个CPU内核的每周期指令执行性能要在SPECint2006基准上提升15%。此前关于Zen2 架构的变化已经有了很多论述。在此次ISSCC的演讲中,AMD着重讨论了电路设计方面的挑战。

AMD的设计非常模块化,其基本单元包括:内含4个CPU内核的CPU模组(CCX)、L2和L3高速缓存,以及Infinity Fabric 系统互连。利用这种4核CPU模组,AMD可以将设计范围从笔记本电脑(4-8核)扩展到服务器(高达64核)。即便增加了更多L3缓存,CCX模组的尺寸还是从上一代的44mm2缩减至Zen 2架构的31.3mm2。

7nm工艺制程设计需要添加更多的金属层。结果,金属层布线规则发生了变化,设计迹线从10.5减少到6条。迹线的减少带来了挑战(高度降低且驱动强度也下降),但又带来了许多好处,比如漏电流降低、每周期电容减少9%,并缩减了裸片尺寸。

AMD采用了多种设计技术,如时钟整形,并采用了五种不同的触发器设计,这对关键的时序环路很重要。为了获得更好的性能,设计人员还将3%的功率预算转移到了组合逻辑上。通过这一系列电路优化设计 ,AMD可以将时钟速率提高到4.7 GHz,并在时钟速率接近原Zen内核时降低了工作电压。

AMD的第二场演讲介绍了针对Zen 2服务器产品做出的chiplet策略改变。AMD获得的主要优势之一是,仅流片三个裸片,就能打造出能够满足多个市场需求的产品。当芯片分散在整个封装中时,使用芯粒还能带来散热的好处。

AMD的目标是将每个插槽的芯片性能大幅提升,其结果是第二代EPYC处理器的CPU内核数量增加了一倍。这使得AMD有望每隔2.5年将性能提升一倍(SPECint 2006)。新的EPYC处理器也改善了内存延迟。由于使用了芯粒架构,AMD得以成功打造出更具竞争力的服务器芯片,若按照以往在单芯片上实现的方法根本是不可行也不经济的,因为它很容易就会超出64内核的上限。

AMD还通过使用更小的芯粒优化了成本结构,提高了裸片良率。AMD将昂贵的7纳米工艺用于内核缓存裸片(CCD),而将DRAM和PCIe逻辑转移到由GlobalFoundries制造的12nm I/O裸片上。每个CCD由两个CCX模组(一个CCX模组包含四个Zen 2内核),以及L2和L3缓存组成,其中86%的CCX专用于CPU和L3缓存。每个CCD就是一个微型SoC,还需要在裸片上集成电源管理、Infinity Fabric系统互连、时钟等。

要满足所有这些要求面临着许多挑战。由于存储控制器集中在一个独立芯片上来控制所有CCX模组,新的EPYC处理器的平均内存延迟得到了优化。但是,最佳情况下的延迟仍然需要脱离CCD来访问内存。结果,AMD的设计重点转向减少Infinity Fabric的延迟,最终最佳情况下的延迟只有4纳秒。

由于AMD决定保持EPYC封装尺寸和引脚不变,因此当裸片数量从第一代EPYC的4个增加到第二代EPYC的9个时,就需要紧密的芯片/封装协同设计。布线路径非常紧密,需要较深的CCD芯粒下的布线信号到达离中心I/O裸片较远的CCD裸片。

ISSCC的其它演讲讨论也涉及了这种电路设计问题,就是在处理器承受重负载时需要补偿内部压降的电路。AMD为此采用了电流分流器,即额外电流,来抑制压降,还可以延长时钟。相同的低压差(LDO)设计能够实现单个内核的线性调节,并根据每个内核的功能调整电压以节省能耗。

概念验证(POC)处理器集成96个内核和一个有源内插器

在此次会议中亮相的还有一款尚未量产的96核处理器芯片,同样也采用了芯粒设计。但区别在于,AMD使用带有专用I/O裸片的多芯片模块,而这颗96核芯片则使用整合I/O逻辑的有源硅内插器(interposer)。

该设计包含6个芯粒,集成了96个内核,其运算能力达到220 GOPS。它由CEA-Leti设计,意法半导体制造。其目的是为了验证双裸片设计的概念,即芯粒和有源内插器(active interposer)。虽然这种设计使用的是同质芯粒,但未来的设计可能使用异质处理单元。与AMD EPYC的设计一样,CEA的目标是,在单个裸片处理能力不足的情况下,添加更多的处理单元。该芯片的一个潜在应用是自动驾驶,这类应用通常需求数百GOPS的处理能力。

采用有源内插器就可以从处理单元中卸载那些能够工作于旧的工艺节点的许多功能模块,其中包括电源管理、内存接口和I/O。对于这种特殊设计,CEA采用带有2D网格的分布式互连。内插器上的互连采用混合设计,即短距离用无源信道,而长距离用有源信道。该设计还使用一种创新的异步QDI逻辑,与片上路由器的异步网络进行通信。

处理单元芯粒采用带有体偏的FDSOI 28nm LPLV制程工艺,而有源内插器则采用65 nm工艺。该芯片使用较老的工艺节点,其目标是展示其自身的设计与制造方式 。芯粒使用传统的标准裸片测试技术进行测试,但只有当所有单元都组装完成后才测试有源内插器。进入量产后,由于会采用更先进的工艺节点,制造流程可能会有所不同。

三星和联发科的7 nm 5G手机芯片

大会展示的两款5G手机SOC分别来自联发科(MediaTek)和三星(Samsung),两者都专注于针对Arm big.LITTLE架构的处理器内核混合设计问题。此外,两者都探讨了处理单元在重负载下的内部压降检测问题。

首先演讲的是三星,他们选择构建一组三集群CPU内核,而非Arm的big.LITTLE提供的双集群架构。在这种三集群架构中,有两个是Arm授权的内核,但性能最高的内核则是由三星自己根据Arm架构许可而设计的,即两个M4内核。双M4内核包含一个单独的3 MB L3高速缓存,对标Intel i5性能级别。

在中等功耗/性能范围内,三星使用Arm Cortex-A75内核。而高效能的“小”内核则是大名鼎鼎的Cortex-A55。三星M4内核与Cortex-A55内核在功耗/性能上的差距太大,因此三星增加了Cortex-A75内核来弥补这一差距。三星还添加了一个具有1024 MAC的神经处理单元,但没有提供更多细节。

压降在高性能处理器中是一个问题。若通过维持高供电电压来增加过多保护带,那么功耗就会比较高。在一个更高效的标称电压下,当某个特别耗电的单元(如运行高分辨率游戏的GPU)处于负载状态时,内部电阻下降会导致内部电压下降到规格要求以下。SOC厂商会设计专用电路来检测这些压降,并采取措施来缓解这个问题。他们的方法是延长时钟以减慢电路运行速度,并通过有效降低时钟速度来降低功耗。三星使用的环形振荡器电路可以根据电压的变化改变速度。振荡器配置一个计数器与阈值进行比较,在时钟管理单元(CMU)中设置一个标志,检测到压降时就使时钟速度减半。

而联发科则采用另一种方法来选择CPU内核,它坚持采用Arm big.LITTLE 方案,联发科称之为双齿轮设计。联发科使用新推出的Cortex-A77 CPU,用作实现较高性能的大核。联发科还指出,Cortex-A55的小核并没有跟上性能核心的发展。他们没有增加中等性能的内核,而是努力将A77的电压范围扩大到更低的速度。三星只有两个性能内核,联发科有四个A77内核。四个A77和四个A55内核共享一个中等大小的2 MB L3缓存。

为解决压降问题,联发科最初的做法是在裸片(电容)上设置一个可以提供瞬时电流的存储电荷,但这样增加了宝贵的裸片尺寸。最终,他们决定采用时钟延伸来节省裸片空间。

联发科的最大改变是选择使用锁频环(FLL),而非锁相环(PLL)。FLL采用双时钟设计,不会丢失时钟周期,但由于其允许振荡器随电压变化,因此设计的确定性较低。借助FLL电路,联发科技能够将最低电压Vmin提高约35mV,从而节省了约10%的功耗。联发科还为该芯片设计了一种新颖的JTAG解决方案,该方案带有一个网关TAP,可对测试电路进行分层访问。

联发科芯片还带有WiFi 6功能,支持5G独立组网模式(SA)和非独立组网模式(NSA)。该CPU芯片总尺寸只有9.4 mm2,内置的Cortex-A77内核可支持高达2.6 GHz的时钟速度。该芯片还配有一个Arm Mali G-77九核GPU。

TI汽车芯片支持ASIL-D标准

TI的处理器是专为汽车应用而设计的。这款芯片属于Jacinto 7 SoC系列,其设计融合了Arm Cortex处理器和TI自家的C71 DSP。在这种设计中,TI在单芯片上创建了多个隔离域,这样芯片的某些部分能够达到ISO26262 ASIL-D的安全要求,而其它部分只要求符合ASIL-B标准。

唤醒域符合ASIL-D标准,带有一个专用Cortex-M处理器,用于引导管理、加密加速、可信执行环境和安全存储等。

MCU域也达到了ASIL-D标准,配有一个Cortex-R处理器。它可以与对安全有严格要求的外围设备进行通信。

主域符合ASIL-B等级,配有Cortex-A处理器和TI的C71x DSP,以及用于音频处理和后向兼容支持的C66 DSP。C71x DSP采用64位、16发射超长指令集(VLIW)结构,可以支持4240个整数MAC/周期(8位)。TI为ADAS视觉传感器增加了许多视觉预处理功能,以增强传感器数据处理能力。此外,TI还增加了一个深度和运动感知加速器(DMPA),用于判断2D物体的运动,并在两幅图像之间建立矢量场。这些信息可用于评估物体穿过车辆路径的可能性。

IBM Z系列大型机处理器集成更多内核

IBM久负盛名的大型计算机还在不断进化。其最新的Z15处理器包括12个内核,无需热气管即可达到5.2 GHz的时钟速度,因为IBM使用水冷技术来应对高功耗。当别家的处理器已经转向7nm制程时,IBM却继续使用GlobalFoundries 久经考验的14nm工艺,因为需要嵌入式DRAM(eDRAM)。IBM Power和Z系列处理器都依赖eDRAM在芯片上配置大容量缓存,但GlobalFoundries的14nm制程将是eDRAM扩展道路的终结。

尽管与前代产品处于同一工艺节点,但Z15设计者却在同一裸片区域内增加了两个额外的CPU内核,并将单线程性能提高了10%。缩小内核的大部分工作都依赖于更紧凑的电路设计。为进一步缩减裸片面积,他们从芯片上移除了调压器,并重新设计了eDRAM以提高密度。

除了添加了两个额外CPU内核之外,设计人员还增加了一个密码加速器和排序/归并加速器。芯片的最终面积是696mm2,与其前代产品基本一样。保持相似的裸片尺寸减少了热设计和机械设计的重新设计工作。

由于时间的限制,每场演讲只能涵盖芯片设计的几个要点。但是,此次会议让我们直观地体会到,以最低功耗达到最高性能的设计权衡事实上极其复杂。同时,我们还可以看出,随着新工艺节点的优势减弱(尤其是在成本方面),芯片设计的重心正转向架构强化和更高级的电路设计。

(参考原文:ISSCC 2020: Chiplets, 5G, and Automotive Processors)

责编:Amy Guan

本文为《电子工程专辑》2020年4月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

阅读全文,请先
您可能感兴趣
谷歌宣布向人工智能初创公司Anthropic追加投资超过10亿美元,进一步巩固其在人工智能领域的竞争力。Anthropic的估值因谷歌的持续投资而水涨船高。该公司估值已达到约600亿美元......
SK海力士今日发布截至2024年12月31日的2024财年及第四季度财务报告,创下了有史以来最佳年度业绩。
特朗普提出的“星际之门”项目,旨在通过OpenAI、软银集团和甲骨文公司三方合作,推动美国人工智能技术的发展,并计划在未来四年内投入至少5000亿美元用于建设相关基础设施......
工业和信息化部副部长张云明用“稳中有进、创新突破、数字赋能、助企强企” 4个关键词阐述了2024年中国工业和信息化发展情况。
三星上代 1b nm 内存于 2022 年 10 月完成开发、2023 年 5 月量产,若按新计划,1c DRAM 开发结束时间定于 2025 年中,量产则可能延后到 2025 年底……
我国在量子精密测量领域取得了重大突破,由南方电网公司牵头研发的全球首套±800kV特高压直流量子电流传感器顺利通过了新产品技术鉴定,我国在量子技术应用方面迈出了重要一步......
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
NAND闪存过剩情况下,势必让SSD等存储价格下滑,所以大厂们也开始行动了。据国外媒体报道称,由于NAND闪存持续供过于求,相应市场面临严峻挑战,除了企业级SSD有动能支撑外,其他终端产品销量均普遍不
Arteris 是领先的系统 IP 提供商,致力于加速当今电子系统中的系统级芯片(SoC)开发。Arteris 的片上网络(NoC)互连 IP 和 SoC 集成自动化技术可实现更高的产品性能、更低的功
1月24日消息,虽然美国在半导体芯片领域对中国厂商各种打压,但现实结果是他们并没有成功。海关总署数据显示,2024年我国集成电路出口1594.99亿美元(约11350亿人民币),一举超过手机的1343
等效电阻ESR是晶体在等效电路中的总电阻。谐振电阻RR是晶振本身的电阻值。大小取决于晶体的内部摩擦、电极、支架等机械振动时的损失,以及周围环境条件等的影响损失。谐振电阻较大或者较小对电路有不同的影响。
上周SemiAccurate 曾报道称,一家神秘公司正在探索全面收购英特尔的可能性。表示有 90% 的把握认为有关英特尔被收购的消息是“真实的”,已从另一位“地位很高的消息人士”处获得了证实。虽然没有
宇树机器狗今年的 CES 展上,机器人无疑是一大焦点。清洁机器人、工业机器人、医疗机器人、陪伴机器人等引人注目,各大科技公司纷纷展示了机器人在不同场景下的巨大应用潜力。然而,尽管过去几年在大语言模型和
据晚点 Auto消息,近日,比亚迪汽车新技术研究院院长、比亚迪智驾总负责人杨冬生在技术院内部,谈了他对于技术研发、管理、制度等话题的看法,并提出了新的工作要求或者方向。他表示:“一个产品的先进和成功是
昨天的时钟音箱的拆解文章:拆解时钟蓝牙插卡音箱-用单个LED直接代替数码管是个非常不错的降本设计思路我给电路板提了个建议,就是说上面2个2P排座,一个插电池,一个插喇叭的排座没必要区分红白色,就一种颜
据外媒SAMMY FANS报道,三星电子计划在2025年推出四款创新的折叠屏手机,进一步拓展其折叠屏产品系列,包括首款三折叠机型。           据悉,三星将继续更新其Flip和Fold两大折叠
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇TI(德州仪器)于1月23日(当地时间)公布了 20