从GenAI到HPC,Multi-Die系统如何满足现代计算需求?

原创 新思科技 2024-12-18 17:46


从赋能聊天机器人快速生成回答的生成式人工智能工具,到支持金融预测和天气建模的高性能计算(HPC)应用,我们对处理能力的需求显然达到了新的高度。面对这些计算密集型工作负载,单片SoC已不再能够满足当今的处理需求。为此,我们不断创新工程技术,Multi-Die系统也应运而生。这种在单一封装中实现异构集成的技术突破,不仅带来了更优越的系统功耗和性能,还提高了产品良率,加速了更多系统功能的整合。


Multi-Die系统承担着如此重要的角色,那开发者又该如何确保它们在整个生命周期内稳健可靠呢?


芯片测试对于任何芯片设计而言都至关重要。Multi-Die系统更是如此,需要对裸片到系统级执行全面测试,其中包括将各组件连接在一起的所有互连技术,例如通用芯粒互连技术(UCIe)。在这篇文章中,我们将深入探讨Multi-Die系统的独特问题,以及如何通过测试和芯片生命周期管理来确保这些复杂的设计能够按预期可靠地工作。开发者如需获得更多见解,还可以观看我们的网络研讨会系列:“成功实现Multi-Die系统所需具备的条件”(共六个部分)。该系列网络研讨会介绍了Multi-Die系统的趋势和挑战、早期架构设计、协同设计和系统分析、Die-to-Die连接、验证及系统健康状况等等。


从裸片到系统的全面芯片测试


许多因素都会影响芯片的性能,温度、老化和退化只是其中的一部分。对于Multi-Die系统来说,老化风险甚至更高,因为一个裸片发生故障可能会导致整个系统失效,造成巨大的经济损失。在裸片层面排除缺陷是一个很好的开始。每个生产的裸片都将经历专门的测试流程,以确保百万分比缺陷率(DPPM)非常低。测试自动化流程负责测试和诊断器件的数字、内存和模拟部分。这其中的挑战在于找到所需测试向量数量和相关成本之间的平衡点,以期获得理想结果。


检查每个裸片很重要,在系统层面评估整个系统也很重要。Multi-Die系统可以将不同工艺节点、不同用途的裸片或芯粒组合在一起。因此,一个系统可能包含运行温度或散热水平不同的多个裸片。此外,裸片之间的电磁干扰以及电迁移也可能造成问题。


对于Multi-Die系统,全面而彻底的预组装测试环节,可以筛选出已知良好裸片(KGD)。设计模块内置的高级可测性设计(DFT)功能可以评估裸片。对各个裸片进行测试,并在必要时进行修复后,设计就进入了组装和键合阶段。部分或全部键合内存和逻辑芯片之后,就可以测试互连了。


降低芯粒互连的功耗并提升其性能


Die-to-Die接口使裸片可以并排放置,为了进一步提高密度,还可以堆叠在2.5D或3D封装中。如果两个裸片之间提供数据接口的功能块(即接口),可以兼具高带宽、低功耗和低延迟特性,系统性能就能得到提升。


Die-to-Die连接通常基于高速接口,例如UCIe,该接口有望成为Multi-Die系统的优选互连标准,也是行业唯一具有完整的Die-to-Die接口工具套件的标准。UCIe适用于2D、2.5D未来的3D封装,支持目前每引脚8 Gbps到16 Gbps的大部分设计,非常适合从网络连接到超大规模数据中心的高带宽应用。对于3D设计,由于互连更短,使得硅通孔(TSV)更加脆弱,因此互连级风险更高。


Multi-Die系统开发者需要避免互连中的固定型故障、开路或短路,同时确保时序和电压方面的行为正确。由于涉及超高速信号,信号完整性成为了指示裸片间数据共享有效性的重要参数,所以通过测量和监控来检测信号衰减水平非常重要。UCIe要求在PHY的两侧之间提供冗余通道,从而支持通过这些额外的通道实现故障修复。基于UCIe系统中的所有裸片都必须通过UCIe通道进行访问、测试和修复,以便能够监控裸片中正在发生的问题。


键合后测试可以解决一些要求切换互连通道的互连层面问题,还可以通过算法测试来评估互连缺陷。2.5D和3D互连有不同的算法集,而且测试是基于互连的缺陷。故障模型将决定所要应用的算法测试。


贯穿系统生命周期的智能监控和分析


Multi-Die系统具有微小的微凸块,这些微凸块彼此非常靠近,因此无法通过物理探测进行测试。例如,对于UCIe,微凸块的间距为25至55微米,而探测距离通常为90微米。更好的办法是通过内置自测(BIST)进行电子探测,从而检测那些需要采取纠正措施的软错误或硬错误。或者也可以使用在预组装阶段集成的专用晶圆测试焊盘。


当系统处于开发阶段以及在现场使用时,芯片生命周期管理(SLM)方法就很有用。这种方法通过在芯片上集成传感器和监控器来评估各种参数,例如温度、电压、老化和退化程度。集成SLM IP技术与分析智能后,可以将从器件传感器和监控器收集的大量数据转化为可操作的系统优化洞察。


那么SLM技术如何识别热问题呢?无论是单个裸片还是Multi-Die系统,热管理问题都不容忽视。在设计阶段,由于没有实际工作负载,开发者很难评估这些问题。再加上2.5D或3D架构的复杂性后,更是很难得到最终设计的热曲线。以下是SLM能发挥作用的情况。布置在裸片重点位置的片上监控器让开发者有机会深入了解和分析裸片的热特性,并且可以在需要调整布局以解决散热问题时提供指示信号。同样,深入了解热效应还可能促使开发者做出降低系统高带宽内存(HBM)组件数据速率的决策。或者,可能还可以通过软件来缓解散热问题。借助监控器提供的数据,开发者可以分析并确定更优纠正方案。


SLM技术还提供可追溯性,即无论最终产品在生命周期中何时出现问题,它都能追溯到问题的根源。例如,假设在试制过程的某个环节发现良率异常,此时准确定位问题来源至关重要。我们需要判断问题是出在某个特定晶圆或裸片上,还是影响了某一时期内生产的所有晶圆或裸片,抑或是源于晶圆厂本身。这种追溯能力在Multi-Die系统中尤为重要,因为此类系统的封装成本可能非常高。越快发现问题,开发者就能越快让产品进入市场并降低成本。良好的SLM解决方案应该能够在几分钟内识别根本原因,而手动方法可能需要花费几天或几周时间。


可追溯性还适用于以下情况:最终产品已部署到现场,但开始出现意外甚至灾难性的故障,可能需要召回。这种退货授权(RMA)情况可以利用SLM和整个测试生态体系,追溯制造过程,找出根本原因。同时,还能找出现场中可能存在相同问题的同类器件,以便在故障发生前主动召回,或者通过调整器件的电压或频率来延长其使用寿命。


测试的最后阶段针对堆叠本身进行。“已知良好系统”是此阶段的核心,因为测试团队的目标是确定其Multi-Die系统能否稳定可靠地运行,并在需要时找到监控、分析和解决问题的方法。IEEE Std 1838-2019提供了一种模块化测试访问架构,可支持测试裸片以及相邻堆叠裸片之间的互连层。


对于堆叠架构,有些测试需要在下游进行,而更智能的测试仍然留在流程的上游。例如,在裸片层面评估高温性能是不可行的。相反,在堆叠后进行Multi-Die系统的温度测试最有效,此时发现的故障可以根据其位置进行修复。在晶圆层面进行温度测试也是可行的,不过这可能相当昂贵。高端系统的开发者可能会选择执行这些测试。监控和收集这些重要数据,能够让设计、制造和测试团队确定如何提高结果质量。


自动化和智能化进一步提高Multi-Die系统的质量


为了满足我们所讨论的需求并推动下一波半导体创新,新思科技推出了Multi-Die解决方案,以加速单一封装中的异构集成。这套全面的解决方案涵盖了系统全生命周期的各个关键环节,包括测试、诊断、修复、校准以及持续优化各项性能指标。针对设计、试制、生产和现场优化的可追溯性和分析能力可以提高良率、质量和可靠性,并降低成本。此外,我们的AI驱动芯片设计套件Synopsys.ai具备业界少有的半导体测试自主AI应用程序。新思科技TSO.ai优化了复杂设计中的测试程序生成过程,能以更少的测试向量实现尽可能高的缺陷覆盖率。


为了满足计算密集型工作负载对高带宽和高性能的需求,Multi-Die系统正迅速成为芯片设计的主流。自动化测试流程和分析智能有助于提高上述系统的质量和可靠性水平,而这更是为生成式人工智能和高性能计算(HPC)等造福全世界的应用带来了曙光。 


点击阅读原文观看“成功实现Multi-Die系统所需具备的条件”网络研讨会



如需了解更多信息请扫描下方二维码联系我们


    
             

                      

                    
             

                   
                   

                 
                 

                 

         
                                     
                                     


                               

                                 

新思科技 新思科技(Synopsys, Inc.)以芯片产业的“根技术”推动AI、5G、高性能计算、智能汽车等前沿应用的核心技术发展。
评论
  • 2003年买的电子管功放机,俗称胆机,坏过几次,咨询厂家,购买零件,自己修理,干中学,学中干。有照片记录的是2011年3月,一天,发现整流管比之前红亮了很多,赶紧关机,想找原因,反反复复折腾了几个月,搞好了。就此,还在网上论坛咨询和讨论,欧博Rererence 5.0电子管发粉红色光,何故?-『胆艺轩音响技术论坛』-胆艺轩[Tubebbs]论坛 发表于2011-5-7同时与厂家联系得到支持,见文:29kg胆机修理之联想——环保简易,做到真难!-面包板社区 发表于2011-6-13又继续使用了多年
    自做自受 2024-12-17 22:18 126浏览
  • 户外照明的“璀璨王者”,艾迈斯欧司朗OSCONIQ® C3030降临啦全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,推出新一代高性能LED——OSCONIQ® C 3030。这款尖端LED系列专为严苛的户外及体育场照明环境而设计,兼具出色的发光强度与卓越的散热效能。其支持高达3A的驱动电流及最大9W的功率输出,以紧凑扁平封装呈现卓越亮度和可靠性,确保高强度照明持久耐用且性能出众。应用领域01体育场及高杆照明OSCONIQ® C 3030以卓越的光通量密度、出
    艾迈斯欧司朗 2024-12-18 14:25 50浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-18 14:02 62浏览
  • 随着国家对环保要求日趋严格。以铅酸电池为动力的电动自行车、电动摩托车,将逐渐受到环保管制。而能量密度更高的磷酸铁锂等锂电池成为优先的选择,锂电池以其高能量密度、快速充电、轻量化等特点,已经大量应用于电动车领域。光耦在锂电池系统PMU中的应用,能提供完善的安全保护和系统支撑。BMS和电池被封装成安装所需要的尺寸外形,高速的CAN以及RS-485等通信总线,被应用在与控制器、中控之间通信。晶台光耦,被广泛应用于通信隔离、双MCU系统应用地隔离、电机驱动隔离等。下图例举在电动摩托车上的应用中包含的部件
    晶台光耦 2024-12-17 13:47 57浏览
  • 随着现代汽车工业的不断发展,驾驶安全与舒适性成为消费者关注的焦点。在这个追求极致体验的时代,汽车ASF随动转向LED大灯技术应运而生,它不仅代表了车辆操控辅助系统的最新进展,更是对未来智能安全出行愿景的一次大胆探索。擎耀将深入探讨ASF随动转向技术的原理及落地方案,旨在为汽车LED照明升级行业提供一份详尽且实用的参考。首先,ASF随动转向技术不是什么高精尖的技术,一般的汽车大灯制造厂商都可能完成,通过软硬件的逻辑加上传感器,基本就可以实时监测车辆的行驶状态,包括但不限于车速、转向角度等关键参数。
    lauguo2013 2024-12-17 14:43 51浏览
  •  2024年下半年,接二连三的“Duang Duang”声,从自动驾驶行业中传来:文远知行、黑芝麻、地平线、小马智行等相继登陆二级市场,希迪智驾、Momenta、佑驾等若干家企业在排队冲刺IPO中。算法模型的历史性迭代与政策的不断加码,让自动驾驶的前景越来越清晰。由来只有新人笑,有谁听到旧人哭。在资本密集兑现的自动驾驶小元年里,很多人可能都已经遗忘,“全球自动驾驶第一股”的名号,曾经属于一家叫做图森未来的公司。曾经风光无两的“图森”,历经内讧与退市等不堪往事之后,而今的“未来”似乎被锚
    锦缎研究院 2024-12-18 11:13 64浏览
  • 以人形机器人和通用人工智能为代表的新技术、新产品、新业态蓬勃发展,正成为全球科技创新的制高点与未来产业的新赛道。01、Optimus-Gen 2来了,人形机器人管家还远吗?没有一点点防备,特斯拉人形机器人Optimus-Gen 2来了!12月13日,马斯克于社交媒体上公布了特斯拉第二代人形机器人的产品演示,并预计将于本月内发布。在视频中,Optimus-Gen 2相比上一代有了大幅改进,不仅拥有AI大模型的加持,并在没有其他性能影响的前提下(相比上一代)将体重减少10kg,更包含:由特斯拉设计的
    艾迈斯欧司朗 2024-12-18 12:50 50浏览
  • 1. 磁性材料的磁化曲线磁性材料是由铁磁性物质或亚铁磁性物质组成的,在外加磁场H 作用下,必有相应的磁化强度M 或磁感应强度B,它们随磁场强度H 的变化曲线称为磁化曲线(M~H或B~H曲线)。磁化曲线一般来说是非线性的,具有2个特点:磁饱和现象及磁滞现象。即当磁场强度H足够大时,磁化强度M达到一个确定的饱和值Ms,继续增大H,Ms保持不变;以及当材料的M值达到饱和后,外磁场H降低为零时,M并不恢复为零,而是沿MsMr曲线变化。材料的工作状态相当于M~H曲线
    锦正茂科技 2024-12-17 10:40 125浏览
  • You are correct that the length of the via affects its inductance. Not only the length of the via, but also the shape and proximity of the return-current path determines the inductance.   For example, let's work with a four-layer board h
    tao180539_524066311 2024-12-18 15:56 51浏览
  •   前言  作为一名电子专业的学生,半导体存储显然是绕不过去的一个坎,今天聊一聊关于Nand Flash的一些小知识。  这里十分感谢深圳雷龙发展有限公司为博主提供的两片CS创世SD NAND的存储芯片,同时也给大家推荐该品牌的相关产品。  一、定义  存储芯片根据断电后是否保留存储的信息可分为易失性存储芯片(RAM)和非易失性存储芯片(ROM)。  非易失性存储器芯片在断电后亦能持续保存代码及数据,分为闪型存储器 (Flash Memory)与只读存储器(Read-OnlyMemory),其中
    雷龙发展 2024-12-17 17:37 58浏览
  • 车载光纤通信随着ADAS(高阶驾驶辅助系统)、汽车智能网联、V2X和信息娱乐技术的不断发展,车载电子系统和应用数量迅速增加。不断增长的车内传输数据量对车载通信网络造成了巨大的数据带宽和安全性需求,传统的车载总线技术已经不能满足当今高速传输的要求。铜缆的广泛使用导致了严重的电磁干扰(EMI),同时也存在CAN、LIN、FlexRay等传统总线技术不太容易解决的问题。在此背景下,车载光纤通信技术逐渐受到关注和重视,除了大大提高数据传输率外,还具有抗电磁干扰、减少电缆空间和车辆质量等优点,在未来具有很
    广电计量 2024-12-18 13:31 62浏览
  • 上汽大通G90是一款集豪华、科技与舒适于一身的中大型MPV,号称“国产埃尔法”。在国内市场,作为“卷王”的G90主要面向中大型MPV市场,满足家庭出行、商务接待和客运租赁等多元化场景需求,在国内市场上取得了不错的销售成绩。在海外市场,上汽大通G90也展现出了强大的竞争力,通过技术创新和品质提升,上汽大通的产品在国际市场上获得了广泛认可,出口量持续增长,如果你去过泰国,你就应该可以了解到,上汽的品牌出海战略,他们在泰国有建立工厂,上汽大通G90作为品牌的旗舰车型之一,自然也在海外市场上占据了重要地
    lauguo2013 2024-12-18 10:11 72浏览
  •        随着对车载高速总线的深入研究,以电信号为媒介的传输方式逐渐显露出劣势,当传输速率超过25Gbps时,基于电信号传输已经很难保证长距离传输下的信号质量与损耗。在这样的背景下,应用于工业领域的光通信技术因其高带宽、长距离、低电磁干扰的特点得到了密切的关注,IEEE在2023年发布了802.3cz[1]协议,旨在定义一套光纤以太网在车载领域的应用标准。MultiGBASE-AU总览       以下是Mult
    经纬恒润 2024-12-17 17:29 70浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦