SLM:守护高性能计算与数据中心SoC的每一步

原创 新思科技 2023-08-10 17:30

高性能计算(HPC)和超大规模存储不仅让我们得以在超级互联和人工智能的帮助下,动动手指就能轻松获取各种信息;更是我们如今数字生活中不可或缺的一部分。从数学模型到气象预测,超级计算机正在协助我们改善各个领域的计算结果,而云数据中心则是确保数字生活正常运行的基础支柱。在当今时代,数据不仅在数量上远超以往,还面临着需要进行远距离高速传输的挑战。随着芯片制程节点不断微缩,逐渐逼近制造领域的极限,Multi-Die系统应运而生,为性能提升开辟了新的可能性。


随着电子系统变得愈加复杂,静默数据损坏(SDC)等错误时有发生,芯片老化、热挑战和功耗挑战等问题也同样存在。这些问题非常棘手,如果处理不当,就会导致灾难性后果,尤其是在大规模处理此类问题的情况下。


除此之外,对于SoC开发者来说,由于复杂性的提高,他们迫切需要采用芯片生命周期管理(SLM)策略,以确保芯片的可靠性、可用性和可服务性(RAS)。了解最终产品的内部情况并认识长期的RAS影响,对于设计的成功至关重要。


芯片生命周期管理策略是什么?


如今,我们不仅需要在生产和发货时确保芯片能够正常运行,还需要在整个生命周期内对芯片工作状态进行监控和测试,尽可能在问题甚至故障出现之前提前进行预警甚至修复。对于SoC 和 Multi-Die产品,这一点攸关重要。为了做到这一点,开发者需要掌控和访问芯片内部元件,以调试和读取数据,并进行适当的分析来确定是否存在问题。借助这些信息,开发者能够及时维护系统,避免问题变得无法挽回。


SLM平台所提供的解决方案及策略可以帮助开发者采取针对性措施,在芯片的整个生命周期内确保RAS:


  1. 设计阶段/ In-Design识别芯片中适合用于监控的设计组件。将监控IP直接嵌入设计的基础架构中。

  2. 产品试产及良率优化阶段/ In-Ramp:优先处理影响良率的主要限制因素,进行准确的故障分析,并调整设计和/或晶圆工艺,从而满足高良率要求。

  3. 量产阶段/ In-Production:通过自动化洞察功能识别良率和质量异常,在大批量生产的各个阶段进行根本原因分析,并在必要时对半导体供应链进行调整。

  4. 产品实际应用现场/ In-Field:通过预测性维护评估芯片运行状况,并优化各项性能指标,比如功耗和吞吐量(如果可能),特别是在芯片不断老化的情况下。


示例:对策略建模,从而改善热和电源管理


在SoC系统中,管理热复杂性和优化功耗是重中之重。而且,当一个系统中包含多个晶片时,管理难度会呈指数级增长,特别是在系统不断老化的情况下。要想缓解热问题和电压问题并在HPC和数据中心中保障芯片长期可靠运行,在设计中整合适当的监控功能是必不可少的。


多年来,在芯片内部的片上电压和电源管理一直使用工艺、电压和温度(PVT)监测器,也称为动态电压频率调整(DVFS)技术。有些场景下,这些监视器用于监测温度,当温度可能造成灾难性结果时,就会关闭系统。事实上,几乎所有16纳米及以下制程的芯片设计和所有的数据中心芯片,都使用PVT监测器。


在晶圆分选测试期间,开发者将从这些监测器获得测试数据结果,并立即将这些数据投入使用。在这个时候,开发者将了解晶片的热特性,并可以应用更多测试序列来监测晶片各处的电压值。此外,开发者可以根据测试、PVT和PMMIP数据来执行分析,然后返回设计环境,了解测试中得出的芯片实际裕量,并将其与模型相关联。随着模型的改进,开发者可以降低裕量,以提高性能或降低功耗,而又不会牺牲RAS。


为了更好地预测故障的出现,开发者可以设置阈值。对于温度监测器,阈值代表开发者将在什么情况下开始介入来降低温度。究其缘由,大部分热响应的速度都相对缓慢。设定的阈值越严格,就可以越早地采取措施。类似地,也可以使用电压监测器,只是监测对象有所不同。


早期研发阶段,通常只会生产很少量的芯片,只有确保芯片能够正常运行并确认可以达到目标良率后,才会进行大规模生产。开发者会从晶圆厂的早期测试和诊断结果中收集数据,另外还会在整个产品制造过程中收集数据。在这个期间,开发者可能会发现系统性问题并予以解决。当芯片在现场部署之后,则需要使用最新的策略,了解芯片在使用过程中的运行情况以及随着芯片老化会发生哪些变化。为此,一些新功能应运而生,包括使用英特尔Sapphire Rapids进行现场扫描。开发者还可以将SLM软件代理嵌入到芯片系统本地,从而持续地进行边缘分析并缓解问题。在现场芯片管理领域中,各类创新层出不穷,各种新的功能也会在近期内不断推出。


如何综合考虑各种数据 — 全面的SLM策略


HPC和数据中心工作负载要求在整个芯片生命周期内对芯片进行测试、监测和维修。因此,我们需要了解芯片内部发生的情况。与此同时,由于需要处理大量数据,例如设计数据、晶圆厂数据、诊断数据、产品制造测试数据(包括重要的监测数据)等等,开发者迫切需要全面系统的方法来分析数据并生成可行见解,同时确保提升工作效率。


新思科技提供全面完整的SLM解决方案,这是一个包含多种工具的集成平台,能够为从设计到生产的整个SoC生命周期提供支持。另外,还有功能强大的现场解决方案即将推出!我们可以帮助开发者做好各项准备,确保产品在当前及整个生命周期内都能正常运行。新思科技的SLM产品系列包括PVT监测器、路径裕度监测器(PMM)和实时高速访问和测试(HSAT)IP。它们为开发者提供了所需的片上传感器,让开发者能够监测数据、运行制造和进行现场测试。借助新思科技的HSAT IP,芯片可以使用USB和PCI Express®(PCIe®)接口等功能I/O,因此开发者无需使用大量的测试和接口引脚,就可以在芯片部署使用时继续执行扫描和诊断。


除了IP监测器,新思科技SLM还将关于各类芯片健康数据的分析和预警集中在同一位置。这一完整解决方案能够在设计阶段为开发者提供支持,帮助开发者识别需要监测的候选路径。在实施监控IP之后,开发者可以使用新思科技的TestMax™产品系列等测试基础设施产品来将芯片连接到测试基础设施,生成监测器扫描序列,然后输入和输出数据,以便进一步诊断潜在的问题。借助新思科技SLM,开发者可以深入了解自己的SoC,即使在大规模生产中,也可以保持芯片的RAS。



我们将在9月14日召开的线上研讨会中揭示如何在IC设计中嵌入分布式PVT IP,通过实时收集参数和PVT controller分析,优化性能,提高可靠性。了解更多关于SLM PVT IP信息,请扫码报名线上研讨会:















新思科技 新思科技(Synopsys, Inc.)以芯片产业的“根技术”推动AI、5G、高性能计算、智能汽车等前沿应用的核心技术发展。
评论 (0)
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 567浏览
  •  一、‌核心降温原理‌1、‌液氮媒介作用‌液氮恒温器以液氮(沸点约77K/-196℃)为降温媒介,通过液氮蒸发吸收热量的特性实现快速降温。液氮在内部腔体蒸发时形成气-液界面,利用毛细管路将冷媒导入蒸发器,强化热交换效率。2、‌稳态气泡控温‌采用‌稳态气泡原理‌:调节锥形气塞与冷指间隙,控制气-液界面成核沸腾条件,使漏热稳定在设定值。通过控温仪调整加热功率,补偿漏热并维持温度平衡,实现80K-600K范围的快速变温。二、‌温度控制机制‌1、‌动态平衡调节‌控温仪内置模糊控制系统,通过温度
    锦正茂科技 2025-04-30 11:31 57浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 304浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 317浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 305浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 136浏览
  • 在全球制造业加速向数字化、智能化转型的浪潮中,健达智能作为固态照明市场的引领者和智能电子以及声学产品的创新先锋,健达智能敏锐捕捉到行业发展的新机遇与新挑战,传统制造模式已难以满足客户对品质追溯、定制化生产和全球化布局的需求。在此背景下, 健达智能科技股份有限公司(以下简称:健达智能)与盘古信息达成合作,正式启动IMS数字化智能制造工厂项目,标志着健达智能数字化转型升级迈入新阶段。此次项目旨在通过部署盘古信息IMS系统,助力健达实现生产全流程的智能化管控,打造照明行业数字化标杆。行业趋势与企业挑战
    盘古信息IMS 2025-04-30 10:13 62浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 345浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 467浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 124浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 149浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦