(本文编译自Semiconductor Engineering)
长久以来,提升可靠性一直是业界讨论的热点话题,而随着采用先进节点设计的芯片被广泛应用于任务关键型和安全关键型应用中,其重要性愈发凸显。即便是这些先进几何形状上的微小瑕疵,也可能导致设备在现场使用过程中随时发生故障。此外,随着多芯片封装的广泛应用,任何堆栈中的故障都将变得难以定位和测试,这要求对芯片行为的趋势有一个更深入的了解。
预防故障无疑是首要任务。然而,当故障确实发生且设备被退回时,需要有更为强大的解决方案来迅速找到根本原因。这正是SLM发挥关键作用的地方。SLM能够全面跟踪设备的性能变化,从设计、制造、测试、组装到系统使用的每一个环节。对于大型服务器群等关键领域的制造商而言,SLM的重要性尤为突出,因为这些领域必须能够检测到诸如静默数据错误等间歇性、罕见的现象。在这些情况下,从设计到使用的设备数据集成已经从“锦上添花”的能力转变为不可或缺的优先事项。
SLM是一种在芯片或连接设备(涵盖汽车、数据中心服务器及移动设备)的全生命周期内嵌入监视器并采集数据的能力,它代表着一种永无止境的优化进程。新思科技硅生命周期管理系列产品线管理总监Randy Fish指出,现有的可靠性设计方法正不断拓展,旨在捕捉整个供应链中的潜在故障。“可靠性设计已通过大量BiST(内建自测试)技术得以实现,特别是在汽车行业的推动下,每当钥匙开关时,系统都会执行自检。但可以做得更加严格,而现在,我们正目睹这一趋势的发展。”
这一扩展部分依赖于晶圆厂、设计、测试及封装工程师之间的数据共享,使得基于机器学习的分析能够以更低的测试成本实现更高的总体良率。尽管匿名化和加密数据的方法正在迅速发展,但实现数据共享需要彻底改变运营模式。部分公司正携手合作以达成这一目标,但确定最佳实践仍需时间。
硅片生命周期管理标志着从孤立的数据管理实践向按需数据共享的范式转变。除了横向的数据共享外,芯片制造商还期望能够自下而上地共享信息,以便在组织层面做出更为明智的质量和可靠性决策。
PDF Solutions 智能工厂解决方案副总裁Ranjan Chatterjee表示:“我们正与客户携手共创一种方法,该方法能将设备数据集成至企业级或ERP(企业资源规划)系统中。能够为机器人或设备配备仪表、高效集成数据、随后将其提升至应用层级、再次集成,并最终将其纳入ERP系统的公司并不多见。因此,无论您是首席执行官、工厂经理还是操作人员,都能找到适合您的专属仪表板。”
潜在的应用场景极为广泛。DR Yield首席执行官Dieter Rathei指出:“我们见证了AI模型所创造的巨大潜力,并且,得益于工程师的聪明才智与新工具的迅猛发展,未来还将涌现出更多我们目前尚未预见的机会。”Rathei强调,获取来自所有渠道的数据是运用AI模型的基础,因为模型的训练离不开庞大的数据储备。一旦这些数据经过清理与结构化处理,AI或机器学习模型便能助力我们发现系统性缺陷,比如由光刻图案变化引发的缺陷,这些缺陷往往是现场操作员与工程师难以察觉的。
更多数据,更少时间
随着SoC复杂性的日益加剧,用于良率学习的测试数据量正急剧增加。西门子EDA良率学习解决方案产品管理总监Marc Hutner指出:“我们为良率学习搜集了海量数据,其中测试和诊断数据占据了重要地位。对于众多客户而言,我们会收集全部逻辑测试数据(即ATPG扫描数据)并进行深入剖析。他们设定了明确的目标,例如在封装设备测试后的特定小时数或一天内完成数据分析。随后,他们便能获取数据的趋势,揭示整个材料中存在的系统性问题,进而开始判断是生产线、芯片本身,还是测试仪器(如因测试仪针脚上积累的碎屑而引发的接触问题)出现了问题。”
扫描诊断通过融合行业内成熟的边缘或近边缘机器学习模型,能够进一步提升测试覆盖率并缩短测试时间。边缘AI/ML方法作为拓展高度自动化测试平台功能的关键一环,正在被积极部署。
面对日益缩小的工艺窗口和亚ppm级缺陷率目标,芯片制造商不断优化从设计到测试的流程,以确保在新品发布、产量提升及大规模生产期间实现最高效能。
将电气故障追溯至工艺工具级别,在偏移检测和预防更多芯片故障方面具有显著优势。Onto Innovation企业软件应用工程高级经理Melvin Lee Wei Heng表示:“我们的一位客户在晶圆电气测试中遭遇了多批芯片失效问题。通过设备通用性分析和单向方差分析(ANOVA),我们成功定位了导致问题的工艺步骤,进而锁定了特定的蚀刻工具。对蚀刻工具上的FDC信号进行分析后,我们发现了影响正在处理批次的卡盘温度所存在的问题。”
对这些批次的晶圆进行分析后,我们发现背面涂层异常,而上游缺陷扫描监控却未能检测到。Wei Heng表示:“一旦确定问题所在,我们便着手实施解决方案。我们收紧了FDC卡盘温度参数,以监控背面涂层异常的晶圆。通过此举,客户成功避免了多个工艺工具上出现特定的测试失败。当检测到卡盘温度异常时,该工具会进行拦截。”
在半导体测试中,由于设备尺寸不断缩小、封装技术日益先进以及基于芯片的设计的推动,变化可能更为显著。
Advantest ACS数据分析平台部业务开发高级总监Ken Butler强调:“这些要求正促使我们改变分析类型的性质,包括软件和硬件基础设施。现在,人们期望能在生产测试中进行非常先进的分析。因此,我将应用设备测试,收集大量数据,并运行AI或ML算法来评估设备的运行状态。也许我需要应用更多的测试内容来更深入地理解数据。或者我需要进行诊断,因为设备似乎出现了故障,我需要了解故障发生的原因。或者我会将这个部件视为异常值,因为它与刚刚完成测试的所有部件的测试结果都截然不同,因此我必须根据分析结果对它进行特殊处理。”
其他人也持相同观点。Teradyne市场副总裁兼SoC部门总经理Regan Mills指出:“我们看到的机会是,有一类问题确实能从实时数据和实时处理中受益。在测试流程中,你需要对单个设备做出决策。这些决策可能是对设备进行一次性编程,并希望尽快完成以达到最佳性能。显然,你可以更准确地判断设备是好是坏。或者你可能在进行速度分级。关键在于,你不仅要利用从该设备获得的信息,还要利用你随着时间的推移从同类设备收集的信息。因此,你需要做出更全面的决策。而且,你正在以一种以前通常没有的方式聚合数据。”
Teradyne和Advantest都为其数据和分析解决方案开发了开放式架构。因此,可以将设计数据以及基于设备的监控数据纳入其中,包括芯片内监控分析或专有数据分析程序。随后,芯片制造商可以持续集成他们想要使用的工具。
图1:开放式分析解决方案可以在安全的双向数据流中提供本地测试优化和快速数据分析。
图源:Teradyne
片上监视器或传感器在硅生命周期管理(SLM)面临的难题之一。为了推动SLM的发展,传感器被巧妙地嵌入到芯片中,以实时监控性能特征,如PVT(工艺、电压和温度)监视器,或是用于测量复杂数字SoC中的时序裕度和噪声波动的传感器。
proteanTecs解决方案工程副总裁Noam Brousard表示:“我们的终极目标是确保芯片能在其固有的操作条件下稳定工作。为了深入洞察这一点,我们必须增强监控的广度和深度,不仅要监测温度,更要洞察在这些条件下电路逻辑的实际表现——无论是在测试阶段,还是在现场应用中。我们将重点监控那些对性能扩展构成最大限制的逻辑路径的故障裕度,因为这些路径往往是最脆弱的环节。例如,温度的变化会改变芯片内部信号的传播特性,可能导致低裕度路径发生故障。在测试和验证期间,我们不仅要捕捉故障,还要识别那些裕度极低、尽管通过测试但仍可能在现场早期出现故障的设备。”
结论
尽管面临着特征收缩、工艺波动、系统故障以及向3D-IC转变等挑战,使得硅生命周期管理的优势愈发凸显,但实现近乎无缺陷设备的压力却与日俱增。这些优势涵盖优化设备性能、捕捉更多边缘故障以及更全面地了解根本原因分析。随着测试仪器公司不断强化其实时分析能力,关键的测试结果一方面正与IC设计进行集成,另一方面也与组装操作、最终系统测试以及现场使用相集成。
在人工智能和高性能计算能力广泛普及的今天,将设计、制造、测试直至系统级的数据全部连接起来的目标变得前所未有的方便。然而,整合来自不同源头的数据意味着需要构建基础设施、正确提取数据,并验证机器学习模型所需处理的数据。这些模型需要持续的维护、更新和优化。为了满足设备上市时间的要求,芯片制造商以及设备和软件社区必须迅速执行这些任务。SLM的广泛采用很可能取决于能否以目前难以想象的方式提升可靠性和良率。
与此同时,供应链上下游也在经历深刻变革。“我们可以看到,代工厂正逐渐转变为类似EMS(电子制造服务)公司的角色。而EMS公司则考虑收购OSAT公司,以提升其价值链。代工厂则开始涉足一些后端任务,”PDF的Chatterjee指出。“这个行业正在经历巨大的转变。这正是平台如此重要的原因,因为大多数企业不希望每次都从零开始构建这些集成系统。他们希望复用已有的资源,将数据从半前端共享到半后端、OSAT和系统——我称之为从沙子到垃圾填埋场或回收场的全过程——数据将随着晶圆或芯片的流转而流动。”
END