《Semiconductor Engineering》与新思科技营销和业务开发副总裁Steve Pateras、proteanTecs解决方案工程副总裁Noam Brousard、西门子EDA首席验证科学家Harry Foster以及Ansys高科技解决方案产品经理Jerome Toublanc就芯片设计的可靠性、它如何变化以及所面临的新挑战等方面进行了讨论。
SE:如何定义半导体的可靠性?它是如何变化的?
Foster:目前有几件事情正在让功能验证变得更加复杂。一个是安全问题,这显然引发了人们对可靠性的极大担忧。它使功能验证变得复杂,因为我们基本上是在构建容错系统。我们需要验证的要求多得多。另一件事情是,现在的可靠性已经覆盖到了整个系统。它包括从飞机或汽车的振动一直到芯片级别的所有方面。
Brousard:一旦产品投入使用和功能运行,我们就会关注可靠性。我们主要关注的是产品实际发生故障之前距离故障点有多近。这是为了保持可靠性,但也是为了可用性。传统意义上的可靠性是指以一定的错误率监控故障,如果超过某个阈值,则解决故障。但我们试图做的是,在产品可能发生故障的时候就识别出性能退化的情况,并提供足够的可能的解决方式,以便在故障成为问题之前解决,从而最大限度地提高可用性。
Toublanc:依我之见,对可靠性的定义有所不同。我们处理的是半导体级别的多物理场仿真,同时也涉及封装和PCB。可靠性已被谈论了很长时间,但最近我们看到了IC芯片封装方面新架构的变化,可靠性越来越受到关注。人们不再只想在流程结束时检查可靠性。他们想要对它进行预测。至于可靠性的含义,这取决于你与谁交谈。如果你与半导体设计工程师交谈,他们会关心温度对电迁移的影响,因为这会缩短芯片的寿命。如果你与更注重机械的人交谈,可靠性将是薄膜对热应力的影响。因此,可靠性正在成为一个棘手的话题,因为你必须了解你想要模拟哪种现象。我们必须提前预判。人们现在希望尽早了解可靠性,以确保根据这些约束来设计芯片。这就是新的变化。现在,由于可靠性的原因,你还必须再三考虑架构的问题。
Pateras:可靠性贯穿于设计生命周期的各个阶段。我们关注的是设计阶段的可靠性。在设计实施过程中,我们如何通过增强设计的稳健性来提高可靠性?之后,我们还需要处理制造过程中的可靠性问题。我们如何通过适当的测试来确保半导体中存在最少的潜在缺陷?这包括进行压力测试,以确保零部件具有较高的固有可靠性。然后,一旦零部件部署完毕,我们该如何积极管理可靠性?在这方面,我们可以使用许多不同的技术。监测就是其中之一。我们可以利用监测数据来预测和预防故障。在这一领域,我们还发现,我们可以利用为制造质量测试而植入芯片中的许多结构——例如可测试性设计(DFT)、内置自测试(BIST)。我们同样可以在现场利用这些功能,以便在现场进行压力测试。这是一个全新的领域。就像在汽车上进行上电测试一样,你启动汽车并运行一系列不同的测试,以检查一切是否正常。现在,我们正在研究生产压力测试,以便能够测量零部件在哪个环节会失效。例如,你可以改变频率,观察它何时开始失效。你可以监测并跟踪零部件随时间失效的进展情况,以便预测和预防故障。
SE:针对不同市场,可靠性的定义会有改变吗?
Foster:在某些市场,可靠性问题肯定会变得更加紧迫。
Pateras:定义是相同的,但根据应用的不同,可靠性可能变得更关键。汽车行业对可靠性的要求显而易见,因为它关乎功能安全。但即使在配备高性能计算(HPC)的数据中心,也存在静默数据损坏的问题。我们听说某个CPU每千小时会发生一次故障,这在成本方面是一个令人担忧的问题。这不是安全问题,而是成本问题。因此,使用与汽车行业类似的技术变得非常重要。
Brousard:从历史上看,某些垂直行业会更加重视可靠性。但如今,我想不出哪个哪个行业或领域是不重视可靠性的。在HPC数据中心,静默数据损坏的影响是巨大的,而且不仅仅是经济方面的影响。其中一些数据中心可能容易受到安全威胁,因为静默数据损坏可能会在系统中传播。整个人工智能/机器学习的发展意味着最终做出的决策是基于可能被破坏并传播的数据。这些决策至关重要,一旦失败,后果也将十分严重。但问题不仅如此。如果我问我的孩子他们对手机的期望是什么,那就是他们的世界。因此,可靠性几乎在我们处理的每个行业中都变得日益重要。
Toublanc:可靠性曾经是一个子话题,现在它成了一个关键话题。我们接待过很多客户,他们只谈可靠性,包括软件和硬件。它也可能涉及生命周期或侧信道攻击,也可能涉及ESD,这正成为一个大问题。
SE:芯片设计师在设计中塞入了太多东西,以至于没有留下什么裕量,而如果你增加这个裕量,就可能会改变性能或功率分布。但我们不一定知道设计的不同部分将如何相互作用,特别是在先进封装的情况下,这样对吗?
Pateras:在汽车行业,这一直是一个令人担忧的问题,但问题并不在半导体层面,而是在系统层面。例如,你会担心刹车失灵。汽车中使用的半导体总是在更成熟的节点上开发,芯片本身也不太复杂。
SE:但是现在汽车制造商希望采用5nm工艺制程,这样他们就不必在上市时重新设计一切。
Pateras:是的,当我们与“传统”OEM交谈时,他们会告诉我们他们没有面临任何半导体可靠性的问题。问题通常出在摄像头、刹车或液压系统上。但现在他们要采用先进节点并制造这些轮子上的超级计算机,他们真的不知道会发生什么,他们对此感到紧张——这是合理的。所以现在他们想了解我们如何确保系统的可靠性。
Foster:这方面也存在很多困惑。很多系统人员都直接进入芯片领域,他们不知道如何回答这些问题。
Brousard:这里有两个问题。一是人们对更高性能和更低功耗的无限渴求,这也压缩了那些裕量。二是现在每个人都在自己生产芯片。过去,如果不是他们的业务范畴,他们会从芯片供应商那里购买。现在,为了从芯片中榨出额外的性能,竞争更加激烈。可靠性、功耗和性能这三个要素在先进节点的推动下被紧密地联系在一起。公司考虑下一个节点的速度呈指数级增长。但这就是为什么你不能将可靠性挑战与功耗/性能方程分开的原因,必须让它们保持平衡。
Foster:我曾与欧洲的一家公司交谈过,他们自己从未做过芯片。所以他们组建了一个团队,准备购买一堆IP并将它们整合在一起。他们想,“这能有多难?”很多人都在做这件事,他们必须学习很多东西。
Toublanc:对于单片设计来说,情况确实如此。有些公司正在转向单片设计,自己制造芯片,但他们以前并没有这样做过。对于先进节点或小芯片,情况甚至更糟。每个人都在谈论小芯片。我们参加过很多会议,人们告诉我们他们不知道它是如何工作的。“危险是什么?风险是什么?功率对热、机械和时序有什么影响?”他们认为使用单个芯片是完全错误的方法,但正是这样,可靠性问题很快就会出现。
SE:有个问题是,我们在芯片和系统设计方面缺乏跨学科知识。现在,好像突然之间,所有事情都发生在同一家公司中,而公司员工一直在做非常具体的事情。这会产生什么影响?
Pateras:尽管他们正在开发自己的系统,但他们仍需要使用第三方工具和IP。我们的使命仍然是为他们提供用来创建他们系统的技术。他们并不是从头开始做所有事情。他们仍然需要设计工具、IP甚至子系统。因此,我们的目标是创建更多他们可以在该系统中可现成使用的零部件。通过SLM(硅片生命周期管理)实现的系统可靠性就是其中之一。
Toublanc:要实现芯片异构集成的全面流程化,它就必须是开放的,因为人们并不拥有一切。例如,如果你担心热问题,那就别无选择,只能将不同的组件一起进行模拟。但如果你并不是拥有一切,你该怎么做呢?你需要找到一种方法来建模,以准确了解正在发生的事情。但有时我们需要从代工厂获得特定信息,尤其是当涉及可靠性时,而代工厂不习惯提供机械方面的信息。有时,代工厂必须再三考虑是否包含这些参数,以确保人们能够实现这种先进模拟。
Brousard:我们正与两类公司合作。一种是大型的传统公司,他们有可靠性专家。他们懂行,从事该行业多年,并会根据需要引入各种功能。但前端设计师、后端设计师或ASIC设计师并不具备那些大公司在过去30年中发展起来的可靠性方面的专业知识。解决方案有点像提供IP,可靠性是您无需担心的方面。解决方案就在那里,它可以减轻您的负担。您不必成为专家,但您必须拥有可以处理它的组件。
Foster:但我们过去对这个过程有明确的界限。现在有了更多的反馈来优化或学习正在发生的事情。这是一个重大的变化。我不想赶时髦,但人工智能正在从一些正确设计中学习。“好吧,我们不要这样做。”它会删除任何不正确的东西,然后返回并自动修复它。
Brousard:接下来,将可靠性转变为端到端解决方案非常重要,这样它就不会孤立。无论解决方案是什么,它都需要在孤岛之间进行通信。
Toublanc:这些孤岛可能是项目的不同步骤,也可能是拥有不同专业知识的不同团队。机械专家不会理解热能专家等等。
Foster:是的,这个过程过去是事后才想到的。现在它贯穿了整个过程。
Toublanc:这是由可靠性驱动的。现在人们不知道该如何去控制它。
Pateras:当我们谈论汽车可靠性、OEM和Tier-1、Tier-2时,挑战在于数据所有权——假设它不是像特斯拉这样的完全垂直整合的OEM参与者。但即使是在特斯拉,他们也必须与代工厂打交道。问题是,你是否可以获得所有这些数据并在现场监控这些数据。如果你想分享来自Tier-1芯片的数据,代工厂是否会允许将数据的详细分析(以产量为依据)提供给Tier-1或OEM?这是最大的挑战。从技术上讲我们可以做到。分析数据可以让我们学到很多东西。但挑战在于如何共享这些数据。
END