从每天使用的智能手机,到驾驶的汽车,如今电子产品几乎承担了我们生活的方方面面。然而近年来,业界屡见数据中心故障导致云服务中断、汽车因电子系统故障导致大量召回的案例,并且发生次数不断增加。
这类错误小则影响人们日常工作生活,大则危及生命。这是电子化、信息化和数字化不断提高的错吗?非也。
数据中心、汽车和通信市场都在向“即服务”(as-a-service)业务模式过渡,因此它们对计划外停机或错误零容忍,且需要满足极高性能、极低功耗和功能可扩展要求。为此芯片行业在高度复杂架构、纳米级制造工艺和先进封装技术的加持下,不断突破极限。
数字系统的规模和复杂性不断增加,为产品提供强大功能和长生命周期的背后,也给整个半导体行业带来了一系列新的挑战。
首先,在考虑到性能或竞争力的情况下,芯片的成本在上升,但整个生命周期缺乏可见性,这样质量和可靠性很难同时得到保障。此外,芯片在研发、生产以及应用等环节中处于非常分散的价值链,不同阶段之间存在数据孤岛。任何芯片研发、制造中的“未发现问题”都可能在终端应用时爆发出来,只能依赖产品保修来解决。
而另一方面,芯片厂商为了保证可靠性对开发周期进行了延长,一些关键部位的芯片仅调试\验证就需要12-18 个月。即便如此还是不能降低责任成本的增加,根据调查,电子终端产品厂商收入的约 2.7% 被用于保修费用。
电子产品全生命周期的可预测性有多重要?
电子设备出现故障一直以来都被认为是“不确定”、“不可预估”的。
目前为止业界普遍采取规避故障风险的方式,仍局限在芯片生命周期的每个独立阶段,在考虑最坏情况下,利用更高的保护性设计提供“安全”性能冗余;或是以不断的迭代、严格的测试以及对维保体系的高度依赖——但所有这些都对芯片厂商的经济造成压力的情况下,仍然无法做到全周期监测和预防。
虽然相比“不确定性”,人们更喜欢“确定性”,但在各类故障风险不断增加的当下,芯片行业上述规避风险的方式已经不再具有可扩展性。
“这些方式部署之后,看似一切都为最坏的情况做好了计划。但越来越多的硬件冗余、预防性维护周期、高设备更换率——所有这些都是为了确保服务正常运行而不中断。真正具有竞争力、高质量、高性能的产品要想快速进入市场,正变得越来越难。”以色列商博谛安科技(proteanTecs)公司联合创始人兼首席执行官Shai Cohen,在接受《电子工程专辑》独家专访时说到。
以色列商博谛安科技(proteanTecs)公司联合创始人兼首席执行官Shai Cohen
Shai表示,这些年越来越多超大规模芯片厂商和原始设备制造商(OEM)开始抱怨他们遇到的新问题——某些器件关键参数在长时间使用后会发生变化,“尤其是考虑到应用压力和环境影响,这些问题既难以提前发现,又要为止付出高昂的维保代价。”
所有这些问题都源于未被发现的设计或制造缺陷,其主要表现特征就是难以预测和预防。在某些情况下,这些错误的发生方式无法立即被检测到或标记出,导致给出错误的计算结果;某些时候,一条指令的执行效果并不完全像它应该的那样;还有一些情况下,错误的不一致性使得查找变得更加困难。
如何及时识别到这些错误并报告它们,是所有厂商都希望解决的问题,当然如果能提前预测就更好了。
“proteanTecs成立的目的,是希望从多个角度展现芯片内部实时状况,以满足这些企业对全面了解电子系统全生命周期健康状况和性能的需求。” Shai 说到。
通用芯片遥测的工作原理
据介绍,proteanTecs 开发了一种基于深度数据分析来提供端到端可见性的技术,通过将机器学习(ML)应用于SoC上的代理(Agents)创建的新数据,用户可以在云端或边缘端获得芯片及系统的实时可靠性状态、实际性能余量,并据此作出响应。
proteanTecs解决方案的运作机制
与一般用于芯片的温度探测功能相比,这项技术最大的不同是不仅提供即时数据,还具有更好的性能预见性(visibility)。用Shai的话来说,“我们赋予芯片报告自身健康状况和性能的能力,以便在它生命周期中的每个阶段,用户都能预测零件何时需要维修,节省了时间和金钱成本。”
具体来说,该技术由几个关键支柱组成。
首先是深度数据生成,该技术基于为分析而构建的Agents提供片上监控。Agents实际上是一种监测IP(monitor IP),包括硬 IP 和软 IP,它们非常小且分布广泛,对功耗、性能或面积(PPA)的影响微乎其微,却对芯片中的许多重要参数很敏感,可以感知芯片中的问题以及周围电子设备、应用效果和环境影响。
Shai表示,这些 Agents在测试和任务模式下运行,并在每个阶段提供极高的关键参数覆盖率。“芯片工程师可以在对设计和工艺技术进行全面分析后,使用自动插入工具在设计过程中将它们(Agents)战略性地放置。”
之后,来自Agents的测量会被提取并上传到软件平台,用于数据融合和域内注入(domain-infused)机器学习推理。每个自然日结束时,用户会在基于云的平台上获得全面的分析数据,以及可供处理的建议和警报,以实现持续的健康和性能监控。
proteanTecs监测界面示意图,将数据可视化,供工程师调整参数
此外无论在芯片生产期间的片上监视器上,还是在系统应用的终端上,proteanTecs都提供部署在边缘端的应用程序。
proteanTecs 的技术优势及适用行业
由于在每个阶段都应用了相同的基于Agents的技术,从芯片表征、验证和批量生产,到系统集成和优化,再到现场应用——proteanTecs创建了整个行业通用数据集的基线。这为整个电子产业提供了关键参数的前后相关性、洞察力和可预测性,并首次为价值链创建了一种通用的“数据”语言。
Shai表示,在运用这项技术后,芯片和系统供应商在生产过程中可以将每百万个零部件的缺陷率 (DPPM) 降低 10 倍,优化每个应用的功率性能,提高性能产量,优化和跟踪可靠性裕度,并显着缩短上市时间。
一旦部署到现场,服务提供商就可以在故障发生前得到提醒,从而显着降低维护成本、优化系统性能并延长产品使用寿命。
据悉,proteanTecs早在2021年初就加入了台积电(TSMC)IP联盟计划,在低至5nm的技术领域提供硅验证、生产验证解决方案。2021年10月,proteanTecs又宣布芯片监测技术已支持台积电最新的3nm工艺。
在3nm硅工艺上具备从生产到生命周期操作的可视性,对于那些追求工艺先进性的芯片龙头企业来说尤其重要。
谈到公司产品最大的应用市场,Shai回忆到:“创立 proteanTecs时,大家认为它会首先被汽车市场采用,但事实并非如此—— 数据中心业者成为了我们技术的第一批采用者。但如今,我们在汽车领域同样获得了很大的发展势头,同时也在快速进入其他应用领域,例如移动和通信。”
目前,proteanTecs为多个行业的领先电子供应商提供服务,包括数据中心、云计算、汽车、人工智能和通信。芯片级的客户涉及 AI、交换机、服务器、存储、HPC、通信和 ECU,整个芯片行业的上中下游都是其潜在客户。
proteanTecs覆盖的产业领域
据Shai介绍,公司目前已获得近 2 亿美元的融资,得到了Intel Capital等电子和 SaaS 行业投资者的支持。“最近完成的两轮增长股权融资中,保时捷汽车控股有限公司(Porsche SE)、联发科(MediaTek)和爱德万测试(Advantest)加入了我们的投资者组合——每家公司都是各自行业的市场领导者。”
具体用例:解决Chiplet技术应用中的问题
2022年9月,proteanTecs加入了通用芯粒互联技术联盟(Universal Chiplet Interconnect Express ,UCIe)。该联盟于2022年3月成立,旨在创建封装层面的通用互联,以应对"超越摩尔(More Than Moore)"市场的激增,预计到2027年该Chiplet市场将达到19%的复合年增长率。
虽然该联盟联合了行业领先企业,希望构建一个具有互操作性的多供应商生态系统,并实现未来几代的芯片到芯片(die-to-die,D2D)互联和协议连接的标准化。但当前在Chiplet设计中仍面临大量互联问题,例如在先进封装和芯片堆叠过程中,热量难以散出会导致电子设备过热甚至故障等。
proteanTecs的监测数据和分析技术,能否给采用Chiplet技术的Fabless或Foundry解决一些实际问题呢?Shai给出了他的见解。
首先,Chiplet当前存在的一些具体问题,与封装技术和过程本身相关。这些问题受堆叠高度、裸片厚度、材料特性(基板、中介层、微凸块、TSV 等)以及应用过程中的热应力和机械应力影响。这些都会导致芯片裸片翘曲,如微凸块和 TSV 中的裂缝和空洞、相邻通道之间的桥接短路等。“所有这些问题在芯片通道中都可能导致严重故障,更糟糕的是,芯片信道性能的边缘化。”他说到。
由于 die-to-die 互连是 ATE 和常规测试方法的盲点,唯一的其他适用机制是将接口置于环回测试(loopback test)模式并运行内建自测(Built-in Self Test,BIST)。但这同样具有局限性,因为BIST方法虽然可以经过调整来识别致命缺陷,例如开路/短路,但可能无法检测边缘通道。其次,由于环回是硬连接的,流量模式是预先设置的,因此可能会遗漏一些交叉耦合效应。
“proteanTecs 片内监测与强大的数据分析相结合,就是答案。” Shai说到,在运行测试模式时,提供每条通道的完整参数分级以及任务模式流量,并且不依赖于任何环回或预设测试模式。即使在设备离开测试站之前,数据分析也可用于参数化的边缘通道检测和修复机制的触发。收集的历史制造数据,则可以用于模型训练和生产线偏差预警。
第二个用例是现场监测。由于Chiplet封装结构内的极端高温和热梯度,即使是非常好的通道也会随着时间推移而退化。需要持续的性能监测,以避免任务中的数据错误(又称SDC/SDE)。“proteanTecs 的监测技术可用于场内(in-field)和任务中,从实际流量中收集参数数据,并定期将其上传到我们的数据分析平台。” Shai解释到,“在那里我们通过运行算法,检测出比其他通道老化得更快的通道,并允许在真正的故障发生之前触发通道修复,甚至在极端情况下进行模块交换。”
如今在助力先进封装方面,proteanTecs已有了实际用例。2022年10月,他们与创意电子(GUC)合作发布了一份关于“对高带宽存储器 (HBM) 接口的可靠性监控”的白皮书,如今双方合作已延续到GUC的第二代GLink™接口。GLink是一种高带宽die-to-die并行接口,proteanTecs的互连监控解决方案集成在GLink测试芯片中后,为GUC提供了测试和表征PHY的更高可见性,并通过现场性能和可靠性监控增强最终产品。
关于数据安全
时下科技界最受关注的问题之一,毫无疑问是数据安全。无论是ChatGPT这样的大模型,还是UCT这样的片上遥测技术,都需要收集和分析反馈的数据。那么proteanTecs这项技术获得的数据最终将在云端还是本地处理,就成了芯片、OEM和终端消费者们关注的问题。
Shai表示,proteanTecs提供一系列分析解决方案,从云软件到边缘端。边缘端设备可以是一个测试器、一个ECU、一台服务器或一个开关,甚至是芯片内实时应用程序。这些边缘端的程序加载了基于测量和数据收集的模型,甚至更高级别的数据分析,让数据的处理更靠近决策点,用户可以做出近乎实时的决策。
例如在线离群检测或功率降低时,如果系统中搭载了数据分析功能,就可以根据连续诊断的阈值监测其性能。 以汽车为例,可以实时跟踪是否存在应用程序过载,或是存在涉及硬件的潜在危险情况。
无论采用边缘软件还是云分析,proteanTecs的方案都是使用模型并给予实际测量数据进行预测、决策并计算出故障时间。由于这与芯片故障的物理特性相关,所以能够轻松地找到故障的根本原因,服务提供商也能基于此执行预测性或规范性维护。
“通过这些方式,我们可以选择在云中提供带有警报和洞察功能的深度调试,以及测试期间的在线决策和现场远程诊断。”他同时强调,所有获取的数据均归客户(芯片及OEM厂商)所有。他们可以选择托管在自己的云端服务器或企业本地。此外proteanTecs也与所有主要的云供应商合作,提供云托管服务。选择哪种处理数据的方式,完全取决于用户自身偏好。
在任何应用场景下,proteanTecs的解决方案都带有开箱即用的机器学习 (ML) 算法。 这些算法根据特定数据集进行调整,并随着数据的积累而重新训练。
助力中国初创芯片企业
当前,中国目前正大力发展半导体产业,芯片设计公司已经多达3000多家,中小型公司占多数。Shai认为,这些初创企业要想在芯片设计和开发方面取得成功,需要在芯片中用上自己的一些核心技术。虽然许多核心功能不属于产品的主要价值,但对于支持和实现其产品的附加值至关重要。
诸如微调生产模式、确保对大规模生产的信心、权衡产品的功率、性能、成本和质量等动作都会占用创业者大量的时间和精力,而忽略了专注于产品核心价值的创造。
“我们认为每个初创公司的领导者都会同意,做芯片几乎没有犯错的余地。” Shai说到,初创企业领导者需要以正确的身份,利用正确的专业知识,加倍关注企业日常面临的关键挑战。产品一旦进入销售流程,最直接和核心挑战就是对自己提供解决方案的信心。“产品性能得到证明,将推动销售向前发展。但更重要的是,proteanTecs深度数据分析这样大幅提升可靠性的功能展示在客户面前,能让他们对后续芯片在实际应用中的表现更放心。”
关于Shai Cohen
proteanTecs 公司成立于2017年,总部位于以色列,在美国新泽西州,加利福尼亚州和台湾地区均设有办事处。公司联合创始人兼首席执行官Shai Cohen 是一位企业家和行业资深人士,在从零开始创建技术公司方面拥有丰富的经验。他以优异成绩毕业于以色列理工学院(Technion),并获得电气工程学士学位。
1989 年至 1999 年,Shai 在英特尔公司工作,担任奔腾处理器部门的高级职员和高速缓存控制器组的电路设计经理。
在2017年创立 proteanTecs 之前,Shai 与他人共同创立了 Mellanox(已被 NVIDIA 收购),这是一家为服务器和存储提供端到端 InfiniBand 和以太网互连解决方案的全球领导厂商。
Shai从 1999 年起担任Mellanox运营和工程副总裁,2011 年起担任首席运营官。在 Mellanox 期间,他负责监督所有内部运营和生产,并共同领导公司的研发活动。他于 2015 年至 2018 年担任 Mellanox 董事会成员。