在本系列的第一篇文章中(滑动至文末,观看上期视频),我们探讨了静默数据损坏(Silent Data Corruption,SDC)的定义及其对当前计算数据状况的影响。为此,我们再次邀请了谷歌的首席工程师Rama Govindaraju和微软的硬件架构合伙人Robert S. Chappell共同探讨解决这一棘手问题的可行方案。
新思科技对话谷歌和微软,共同探讨如何解决数据静默损坏(SDC)问题(下)
回顾一下,静默数据损坏是指受影响的CPU在处理数据时无意中引发错误。这些错误可能会长时间潜伏而不被发现,进而悄无声息地破坏整个数据集。
随着计算机处理能力的飞速提升,尤其是伴随内存密集型人工智能(AI)及其他前沿技术的广泛应用,SDC的风险日益加剧,可能导致大量数据的损坏,进而引发难以预估且影响深远的问题。
SDC问题亟待解决,那我们应该如何应对呢?
处理复杂的静默数据损坏问题
当前,SDC的成因尚未明确,且解决方案尚处于初级阶段。
SDC所面临的一大挑战是决策者未投入充足资源来根本性地解决该问题,而仅仅是在症状显现时采取临时缓解措施。“这要花多少钱?”是常见的反对理由,通常也是SDC未得到根本解决的原因,毕竟定期执行扫描以及改进芯片制造工艺等诸多措施的成本过高。
最终,成本问题成为了开发实际解决方案的绊脚石。如果成本过高,为什么还要去研究解决方案呢?但这正是悖论所在:如果开发出了解决方案,就可以进一步研究降低成本和扩大应用的方法。
解决SDC的责任不应仅落在芯片开发者身上,制造商以及更广泛的利益相关方也应参与其中。即使现有的每个芯片都完美无瑕,SDC问题仍然会发生。然而,芯片生命周期的每一个环节都可能存在相关的解决方案,且或将对此发挥积极作用。
如今,制造商缺乏应对SDC的动力。如果客户收到有故障或缺陷的芯片,通常只需退换即可。这种做法虽然可行,但并未从根本上解决问题。如果激励机制发生改变,相应的行为模式也会随之变化。例如,如果芯片开发者可以向制造商证明某个芯片存在缺陷,而制造商必须为此支付50倍于芯片成本的赔偿,那么制造商就会更自觉地采取预防措施。
此外,早期的筛查和测试有助于尽早发现SDC,从而留出补救时间。就比如您汽车上的传感器。许多传感器并不是汽车正常运行所必需的,而是用于提醒用户可能存在的问题。
在芯片领域,某些故障可能隐藏了一两年之久,等到发现时往往为时已晚。芯片中的传感器可以发出预警或警告,虽然这只是权宜之计,但可以在过渡阶段提供有效帮助。
解决SDC面临的一大难题在于,解决方案需要广泛覆盖。具体来说,真正有效的解决方案应涵盖芯片开发者、供应商、云和数据管理者及其他相关方等等所有环节。
有望解决静默数据损坏的工具和方法
解决SDC的另一难点在于我们对其发生机制和原因知之甚少。不知彼,不知己,每战必贻。因此,我们需要更多能够广泛共享、分析和研究的数据。此外,行业也应允许并鼓励研究人员和开发者聚焦于SDC问题。
识别数据中的异常点、采取纠正措施、诊断症状、关注时间延迟或数据泄漏等警示迹象,以及其他许多诊断选项,将有助于揭开SDC的神秘面纱。然后,通过调整策略,我们也许能够找到解决方案。然而,这些举措仍未能在开发阶段如期落地,所以迫切需要集结各方力量共同攻关。
我们可以借鉴网络安全等相关行业以及食品和消费品等领域,建立一系列的管理标准,规定安全可靠的产品必须达到的特定条件。在计算机组件领域,类似的框架必定有助于推动解决方案的发展。
在工具箱中,还有一个工具目前尚未得到充分利用,那就是人工智能(AI)和机器学习(ML)算法。在诊断方面,定期筛查并不完美。一项筛查可以运行10次,但可能会得到5次阳性结果和5次阴性结果。故障容易被遗漏,而即便能够识别出某些症状,但通常也难以确定故障的根本原因或具体机制。
AI或ML或许能够提供帮助。理论上,当SDC的早期迹象达到某些条件时,算法能够发出警报。但这种方法也并不理想,因为训练这些模型需要大量数据,进而需要综合处理数据,而且用于AI训练的数据集必须具备高度的目的性。这个方法虽然很有潜能,但仍处于早期阶段。
毫无疑问,这一问题规模巨大,构成了根本性威胁,需要我们携手应对。芯片开发者、制造商、软件和硬件工程师、供应商以及任何涉及计算机数据的人员等等各个领域的利益相关者,都需要共同合作并认真对待SDC问题。在此过程中,教育扮演着重要角色,我们希望类似本博客系列的资源有助于阐明为什么必须采取行动来解决静默数据损坏,并说服决策者落实措施。
解决问题的第一步是承认问题的存在。对于静默数据损坏,我们已经意识到问题的存在,现在是采取行动的时候了。