本文由半导体产业纵横编译自纽约时报
随着最大的计算机网络不断发展壮大,一些工程师担心他们最小的组件可能会成为致命的弱点。
想象一下,为世界上最大的数据中心提供动力的服务器内的数百万个计算机芯片里存在罕见的、几乎无法检测到的缺陷。发现缺陷的唯一方法是将这些芯片放入到大量的计算问题中一一寻找,这种难度在十年前是无法想象的。
随着计算机芯片中的微型开关已经缩小到几个原子的宽度,芯片的可靠性已成为运行世界上最大网络的人们的另一个担忧。去年,亚马逊、Facebook、Twitter 和许多其他网站公司们都经历了令人惊讶的停机。
停机有几个原因,例如编程错误和网络拥塞。但人们越来越担心随着云计算网络变得越来越大、越来越复杂,它们在最基本的层面上仍然依赖于计算机芯片,但是这些芯片现在不太可靠、在某些情况下也难以预测的。
在过去的一年里,Facebook和谷歌的研究人员都发表了描述计算机硬件故障的研究报告,说这些故障的原因不容易确定。他们认为,问题不在于软件,而在于不同公司制造的计算机硬件的某个地方。谷歌拒绝对其研究发表评论,而现在被称为 Meta 的 Facebook 没有回复对其研究发表评论的请求。
专门测试计算机硬件的斯坦福大学电气工程师 Subhasish 说:“他们看到了这些无声的错误,基本上来自底层硬件,” Mitra博士说,越来越多人认为,缺陷的产生与这些不易被发现的所谓无声错误有关。
Facebook 位于俄勒冈州普林维尔的数据中心。大型数据中心曾经历过中断,部分原因可能是芯片错误。
来源:纽约时报Leah Nash
研究人员担心他们会发现罕见的缺陷,因为他们正试图解决越来越大的计算问题,这会以意想不到的方式给他们的系统带来压力。
十多年前,运行大型数据中心的公司开始报告系统性问题。2015 年,在工程出版物IEEE Spectrum中,一群在多伦多大学研究硬件可靠性的计算机科学家报告称,每年谷歌数百万台计算机中有多达 4% 的计算机遇到了无法检测到的错误,并且导致了他们意外关闭。
在一个拥有数十亿个晶体管的微处理器中——或者一个由数万亿个微型开关组成的计算机内存板中,每个微型开关都可以存储一个1 或 0,即使是最小的错误也会破坏现在每秒例行执行数十亿次计算的系统。
在半导体时代初期,工程师们担心宇宙射线偶尔会翻转单个晶体管并改变计算结果的可能性。现在他们担心开关本身越来越不可靠。Facebook 研究人员甚至争辩说,这些开关变得越来越容易磨损,并且计算机内存或处理器的寿命可能比以前认为的要短。
越来越多的证据表明,随着每一代新一代芯片的出现,这个问题都在恶化。芯片制造商 Advanced Micro Devices 于 2020 年发布的一份报告发现,现在最先进的计算机内存芯片的可靠性大约比上一代低 5.5 倍。AMD 没有回应对该报告发表评论的请求。
资深硬件工程师大卫·迪策尔(David Ditzel) 是世界语科技公司的董事长兼创始人,他说追踪这些错误具有挑战性。世界语科技公司是一家为加利福尼亚州山景城(Mountain View,California)的人工智能应用而设计的新型处理器制造商,有1000个处理器,由280亿个晶体管组成。
他将芯片比作一座横跨整个美国表面的公寓楼。Mitra 博士使用 Ditzel 先生的比喻说,发现新错误有点像在那栋大楼的一间公寓里寻找一个单独的水龙头,只有当卧室灯亮并且公寓门打开时,水龙头才会发生故障。
谷歌位于爱荷华州康瑟尔布拉夫斯的数据中心。谷歌研究人员发现,处理器内核似乎只在特定条件下才会产生错误。
来源:路透社Brian Snyder
到目前为止,计算机设计人员一直试图通过在芯片中添加特殊电路来纠正错误,从而解决硬件缺陷。电路会自动检测和纠正不良数据。它这曾经被认为是一个极其罕见的问题。但几年前,谷歌生产团队开始报告难以诊断的错误。根据他们的报告,计算错误会间歇性发生并且难以重现。
一组研究人员试图追查这个问题,去年他们发表了他们的发现。他们得出的结论是,该公司庞大的数据中心由基于数百万个处理器“内核”的计算机系统组成,它正在经历新的错误,这些错误可能是由两个因素组合而成:接近物理极限的较小晶体管和不充分的测试。
谷歌研究人员在他们的论文《Cores That Don’t Count》中指出,这个问题非常具有挑战性,以至于他们已经投入了相当于数十年的工程时间来解决它。
现代处理器芯片由数十个处理器内核组成,计算引擎可以分解任务且并行解决它们。研究人员发现,一小部分核心很少会产生不准确的结果,而且仅在某些条件下才会产生。他们将这种行为描述为零星的。在某些情况下,只有在计算速度或温度发生变化时,内核才会产生错误。
据谷歌称,处理器设计复杂性的增加是失败的重要原因之一。但工程师们也表示,较小的晶体管、三维芯片和仅在某些情况下会产生错误的新设计都导致了这个问题。
在去年发布的一篇类似论文中,Facebook的一组研究人员指出,一些处理器会通过制造商的测试,但在投入使用时就开始出现故障。
英特尔高管表示,他们熟悉谷歌和Facebook 的研究论文,并正在与两家公司合作开发检测和纠正硬件错误的新方法。
英特尔数据平台集团副总裁布莱恩·乔根森(Bryan Jorgensen)表示,研究人员的断言是正确的,“他们对行业提出的挑战是正确的选择。”
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。