这个故事发生在好些年前了。
光纤通信网络的一个1000W电源模块(PM)严重烧毁了,就在一天前这个模块还能正常工作呢。
每秒传输多Gb数据的网络突然中断,这件事立刻引起了最高管理层的注意。我开始研究这些原本“必须”永久工作的电信系统电源模块。为达到永远工作的目标,电源分配应采用冗余设计:尽管一个电源模块就可以完成工作,还是使用两个电源模块为同一机架供电,这样在另一个电源模块发生故障时可以随时切换。切换通过“热插入”完成,在热插入过程中机架不断电。
将电源模块热插入到40~60V电信总线是一件棘手的事。流入模块的电流由一个板载MOSFET控制。要处理1 kW,它必须完全打开或关闭。在插入模块时,从关闭到打开的瞬变必须快,但又不能太快,否则,为板载电容器充电的输入浪涌电流可能会使电信总线掉电。同一个MOSFET还兼作断路器。如果怀疑是板子内短路,则反应必须快,但必须忽略电源环境中常见的“讨厌”尖峰。
电源模块在部署之前已经通过了插入测试,但并没有全面完成可怕的短路测试。事实证明,如果反应太慢,MOSFET就会短路。在现场,电源模块的一个电容器发生了短路,随后MOSFET出现了故障,数百安培电流流入电路板。几秒钟后,集线器就被烟雾包围,主断路器跳闸,大部分网络中断。
为了修复这一故障,需要重新设计热插拔时序(通过几个电阻和电容设置)。尽管这听起来就像计算其值一样简单,但这一任务却十分重要。在由各种原因引起短路时,电源模块能够以可控的方式停止运行并重启,这证明了上述方法是有效的。
这时,最高管理层来到现场。当时已经部署了1000多个电源模块。修复方案的零件成本为10美元,而召回、修改并重新部署所有电源模块的成本超过100万美元。管理层决定继续修复。我很感激领导的信任。公司已接近收支平衡点,必须节约每一分钱。
三年后,我收到一封让我吃惊的电子邮件,说那个电源模块现场可能存在遥测故障。遥测在几周前就已经停了,但集线器工作正常,因此服务访问延迟了。我们拿到的替换部件看起来没什么问题,但是一装到测试架上马上就开始冒烟。尽管当时不知道这个模块是不是修订版,但凭直觉我感觉这个模块被改过。由于事关100万美元,我不能让自己“名声扫地”。
我意识到许多人很快可能遇到同样的问题,除非有奇迹发生,接下来必须进行令人头痛的计算。我不记得什么时候发生过奇迹,所以还是乖乖地跑到实验室去查看电源模块。在冲向实验室的路上,我一直在想是不是向公司赔偿100万美元的损失算了。我确实希望公司慈悲为怀,但即使免去90%的赔偿仍会让人不开心。一想到要损失这么多钱,我的感觉就很不好。到了实验室,我一眼就看到了测试机架上那块冒烟的电源模块,但我将注意力集中在与测试机架相连的实验室电源上。现在我的大脑开始高速运转,检查实验室电源设置。问题找到了! 实验室电源的电流限制设置为18A,达到这一水平会把这个电源变成电流源。
现在我不用担心银行存款不保了,于是开始梳理思路。所有已部署的电源模块都将MOSFET断路器设置为30A(在40V时,1 kW的裕度为20%)。 在舒适的实验室条件下(50V,20°C),测试机架的功率始终约为800W。随后,将实验室电源的电流限制设置为18A。我的猜测是,替换的PM发生短路后,由于外部18A电流限制,电源模块无法识别发生了短路。上电时,MOSFET强制保持线性模式,直到烧毁。
电源模块已经部署运行了数周,多亏采用了冗余设计:一块电源模块使机架保持运行,短路的电源模块则利用自己的无限能力轻松响应30A浪涌,使MOSFET以每隔几秒的间隔不停开关而保持工作状态。实验室过保护设置在20ms内毁坏了MOSFET。回到办公室时,我已经很清楚自己有办法修复这一故障了,我的钱包保住了。但是我仍然不确定整件事的罪魁祸首是不是那个便宜的电容。
编译:Jenny Liao, EDN China
责编:Luffy Liu
(原文刊登于ASPENCORE旗下EDN英文网站,参考链接:The $1 million recall,By Samuel Kerem)
- 认真查找故障的精神值得推荐