话说我们公司的业务部门曾经代表工程部门接下一个挑战:他们承诺某个客户,表示我们能够修理好一套电信产品,但其实那种东西我们以前从没见过,所以也没有测试工具,更别说它的架构图了(原厂也已经停止支持该产品)。
无奈之下,工程部门只好再一次使出浑身解数,力求达成使命;于是我的办公室出现了大约15片可热插拔背板的板子,准备进行初步评估并探索其内部运作。这些板子包含专有的SIMM直插式内存模块,其中有几个竟然已经坏了,暂时用其它板卡上有明显烟熏损伤的内存模块来替代。我们把它们平放在工作台上,接上电源,成功让它们起死回生了(但是我们没有测试机箱可用!)。开机后它们能通过RS232端口进行通信。
那些内存模块内包含4颗SRAM以及4颗闪存,每颗存储器芯片分享一条8位宽的数据总线,每一对SRAM能与所选择的相同芯片一起工作。我跟老板说,我们可以专门为待测内存模块做一个小型测试夹具,进行SRAM测试,或是在有必要时重新编程闪存。
于是坐在距我三格座位之远的一个数字/软件工程师同事,被指定跟我一起完成这个任务。他之前设计过一款使用表面贴装 PIC微控制器的PCB,能用来作为我们目前或未来所需测试夹具的通用I/O。想不到它刚好有足够的I/O线路能处理待测内存模块的地址与数据总线,而且只要我将4个独立的待测数据总线在夹具上两两成对绑起来,就还会有两条备用线路,因此我们决定就用它了。
我订购了必要的SIMM连接器,一块电镀通孔面包板(plated-through-hole protoboard),还有一些带状电缆(ribbon cable)以及IDC插座来连接PIC电路板。间距为0.05英寸的72接脚SIMM连接器有点恼人,因为面包板必须要拥有相同的间距;其微小的0.025英寸直径小孔无法容纳0.025平方英寸的针脚,所以无法进行绕线(现在我知道谚语“Can’t fit a square peg into a round hole——格格不入”的由来了!)。
我必须直接把带状电缆焊在面包板上,并串连一条短的30AWG线到SIMM连接器。只要保证绞缠的带状电线没有镀锡过度(overly tinned,镀锡是为了让线路能绞在一起),它们实际上能刚好穿过面包板的孔洞。
另一个恼人的状况是SIMM连接器有塑胶做的固定片(retaining tab),会因为内存模块的重复插入而快速穿出。制造商的这样设计可能是因为通常SIMM只会在产品生命周期中替换一次,但我们是为了要测试内存模块,得重复插拔。
幸运的是,因为预料到最后会需要方便替换,我为SIMM连接器在面包板上使用了插座式接脚条(socket pin strip)。随后我发现一个有金属固定片的连接器,供应商的在线元器件说明中并没有显示这种特殊规格,所以我得从众多机械图片中自己去找。
夹具的第一次测试很顺利,我同事编写了一套walking-ones存储器测试程序,能立即在数个待测电路板上发现损坏的SRAM芯片,我们将之替换然后重新启动,但一直出现令人不安的“RAM损坏”提示信息。因为可用性,我们用12ns的SRAM取代原本20 ns规格SRAM,速度应该不是问题….嗯…所以可能我们需要改进测试算法。
然后我们鼓起勇气,从正常内存模块的闪存上复制了大约五个不同版本的固件,并尝试把新固件重写入模块中。一开始完成了半开机(semi-booted),却显示“缺少应用程序载入(application loader)”的提示信息。而重载固件之后,我们甚至无法通过RS232端口与之通信,“看起来正常”的固件加载莫名其妙地搞砸了一切。而且我同事确认过,在正常模块与故障模块中的固件是一模一样的,那为何一个能开机一个不能?是速度问题吗?
我同事继续写他的程序,并进行了walking-zeros测试。但另一件奇怪的事发生了,在数个我们认为正常的内存模块上,数据总线绑在一起的两颗SRAM发生了同样的故障——当写入7F代码,回读出来的却是FF;而且只有一对SRAM发生这种故障,另外一对SRAM一直都是正常工作。
难道是我连错了夹具上的线吗?我们用示波器测试,结果证实还真的是这样,当我同事写入7F代码,待测SRAM与夹具传回的信息也是一样,显然他的PIC微控制器把明确的逻辑0读成了逻辑1,但只在该数据总线的第7位上。不过walking one测试成功了,第7位在测试中被正确读取为逻辑0。
因为我对我同事的PCB布线以及PIC芯片不熟,我请他把他的KiCAD板布线文件发给我。我已经知道那里没有电源/接地平面(power/ground plane),却没料到看见了部分接地引脚连接迂回进出,而它们本应全部集结在PIC芯片之下。
他部分的Vdd连接甚至没有连到Vdd覆铜上,而是依赖芯片内的连接;他的耦合电容相距1英寸远,增加了2英寸的走线电感(trace inductance);我在这里嗅到了模拟问题,可能是由电源绕线引起的。要找出导致某个问题的“元凶”,有个方法就是消灭它,于是我用了一个以前成功过的方法,就是添加电源平面以及更多的去耦,以下的图片是我们找一位焊接专家所完成的作品:
两个方块是单面覆铜的迷你电源平面,其末端的去耦0805芯片电容尺寸与AC耦合的电源平面相当;PIC微控制器这下子不能抱怨电源蚀刻走线不好,所有的电源与接地引脚现在都结合在一起了。
很遗憾,我的方法没有成功,不过也去除了电源的嫌疑;我仍觉得是模拟问题。我们做了一些测试,想看看是否是其它字节模式(byte patterns)导致第7位在实际上是0时被错误读取为1,我的怀疑被进一步证实了。原来确实有很多模式会这样,如果仅有3个低阶位(lower-order bit)是代表1,PIC芯片会在第7位实际上是0的时候把它读成1。这对低阶位来说似乎无关紧要,只会让3个以上的集(set)变成1;但如果累积足够数量,它们似乎会渗入第7位。这岂不是模拟电压总和(analog voltage summation)?
这让我茅塞顿开;我同事的PIC微控制器以3.3V工作,我的内存模块则是以5V电源启动;我同事之前跟我保证过,他的PIC输入能够耐受5V电压,规格表上也是这么写的。我仔细阅读了规格表,第一页就写着“输入能够容许的最大电压为5.5V(仅数字接脚)”,因此如果输入是被配置为数字方式,应该就是5V耐受值,没错吧?
而在规格表中的某一页又写得更详细:所有输入能被配置为模拟或数字方式,并非可达5V耐受值;它们有最高到3.3V Vdd的钳位二极管(clamp diode)。所有问题数据总线的8个位,以及其它数据总线中的1个位都是这种输出;因此没错,这是个模拟问题,5V是过度驱动输入电压以及规格表上的缀饰….搞清楚之后我发明了很多新的脏话。
这也解释了我们重写的快闪不再启动的原因,所有我们拷贝的固件映像都变成垃圾;我得把焊枪再次加热,进攻测试夹具,小心翼翼切断带状电缆加入几个具备5V耐受电压的74LVC245总线收发器。而我的PIC微控制器知识以及骂脏话的功力也在过程中精进不少。
解决问题之后,我们就能辨识损坏的SRAM元件并重写损坏的闪存;在存储器重写之后,“RAM损坏”的信息被“RAM良好”取代,先前可能是闪存记录了过去的SRAM故障状态。两个工程师,一个擅长数字一个擅长模拟,我们最后成功地完成了任务!