各类处理器的性能越来越高,让人们在使用电子设备时的体验也随之升高,但是高集成度带来的副作用之一就是巨大的发热量。再加上电子产品在高性能、高功率化的同时,还向着超薄、微型化发展,电子元件散热空间越来越小,单位面积内产生的热量却越来越多。
芯片散热的不同方法
研究表明,几十年来计算机发热密度一直呈指数级增长,如果热量不能及时散出,则会导致器件中自由电子和金属原子动能显著增加,碰撞概率加大,带来“电子迁移”效应令计算机不能正常工作。美国国防先进项目研究署(DARPA)甚至还对此动员了国家实验室和著名大学等科研机构,进行了针对性的研究,主要分布在固体和流体散热技术两个领域。
早期PC行业普遍对高端CPU、GPU等发热量大的器件,采用导热硅脂涂抹,加装散热鳍片、导管以及风扇的风冷方式散热,这属于固体散热(导热)的范畴。对于超频爱好者来说,风冷已经不能满足他们,所以将芯片浸泡在循环非导电液体水冷散热,甚至超低温液氮中成了一个更为高效的选择,这就属于流体研究的领域。
导热材料散热工作原理示意图
对于服务器机房这种热源集中地,数据中心24小时冷气是最基本的,很多业界巨头还会将数据中心建在寒冷的高纬度地区,甚至放进海中或者将设备浸泡在特殊液体、压缩气体里,提高散热的效率。
大型设备散热可以不考虑体积,但手机等便携式设备可不行。目前智能手机中的发热源除了SoC,还有屏幕、射频前端、摄像头模组及电池,且紧凑的结构让废热更加难以导出。市面上智能手机散热的方案主要有:导热凝胶、石墨片、石墨烯、均温板、热管等,5G的到来带来了加倍的射频器件,也带来了更多的热,手机散热需求出现井喷。
芯片堆叠时代,“中间楼层”降温不易
但不管单纯的物理导热,还是风冷、水冷、液氮散热解决方案,都是导热介质接触芯片内封装层(Die),只能对直接接触面散热。这种方式也会给芯片顶层带来压力,因为整个芯片的热量都要从硅芯片传导到内部导热材料,再传导到芯片Die,最后才能集中通过导热介质传输到散热器散发出去。若未来芯片大量采用垂直3D堆叠技术,大量集体管集中在芯片中间,这些散热效果就会大打折扣。另外水冷的方法需要加装较复杂的外部设备,不适合在轻薄型设备中使用,价格也十分昂贵,不适合普通消费者。
据Hardwareluxx报道,近期台积电(TSMC)在VLSI研讨会上,展示了对片上水冷的研究,作为新的散热解决方法,涉及将水通道直接集成到芯片的设计中。 这个理论很简单,有些类似CPU散热器中内嵌微热管的方式,不少玩家曾经无数次幻想过的这样的微热管也能存在于芯片里,但对于本就不宽敞的芯片内部而言实现起来极其困难。
台积电开展这项研究的背景如我们之前所述,芯片设计的复杂化以及工艺制造技术的发展,带来了更紧密的工艺和垂直3D芯片堆叠等技术。缩小芯片体积让晶体管之间的空间被压缩得更厉害,以往的多重传导聚顶式散热已经不能满足要求了。
三种片上水冷,三种硅上水道
据tom’s Hardware报道,台积电的研究人员认为未来的解决方法是让水在夹层电路之间流动,为此他们对三种不同的硅水道做了相关的模拟试验:一种只有直接水冷 (Direct Water Cooling,DWC),作为制造过程的一部分,水有自己的循环通道直接蚀刻到芯片的硅片中;另一种设计将水通道蚀刻到芯片顶部自己的硅层中,使用 OX(氧化硅融合)的热界面材料 (Thermal Interface Material,TIM) 层将热量从芯片传递到水冷层;最后是一种将 OX 层换成更简单、更便宜的低熔点液态金属热界面材料(Liquid Metal TIM,LMT),这种属于没有水道的方式。
台积电在报告中说,结果显示第一种方法最好,因为水道直接蚀刻在芯片本体中国。其次是第二种方法,因为第二第三种都是在硅芯片表面再加了一层带水路蚀刻的硅材料,用导热材料粘接,效果是要打些折扣。
台积电还在受控实验室条件下对虚拟半导体进行了测试。如上图所示,一种热测试载体 (Thermal Test Vehicle,TTV)本质上是一种由铜制成的加热元件,本身有温度传感器。加热元件的表面为 540 mm²,TTV 的总面积为 780 mm²。TTV 在它自己的基地中被拉伸,这使得电力供应、供水和排放以及传感器的连接成为可能。小编觉得引入温度传感还有一个作用是,需要在25°C的恒温下引入水,以免出现芯片过热时突然遇冷“炸锅”。
台积电在可控条件下测试了三种硅水通道的集成:一种是基于柱状结构的通道,水可以在有源半导体柱周围流动以冷却它们(想想岛屿周围的水);以沟渠设计为特色的设计(想象一条被河岸控制的河流);在硅芯片的其余部分上安装一个简单的平坦的水通道。水通过一个外部冷却机制,将水通过硅芯片的过程冷却到25ºC。
从台积电的报告可以看出,目前最好的解决方案是直接水冷方法,它可以消散高达2.6千瓦(kW)的热量,提供63 ºC的温度差。第二好的设计自然是基于OX TIM的设计,它仍然可以散去2.3千瓦的热量,提供83 ºC的温度差。液态金属解决方案排在最后,仍能散发出1.8千瓦的热量(温度差为75 ºC)。在所有的水流设计中,柱式设计是迄今为止最好的。
当然,只靠芯片内这一点水流是不足以令其降温的,最终芯片内的“河流”还是会把内部深处的热量带到表面,由散热器或外部水冷系统散发到空气中。其本质在于将原本芯片上层的散热层“打薄”并将导热材质分散到内部各层中,让芯片中热源不再依赖硅晶本体传导热量的,减小电子迁移给处理器性能带来的负作用。
结语
早在20世纪初,英特尔公司迫于奔腾处理器的发热量过大问题,不得不放弃增加工作频率来提高处理器计算速度的做法,转而走双核路线,但双核的奔4功率居然也高达200W左右。当时还在英特尔担任首席技术官的帕特·盖尔辛格 (Pat Gelsinger)放话,如果芯片耗能和散热的问题得不到解决,当芯片上集成了2亿个晶体管时,就会热得像“核反应堆”,2010年时会达到火箭发射时高温气体喷射的水平,而到2015 年就会与太阳的表面一样热。
如今,各大厂商已经把单颗芯片上的晶体管堆上了百亿级别。英伟达(NVIDIA)的A100加速器连同HBM2E和作为SXM4模块,已经有高达500W的废热;英特尔的Xe-HPC芯片Ponte Vecchio甚至有高达600W的余热。但主流空气强制对流散热方案,也只是在散热器的结构和材质上做文章,并没有深入芯片内。虽然也有科学家在研究纳米微气流冷却、热电/热声冷却、光子主动冷却等黑科技,但真正能大规模商用的几乎没有,英特尔、AMD、英伟达以及后来的手机处理器厂商高通、苹果等,只能从优化架构、提升工艺甚至软件降频上去减小发热量。
据悉,今年底AMD就将使用 3D V-Cache 作为处理器的附加 SRAM,这些额外的高功耗缓存将直接位于现有的 L3 缓存之上,而不是位于 Zen 3 核心之上,不能直接接触散热器将使冷却它们变得异常困难。AMD会不会用上台积电提出的芯片内“水道战”冷却解决方案?小编估计还没这么快,实验室中的技术离商用可能还有数年时间。但这绝对在晶体管密度持续增加、每区域性能指标持续改进的大趋势下,未来 3D 堆叠芯片设计需要考虑的散热方向之一。
责编:Luffy Liu