乔治敦大学CSET 的两位作者编写的一份题为《AI Chips: What They Are and Why They Matter》的报告,借助模型预估得出,台积电每片5nm晶圆的收费可能约为17,000美元,是7nm的近两倍。
该报告同时估计,每片300mm直径的晶圆通常可以制造71.4颗5nm芯片,这让无晶圆芯片公司的制造成本达到每颗238美元(约为1642元)。
不仅不如,通过对半导体行业和AI芯片设计的调查,作者通过模型不仅估算出5nm芯片238美元的制造成本,还提出了每颗芯片108美元的设计成本以及每颗芯片80美元的封装和测试成本。这使芯片设计公司为每颗5nm芯片支付的总成本将高达426美元(约为2939元)。
市场研究机构International Business Strategies (IBS)给出的数据显示,28nm之后芯片的成本迅速上升。28nm工艺的成本为0.629亿美元,到了7nm和5nm,芯片的正本迅速暴增,5nm将增至4.76亿美元。三星称其3nm GAA 的成本可能会超过5亿美元。
来自IBS
设计一款5nm芯片的总成本将高达近5亿美元,那平均到每颗芯片的成本有多高?CSET在报告中的模型类比了英伟达P100 GPU,这款GPU基于台积电16nm节点处制造,包含153亿个晶体管,裸片面积为610 平方毫米,相当于晶体管密度25 MTr/mm 2。
由此计算,直径300毫米的硅晶片能够生产71.4颗 610平方毫米的芯片。
假设5nm GPU的芯片面积为610平方毫米,并且晶体管密度比P100 GPU高,达到907亿个晶体管。下表中是用模型估算的台积电90至5nm之间的节点晶体管密度。在90至7nm范围内的节点,模型使用具有相同规格的假想GPU,包括晶体管除晶体管密度,假想的5nm GPU与假设节点关联。
CSET的成本模型使用的是无晶圆厂的角度,包含建造工厂的成本、材料、人工,制造研发和利润等。芯片制造出来后,将外包给芯片测试和封装(ATP)公司。
当然,使用更先进的制程节点芯片设计公司也会有相应的成本增加。最终看来,芯片设计成本和ATP成本之和等于总生产成本,得出每颗5nm芯片支付的总成本将高达426美元成本的结论。
之所以先进制程芯片的成本不断增加,不可忽视的是半导体制造设备成本每年增加11%,每颗芯片的设计成本增加24%,其增长率都高于半导体市场7%的增长率。
并且,随着半导体复杂性的增加,对高端人才的需求也不断增长,这也进一步推高了先进制程芯片的成本。报告中指出,研究人员的有效数,即用半导体研发支出除以高技能研究人员的工资,从1971年到2015年增长了18倍。
换句话说,摩尔定律延续增加大量的投入和人才。
为了支撑先进制程,台积电十年内研发人数增加了三倍,2017年研发人员将近6200人,比2008年多了近两倍,这6200人只从事研发,不从事生产。
半导体市场以超过世界经济3%的速度增长。目前,半导体产业占全球的0.5%经济产出。对于半导体产业而言,先进的制程和高性能芯片驱动着行业的进步,晶体管成为关键。
晶体管尺寸减小使每个晶体管的功耗也降低,CPU的峰值性能利用率每1.57年翻一番,一直持续到2000年。此后,由于晶体管尺寸减小放缓,效率每2.6年翻一番,相当于每年30%的效率提升。
报告中指出,台积电声称的节点进步带来的速度提升和功耗降低,从90 nm和5 nm之间以恒定比例变化,但趋势趋于平稳。三星两种指标在14 nm和5 nm之间都有下降趋势,但缺少大于14 nm节点处的数据。
不过,由于半导体设备、研发等成本持续增加,这也让大量晶圆代工厂无法参与先进制程的生产和竞争,比如,GlobalFoundries就不生产14 nm以下的芯片。
下表给出了每个工艺节点量产的时间以及代工厂的数量,可以看到,随着制程的向前推进,晶圆代工厂数量越来越少。目前先进的制程工艺代工厂仅剩台积电、三星和英特尔。
虽然代工厂越来越少,但业界对于先进制程的需求并没有减少。AI芯片就对先进制程有不小的需求,最先进的AI芯片比最先进的CPU更快,且具有更高的AI效率算法。
从1960年代到2010年代,收缩晶体管的工程创新大约每两年将单个计算机芯片上的晶体管数量增加一倍,这一现象被称为摩尔定律。在此期间,计算机芯片的速度提高了几百万倍,效率更高。
当今最先进的芯片中使用的晶体管只有几个原子宽。但是,制造更小的晶体管会使工程问题变得越来越难以解决,甚至无法解决,导致半导体行业的资本支出和人才成本以不可持续的速度增长。结果,摩尔定律变慢了,也就是说,使晶体管密度增加一倍所花费的时间越来越长。维持摩尔定律的成本之所以合理,仅是因为它能够持续改善芯片性能,例如晶体管效率,晶体管速度以及在同一芯片中包含更多专用电路的能力。
历史上,通用芯片(例如中央处理器)的规模经济占据了主导地位,但诸如AI的专用应用需求越来越广泛,摩尔定律驱动CPU改进的逐渐放缓,通用芯片厂商也因此而感到不安。专用AI芯片正在从CPU夺取市场份额。
AI芯片包括图形处理单元(GPU),现场可编程门阵列(FPGA)和专用于AI的专用集成电路(ASIC)。诸如中央处理器(CPU)之类的通用芯片,也可以用于一些更简单的AI任务,但是随着AI的发展,CPU的用途越来越少。
像通用CPU一样,人工智能芯片通过合并大量越来越小的晶体管,比更大的晶体管运行得更快,消耗的能量更少,从而提高了速度和效率(也就是说,它们能够完成每单位能量消耗完成更多的计算)。但是与CPU不同,AI芯片还具有其他AI优化的设计功能。这些功能极大地加速了AI算法所需的相同,可预测,独立的计算。它们包括并行执行大量计算,而不是像CPU一样顺序执行。以成功实现AI算法但减少相同计算所需的晶体管数量的方式,以较低的精度计算数量;例如通过将整个AI算法存储在单个AI芯片中来加快内存访问;并使用专门构建的编程语言来有效地转换AI计算机代码以在AI芯片上执行。
不同类型的AI芯片可用于不同任务。GPU最常用于最初的开发和完善AI算法。此过程称为“训练”。FPGA通常用于将经过训练的AI算法应用于现实世界的数据输入。这通常称为“推断”。ASIC可以设计用于训练或推理。
由于AI芯片的独特功能,其在训练和推理AI算法方面比CPU快数十倍甚至数千倍,并且效率更高。先进的AI芯片还比先进的CPU具有更高的成本效益,这是因为它们具有更高的AI算法效率。AI芯片的效率是CPU的1000倍,相当于26年来摩尔定律驱动的CPU改进。
先进的AI系统不仅需要AI专用芯片,还需要最先进的 AI芯片。较旧的AI芯片(具有更大,更慢,更耗电的晶体管)会产生巨大的能耗成本,并迅速膨胀到无法承受的水平。因此,今天使用较旧的AI芯片,意味着总成本和增速至少要比最新AI芯片大一个数量级。
这些成本和速度的动态变化使得:如果没有最先进的AI芯片,几乎不可能开发和部署最先进的AI算法。即使使用最先进的AI芯片,训练AI算法也可能花费数千万美元,并且需要数周才能完成。实际上,在顶级AI实验室中,总支出中有很大一部分都花在了与AI相关的计算上。使用CPU等通用芯片甚至是较旧的AI芯片,此培训将花费更长的时间才能完成,并且花费更多的数量级,这使在研究和部署前沿的工作变得几乎不可能。同样,使用较不先进或较不专业的芯片进行推理可能会导致类似的成本超支,并且需要更长的数量级。
但高昂的成本和性能提升的幅度减少,让AI公司在计算上花费的时间和金钱更多,进而成为AI发展的瓶颈。
报告指出,AI实验室的训练的费用非常高,估算AlphaGo、AlphaGo Zero、AlphaZero和AlphaStar模型的训练成本每个为5000万到1亿美元之间。
内容整理自:雷锋网,CSET