全球7大互联网巨头和云平台服务商,还有苹果和华为等高科技公司,都在从不同方向挺进半导体市场,通过自研、并购或合作的形式开发适合自己特定需求的芯片。ASPENCORE旗下EE Times编辑团队联合推出了一个Hyperscaler专题,全方位分析Hyperscaler对半导体行业现在和未来的影响。
这一专题包括如下系列文章(中文或英文):
2. 存储器和晶圆代工厂商面临“Hyperscaler”科技巨头提出的挑战
3. Hyperscaler科技巨头正在吞噬半导体行业(英语广播+中文译稿)
4. Hyperscalers Getting Competitive with their IC Suppliers
6. Semiconductors Swim with Seven Whales
7. A New Chipmaking Playbook for the AI Era
8. Tech Titans Beginning to Drive Process Technology Roadmap
9. Google, Microsoft ride to AMD's Rome
“Hyperscaler”公司全球只有24家
Hyperscaler最初是由IDC提出的一个专用词语,主要指那些拥有多个数据中心,服务器数量高达数十万甚至上百万台的云计算平台服务商,也有翻译为“超大规模业者”。这些Hyperscaler公司一般是因自己的核心业务需要海量的数据处理和存储而在全球范围内扩建数据中心,慢慢地开始以公用云平台的方式为其它企业提供云计算服务。亚马逊是最早基于自身数据中心和云计算技术而提供商用云计算服务的互联网公司,目前仍是全球最大的云平台服务商。
按照市调公司 Synergy Research Group 的统计标准,目前全球可以称得上是Hyperscaler的云计算服务商只有24家,其中最大的7家都是互联网科技巨头,他们分别是美国的亚马逊、微软、谷歌和Facebook,以及中国的BAT(阿里、腾讯和百度)。当然,苹果、IBM、Oracle、NetFlix、VMware和华为等企业也从各自的核心业务扩展到云计算服务,也是有相当规模的Hyperscaler。
根据思科的统计预测,到2021年全球Hyperscaler企业将运营628个数据中心,所处理的数据量将超过全球总数据量的一半。其中最大的几家Hyperscaler企业据说每家拥有的服务器数量至少有3百万台。
据 Dell’Oro公司的调研数据,2018年全球最大的10家Hyperscaler企业花在数据中心的投资高达1000亿美元,主要包括服务器、网络交换机和存储设备等。亚马逊安装和运行的服务器数量据说高达800万台,比全球整个电讯行业的服务器都多,也超过国内BAT三家合计的服务器数量。
对英特尔来说,服务器CPU已经取代PC CPU而成为其主要营收来源。但在2018年销售给云平台客户的所有服务器CPU中,约50%是定制芯片,而在2013年这一比例只有20%。这说明各家云计算平台虽然都需要服务器,但其需求还是不同的。无论CPU、GPU还是FPGA,他们都希望这些芯片供应商能够按照他们的需求而定制开发。除了服务器性能外,性能/功耗比已经成为云平台客户的一个关键指标。一个功耗200W的GPU对一个加速卡或一台服务器也许不算什么,但考虑到几十万甚至上百万的安装量,其耗电量就是一个相当可观的数字了。不单单是电费成本问题,服务器散热和数据中心环境温度对设备运行和性能表现都可能造成很大的影响。
最新VLSI芯片包含2万亿个晶体管
超大规模集成电路(VLSI)是集成电路(IC)上集成百万级晶体管数量的制造工艺,自上世纪70年代开始发展起来。晶体管数量通常是指IC芯片上的MOSFET(金属氧化物半导体场效应晶体管)的数量,因为所有现代IC都使用MOSFET(也称为MOS晶体管)。这是IC复杂度的最常见衡量指标。MOS晶体管数量增加的速度通常遵循摩尔定律,即晶体管数大约每两年翻一番。
VLSI的最典型代表就是微处理器。截至2017年,AMD基于Ryzen架构的Epyc商用单芯片微处理器包含的晶体管数量为192亿个,它采用三星14nm FinFET制造工艺。截至2018年,在GPU中,Nvidia的GV100 Volta拥有211亿个晶体管,采用台积电12 nm工艺。在FPGA中,最高的是Xilinx的Everest / Versal FPGA,包含大约500亿个晶体管,采用台积电7 nm FinFET工艺。截至目前为止,晶体管数量最多的是三星eUFS(1 TB)嵌入式V-NAND闪存芯片,包含2万亿个晶体管。
Hyperscaler需要实时处理海量的数据,在芯片计算性能和传输延迟方面要求特别高,因此采用最新制造工艺的高性能芯片一般都会在数据中心率先采用。英特尔一直霸占着服务器CPU市场的龙头地位,而最近几年AMD的EPYC CPU采用TSMC的14/7nm工艺,对英特尔发起了不可小觑的挑战。同样采用TSMC代工的英伟达GPU在图像处理方面比通用的CPU更有优势,正好迎合了Hyperscaler在AI方面的训练需求,但通用型的GPU慢慢也难以满足这些云平台服务商的特定需求。传统FPGA厂商Xilinx开始转向数据中心优先的战略,与英特尔CPU配合为微软Azure云平台提供最佳的计算性能。
Hyperscaler芯片策略:外购、自研还是并购?
一直以来,这些互联网公司都是从联想、HP和戴尔等OEM厂商那里购买服务器及已经内置的CPU,但最近几年他们直接从Intel/AMD采购CPU的比例在逐渐升高,2018年有35%的服务器CPU是绕过服务器OEM厂商而直接从芯片供应商购买的。对于GPU和FPGA等芯片更是明显,他们从英伟达购买GPU,从Xilinx或英特尔购买FPGA,从Mellanox(已被英伟达收购)采购网络芯片和板卡等。对于这些已经比较成熟且设计门槛特别高的芯片,Hyperscaler们必须从外部采购,无论通过OEM/代理商,还是直接从芯片供应商那里购买。而对于新兴的AI芯片呢?
撇开三星、华为和中兴这些从芯片、终端到系统一条龙的公司不说,自从苹果开始自研iPhone应用处理器,便开启了系统厂家涉足芯片设计的时代。在图灵奖得主John Hennessy和David Patterson的Domain-Specific架构的理念指导下,Google开发出针对自己的云计算进行AI加速的TPU芯片,现已发展到第三代。在最近的百度AI开发者大会上,百度宣布推出语音交互芯片“鸿鹄”,它能实现离线语音识别、语音唤醒、以及远场阵列信号实时处理等。鸿鹄芯片使用HiFi4自定义指令集,双核DSP核心,平均功耗仅100mW。这款芯片是根据车规级标准打造,可应用于车载、智能家居等场景。另外,百度宣称其“昆仑”云端AI芯片已经流片成功。
华为云平台虽然起步比较晚,但也算得上是一个Hyperscaler了。华为海思自研的鲲鹏920 Arm服务器芯片已经投入商用,用于泰山服务器。虽然华为无意挑战英特尔在服务器CPU市场的权威,但似乎也不只是将之作为“备胎”。华为自家的数据中心自然会使用鲲鹏CPU,中国政府机构和大型国企也是很大的目标市场。再说苹果,其芯片研发团队越来越大,从剔除Imagination而使用自己的GPU,收购英国Dialog的电源管理芯片业务,直到最近10亿美元接收英特尔的5G芯片业务及团队。如果所有这些动作还不足以引起半导体行业警觉的话,等苹果放弃英特尔CPU,而为其MacBook电脑装配自家研制的CPU时,相信半导体厂商都会意识到这些Hyperscaler对半导体行业有多大的影响力了。
Amazon通过收购以色列初创公司 Annapurna 而拥有了自己的以太网适配卡芯片,这种基于Arm内核的芯片因为亚马逊AWS的规模化部署而使之快速成为全球第五大以太网适配卡供应商,紧跟在英特尔、Mellanox、博通和Marvell之后。阿里收购中天微,与达摩院合并为平头哥半导体公司,最近发布一颗基于RISC-V的内核,据称比现有RISC-V芯片性能高出40%。
半导体厂商的机会与风险
面对如此巨大的采购量及对行业的影响力,没有任何一家芯片供应商会对Hyperscaler客户的需求无动于衷。但这些客户不像传统的消费电子、PC、手机厂商,也跟汽车电子和工业行业的客户不同,Hyperscaler客户会要求芯片供应商为他们提供满足其特定需求的芯片。多年来,芯片供应商都是根据市场发展趋势、多家客户的反馈,在自身技术和产品基础上研发新的芯片,基本都是通用型的产品。专门针对一家客户做定制开发的风险、成本都很高,但回报和利润也很高。芯片厂商如何取舍呢?
尽管微软和Facebook还没有对外发布自己研发的芯片,但他们从自身及云平台行业需求出发,早就发起了多个协作项目,以联合云计算同行、芯片和网络通讯板卡供应商共同协作来解决数据中心面临的挑战。Facebook于2011年发起开放计算项目(OCP),以便为数据中心制定行业标准的规范,比如新的服务器机架规格。也许芯片和系统设计工程师认为这没什么必要,也没什么技术可言,但新的服务器机架规范更方便数据中心维护人员的安装和维护管理,每年节省的费用数以百万美元计。谷歌、微软、IBM和华为等公司都在积极参与OCP项目,今年3月份微软甚至提出开源RTL数据压缩标准,专门针对数据中心的系统规范。
OCP的另一个项目是制定开放的chiplet标准,以应对摩尔定律的终结和确定未来的半导体封装技术。作为OCP成员,芯片供应商Netronome将其多核网络处理器中使用的800Gb/s速率的网络模块RTL开放给了OCP联盟成员。OCP的另一个成员谷歌一直是RISC-V的积极推动者,英伟达、高通和NXP等芯片供应商也都积极与这些Hyperscaler配合,推动RISC-V开源硬件的发展及在云计算方面的应用。
OCP希望为CHIPLET制定开放标准
Hyperscaler感兴趣的不单单是芯片设计,他们对晶圆制造,甚至晶圆厂的关键设备也特别关注。不过,目前来看他们更多的是希望联合不同专业领域的专长和资源,以应对AI和海量数据处理所面对的各种挑战。他们无意争抢半导体厂商的饭碗,但在关键时刻或重大利益面前,他们是否会马上变成竞争者呢?
半导体厂商与这些Hyperscaler客户的协作现在可以用“与大鲸鱼同游”作比喻,虽然庞大但还不至于造成伤害。希望这些大鲸鱼不会变成大鲨鱼,不过半导体厂商们还是警醒为好,在芯片这片蓝海上做好与庞然大物同游的准备,无论是大鲸鱼还是大鲨鱼。