GPU当前是个非常有趣的产品形态,它已全然不止是图形计算设备这么简单;GPGPU的发展,以及随2012年AlexNet选择GPU对图像识别过程做加速,刷新机器图像识别正确率以后,GPU现如今是AI领域十分重要的硬件产品——而且覆盖了云端到终端,从training到推断inference。

GPU当前是个非常有趣的产品形态,它已全然不止是图形计算设备这么简单;GPGPU的发展,以及随2012年AlexNet选择GPU对图像识别过程做加速,刷新机器图像识别正确率以后,GPU现如今是AI领域十分重要的硬件产品——而且覆盖了云端到终端,从training到推断inference。

这两年我们也见到不少AI芯片厂商以更为domain-specific的方式,旗帜鲜明地表示GPU在机器学习领域存在相当的先天缺陷。不过GPU这个产品形态的有趣之处就在于,GPU在发展之初就是摩尔定律最尖端工艺的最佳受益者之一,甚至比CPU从中获益更多。因为GPU有足够大的市场规模,完全可以享用最先进制程。所以即便GPU的确在AI计算的效率方面不及AI专用芯片,但后者却很难通过走量来摊薄成本,也就难以承受最先进工艺的指数级成本攀升,只能退而求其次地选择更早的工艺。

而且GPU针对AI计算也在不断进化,比如GPU早就出现了专门的张量核心。有关这一点,我们还将在后续的文章中做更为翔实的分析。不过现在,GPU仍然可能在未来很长一段时间内,通过最先进的工艺制程对AI芯片实现一定程度的降维打击。这一点在云市场,尤其是AI training芯片领域可能显得尤为显著。这大概是现在GPU在这一领域仍处于垄断地位的原因,即便有大量市场参与者都在摩拳擦掌地准备狙击GPU。
20191212-001.jpg
燧原科技创始人兼CEO赵立东

燧原科技创始人兼CEO赵立东说:“垄断市场没有议价能力:包括价格昂贵和封闭生态的问题。客户在这方面的需求是实实在在的,我们期望燧原能够解决这样的痛点。我们想要推出高性价比、高能效比的产品,而且业务场景要落地,产品的利用率还要充分。”与此同时,“客户也都希望通过差异化来取得竞争优势,但中国国内的用户能够得到国外产品的技术支持都很有限,国内这些客户的差异化也很难做出来。我们期望以更靠近市场、靠近客户的方式,把这个市场做得更好。”

另一方面,燧原科技创始人兼COO张亚林说:“AI市场目前的痛点就在于,AI训练模型都被国外企业把持,以往始终是谷歌在引领的,尤其在谷歌TPU出现以后。中国的大公司只能跟随。所以中国的人工智能,更应当从上游着手,让中国人自己拥有、掌控更多的模型。”

这两点,大概就是燧原科技昨天发布云燧(CloudBlazer)T10,这款面向云端数据中心的AI training加速卡的原因。不过啃下这块市场着实不易,尤其是国内有勇气尝试突破云端AI training市场的企业并不多。

比较有趣的是,燧原科技这家公司,是2018年3月才成立的,AI芯片与加速卡产品研发开始至今不过一年半时间,产品就要开始量产了。很容易想见,产品最终成型离不开像Cadence、GlobalFoundries等合作伙伴的支持。比如AI芯片所应用的尖端技术,如超大规模芯片技术,2.5D封装,软硬件协同开发,都在研发期间得到了EDA提供商Cadence的全力支持。通过Cadence面向AI芯片设计领域定制的解决方案,以及针对系统级挑战的智能系统设计战略,产品的性能与开发时间都得到了有力保障。

不过除此之外,这款产品为何能够以这么快的速度面向市场?通过对这款产品的了解,我们尝试谈一谈燧原科技实现云端AI training垄断市场突破的可行性。

20191212-002.jpg

燧原科技创始人兼COO张亚林

AI芯片和加速卡,算力/能效如何?

还是先看一看产品本身。云燧T10加速卡是基于邃思(DTU)这颗AI芯片,这是个基于可重构芯片设计理念的芯片产品,我们在以往的文章中曾多次介绍过这类芯片[1][2]。那么首先就看看同时发布的这颗“邃思”芯片。其基本参数如下图所示:

20191212-003.jpg

这其中的部分参数是颇有看点的,首先是燧原科技表示“邃思”芯片的FP32单精度算力业界第一,达到22TFLOPs——这个算力的具象化包括了芯片上的32个可扩展神经元处理器(SIP),每8个SIP组合成4个可扩展智能计算群(SIC,SIC之间通过共享HBM做互联)。这颗芯片选择Cadence Tensilica Xtensa处理器作为MCU,用于AI core之间的调度——这是个可配置可扩展的处理器,也是实现低功耗/面积以及差异化功能的重要组成部分。

在BF16算力方面,“这是中国第一款能够完整支持BF16的芯片,算力也达到了86TFLOPs。”BF16(bfload16)格式浮点数越来越成为深度学习事实上的标准,谷歌TPU是比较早做出支持的。BF16更像是介于FP16和FP32的一种格式,和FP16一样也是16位,不过指数位与FP32一样。[3]

20191212-004.jpg

20191212-005.jpg

其存储子系统是现在AI芯片越来越常见的HBM2,位于整个芯片的上方,某些GPU厂商为了抑制带宽和延迟瓶颈甚至已经在用昂贵的HBM + 3D堆叠方案。邃思的这两颗HBM2都来自三星。其中的2.5D封装和HBM在技术上与更多合作伙伴的努力有关,如外围验证方案和Cadence就分不开,这一点在后文提及2.5D封装时还会再度展开。

这里的HBM2共2通道,每通道1024条链路,每条链路速率2Gbps,所以总共提供512GB/s的接口带宽——这是个比较常规的成绩。

实际上国外的某些AI芯片企业已经开始着力于大尺寸的片上SRAM来极大改善存储带宽问题,不过张亚林在接受采访时告诉我们:“训练的芯片不仅要覆盖现在的算法,还要考虑未来的算法。训练batch size就直接决定存储大小。片内存储放的越多,良率下降也就越快;良率低也就无法达到工业化。”

20191212-006.jpg

这颗芯片乃至云燧T10加速真正的亮点在互联能力上,属于燧原科技看家本领的“ESL片间互联接口”。“它支持4通道,每通道8条链路,每条链路25GB/s速率,总共提供双向200GB/s的接口带宽。另外还有PCIe 4接口支持,16条链路,每条链路速率16Gbps,双向64GB/s接口带宽。

除此之外,燧原科技公开这颗芯片的其他一些参数还包括主芯片尺寸480mm²,141亿个晶体管;采用GlobalFoundries的12nm FinFET工艺;2.5D“高级立体封装”;ESL高速片间互联。“完全从0到1,自主指令集、自主研发。”张亚林表示。

2.5D“高级立体封装”是燧原科技在发布会上的着力宣传点之一。除了上述HBM2所占空间外,下方的主芯片为480mm²。2.5D封装的interposer“采用65nm工艺流片,内含了十多层的金属层。它把上方的三颗die通过金属层互联在一起”,所以整体尺寸是768mm²。

张亚林有特别提到,“完成2.5D高级封装的都是世界大公司,国内除了海思,目前也没有其他家做到。”这里的2.5D封装技术,其外围验证方案采用了Cadence的SI/PI仿真解决方案。Cadence SI/PI仿真解决方案包括chip、interposer、substrate、PCB、backboard及连接器等结构的电源地和信号的建模与优化,构建系统级SI/PI仿真,实现电源、信号系统级sign-off。这里的系统级SI/PI仿真分析方法,在于帮助燧源的AI芯片发现不同结构对接带来的系统SI/PI问题,通过调整优化chip、interposer、substrate和PCB来避免SI/PI风险。

值得一提的是,就前述HBM2模块,燧原科技在2.5D interposer的HBM设计中,采用了Cadence XcitePI, PowerSI, SystemSI和System Explorer系统级建模和时域仿真工具,用于解决HBM总线的高速信号及电源噪声性能可靠性问题。电源方面,则运用Cadence Sigrity的电源Sign off解决方案;结合Voltus工具,优化了整个系统级的DC和AC电源性能。在25Gbps Serdes建模上,还采用了最新的3维电磁场建模仿真工Clarity,相较传统工具,有较大的效率提升。

20191212-007.jpg
云燧T10加速卡(CloudBlazer)

20191212-008.jpg
T10内部,其上核心部分就是邃思DTU

而基于“邃思”芯片的“云燧T10”加速卡如上图所示,这当然也是一款面向云端数据中心的AI training加速卡。张亚林特别谈到,这款板卡的外部ID设计也是由燧原科技一手打造的,
“流线型,往两边撑开的设计,我自己很喜欢这样的设计。而logo和品牌,都会是燧原科技在推断和训练两个系列产品上统一的形态,也就是CloudBlazer云燧。它代表的是我们做大芯片的决心,像一道火焰一样,冲开一切,打开市场。”

燧原在发布会上将云燧T10与“友商旗舰”进行了性能和能效对比。FP32单精度算力,如前所述是22TFLOPs,而“友商旗舰”为14TFLOPs。虽然燧原科技在会上从未提及这里所说的友商旗舰是哪款,不过从数据来看也很容易发现就是英伟达的Tesla V100 for PCIe。[4]

20191212-009.jpg

由于后者的最大功耗达到了250W,而云燧T10为225W,所以按照每瓦性能来计,云燧单就FP32算力数据来看是有较大优势的。不过需要指出的是,V100的CoWoS封装HBM2为四通道,而且两者在支持的计算类型上也有一些差别。

燧原给出的更多对比包括ResNet-50测试结果,云燧T10以518fps在性能方面领先了较大幅度;按照每瓦帧率来算,当然也是领先的(2.4fps/W vs 1.5fps/W)。

ESL互联方案

不过在我们看来,云燧T10真正的杀手锏,是以较低的成本实现弹性可扩展。回过头去看云燧T10的产品图,不难发现,除了底部的PCIe接口,顶部还有高速ESL互联接口(似乎总共有三个ESL port)。而下面的图片,包括了云燧T10的8卡互联。“基于浪潮的4U服务器打造。”

其上总共八卡,分成两组,每组四卡——这属于“单节点模式”。“每四卡上面有个白色背板,那就是我们的互联。机外的红色线缆,那也是我们的互联。通过背板和互联结构,我们实现了在八卡服务器上的互联,第一次将整个互联结构带入到了标准的4U服务器形态。”张亚林说,“这么做,我们希望能让算力变得普惠,让更多人用得起训练卡。”而传统走PCIe的方式,一个端口做互联,这个共享的PCIe端口很容易成为整个系统互联的瓶颈。

20191212-010.jpg

20191212-011.jpg

在单机柜模式下,“在整个机架上,由上至下的所有机架都采用这样红色的互联,都是我们的ESL互联结构。ESL互联也就完整解决了在同一个机架内所有的互联问题。”

我们早前曾撰文介绍过一些AI加速卡的扩展方式。典型如英伟达通过NVLINK和NVSWITCH来做多GPU互通突破PCIe带宽限制,不过这种方案在成本上很高,桥接、转换芯片设备的价格甚至比加速卡本身还要昂贵。当代一些常见的扩展方案也需要额外的芯片做多卡互联,尤其当扩展到大规模集群时[5]。

燧原在宣传中特别提到,ESL互联技术双向背板互联方案与“业内通用的InifiniBand组网”相比,相同互联带宽下降低了组网复杂度和成本,在ESL互联部分是省去了桥接器这类设备的开销——不过在整个互联过程中,未知在存在两条数据通路的情况下,PCIe在此是否还将同时扮演一部分互联角色。燧原的工程师告诉我们,在芯片间数据交互时,“我们可以通过协议封装,自动去寻找最优方案。”

进一步扩展至集群模式,整体结构如下图所示:

20191212-012.jpg

多卡集成并非简单相加,其间会有算力损失。随着服务器集群的增加,其线性度加速比是下降的。“可能两张卡的时候是纯线性的,达成1+1=2的效果,但在1024张卡的时候,一定不会是1024倍算力。”所以衡量其间的效率损失,也成为了解这种互联方案高效与否的关键。

按照同业标准,下面这张图的灰色曲线是理论比率:它描述的是随着使用更多的加速卡,从理论上来看最后将达成什么样的线性比例,最后理论上训练线性度加速比应该达到86%。“我们燧原自己的测试,其实已经非常接近理论值了,我们非常有信心在1024个节点内,保持接近86%这样的线性度。”

20191212-013.jpg
开放的态度搭建生态

在整个发布会进行过程中,给人留下深刻印象的,实则是两位创始人毫不避讳地提到了所有合作伙伴的名字,包括EDA提供商、IP合作伙伴、封装、测试、制造合作伙伴,HBM2提供商等等。这在以往的产品发布中是比较少见的。

举个例子,邃思芯片在项目开发过程中得到了Cadence端到端设计流程的支持。比如说采用Cadence数字实现及签核的整体解决方案。值得一提的是,据说借助设计实现工具Innovus,燧原在设计时减少了20%的芯片面积,减少6%的功耗;对signoff工具的内嵌应用,物理设计布局布线达成快速收敛自不必多说。 另外,Cadence Palladium Z1硬件仿真加速器也在芯片项目中起到了重要作用。所以张亚林也在发布会上表达了对众多合作伙伴的感谢。这大概是燧原科技产品“开放”态度的某种表现。

实际上,整个生态——无论是开发软件栈还是应用场景生态搭建——有时会比芯片、板卡硬件性能和能效比数字本身更重要。生态搭建成功与否和AI芯片本身的存亡是直接挂钩的。

燧原发布的这个软件栈平台名为TOPSRider“驭算”,其结构形态如下图所示:

20191212-014.jpg

其中的绿色部分是燧原的软件团队“独立开发”的。SDK层,“我们有自主的编译器、自主的库,自主的调度器,自主的工具链;支持基于LLVM的编译器工具链;支持基于GDB算子调试器和性能分析器;支持C/C++算子编程,“程序员编程的时候也会更方便”。”驱动这块,是将我们板子芯片和上层软件做接合“;”最底层就是我们的邃思硬件。

中间的Framework部分,完整支持TensorFlow,“明年上半年我们会支持PyTorch、MXNet、ONNX;客户在我们的产品量产之前,就能够平滑迁移。”

这些整体听起来和一般的AI芯片开发软件栈生态区别并不大,大部分AI芯片的开发软件栈也都在往这个方向走,包括高级语言的支持、编程易用性,以及对主流高层机器学习框架的支持。不过在燧原为客户提供的服务中,有一项特别值得一提。

“目前我们和客户的合作,有两个方面。一方面,我们会基于framework这一层,客户做开发能够很轻易地迁移到整个绿色的部分、整个平台中去。”张亚林说,“另一方面,我们针对客户,特别是非常大的α客户,做深度定制和开发。主要是SDK这部分,我们会开放库、加入更多的适配,对用户关心的主要算子和函数库做优化和加速,保证客户的核心应用能够直接穿透整个SDK,实现最好的硬件算力。”

后面这部分总结一句话就是SDK针对大客户的深度定制:这一点大概很多做云端AI training芯片的竞争对手也都在做,但并没有像燧原科技这样令其作为一个重要方向着力发展的,这实质上能够成为客户差异化竞争的重要优势。燧原展位的工程师告诉我们:“作为初创公司,我们目前会集中打造优势客户、产业重点客户。”这大概也是上述深度定制、差异化竞争策略的绝佳体现。

这些应该都是燧原定义“开放”生态和算力的组成部分。

一年半也能打造AI芯片?

回到本文开头的话题,上述这些成绩如何在短短一年半的时间内达成?这听起来似乎是个不大可能的任务,张亚林自己也在发言中提到,“我在A公司呆过,那里设计一款处理器要3年。”

这其中行业合作伙伴、供应商的共同努力和推动是一部分,一些细节化的,比如在EDA工具中,Cadence Palladium Z1的DRTL进行芯片性能评估,对DFT仿真环境加速,能够缩短软硬件开发周期;SI/PI仿真解决方案中,在25Gbps Serdes建模上采用3维电磁场建模仿真工具Clarity,相比传统工具的效率会有很大提升,也就缩短了项目周期等等……

另外几个重要原因,至少包括了两点。其一,虽然就时间线来看,从开始研发到完成实验室测试仅历时14个月,到产品发布的今天并开始量产历时20个月;但“团队经验其实已经非常丰沛,燧原有大量处理器方面的专家,很多人是从2000年就入行的。所以这不是奇迹,尤其中国经过近20年的发展,已经具备了相当多的行业人才。”张亚林说。比如选择GlobalFoundries,就是因为燧原的很多成员就来自早前GlobalFoundries的服务对象相关企业。

其二,资本的支持,尤其是每一轮投资者的长期投入。上海科技创业投资(集团)有限公司党委书记、总经理/上海集成电路产业投资基金董事长沈伟国则特别提到,在赵立东与张亚林创业之初,就明确了2019年产品要出炉,年底召开产品发布会,“每一步都按照当年的节奏在走。他们做到了他们所说的,这是很了不起的事”;武岳峰资本创始合伙人武平说:“说到做到,我们原来定好的时间表能不能实现,他们做到了。”

用赵立东的话来说,燧原是在“天时、地利、人和”的大背景下决定做云端AI training芯片,而且还要对标世界最顶尖的公司与技术。“天时”是指AI芯片,市场刚刚起步,算法、架构都还有很多事要做;地利是指中国有人口红利、海量数据、大量应用场景和市场机会,且国家和资本领域都在关注AI;人和则是指近20年来,上海集成电路发展人才储备充分,造就了燧原完整的团队,“架构、IP、设计、验证到最终量产,我们有着完整的团队和更多的实战经验。”

20191212-015.jpg

就当前云端AI training的市场局势来看,GPU仍是把持市场大头的主要产品。而且如文首所述,云端AI芯片需求变化、应用多样,有时要求对training与inference的同时支持,需“样样在行”。它对能效比、功耗的要求并不像终端AI芯片市场如此敏感。加上生态搭建问题,要撼动GPU在这一领域的地位并不容易。

不过至少燧原科技是真正找准了市场痛点的,总结包括1.当前GPU垄断市场,价格高昂、封闭生态,是市场客户需求解决的问题;2.中国国内有着AI芯片得天独厚的发展条件;3.AI芯片市场仍然刚刚起步,技术上也有充分的发展空间,让中国企业有资格与国际竞争对手做正面竞争。

赵立东说,燧原在后续发展定义的2.0阶段,是建立目标销售及服务支持体系,迅速拓展业务;持续产品的研发和迭代,构建云端训练和推理平台完整解决方案;加强国内外学术端的合作,引进高端人才,构建产业生态。这一步的落实,实际才是燧原科技成功的关键所在。

参考来源:

[1]到底什么是架构革命?在AI芯片内部再多加一层AI! - EET China
(https://www.eet-china.com/news/201908211448.html)
[2]靠什么打破MCU行业的僵局?专访瑞萨电子中国董事长真冈朋光 - EET China
(https://www.eet-china.com/news/201910081423.html)
[3] Comparing bfloat16 range and precision to other 16-bit numbers - John D. Cook
(https://www.johndcook.com/blog/2018/11/15/bfloat16/)
[4]NVIDIA TESLA V100 Tensor Core GPU – Nvidia
(https://www.nvidia.com/en-us/data-center/tesla-v100/)
[5]比摩尔定律快得多:为什么要将AI算力扩展至ExaFLOPs百亿亿次量级? - EET China
(https://www.eet-china.com/news/201911071423.html)

责编:Yvonne Geng

 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
频率梳是一种能够发射多条等间隔频谱线的特殊激光源,广泛应用于光学钟、激光雷达、光谱学和光神经网络等高精度测量领域……
随着AI和量子计算等前沿领域的快速发展,GlobalFoundries、Tower Semiconductor以及多家公司正积极迎接硅光子技术带来的新机遇。这项新兴技术有望为二线代工厂带来竞争优势,并推动全球芯片制造技术的多样化发展。
富士康在一份声明中说,作为苹果公司最大的 iPhone 组装商,富士康第四季度营收增长 15.2%,达到 2.13 万亿新台币(647.2 亿美元),比LSEG SmartEstimate预测的2.1万亿新台币还要高......
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
1月8日消息,奥康国际发布公告称,终止发行股份购买资产,公司股票将于1月8日开市起复牌。至此,奥康国际谋划的跨界收购芯片公司事项告一段落。奥康国际在公告中介绍,公司于2024年12月24日披露了《关于
01周价格表02周价格观察硅料环节本周硅料价格:N型复投料主流成交价格为40元/KG,N型致密料的主流成交价格为38元/KG;N型颗粒硅主流成交价格为35元/KG。供给动态头部料企继续推进减产策略,月
近日,联想在CES 2025展会上展示了全球首款卷轴屏PC——ThinkBook Plus Gen 6。据悉,ThinkBook Plus Gen 6卷轴屏AI PC的核心魅力在于其独有的可卷曲显示屏
随着Mini/Micro LED技术发展和小间距产品成熟,LED显示行业在更多细分场景下的高增长潜力正在加速释放。Mini LED背光市场自2021年进入起量元年后,年复合增长率达50%;Micro
当地时间2025年1月7日,全球备受期待的技术盛宴——国际消费电子展(CES 2025)在美国拉斯维加斯盛大开幕。作为显示领域的领军企业,天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场,带来手
日前,国家发展改革委等部门介绍了加力扩围实施“两新”政策有关情况,今年第一批消费品以旧换新资金810亿已经预下达。很多网友没有看懂具体政策,下面快科技给大家简单梳理一下,其实一句话来说就是:国四车、家
 △广告 与正文无关 日前,苏州西典新能源电气股份有限公司(股票代码:603312,以下简称“西典新能”)发布公告称,公司经过3年多的产品和工艺研发及设备攻关,信号采集组件FCC技术取得重大进展,公司
近日,闻泰科技在一场电话会议中阐述了其出售ODM(原始设计制造)业务的战略考量。           闻泰科技表示,基于地缘政治环境变化,考虑到 ODM 业务稳健发展和员工未来发展利益最大化,公司对战
戴尔科技AI PC产品组合助力终端用户释放创造力并提高工作效率。 戴尔科技统一旗下产品组合品牌命名,旨在帮助用户更轻松、快速地找到相匹配的PC、配件及服务。 搭载英
日前,奥康国际发布公告表示终止发行股份购买资产。根据公告,2024 年 12 月 24 日,奥康国际披露《关于筹划发行股份购买资产事项的停牌公告》,公司拟筹划以发行股份或支付现金的方式购买联和存储科技