日本软银集团在半导体和人工智能领域一直充满信心,最近又收购英国人工智能芯片制造商Graphcore。
Graphcore,这家成立于2016年的公司,以其创新的“智能处理单元”(IPU)闻名,曾经是AI硬件领域的佼佼者,一度被视为英伟达的潜在竞争对手,激烈的市场竞争和庞大的资金需求让Graphcore面临严峻挑战,最终促成了这次收购。
此次收购Graphcore不仅巩固了软银在AI芯片领域的地位,也是其AI战略的重要一步。回溯至2016年,软银斥资310亿美元收购了英国芯片设计公司Arm,随后在2023年将其成功上市,Arm的市值飙升至近2000亿美元,充分证明了孙正义在芯片投资上的远见卓识。
随着Graphcore加入软银大家庭,这家日本企业将进一步深化其在AI领域的布局,朝着ASI的宏伟目标迈进。孙正义曾于2019年初出售了价值约36亿美元的英伟达股份,如果持有至今,这部分股份的价值可能超过1600亿美元。
孙正义曾经的决策并未让他停下在半导体领域的脚步,反而激发了他更大的野心。
本文来看看Graphcore这家公司有何特别之处。
Graphcore:
推动人工智能计算的创新力量
Graphcore成立于2016年,由CTO Simon Knowles和CEO Nigel Toon创立。公司致力于开发Intelligence Processing Unit(IPU),这是一种专门为人工智能和机器学习设计的处理器,具有独特的架构和优势,例如大规模并行的MIMD架构、高内存带宽和紧密耦合的本地分布式SRAM等。
Graphcore 陆续推出了多款基于IPU的产品,如GC200 IPU处理器、Bow IPU等,并不断进行技术升级和改进。
IPU:独特的架构与优势
● 架构特点:IPU采用了大规模并行的MIMD架构,与传统的CPU和GPU架构有所不同。CPU主要设计用于标量处理,而GPU采用SIMD/SIMT架构,适用于处理大块密集连续的数据。
IPU则具有更高的并行性,其模型和数据主要分布在紧密耦合的大型本地分布式SRAM中,内存带宽高达约65TB/s,而相比之下,像A100 HBM的内存带宽为2TB/s。
● 硬件特性:Bow IPU是世界上首个3D晶圆级堆叠处理器,例如GC200 IPU处理器,具有1472个独立的处理器核心和8832个独立的并行程序线程。
每个IPU包含1472个独立的IPU - Tiles,每个Tile都有一个IPU - Core和In - Processor - Memory,其中In - Processor - Memory为900MB,总内存带宽达到47.5TB/s。
此外,IPU还具有10x IPU - Links,可提供320GB/s的芯片到芯片带宽。
软件与框架支持
● Poplar SDK:这是一个重要的软件组件,包括Poplar和Poplibs等。Poplar是一个C++并行编程框架,专门针对IPU进行优化。
它的计算图由数据(以固定大小的多维张量形式存储在图中)、计算任务(顶点)和连接它们的边组成。顶点与代码片段相关联,一个顶点运行在单个Tile上,许多顶点共同协作以充分利用设备。
计算集指定了要并行执行的顶点集合,Poplar会确保计算集没有数据竞争。BSP计算集执行分为交换、计算和同步三个步骤,在多个IPU设备上也能确保有效执行。
● 框架支持:Graphcore为多种主流机器学习框架提供支持,以充分发挥IPU的性能。
◎ TensorFlow:Graphcore提供了自己分支的TensorFlow,支持IPU。TensorFlow 1.15和2.6版本均受支持,并且Graphcore对许多TensorFlow操作进行了优化,使其能针对Poplibs函数在IPU上实现最佳执行。在使用TensorFlow时,需要配置IPU、编译图至XLA、优化数据流,并注意数据的输入输出方式,例如使用数据集、内馈和外馈等。
◎ PyTorch:通过PopTorch,开发者可以在IPU上运行PyTorch代码。PopTorch旨在使开发者能以最小的手动更改将模型运行在IPU上,支持推理和训练。它提供了一些方便的功能,如多IPU支持、自动数据并行化等。
应用场景与研究合作
IPU在许多研究领域展现出潜力,例如在粒子物理、宇宙学、量子相互作用建模等方面的研究中都取得了一定的成果。
Graphcore的技术可应用于多个领域,包括非常大的AI模型(如多万亿参数模型的训练和推理)、AI在科学和工业中的应用(如医疗保健、AI - HPC、自主系统、材料科学等)以及AI在商业中的应用(如语言理解、流程自动化、推荐系统等)。
小结
Graphcore的IPU及其相关软件技术为人工智能和机器学习的发展提供了强大的计算支持,具有独特的架构和优势,在多个领域展现出广泛的应用前景。