达芬奇架构依然基于Arm架构,是在Arm架构基础之上研发的AI硬件处理单元,它不是替代Arm处理器,而是与之配合,为通用处理器添加AI加速器功能。华为的麒麟810芯片采用的是达芬奇NPU,也就是传统的Arm核+AI加速器的模式。当然,这个AI加速器是达芬奇NPU的核心,它把MAC按照不同的计算组成不同的方式,搭配标准的数据缓存,进行AI运算时按照cube三维立方模式组织的MAC群支持相关运算。

全场景全栈AI战略

华为最近正式发布了Ascend-max系列AI芯片昇腾910,以及全场景AI框架MindSpore,进一步明确了其全场景全栈AI战略。基于华为原生全场景(all-scenario native)的AI全栈解决方案包括Ascend、CANN、MindSpore、应用使能四个层次。

• Ascend(昇腾)是基于统一、可扩展的达芬奇架构的系列化AI IP和芯片,包括Max、Mini、Lite、Tiny和Nano五个系列。
• CANN是芯片算子库和高度自动化算子开发工具,目标是兼具最优开发效率和算子性能,以应对学术研究和行业应用的蓬勃发展。CANN 是神经网络计算架构( Compute Architecture for Neural Networks)的缩写,提供了高性能的CCE算子库,其关键组件是高度自动化算子开发工具Tensor Engine。
• MindSpore为支持端、边、云独立和协同的统一训练和推理框架,明年将对外开源。它包括模型库、图计算和调优工具包等核心子系统,具备ML/ DL/RL的统一分布式架构,灵活的程序界面,并支持多种语言。MindSpore可以很小,也可以很大,以适应不同的环境。
• 应用使能层是一个机器学习PaaS,提供全流程服务、分层分级API以及预集成方案,目标是满足不同开发者的独特需求,使AI的采用更加容易。ModelArts就是这种完整的全流程服务,可将模型生产所需的所有服务一站式提供,从获取数据到模型训练,直到适应变化。

揭开达芬奇神秘面纱

Ascend(昇腾)IP和芯片是华为全场景全栈AI战略的基石,所采用的是华为自研的达芬奇AI内核架构。这个以中世纪文艺复兴时期科学和艺术奇才达芬奇(Da Vinci)命名的AI内核架构究竟有多神奇呢?在2019 Hot Chips大会上华为揭开了达芬奇架构的神秘面纱。

华为海思首席科学家、昇腾总架构师廖恒博士通过视频(因为美国政府限制而无法去硅谷)在今年的Hot Chips大会上介绍了华为基于达芬奇架构的AI加速器芯片、软件和系统。Ascend 910芯片主要面向数据中心的云端AI训练,在很多方面似乎已经超越英特尔和发布历史上面积最大芯片的AI芯片初创公司Cerebras,其半精度 (FP16)算力达到256 Tera-FLOPS,整数精度 (INT8) 算力达到512 Tera-OPS,达到规格算力所需功耗仅310W,低于原来的设计规格350W。华为已经把昇腾910用于实际AI训练任务。比如,在典型的ResNet50 网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。

Huawei-Ascend-910-AI-Training-Chip-Block-Diagram.jpg

图1:Ascend 910包含32个达芬奇内核 (来源:华为)

Huawei-Ascend-910-AI-Training-Server.jpg

图2:由Ascend 910驱动的AI服务器集成8颗达芬奇芯片和2颗X86 Xeon CPU(来源:华为)

Ascend Cluster可能是当今世界上最大的分布式训练系统,把1024个最高计算密度的Ascend 910芯片连接到一个计算群集中,提供256 PetaFLOPS超高计算能力,能以前所未有的速度进行模型训练,使在几分钟或几秒钟内实现训练目标成为可能,同时结合32TB HBM,如果需要,可以更容易地开发比以前更大的新模型。

Huawei-Ascend-910-AI-Training-Cluster.jpg
图3:Ascend 910服务器集群性能高达512 Peta Flops(来源:华为)

去年发布的昇腾310属于Ascend-mini系列,是华为已经投入商用的第一颗AI SoC芯片。在最大功耗仅8W的情况下,其整数精度(INT8)算力达到16Tops,半精度(FD16)算力达 到8Tops。同时,该芯片中还集成了16通道全高清视频解码器,是面向边缘计算场景最强算力的AI SoC。基于昇腾310芯片的产品和云服务已获得广泛应用。其中,基于昇腾310的MDC和很多国内外主流车企在园区巴士、新能源车、自动驾驶等场景已经深入合作。基于昇腾310的Atlas系列板卡、服务器,已经与数十家合作伙伴在智慧交通、智慧电力等数十个行业落地行业解决方案。
Huawei-Ascend-910-and-Ascend-910-Overview.jpg
图4:Ascend 310和910之性能对比(来源:华为)

规划中的Ascend系列还包括面向PC和笔记本电脑的Lite、面向移动手机设备的Tiny,以及针对可穿戴智能设备的Nano系列IP和芯片。

破解达芬奇密码

华为为何选择统一架构来开发Ascend芯片?原因如下:

• 统一架构的好处很明显:只需一次算子开发,然后可在任何场景下使用;跨场景一致开发和调试体验;更重要的是,一旦完成某个芯片的算法开发,就可顺利将其迁移到面向其它场景的其它IP或芯片上。
• 达芬奇架构设计的核心理念:以最小的计算代价增加矩阵乘的算力,实现更高的AI能效。达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。
• 它具有可扩展计算、可扩展内存和可扩展互连等三大独特关键技术,使得统一架构成为可能。
Huawei-Davinci-Core-HC31.jpg
图5:达芬奇内核模块示意图 (来源:华为)

为实现可扩展的计算能力,达芬奇架构采用了一个可扩展的Cube作为超高速矩阵计算单元,在其最大配置(16x16x16)下,一个Cube可在一个时钟周期内完成4096个FP16 MACs 运算。鉴于需要支持的巨大动态范围,16x16x16 Cube是性能和功耗的最佳平衡点。以16x16x16为中心,具有Cube Scale in功能和高效的多核堆叠功能,这样就可以使用一种架构来支持所有场景。对于那些计算能力较低的应用场景,Cube可以逐步缩小到16x16x1,这意味着在一个周期内完成256个MACs运算。这种灵活性与一套指令集结合,成功提供了计算能力和功耗的平衡。通过支持多种精度,可以最有效地执行每项任务。

鉴于极高的计算密度,当电路全速运行时,电源的完整性变得至关重要,皮秒级电流控制技术有效地满足了这一极其关键的要求。与此同时,达芬奇Core还集成了超高位矢量处理器单元和标量处理器单元。这一多种计算设计使得达芬奇架构不仅支持矩阵以外的计算,而且可以适应未来神经网络计算类型的潜在变化。

Huawei-Davinci-Building-Blocks-HC31.jpg.jpg

图6:3D Cube矩阵单元具有很高的计算密度 (来源:华为)

为实现可扩展内存,每个达芬奇Core都配备专用SRAM,其功能固定,容量可变,适应不同的计算能力场景。所有这些存储器都设计为对低层软件显性,因此可以通过Auto-Tiling plan配合实现数据多路复用的精细控制,最终达到最佳性能和功耗平衡,以适应不同场景。

针对数据中心应用,片上超高带宽Mesh网络将多个达芬奇Core连接在一起,保证Core之间以及Core与其它IP之间的极低延迟通信。借助带宽高达4TByte/s的 L2 Buffer和1.2TByte/s HBM,高密度计算Core的性能得到充分利用。通过使用2.5D封装工艺,Ascend 910芯片集成了8个裸片,包括计算、HBM和IO。
Huawei-Ascend-910-AI-Training-Die-Shot-1.jpg
图7:Ascend 910裸片布局和整体尺寸 (来源:华为)

Huawei-Ascend-910-AI-Training-NOC.jpg
图8:Ascend 910 NoC拓扑结构(来源:华为)

达芬奇与Arm架构之区别

华为自研的达芬奇架构与处理器通用架构Arm有什么区别?简单地说,其实就是二维图与三维图的区别。

达芬奇架构依然基于Arm架构,是在Arm架构基础之上研发的AI硬件处理单元,它不是替代Arm处理器,而是与之配合,为通用处理器添加AI加速器功能。华为的麒麟810芯片采用的是达芬奇NPU,也就是传统的Arm核+AI加速器的模式。当然,这个AI加速器是达芬奇NPU的核心,它把MAC按照不同的计算组成不同的方式,搭配标准的数据缓存,进行AI运算时按照cube三维立方模式组织的MAC群支持相关运算。

虽然是基于Arm核心,但是达芬奇仍然是华为的自研架构,华为已经购买了ARMv8永久的架构授权,华为会持续在ARMv8架构基础上进行研发,对该架构独立完成升级工作,自研的达芬奇架构也会逐渐形成独立的体系,支持自家的Ascend系列芯片,甚至授权给AI芯片设计公司以针对特定应用开发相应的芯片方案。
Huawei-Ascend-910-310-and-Kunpeng-920.jpg
图9:Ascend 310、910与Kunpeng 920的尺寸对比 (来源:华为)

此外,华为基于Arm架构开发的鲲鹏920服务器芯片已经在其泰山服务器中投入商用,用于华为自己的数据中心和其它企业级数据中心。笔者认为,华为无意跟Arm、Intel或英伟达竞争去单独销售芯片,更多的是将其芯片作为客户定制的系统方案的有机组成部分而销售。

达芬奇与RISC-V架构

在中美贸易摩擦和科技冷战的大背景下,RISC-V开源架构得到了国内从政府、高校、企业到投资机构的高度重视,俨然成了中国发展自主半导体产业的助力器。最近,阿里平头哥和兆易创新等中国IC设计公司纷纷推出基于RISC-V的AI芯片或通用MCU处理器,更是加速了RISC-V在国内的发展势头。虽然华为海思还没有发布基于RISC-V的芯片,但笔者相信他们一定是在研发中,如何权衡RISC-V、Arm及其自己的达芬奇架构以便系统地开发完整的AI加速器和处理器方案,这或许是华为海思的工程师们在思考的问题。

结语

华为基于Arm架构,根据AI战略的需要而开发出独特的达芬奇架构,这种既可满足未来需求又兼容当前主流标准的研发策略将助力华为在一个统一的架构下,推出一系列内核IP、芯片、AI加速卡、AI服务器及集群,提供从IoT设备、便携式移动终端、边缘计算设备到云端服务器在内的完整解决方案,从而为其全场景全栈AI战略奠定坚实的基础。

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 从哪能找到达芬奇指令集呢
  • 有点像NP了,华为NP好像做的不错。
  • 学习了
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事