作为《2022年45家国产AI芯片厂商调研分析报告》的一部分,AspenCore分析师团队汇编整理了10款国产AI芯片和10款国际AI芯片,以展示全球AI芯片的最新技术发展。

作为《2022年45家国产AI芯片厂商调研分析报告》的一部分,AspenCore分析师团队汇编整理了10款国产AI芯片和10款国际AI芯片,以展示全球AI芯片的最新技术发展。

Top 10国际AI芯片分别来自如下厂商:NVIDIA、Intel、Google、AWS、Qualcomm、Esperanto、Graphcore、Cerebras、Ambarella和Hailo。

在“AI芯片”报告的调研和汇编过程中,处理器IP领导者安谋科技、国产EDA公司合见工软,以及领先的国产AI芯片设计公司瀚博半导体给予了极大的支持,在此深表感谢!此外,安谋科技董事长吴雄昂先生与合见工软联席总裁徐昀女士还将参加上海IIC展会并在IC领袖峰会发表主题演讲。

NVIDIA A100 Tensor Core GPU

NVIDIA A100 Tensor Core GPU基于NVIDIA Ampere 架构,提供40GB和80GB两种配置。作为NVIDIA数据中心平台的引擎,A100的性能比上一代产品提升高达20倍,并可划分为七个GPU实例,以根据变化的需求进行动态调整。A100可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力高性能弹性数据中心。

针对深度学习训练,A100 的 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代 NVIDIA Volta 高 20 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍。2048 个 A100 GPU 可在一分钟内大规模处理 BERT 之类的训练工作负载。对于具有庞大数据表的超大型模型(例如用于推荐系统的 DLRM),A100 80GB 可为每个节点提供高达 1.3 TB 的统一显存,而且速度比 A100 40GB 快高达 3 倍。

对于深度学习推理,A100能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。

Intel神经拟态芯片Loihi 2

英特尔发布的第二代神经拟态芯片Loihi 2面积为31mm,最多可封装100万个人工神经元,而上一代产品面积为60mm,支持13.1万个神经元。Loihi 2运行速度比上一代快10倍,资源密度提高了15倍,且能效更高。Loihi 2有128个神经拟态核心,相较于第一代,每个核心都有此前数量8倍的神经元和突触,这些神经元通过1.2亿个突触相互连接。

Loihi 2使用了更先进的制造工艺——英特尔第一个EUV工艺节点Intel 4,现在每个内核只需要原来所需空间的一半。同时,Loihi 2不仅能够通过二维连接网格进行芯片间的通信,还可以在三维尺度上进行通信,从而大大增加了能处理的神经元总数。每个芯片的嵌入式处理器数量从三个增加到六个,每个芯片的神经元数量增加了八倍。

Loihi 2神经拟态芯片利用尖峰神经网络(SNN,Spiking Neural Networks)可以非常有效地解决很多问题,但目前的困难在于,这种非常不同的编程类型需要以同样不同的方式思考算法开发。目前精通它的人大都来自理论神经生物学领域,Loihi 2仅面向研究领域会限制其市场销售范围。英特尔将Loihi 2与Lava开源软件框架结合起来,希望Loihi衍生品最终出现在更广泛的系统中,从充当嵌入式系统中的协处理器到数据中心的大型Loihi集群。

Google TPU 4

Google第四代AI芯片TPU v4速度达到了TPU v3的2.7倍,通过整合4096个TPU v4芯片成一个TPU v4 Pod,可以达到1 exaflop级的算力,相当于1000万台笔记本电脑之和,达到世界第一超算“富岳”的两倍。除了将这些系统用于自己的AI应用(例如搜索建议、语言翻译或语音助手)外,Google还将TPU基础设施以云服务的方式(付费)开放给Google Cloud用户。

第四代TPU提供的矩阵乘法TFLOP是TPU V3两倍以上,显着提高了内存带宽。TPU v4 pod的性能较TPU v3 pod提升了10倍,将主要以无碳能源运行,不仅计算更快,而且更加节能。

AWS Trainium云端推理芯片

AWS自研的第二款定制机器学习芯片AWS Trainium专门针对深度学习训练工作负载进行了优化,包括图像分类、语义搜索、翻译、语音识别、自然语言处理和推荐引擎等,同时支持 TensorFlow、PyTorch 和 MXNet等。与标准AWS GPU实例相比,基于该芯片的EC2 TRN1实例吞吐量提高30%,可让模型推理成本降低45%。

AWS Trainium与AWS Inferentia 有着相同的AWS Neuron SDK,这使得使用 Inferentia 的开发者可以很容易地开始使用Trainium。AWS Trainium将通过 Amazon EC2实例和 AWS 深度学习 AMIs 以及管理服务(包括 Amazon SageMaker、 Amazon ECS、 EKS 和 AWS Batch)提供。

Qualcomm Cloud AI100

高通Cloud AI 100 推理芯片采用7nm工艺,包含16 组 AI 内核,具有400 TOPS 的 INT8 推理吞吐量,以及4 路 @ 64-bit 的 LPDDR4X-4200(2100MHz)的内存控制器,每个控制器管着 4 个 16-bit 通道,总系统带宽达 134 GB/s。

高通为商业化部署提供了三种不同的封装形式,包括成熟的 PCIe 4.0 x8 接口,以及 DM.2 和 DM.2e 接口(25W / 15W TDP),其功耗分别为:DM.2e @ 15W、DM.2 at 25W、PCIe/HHHL @ 75W。

Esperanto ET-SoC-1

Esperanto基于RISC-V的ET-SoC-1芯片集成了1000 个内核,专为数据中心AI推理而设计。该芯片采用台积电 7nm 工艺,内置160M BYTE SRAM,包含240亿个晶体管。

ET-SoC-1的内核包括1088 个ET-Minion和4个ET-Maxion。ET-Minion是一个通用的 64 位有序内核,具有机器学习的专有扩展,包括对每个时钟周期高达256位浮点数的向量和张量运算。ET-Maxion 是该公司专有的高性能 64 位单线程内核,采用四发射乱序执行、分支预测和预取算法。

Graphcore IPU Colossus Mk2 GC200

Graphcore第二代IPU芯片Colossus MK2 GC200 采用台积电的7nm工艺,架构与前代IPU相似,但核心数目增加到1472个(多出20%),其片内SRAM则增加到900MB(多出3倍)。在互联扩展性方面,相比前代增强了16倍。

包含四颗MK2芯片的系统方案IPU-M2000可扩展至1024个IPU-POD,即512个机架,至多64000个MK2芯片集群之后,其16bit FP算力能够达到16 ExaFLOPs。M2000设备内部包含了一颗Gateway网关芯片,提供对DRAM、100Gbps IPU-Fabric Links、连SmartNIC的PCIe接口、1GbE OpenBMC管理接口,以及M.2接口的访问。M2000在神经网络训练的性能表现上,是上一代的7-9倍,推理则也有超过8倍的性能提升。

Cerebras WSE-2

Cerebras设计和制造的有史以来最大的芯片称为晶圆级引擎(Wafer Scale Engine,WSE),第二代芯片WSE-2采用台积电N7工艺,其面积为46225mm2,包含超过1.2万亿个晶体管,内置85万个内核针对深度学习进行了完全的优化。相比英伟达A100 GPU,WSE要大56倍以上,其片上内存高达40GB,内存带宽高达20 PB/秒,网络带宽高达220 PB/秒。

基于WSE-2的AI加速系统CS-2在保持其系统功耗不变(23 kW)的同时,极大增加了内存和结构带宽。CS-2单个系统的计算处理性能相当于几十上百个GPU,可以把完成最复杂的AI工作负载所需的时间从几个月减少到几分钟。

Ambarella CV52S

基于安霸CVflow架构和先进的5nm制程,CV52S单颗SoC拥有超低功耗,同时支持4K编码和强大的AI处理。该芯片采用双核1.6GHz Arm A76,拥有1MB L3缓存;超强ISP具有出色的宽动态、低光照、鱼眼矫正和旋转处理性能;内置隐私遮蔽功能,可以屏蔽部分拍摄场景;新增PCIe和USB 3.2接口可实现更复杂的多芯片安防系统设计;支持安全启动、OTP和Arm TrustZone等坚如磐石的硬件级数字安全技术,确保安防摄像机设备的信息安全;支持多路视频流输入,通过MIPI虚拟通道接口可接入多达14路摄像机;支持LPDDR4x/LPDDR5/LPDDR5x DRAM。

与上一代芯片相比,主打单目安防摄像机的CV52S系列芯片支持4K60fps视频录制,同时AI计算机视觉性能提高4倍,CPU性能提高2倍,内存带宽增加50%以上。神经网络(NN)性能方面的提升,使得边缘设备上也可以执行更多类的人工智能处理,而不需要上传云端。

Hailo边缘AI处理器Hailo-8

以色列AI芯片公司Hailo的边缘AI处理器Hailo-8 性能达到26 tera/秒(TOPS),具有2.8 TOPS/W的高效能。据该公司称,Hailo-8在多项AI语义分割和对象检测基准测试中的表现优于Nvidia的Xavier AGX、英特尔的Myriad-X和谷歌的Edge TPU模块等硬件。

基于Hailo-8的M.2模块是一个专门针对AI应用的加速器模块,可提供高达26TPOS的算力支持,适合边缘计算、机器学习、推理决策等应用场景。M.2 模块具有完整的 PCIe Gen-3.0 4 通道接口,可插入带 M.2 插座的现有边缘设备,以实时和低功耗深度神经网络推断,可对广泛的细分市场进行推断。

责编:Steve
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 没有看到AMD的AI芯片,在自动驾驶AI芯片,它是头部公司
阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
在德国柏林举行的IFA 2024上,AMD计算和图形业务集团高级副总裁兼总经理Jack Huynh宣布,公司将把以消费者为中心的RDNA和以数据中心为中心CDNA架构统一为UDNA架构,这将为公司更有
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
今日碎碎念由于所租的共享办公空间政策的调整,上周我和我队友又搬到开放共享空间了。所以,也就有了新同桌。从我的观察来看,新同桌们应该基于AI应用的创业型公司。之所以想起来叨叨这个,是因为两位新同桌正在工
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
点击蓝字 关注我们准确的图像深度和细节对于安保摄像头、人脸识别设备和机器视觉设备至关重要,可以提供更真实且高保真的观看体验。为在具体应用中达到这一效果,需要具备某些图像传感器功能,其中之一就是自适应局
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了