Google第五代TPU:推理性能提升2.5倍,成本降低50%

智能计算芯世界 2023-10-25 07:41


在Cloud Next 2023 大会上,公开了Google Cloud新款自研AI芯片TPU v5e,并推出了搭配英伟达(NVIDIA)H100 GPU的 “A3超级计算机”GA(通用版) ,谷歌还宣布与AI芯片龙头英伟达扩大合作伙伴关系。
更多Google TPU内容,请参考“AI芯片:Google TPU架构演变分析”。
计算机行业报告:鲲鹏展翅,昇腾万里(2023)
2023中国人工智能系列白皮书(智能协同控制与人工智能)
数据中心液冷报告:大模型&大算力带来高功耗,液冷技术有望加速导入
《HPC高性能计算集群调度技术合集》
1、HPC技术之Slurm调度系统管理和使用介绍 
2、HPC技术之调度系统概述、原理和部署 
3、HPC技术之高性能计算集群原理及管理
《ODCC-2023技术白皮书(液冷技术)》
1、ODCC 2023 单相浸没式冷却系统及其AI-Cooling 
2、2023 ODCC冷板式液冷服务器可靠性测试规范 
3、ODCC-2023冷板液冷服务器设计白皮书 
4、ODCC-2023边缘浸没服务器技术白皮书
《ODCC-2023技术白皮书(计算规范)》
《ODCC-2023技术白皮书(存储)》
《ODCC-2023技术白皮书(服务器)》
《ODCC-2023技术白皮书(网络通信)》
《ODCC-2023技术白皮书(边缘计算)》

《ODCC-2023技术白皮书(数据中心)》

1、ODCC-2023数据中心自适应AI节能白皮书 

2、ODCC-2023数据中心高性能网络拥塞检测技术白皮书 

3、ODCC-2023数据中心氢能应用白皮书 

4、ODCC-2023数据中心制冷系统AI节能技术及其应用白皮书 

5、ODCC-2023数据中心低压开关技术白皮书

《2023 ODCC技术研究报告(合集)》
第五代TPU:训练性能提高2倍,推理性能提升2.5倍,成本降低50%!
TPU是谷歌专门为机器学习(ML)/深度学习(DL)设计的专用AI加速芯片,比CPU、GPU等通用处理器对于AI计算效率更高。谷歌第一代 TPU(TPU v1)是 2016 年在 Google I/O 大会上发布的,随后在2017 年作为 Google Cloud 基础设施“Cloud TPU”推出,通常使用 FP32 和 FP16 等精度数据,如果降低 ML 的精度/DL计算到8位(INT8)等,则将使得在ML/DL中的处理能力得到进一步提高。此外,通过仅合并专门用于 ML/DL 的算术单元,谷歌减少了 CPU 和 GPU 所需的高速缓存、分支预测和乱序执行等复杂算术单元,可以以低功耗执行专门针对 ML/DL 的计算。
之后,谷歌TPU又经过了数次迭代,比如第二代TPU v2于2017年发布,第三代TPU v3于2018年发布,第四代TPU v4于去年发布,目前已开始服务和提供。
而最新的第五代TPU,即TPU v5e 则是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计,并且其内部张量处理单元的最新版本。与与 2021 年发布的 TPU v4 相比,TPU v5e 的大型语言模型提供的训练性能提高了 2 倍、推理性能提高了2.5 倍。但是TPU v5e 的成本却不到上一代的一半,使企业能够以更低的成本,训练和部署更大、更复杂的 AI 模型。
需要指出的是,从第三代TPU v3开始,谷歌就专注于增强可扩展性,以便能够更大规模地并行处理。最新的TPU v5e ,可以通过采用400 TB/s互连来配置多达256个芯片。使得进行更大规模的学习和推理成为可能。谷歌表示,在 256 个芯片配置下,INT8 的算力将达到 100 PetaOps。
据介绍,TPU v5e将提供了多种不同的虚拟机配置,范围从一个 TPU 芯片到单个切片内 256 个 TPU 芯片。对于那些需要更多算力的用户,谷歌也正在推出“Multislice”,这是一种将模型交给数万个TPU芯片计算的服务。
上图显示了一个包含 1 个 TPU (v5e) 切片(拓扑:4x4)和 1 个 TPU v5litepod-8(v5e) 切片(拓扑:2x4)的GKE 集群
谷歌机器学习、系统和云AI 副总裁 Amin Vahdat 表示:“到目前为止,使用 TPU 的训练作业仅限于单个 TPU 芯片切片,TPU v4 的最大作业切片大小为 3,072 个芯片。”
谷歌计算和机器学习基础设施副总裁 Mark Lohmeyer在联合博客文章中表示,“借助 Multislice,开发人员可以在单个 Pod 内通过芯片间互连 (ICI) 或通过数据中心网络 (DCN) 跨多个 Pod 将工作负载扩展到数万个芯片。”
AssemblyAI 技术副总裁Domenic Donato表示:“在我们的生产 ASR 模型上运行推理时,TPU v5e 的性价比始终比市场上同类解决方案高出 4 倍。Google Cloud 软件堆栈非常适合生产 AI 工作负载,我们能够充分利用 TPU v5e 硬件,该硬件专为运行高级深度学习模型而构建。这种强大的硬件和软件组合极大地提高了我们为客户提供经济高效的人工智能解决方案的能力。”
Gridspace 机器学习主管Wonkyum Lee表示:“我们的速度基准测试表明,在 Google Cloud TPU v5e 上训练和运行时,AI 模型的速度提高了 5 倍。我们还看到推理指标的规模有了巨大改进,我们现在可以在一秒内实时处理 1000 秒的内部语音到文本和情绪预测模型,性能提高了 6 倍。”
与英伟达合作推出A3超级计算机
随着生成式人工智能和大型语言模型 (LLM) 不断推动创新,训练和推理的计算需求以惊人的速度增长。为了满足这一需求,Google Cloud 今天宣布全面推出由 NVIDIA H100 Tensor Core GPU 提供支持的全新 A3 虚拟超级计算机 (VM) 实例将于9月全面上市。
A3将会配备 8 个NVIDIA H100 GPU、两个第四代 Intel Xeon 可扩展处理器、 2TB 内存以及定制的Intel 200G IPU(基础设施处理单元)网络组成。与使用传统NVIDIA A100 GPU的A2相比,学习和推理过程中的性能提升了3倍,带宽提升了10倍。这些实例最初于 5 月份宣布,可以增加到 26,000 个 Nvidia H100 Hopper GPU。鉴于NVIDIA GPU 持续短缺,目前尚不清楚谷歌将拥有多少个NVIDIA H100。
在 Google Cloud Next 大会上,NVIDIA 创始人兼首席执行官黄仁勋与 Google Cloud 首席执行官 Thomas Kurian 一起发表了活动主题演讲,庆祝 NVIDIA H100 GPU 驱动的 A3 实例全面上市,并谈论了谷歌如何使用 NVIDIA H100 和 A100 GPU 进行内部部署DeepMind 和其他部门的研究和推理。
黄仁勋和Thomas Kurian还宣布在 Google Cloud 中开发一款新型超级计算机,该计算机将使用 NVIDIA 正在开发的下一代 AI 芯片。
在讨论中,黄仁勋指出了更深层次的合作,使 NVIDIA GPU 能够为 PaxML 框架加速,从而创建大规模的法学硕士。这个基于 Jax 的机器学习框架是专门为训练大型模型而构建的,允许高级且完全可配置的实验和并行化。目前PaxML 已被 Google 用于构建内部模型,包括 DeepMind 以及研究项目,并将使用 NVIDIA GPU。两家公司还宣布 PaxML 可立即在 NVIDIA NGC 容器注册表中使用。
谷歌表示,生成式人工智能初创公司 Anthropic 是新 TPU v5e 和 A3 VM 的早期用户。虽然谷歌向这家初创公司投资了 3 亿美元,但它同时也是亚马逊网络服务的用户。
Anthropic 联合创始人 Tom Brown 表示:“我们很高兴能与 Google Cloud 合作,我们一直在与 Google Cloud 合作高效地训练、部署和共享我们的模型。由 A3 和 TPU v5e 以及 Multislice 提供支持的谷歌下一代 AI 基础设施将带来性价比优势,将助力我们继续构建下一波人工智能浪潮所需的工作负载。”
支持100款AI模型
为了支持企业云端服务,Google Cloud 还整合加入了 20 个 AI 模型,使其支持的总数达到 100 个,通过其 AI 基础设施,可让客户使用包括 Meta Llama 2 模型、Anthropic Claude 2 聊天机器人等,可以自由选择最能满足营运需求的 AI 模型。
Google Cloud 也对既有 AI 模型提高性能并添加功能,例如文字处理方面的 PaLM 模型可支援用户输入更多文字量,以便处理篇幅较长的报导、书籍文章或者法院判决文件等。
同时,Google Cloud 这次也推出企业级新工具,包括“SynthID”可为 AI 产生的图片加上隐形浮水印,以人眼看不见的方式更改数字图片,即使 AI 图片被编辑或篡改也能保有完整性。
Google Workspace 办公套件将为用户提供 Duet AI 新产品,预计今年稍晚向所有用户开放,可在 Google 文件、试算表、简报中运用 AI 助手帮助更快完成工作。
来源:芯智讯
下载链接:
算力大时代,AI算力产业链全景梳理(2023)
基于鲲鹏处理器的国产高性能计算集群实践
AI算力行业深度:GPU全球格局分析(2023)
人工智能行业报告:AI2.0、AI大模型、算力、AI赋能(2023)
《华为产业链深度系列研究合集(2023)》
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
《海光CPU+DCU技术研究报告合集(下)》 
龙芯CPU技术研究报告合集
中国AIGC产业全景报告
AIGC算力全景与趋势报告
半导体行业数字化转型解决方案手册
2023中国AI商业落地价值研究报告
2023中国AIGC商业潜力研究报告
人机共生:大模型时代的AI十大趋势观察
AIGC行业趋势:大模型趋于分化,关注应用场景落地

《AIGC行业深度报告系列合集》

400+份重磅ChatGPT专业报告(全网最全)
《人工智能AI大模型技术合集》
《70份GPU技术及白皮书汇总》
《FPGA五问五答系列合集》
《机器人行业报告合集(2023)》
GPU研究框架(2023)
NVIDIA GPU架构白皮书
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》
多领域(GPU CPU)散热材料工艺发展历史及路径演绎
AI围绕算力产业、国产化替代、复苏主线布局
CPU和GPU:异构计算的演进及发展
新型GPU云桌面发展白皮书(2023)
GPU原理及在云桌面中的应用
兆芯CPU+GPU技术路线解读
AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代
GPU技术专题汇总链接
深度报告:GPU研究框架
CPU和GPU研究框架合集


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 182浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 221浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 412浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 122浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 153浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 186浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 102浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 164浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 73浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 115浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 46浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 55浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦