Google第五代TPU:推理性能提升2.5倍,成本降低50%

智能计算芯世界 2023-10-25 07:41


在Cloud Next 2023 大会上,公开了Google Cloud新款自研AI芯片TPU v5e,并推出了搭配英伟达(NVIDIA)H100 GPU的 “A3超级计算机”GA(通用版) ,谷歌还宣布与AI芯片龙头英伟达扩大合作伙伴关系。
更多Google TPU内容,请参考“AI芯片:Google TPU架构演变分析”。
计算机行业报告:鲲鹏展翅,昇腾万里(2023)
2023中国人工智能系列白皮书(智能协同控制与人工智能)
数据中心液冷报告:大模型&大算力带来高功耗,液冷技术有望加速导入
《HPC高性能计算集群调度技术合集》
1、HPC技术之Slurm调度系统管理和使用介绍 
2、HPC技术之调度系统概述、原理和部署 
3、HPC技术之高性能计算集群原理及管理
《ODCC-2023技术白皮书(液冷技术)》
1、ODCC 2023 单相浸没式冷却系统及其AI-Cooling 
2、2023 ODCC冷板式液冷服务器可靠性测试规范 
3、ODCC-2023冷板液冷服务器设计白皮书 
4、ODCC-2023边缘浸没服务器技术白皮书
《ODCC-2023技术白皮书(计算规范)》
《ODCC-2023技术白皮书(存储)》
《ODCC-2023技术白皮书(服务器)》
《ODCC-2023技术白皮书(网络通信)》
《ODCC-2023技术白皮书(边缘计算)》

《ODCC-2023技术白皮书(数据中心)》

1、ODCC-2023数据中心自适应AI节能白皮书 

2、ODCC-2023数据中心高性能网络拥塞检测技术白皮书 

3、ODCC-2023数据中心氢能应用白皮书 

4、ODCC-2023数据中心制冷系统AI节能技术及其应用白皮书 

5、ODCC-2023数据中心低压开关技术白皮书

《2023 ODCC技术研究报告(合集)》
第五代TPU:训练性能提高2倍,推理性能提升2.5倍,成本降低50%!
TPU是谷歌专门为机器学习(ML)/深度学习(DL)设计的专用AI加速芯片,比CPU、GPU等通用处理器对于AI计算效率更高。谷歌第一代 TPU(TPU v1)是 2016 年在 Google I/O 大会上发布的,随后在2017 年作为 Google Cloud 基础设施“Cloud TPU”推出,通常使用 FP32 和 FP16 等精度数据,如果降低 ML 的精度/DL计算到8位(INT8)等,则将使得在ML/DL中的处理能力得到进一步提高。此外,通过仅合并专门用于 ML/DL 的算术单元,谷歌减少了 CPU 和 GPU 所需的高速缓存、分支预测和乱序执行等复杂算术单元,可以以低功耗执行专门针对 ML/DL 的计算。
之后,谷歌TPU又经过了数次迭代,比如第二代TPU v2于2017年发布,第三代TPU v3于2018年发布,第四代TPU v4于去年发布,目前已开始服务和提供。
而最新的第五代TPU,即TPU v5e 则是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计,并且其内部张量处理单元的最新版本。与与 2021 年发布的 TPU v4 相比,TPU v5e 的大型语言模型提供的训练性能提高了 2 倍、推理性能提高了2.5 倍。但是TPU v5e 的成本却不到上一代的一半,使企业能够以更低的成本,训练和部署更大、更复杂的 AI 模型。
需要指出的是,从第三代TPU v3开始,谷歌就专注于增强可扩展性,以便能够更大规模地并行处理。最新的TPU v5e ,可以通过采用400 TB/s互连来配置多达256个芯片。使得进行更大规模的学习和推理成为可能。谷歌表示,在 256 个芯片配置下,INT8 的算力将达到 100 PetaOps。
据介绍,TPU v5e将提供了多种不同的虚拟机配置,范围从一个 TPU 芯片到单个切片内 256 个 TPU 芯片。对于那些需要更多算力的用户,谷歌也正在推出“Multislice”,这是一种将模型交给数万个TPU芯片计算的服务。
上图显示了一个包含 1 个 TPU (v5e) 切片(拓扑:4x4)和 1 个 TPU v5litepod-8(v5e) 切片(拓扑:2x4)的GKE 集群
谷歌机器学习、系统和云AI 副总裁 Amin Vahdat 表示:“到目前为止,使用 TPU 的训练作业仅限于单个 TPU 芯片切片,TPU v4 的最大作业切片大小为 3,072 个芯片。”
谷歌计算和机器学习基础设施副总裁 Mark Lohmeyer在联合博客文章中表示,“借助 Multislice,开发人员可以在单个 Pod 内通过芯片间互连 (ICI) 或通过数据中心网络 (DCN) 跨多个 Pod 将工作负载扩展到数万个芯片。”
AssemblyAI 技术副总裁Domenic Donato表示:“在我们的生产 ASR 模型上运行推理时,TPU v5e 的性价比始终比市场上同类解决方案高出 4 倍。Google Cloud 软件堆栈非常适合生产 AI 工作负载,我们能够充分利用 TPU v5e 硬件,该硬件专为运行高级深度学习模型而构建。这种强大的硬件和软件组合极大地提高了我们为客户提供经济高效的人工智能解决方案的能力。”
Gridspace 机器学习主管Wonkyum Lee表示:“我们的速度基准测试表明,在 Google Cloud TPU v5e 上训练和运行时,AI 模型的速度提高了 5 倍。我们还看到推理指标的规模有了巨大改进,我们现在可以在一秒内实时处理 1000 秒的内部语音到文本和情绪预测模型,性能提高了 6 倍。”
与英伟达合作推出A3超级计算机
随着生成式人工智能和大型语言模型 (LLM) 不断推动创新,训练和推理的计算需求以惊人的速度增长。为了满足这一需求,Google Cloud 今天宣布全面推出由 NVIDIA H100 Tensor Core GPU 提供支持的全新 A3 虚拟超级计算机 (VM) 实例将于9月全面上市。
A3将会配备 8 个NVIDIA H100 GPU、两个第四代 Intel Xeon 可扩展处理器、 2TB 内存以及定制的Intel 200G IPU(基础设施处理单元)网络组成。与使用传统NVIDIA A100 GPU的A2相比,学习和推理过程中的性能提升了3倍,带宽提升了10倍。这些实例最初于 5 月份宣布,可以增加到 26,000 个 Nvidia H100 Hopper GPU。鉴于NVIDIA GPU 持续短缺,目前尚不清楚谷歌将拥有多少个NVIDIA H100。
在 Google Cloud Next 大会上,NVIDIA 创始人兼首席执行官黄仁勋与 Google Cloud 首席执行官 Thomas Kurian 一起发表了活动主题演讲,庆祝 NVIDIA H100 GPU 驱动的 A3 实例全面上市,并谈论了谷歌如何使用 NVIDIA H100 和 A100 GPU 进行内部部署DeepMind 和其他部门的研究和推理。
黄仁勋和Thomas Kurian还宣布在 Google Cloud 中开发一款新型超级计算机,该计算机将使用 NVIDIA 正在开发的下一代 AI 芯片。
在讨论中,黄仁勋指出了更深层次的合作,使 NVIDIA GPU 能够为 PaxML 框架加速,从而创建大规模的法学硕士。这个基于 Jax 的机器学习框架是专门为训练大型模型而构建的,允许高级且完全可配置的实验和并行化。目前PaxML 已被 Google 用于构建内部模型,包括 DeepMind 以及研究项目,并将使用 NVIDIA GPU。两家公司还宣布 PaxML 可立即在 NVIDIA NGC 容器注册表中使用。
谷歌表示,生成式人工智能初创公司 Anthropic 是新 TPU v5e 和 A3 VM 的早期用户。虽然谷歌向这家初创公司投资了 3 亿美元,但它同时也是亚马逊网络服务的用户。
Anthropic 联合创始人 Tom Brown 表示:“我们很高兴能与 Google Cloud 合作,我们一直在与 Google Cloud 合作高效地训练、部署和共享我们的模型。由 A3 和 TPU v5e 以及 Multislice 提供支持的谷歌下一代 AI 基础设施将带来性价比优势,将助力我们继续构建下一波人工智能浪潮所需的工作负载。”
支持100款AI模型
为了支持企业云端服务,Google Cloud 还整合加入了 20 个 AI 模型,使其支持的总数达到 100 个,通过其 AI 基础设施,可让客户使用包括 Meta Llama 2 模型、Anthropic Claude 2 聊天机器人等,可以自由选择最能满足营运需求的 AI 模型。
Google Cloud 也对既有 AI 模型提高性能并添加功能,例如文字处理方面的 PaLM 模型可支援用户输入更多文字量,以便处理篇幅较长的报导、书籍文章或者法院判决文件等。
同时,Google Cloud 这次也推出企业级新工具,包括“SynthID”可为 AI 产生的图片加上隐形浮水印,以人眼看不见的方式更改数字图片,即使 AI 图片被编辑或篡改也能保有完整性。
Google Workspace 办公套件将为用户提供 Duet AI 新产品,预计今年稍晚向所有用户开放,可在 Google 文件、试算表、简报中运用 AI 助手帮助更快完成工作。
来源:芯智讯
下载链接:
算力大时代,AI算力产业链全景梳理(2023)
基于鲲鹏处理器的国产高性能计算集群实践
AI算力行业深度:GPU全球格局分析(2023)
人工智能行业报告:AI2.0、AI大模型、算力、AI赋能(2023)
《华为产业链深度系列研究合集(2023)》
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
《海光CPU+DCU技术研究报告合集(下)》 
龙芯CPU技术研究报告合集
中国AIGC产业全景报告
AIGC算力全景与趋势报告
半导体行业数字化转型解决方案手册
2023中国AI商业落地价值研究报告
2023中国AIGC商业潜力研究报告
人机共生:大模型时代的AI十大趋势观察
AIGC行业趋势:大模型趋于分化,关注应用场景落地

《AIGC行业深度报告系列合集》

400+份重磅ChatGPT专业报告(全网最全)
《人工智能AI大模型技术合集》
《70份GPU技术及白皮书汇总》
《FPGA五问五答系列合集》
《机器人行业报告合集(2023)》
GPU研究框架(2023)
NVIDIA GPU架构白皮书
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》
多领域(GPU CPU)散热材料工艺发展历史及路径演绎
AI围绕算力产业、国产化替代、复苏主线布局
CPU和GPU:异构计算的演进及发展
新型GPU云桌面发展白皮书(2023)
GPU原理及在云桌面中的应用
兆芯CPU+GPU技术路线解读
AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代
GPU技术专题汇总链接
深度报告:GPU研究框架
CPU和GPU研究框架合集


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 2025年2月26日,广州】全球领先的AIoT服务商机智云正式发布“Gokit5 AI智能体开发板”,该产品作为行业首个全栈式AIoT开发中枢,深度融合火山引擎云原生架构、豆包多模态大模型、扣子智能体平台和机智云Aiot开发平台,首次实现智能体开发全流程工业化生产模式。通过「扣子+机智云」双引擎协同架构与API开放生态,开发者仅需半天即可完成智能体开发、测试、发布到硬件应用的全流程,标志着智能体开发进入分钟级响应时代。一、开发框架零代码部署,构建高效开发生态Gokit5 AI智能体开发板采用 “
    机智云物联网 2025-02-26 19:01 162浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 148浏览
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 261浏览
  • Matter 协议,原名 CHIP(Connected Home over IP),是由苹果、谷歌、亚马逊和三星等科技巨头联合ZigBee联盟(现连接标准联盟CSA)共同推出的一套基于IP协议的智能家居连接标准,旨在打破智能家居设备之间的 “语言障碍”,实现真正的互联互通。然而,目标与现实之间总有落差,前期阶段的Matter 协议由于设备支持类型有限、设备生态协同滞后以及设备通信协议割裂等原因,并未能彻底消除智能家居中的“设备孤岛”现象,但随着2025年的到来,这些现象都将得到完美的解决。近期,
    华普微HOPERF 2025-02-27 10:32 227浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 104浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 156浏览
  • 请移步 gitee 仓库 https://gitee.com/Newcapec_cn/LiteOS-M_V5.0.2-Release_STM32F103_CubeMX/blob/main/Docs/%E5%9F%BA%E4%BA%8ESTM32F103RCT6%E7%A7%BB%E6%A4%8DLiteOS-M-V5.0.2-Release.md基于STM32F103RCT6移植LiteOS-M-V5.0.2-Release下载源码kernel_liteos_m: OpenHarmon
    逮到一只程序猿 2025-02-27 08:56 202浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 107浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 143浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 132浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 415浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 140浏览
  • 构建巨量的驾驶场景时,测试ADAS和AD系统面临着巨大挑战,如传统的实验设计(Design of Experiments, DoE)方法难以有效覆盖识别驾驶边缘场景案例,但这些边缘案例恰恰是进一步提升自动驾驶系统性能的关键。一、传统解决方案:静态DoE标准的DoE方案旨在系统性地探索场景的参数空间,从而确保能够实现完全的测试覆盖范围。但在边缘案例,比如暴露在潜在安全风险的场景或是ADAS系统性能极限场景时,DoE方案通常会失效,让我们看一些常见的DoE方案:1、网格搜索法(Grid)实现原理:将
    康谋 2025-02-27 10:00 253浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 226浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦