Google第五代TPU:推理性能提升2.5倍,成本降低50%

智能计算芯世界 2023-10-25 07:41


在Cloud Next 2023 大会上,公开了Google Cloud新款自研AI芯片TPU v5e,并推出了搭配英伟达(NVIDIA)H100 GPU的 “A3超级计算机”GA(通用版) ,谷歌还宣布与AI芯片龙头英伟达扩大合作伙伴关系。
更多Google TPU内容,请参考“AI芯片:Google TPU架构演变分析”。
计算机行业报告:鲲鹏展翅,昇腾万里(2023)
2023中国人工智能系列白皮书(智能协同控制与人工智能)
数据中心液冷报告:大模型&大算力带来高功耗,液冷技术有望加速导入
《HPC高性能计算集群调度技术合集》
1、HPC技术之Slurm调度系统管理和使用介绍 
2、HPC技术之调度系统概述、原理和部署 
3、HPC技术之高性能计算集群原理及管理
《ODCC-2023技术白皮书(液冷技术)》
1、ODCC 2023 单相浸没式冷却系统及其AI-Cooling 
2、2023 ODCC冷板式液冷服务器可靠性测试规范 
3、ODCC-2023冷板液冷服务器设计白皮书 
4、ODCC-2023边缘浸没服务器技术白皮书
《ODCC-2023技术白皮书(计算规范)》
《ODCC-2023技术白皮书(存储)》
《ODCC-2023技术白皮书(服务器)》
《ODCC-2023技术白皮书(网络通信)》
《ODCC-2023技术白皮书(边缘计算)》

《ODCC-2023技术白皮书(数据中心)》

1、ODCC-2023数据中心自适应AI节能白皮书 

2、ODCC-2023数据中心高性能网络拥塞检测技术白皮书 

3、ODCC-2023数据中心氢能应用白皮书 

4、ODCC-2023数据中心制冷系统AI节能技术及其应用白皮书 

5、ODCC-2023数据中心低压开关技术白皮书

《2023 ODCC技术研究报告(合集)》
第五代TPU:训练性能提高2倍,推理性能提升2.5倍,成本降低50%!
TPU是谷歌专门为机器学习(ML)/深度学习(DL)设计的专用AI加速芯片,比CPU、GPU等通用处理器对于AI计算效率更高。谷歌第一代 TPU(TPU v1)是 2016 年在 Google I/O 大会上发布的,随后在2017 年作为 Google Cloud 基础设施“Cloud TPU”推出,通常使用 FP32 和 FP16 等精度数据,如果降低 ML 的精度/DL计算到8位(INT8)等,则将使得在ML/DL中的处理能力得到进一步提高。此外,通过仅合并专门用于 ML/DL 的算术单元,谷歌减少了 CPU 和 GPU 所需的高速缓存、分支预测和乱序执行等复杂算术单元,可以以低功耗执行专门针对 ML/DL 的计算。
之后,谷歌TPU又经过了数次迭代,比如第二代TPU v2于2017年发布,第三代TPU v3于2018年发布,第四代TPU v4于去年发布,目前已开始服务和提供。
而最新的第五代TPU,即TPU v5e 则是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计,并且其内部张量处理单元的最新版本。与与 2021 年发布的 TPU v4 相比,TPU v5e 的大型语言模型提供的训练性能提高了 2 倍、推理性能提高了2.5 倍。但是TPU v5e 的成本却不到上一代的一半,使企业能够以更低的成本,训练和部署更大、更复杂的 AI 模型。
需要指出的是,从第三代TPU v3开始,谷歌就专注于增强可扩展性,以便能够更大规模地并行处理。最新的TPU v5e ,可以通过采用400 TB/s互连来配置多达256个芯片。使得进行更大规模的学习和推理成为可能。谷歌表示,在 256 个芯片配置下,INT8 的算力将达到 100 PetaOps。
据介绍,TPU v5e将提供了多种不同的虚拟机配置,范围从一个 TPU 芯片到单个切片内 256 个 TPU 芯片。对于那些需要更多算力的用户,谷歌也正在推出“Multislice”,这是一种将模型交给数万个TPU芯片计算的服务。
上图显示了一个包含 1 个 TPU (v5e) 切片(拓扑:4x4)和 1 个 TPU v5litepod-8(v5e) 切片(拓扑:2x4)的GKE 集群
谷歌机器学习、系统和云AI 副总裁 Amin Vahdat 表示:“到目前为止,使用 TPU 的训练作业仅限于单个 TPU 芯片切片,TPU v4 的最大作业切片大小为 3,072 个芯片。”
谷歌计算和机器学习基础设施副总裁 Mark Lohmeyer在联合博客文章中表示,“借助 Multislice,开发人员可以在单个 Pod 内通过芯片间互连 (ICI) 或通过数据中心网络 (DCN) 跨多个 Pod 将工作负载扩展到数万个芯片。”
AssemblyAI 技术副总裁Domenic Donato表示:“在我们的生产 ASR 模型上运行推理时,TPU v5e 的性价比始终比市场上同类解决方案高出 4 倍。Google Cloud 软件堆栈非常适合生产 AI 工作负载,我们能够充分利用 TPU v5e 硬件,该硬件专为运行高级深度学习模型而构建。这种强大的硬件和软件组合极大地提高了我们为客户提供经济高效的人工智能解决方案的能力。”
Gridspace 机器学习主管Wonkyum Lee表示:“我们的速度基准测试表明,在 Google Cloud TPU v5e 上训练和运行时,AI 模型的速度提高了 5 倍。我们还看到推理指标的规模有了巨大改进,我们现在可以在一秒内实时处理 1000 秒的内部语音到文本和情绪预测模型,性能提高了 6 倍。”
与英伟达合作推出A3超级计算机
随着生成式人工智能和大型语言模型 (LLM) 不断推动创新,训练和推理的计算需求以惊人的速度增长。为了满足这一需求,Google Cloud 今天宣布全面推出由 NVIDIA H100 Tensor Core GPU 提供支持的全新 A3 虚拟超级计算机 (VM) 实例将于9月全面上市。
A3将会配备 8 个NVIDIA H100 GPU、两个第四代 Intel Xeon 可扩展处理器、 2TB 内存以及定制的Intel 200G IPU(基础设施处理单元)网络组成。与使用传统NVIDIA A100 GPU的A2相比,学习和推理过程中的性能提升了3倍,带宽提升了10倍。这些实例最初于 5 月份宣布,可以增加到 26,000 个 Nvidia H100 Hopper GPU。鉴于NVIDIA GPU 持续短缺,目前尚不清楚谷歌将拥有多少个NVIDIA H100。
在 Google Cloud Next 大会上,NVIDIA 创始人兼首席执行官黄仁勋与 Google Cloud 首席执行官 Thomas Kurian 一起发表了活动主题演讲,庆祝 NVIDIA H100 GPU 驱动的 A3 实例全面上市,并谈论了谷歌如何使用 NVIDIA H100 和 A100 GPU 进行内部部署DeepMind 和其他部门的研究和推理。
黄仁勋和Thomas Kurian还宣布在 Google Cloud 中开发一款新型超级计算机,该计算机将使用 NVIDIA 正在开发的下一代 AI 芯片。
在讨论中,黄仁勋指出了更深层次的合作,使 NVIDIA GPU 能够为 PaxML 框架加速,从而创建大规模的法学硕士。这个基于 Jax 的机器学习框架是专门为训练大型模型而构建的,允许高级且完全可配置的实验和并行化。目前PaxML 已被 Google 用于构建内部模型,包括 DeepMind 以及研究项目,并将使用 NVIDIA GPU。两家公司还宣布 PaxML 可立即在 NVIDIA NGC 容器注册表中使用。
谷歌表示,生成式人工智能初创公司 Anthropic 是新 TPU v5e 和 A3 VM 的早期用户。虽然谷歌向这家初创公司投资了 3 亿美元,但它同时也是亚马逊网络服务的用户。
Anthropic 联合创始人 Tom Brown 表示:“我们很高兴能与 Google Cloud 合作,我们一直在与 Google Cloud 合作高效地训练、部署和共享我们的模型。由 A3 和 TPU v5e 以及 Multislice 提供支持的谷歌下一代 AI 基础设施将带来性价比优势,将助力我们继续构建下一波人工智能浪潮所需的工作负载。”
支持100款AI模型
为了支持企业云端服务,Google Cloud 还整合加入了 20 个 AI 模型,使其支持的总数达到 100 个,通过其 AI 基础设施,可让客户使用包括 Meta Llama 2 模型、Anthropic Claude 2 聊天机器人等,可以自由选择最能满足营运需求的 AI 模型。
Google Cloud 也对既有 AI 模型提高性能并添加功能,例如文字处理方面的 PaLM 模型可支援用户输入更多文字量,以便处理篇幅较长的报导、书籍文章或者法院判决文件等。
同时,Google Cloud 这次也推出企业级新工具,包括“SynthID”可为 AI 产生的图片加上隐形浮水印,以人眼看不见的方式更改数字图片,即使 AI 图片被编辑或篡改也能保有完整性。
Google Workspace 办公套件将为用户提供 Duet AI 新产品,预计今年稍晚向所有用户开放,可在 Google 文件、试算表、简报中运用 AI 助手帮助更快完成工作。
来源:芯智讯
下载链接:
算力大时代,AI算力产业链全景梳理(2023)
基于鲲鹏处理器的国产高性能计算集群实践
AI算力行业深度:GPU全球格局分析(2023)
人工智能行业报告:AI2.0、AI大模型、算力、AI赋能(2023)
《华为产业链深度系列研究合集(2023)》
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
《海光CPU+DCU技术研究报告合集(下)》 
龙芯CPU技术研究报告合集
中国AIGC产业全景报告
AIGC算力全景与趋势报告
半导体行业数字化转型解决方案手册
2023中国AI商业落地价值研究报告
2023中国AIGC商业潜力研究报告
人机共生:大模型时代的AI十大趋势观察
AIGC行业趋势:大模型趋于分化,关注应用场景落地

《AIGC行业深度报告系列合集》

400+份重磅ChatGPT专业报告(全网最全)
《人工智能AI大模型技术合集》
《70份GPU技术及白皮书汇总》
《FPGA五问五答系列合集》
《机器人行业报告合集(2023)》
GPU研究框架(2023)
NVIDIA GPU架构白皮书
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》
多领域(GPU CPU)散热材料工艺发展历史及路径演绎
AI围绕算力产业、国产化替代、复苏主线布局
CPU和GPU:异构计算的演进及发展
新型GPU云桌面发展白皮书(2023)
GPU原理及在云桌面中的应用
兆芯CPU+GPU技术路线解读
AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代
GPU技术专题汇总链接
深度报告:GPU研究框架
CPU和GPU研究框架合集


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 225浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 340浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 106浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 146浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 123浏览
  • 2024年初,OpenAI公布的Sora AI视频生成模型,震撼了国产大模型行业。随后国产厂商集体发力视频大模型,快手发布视频生成大模型可灵,字节跳动发布豆包视频生成模型,正式打响了国内AI视频生成领域第一枪。众多企业匆忙入局,只为在这片新兴市场中抢占先机,却往往忽视了技术成熟度与应用规范的打磨。以社交平台上泛滥的 AI 伪造视频为例,全红婵家人被恶意仿冒博流量卖货,明星们也纷纷中招,刘晓庆、张馨予等均曾反馈有人在视频号上通过AI生成视频假冒她。这些伪造视频不仅严重侵犯他人权
    用户1742991715177 2025-05-05 23:08 33浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶。BOT层,AM3860(芯片手册没有查到),如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻璃的外形,好奇如何焊接上去的,如下图。感光芯片,一般用途挺多的,手机照相镜头,数运动相机,监控等等。广角聚焦镜头,原来是感光芯片的“望远
    liweicheng 2025-05-07 23:55 35浏览
  • 某国产固态电解的2次和3次谐波失真相当好,值得一试。(仅供参考)现在国产固态电解的性能跟上来了,值得一试。当然不是随便搞低端的那种。电容器对音质的影响_电子基础-面包板社区  https://mbb.eet-china.com/forum/topic/150182_1_1.html (右键复制链接打开)电容器对音质的影响相当大。电容器在音频系统中的角色不可忽视,它们能够调整系统增益、提供合适的偏置、抑制电源噪声并隔离直流成分。然而,在便携式设备中,由于空间、成本的限
    bruce小肥羊 2025-05-04 18:14 193浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 32浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 259浏览
我要评论
0
1
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦