据谷歌官方,Gemini 模型能够从数据中心到移动端设备上高效运行。为此,谷歌基于Gemini 1.0 推出了三种不同尺寸的模型:Gemini Ultra、Gemini Pro 和Gemini Nano。作为原生多模态大模型,Gemini 能够处理视频、音频、图像、文本和代码等多种形式的内容,且性能优于现有的“拼接型”多模态大模型。
AI视觉赋能智造白皮书
此外,谷歌亦发布新一代TPU 系统——Cloud TPU v5p,以帮助训练尖端的 AI 模型。目前,Bard 已开始使用 Gemini Pro 的微调版本来进行更高级的推理,并计划将 Gemini 引入旗下智能手机品牌Pixel。此外,从 12 月 13 日起,开发者和企业客户可以通过 Google AIStudio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。谷歌计划于 2024 年初向开发人员和企业客户正式推出 Gemini Ultra。
(1)Gemini 多模态:支持文本、图像、视频、音频输入,支持文本和图像输出。
(2)Gemini 三个版本:Ultra、Pro、Nano。
(3)AlphaCode2:Gemini 加成,擅长编程、涵盖了复杂的数学和理论计算机科学等问题。
(4)视频理解方面:从官方的演示视频里我们可以看到,Gemini 对于演示人员的动作可以进行分析和推理,并且实时性很高。从类人角度看,实现了听、说、看、互动等,甚至可以同时识别和理解文本、图像和视频。
(5)应用融合情况:Bard 和 Pixel 8 Pro 智能手机已经应用了 Gemini,未来 Gemini 会被整合到 Google 的搜索引擎、广告产品、Chrome 浏览器等。
(6)硬件层面:用了谷歌的 TPU 集群。Gemini Ultra 用了最新版本的 v5p,如图 v5p 在互联带宽方面的提升更显著。
谷歌使用内部设计的 TPU v4 和 v5e 训练 Gemini 1.0。谷歌针对三种不同的尺寸对 Gemini 1.0 进行了优化:
①Gemini Ultra,是谷歌迄今为止最大且能力最强的模型,适用于复杂度高的任务,主要面向数据中心和企业级应用;
②Gemini Pro,可扩展的模型,适用于广泛的任务,其为谷歌诸多 AI 服务提供动力,目前已成为 Bard 的支柱模型;
③Gemini Nano,作为运行在终端设备上的最为高效的模型,其能够在Android 设备上本地和离线运行。Pixel 8 Pro 将会是第一款运行Gemini Nano 的智能手机。Gemini Nona 拥有两个版本,其中,Nano-1 参数量为 1.8B,Nano-2 参数量为 3.25B。在公布 Gemini的同时,谷歌亦推出其迄今为止最强大、最高效且可扩展的 TPU 系统 Cloud TPU v5p,该系统专为训练尖端 AI 模型而设计。
在 AI 性能方面,TPU v5p 能够提供 459 TFLOPS 的 BF16 性能或 918 TFLOPS的 INT8 性能,支持 95GB 的高带宽内存,能够以 2.76TB/s 的速度传输数据。在模型训练方面,TPU v5p 在 LLM 训练速度上显示出 2.8倍的代际提升,即使相比 TPU v5e 也有约 50%的提升。
Gemini 是首款原生多模态大模型,其性能或基本全面领先 GPT-4Gemini 可无缝理解和推理各种模态的输入内容,并非将纯文本、纯视觉及纯音频模型拼接在一起,后者如 OpenAI 的 GPT-4、DALL·E和 Whisper。根据谷歌官方的评估,从自然图像、音频、视频理解到数学推理,Gemini Ultra 在 32 个常用的学术基准的 30 个上超越GPT-4。在 MMLU(大规模多任务语言理解)测试中,Gemini Ultra以 90.0%的高分首次超过人类专家,力压得分为 86.4%的 GPT-4。在图像、音频和视频等基准测试中,Gemini Ultra 超越之前的领先模型,且这一成果是在没有 OCR 系统帮助的情况下实现的,充分体现了 Gemini 原生多模态的特性。
2023年液冷服务器词条报告
《数据中心液冷技术合集(2023)》
2023年机架式服务器行业词条报告
《AI算力技术研究合集》
1、AI算力研究框架(2023)
2、AI兴起,智能算力浪潮来袭
3、深度拆解AI算力模型
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。