凭什么说Gemini强于ChatGPT?

电源研发精英圈 2023-12-19 20:01

多年前,谷歌(Google)凭借AlphaGo的惊艳表现在全球掀起了一波人工智能(AI)浪潮。但近一年来在OpenAI ChatGPT所引发的AI新浪潮中,谷歌被压着打了一年,急需一款现象级的AI产品来证明自己的实力。


自 ChatGPT 发布以来,人们一直对谷歌声称的竞品 Gemini 模型的能力非常好奇,这款大模型早在今年 3 月就有了风声,5 月的 I/O 大会上进入“即将推出”的状态。


但在11月时曾有(假)消息称,谷歌的大模型发布时间被推迟到了2024年1月,原因是“发现该AI模型不能可靠地处理一些非英语查询”, 而对多种语言的支持对Gemini的全球成功至关重要。


虚晃一枪,还是发布了


12月7日凌晨,谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线,并表示这是“谷歌迄今为止最大、能力最强的AI模型”。



这样看来,谷歌是懂放烟幕弹和玩惊喜的。Sundar Pichai在Gemini的官宣博客中写道:


“在许多领先的基准测试中都具有最先进的性能。谷歌的第一个版本 Gemini 1.0 针对不同尺寸进行了优化:Ultra、Pro 和 Nano。这些是 Gemini 时代的第一个模型,也是谷歌今年早些时候成立 Google DeepMind 时的愿景的首次实现。这个模型的新时代代表了谷歌作为一家公司所做出的最大的科学和工程努力之一。我对未来以及双子座将为世界各地的人们带来的机会感到由衷地兴奋。”


Gemini和ChatGPT有什么不同


所谓多模态大模型,就是和市面上现有大模型相比,可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。在灵活度上,从数据中心到移动设备上,它都能够运行,而不需要额外的专门处理或转换。


如果要问Gemini和GPT-4有什么不同,可以将GPT-4比作一个诗人,他不仅擅长写诗,还会画画,但写诗是他的职业,画画只是他的副业。GPT-4能处理文字(写诗)和图片(画画),但它主要还是以文字处理为强项。


而具有“原生多模态能力”的Gemini则是一个诗人、画家“双料人才”,他在写诗和画画方面同样出色,没有哪一方面比另一方面弱。Gemini能够同时处理文字和图片,并且在这两个方面都做得很好,没有主次之分。


在Gemini发布之前,谷歌在生成式AI和大语言模型(LLM)方面主推的两款模型PaLM 2和LaMDA,在用户当中收获的评价一直不高,相对于业界领军的GPT-4差距很大。


而这次对于Gemini,谷歌的评价是:“比市面上所有人工智能系统都更强大,连ChatGPT创造者OpenAI开发的技术都要甘拜下风。”


据悉,Gemini也是谷歌大脑(Google Brain)和DeepMind合并组建Google DeepMind之后的首个重要产品。有了AlphaGo战胜人类围棋世界冠军的先例,人们已经不把AI在某些领域超越人类当成是新鲜事了,但在ChatGPT带来的AGI、强人工智能“威慑”下,任何被称为超越人类的AI,多多少少都会引发关注。


首个在MMLU测评上超过人类专家的大模型


MMLU(大规模多任务语言理解)是一个结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集。相比于其他测试集,MMLU的广泛性和深度更强,它通过大量和多样的任务来测试AI模型在理解自然语言方面的能力,特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为一个极具挑战性的评测框架,可以全面地评估和推动大型语言模型的发展。


GPT-4与Gemini在MMLU测试集的对比


这个框架通常包括数以千计的不同任务,涵盖广泛的主题和挑战。MMLU 的目的是提供一个全面且多样化的方法,测试和评估语言模型在各种复杂和现实世界场景中的表现。其中的测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象等众多更接近于人类知识、常识和理解能力的项目。


Gemini Ultra是首个在MMLU测评上超过人类专家的大模型,取得90.0%的成绩。作为对比,人类专家的成绩为89.8%,GPT-4为86.4%。


谷歌在官方博客中称:Gemini利用MMLU基准方法使Gemini能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用第一印象有显着改进。


LLM的主流评测数据集包括GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。


Gemini Ultra在LLM研发中使用的32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。


在包括文本和编码在内的一系列基准测试中, Gemini 的性能都超过了当前最先进的水平


除此之外,Gemini Ultra 还在新的MMMU(专家 AGI 的大规模多学科多模式理解和推理)基准测试中取得了59.4%的最先进分数,该基准测试由跨越不同领域、需要深思熟虑的推理的多模态任务组成。


测试结果显示,Gemini Ultra 的性能优于之前最先进的模型,无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统的帮助。这些基准凸显了双子座天生的多模态性,并表明了双子座更复杂推理能力的早期迹象。


Gemini在文本和编码等一系列基准测试中的表现


能帮助码农和学生解决大量问题


据介绍,Gemini经训练后,能展现出更像人类的行事方式。“Gemini可以像我们一样,理解我们周围的世界。”谷歌DeepMind CEO Demis Hassabis表示。


在发布会上的一段演示视频中,一个男子做出后仰并躲避的慢动作,AI马上猜出:这是表演《黑客帝国》中“子弹时间”的场景。


当人类拿起画笔在一张纸上勾勒出一只鸭子,并为它涂上了蓝色。这次AI说道:“这可不是鸭子常见的颜色。”



三个空杯并排放在桌子上,一张蓝色纸团被塞进其中一个杯子里,在人类一番眼花缭乱的操作后,AI准确地猜出:“纸团在最左边的杯子里!”



上传食材图像和语音输入,AI不仅可以指导你做菜,还能在不同阶段提出相应的建议。


在视频演示完后,谷歌 DeepMind产品副总裁Eli Collins表示,“我们离新一代人工智能模型的愿景越来越近了。这是谷歌迄今为止功能最强大、最通用的大模型。”


编程是大模型衡量能力的重要维度,也是很多码农的刚需。Gemini Ultra 在多个编码基准测试中表现出色,包括 HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(谷歌内部数据集),该数据集使用作者生成的源代码而不是基于网络的信息。


两年前,谷歌推出了 AlphaCode,这是第一个在编程竞赛中达到竞争性水平的人工智能代码生成系统。基于Gemini,谷歌本次还推出了更先进的编程系统AlphaCode 2,它能理解、解释并生成 Python、Java、C++ 和 Go 等编程语言的高质量代码。



和上一代产品AlphaCode相比,AlphaCode 2解决的问题数量几乎是原来的两倍,其表现优于85%的竞赛参与者,AlphaCode的这一比例接近50%。如果程序员通过为代码示例定义某些属性来与AlphaCode 2协作,它的性能还会更好。



Gemini还擅长解决一些超出编程范围、涉及复杂数学和理论计算机科学的编程竞赛问题。以解题为例,利用Gemini的多模态推理能力,AI能够读懂字迹凌乱的手写内容,正确理解问题的表述,还能够把问题和解决方案都转换为数字排版,识别出人类在解决问题时出错的具体推理步骤,并一步步给出问题的正确解决方案。



例如一位老师画了一个滑雪者从斜坡上下来的物理问题,而一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。


三大版本,各有所长


本次发布包含三个版本:

Ultra是性能最强的模型,适用于高度复杂的任务,在云上运作;

Pro是可扩展各种任务的最佳通用模型;

Nano是针对端侧设备的小模型,比如在手机、家电等各类消费设备上跑。Nano还细分了两种型号尺寸:Nano-1(18 亿参数)和 Nano-2(32.5 亿参数),分别针对低内存和高内存设备。



其中,Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成,最强大的Gemini Ultra则将在明年发布。届时其Ultra模型将用于推出聊天机械人的强化版“Bard Advanced”,最初仅向测试受众提供。


谷歌表示,他们还要先给客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈,预计在2024年初,Ultra版本会先向开发者和企业客户提供服务。


从发布之日起,Bard 将使用 Gemini Pro 的微调版本来执行更高级的推理、规划、理解等。这是 Bard 自推出以来最大的升级,集成Gemini Pro之后,已经在超过170个国家和地区提供英语服务。


谷歌还根据许多行业标准基准,对Pro版本进行了测试。结果显示,在8个基准测试中的6个里,Gemini Pro的表现优于 GPT-3.5。为了展现升级后的Bard有多强,谷歌甚至请了一个油管(Youtube)教育博主Mark Rober,全程使用Bard作为辅助工具,从零开始画图纸,最后真的造出了一架巨大的纸飞机!



虽然能力最弱,但Gemini Nano反倒因为使用前景明确最受关注。根据介绍,Pixel 8 Pro的用户已经可以使用录音app来实现“总结录音内容”的功能,并对WhatsApp等信息服务提供推荐自动回覆文字功能。Pixel 8 Pro 也是为Gemini Nano设计的首款谷歌智能手机,很多功能不用联网,就能直接调用。



在接下来的几个月中,Gemini 将出现在谷歌更多的产品和服务中,例如搜索、广告、Chrome 和 Duet AI。


强大的原因之一:专用 TPU 训练


谷歌表示,Gemini强于竞争对手的原因之一,是其强大的计算能力。


据悉谷歌使用内部设计的张量处理单元 TPUs v4 和 v5e 在AI优化基础设施上对 Gemini 1.0 进行了大规模训练,并将其设计为最可靠、可扩展的训练模型和最高效的服务模型。


在 TPU 上,Gemini 的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的 AI 加速器是谷歌人工智能产品的核心,这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还帮助世界各地的公司经济高效地训练大规模人工智能模型。


在训练优化方面,Gemini增加了对模型并行性和数据并行性的利用,并对网络延迟和带宽进行了优化。Gemini还使用了Jax和Pathways编程模型,为复杂的数学运算(如在机器学习中常见的运算)提供了优化的支持。


Jax特别适用于高效地执行大规模的数组运算。Pathways指用于管理和协调大规模训练任务的编程模型或框架。通过使用这些工具,Gemini模型的开发者可以使用单个Python进程来协调整个训练过程,这样可以简化开发和训练工作流,同时利用Jax和Pathways的高效性能。


发布会上,谷歌同时发布了迄今为止最强大、最高效、可扩展的 TPU 系统 —Cloud TPU v5p,称训练速度比前代快2.8倍,专为训练尖端的人工智能模型而设计。新一代 TPU 将加速 Gemini 的发展,帮助开发人员和企业客户更快地训练大规模生成式 AI 模型,让新产品和新功能更快地与客户见面。


竞争者们也没闲着


外媒称,谷歌的Gemini旨在与ChatGPT背后的开发商OpenAI在对话式人工智能领域展开竞争。通过发布Gemini,谷歌不仅希望能与ChatGPT相媲美,还希望能超越它们,提供更无缝、更自然的对话。


虽然这次被cue,OpenAI这边其实一直也没闲着。据 The Information 今年9月报道,OpenAI 正在开发一款名为 Gobi 的多模态大模型,对标的正是谷歌Gemini。不过目前关于这款大模型产品的具体信息尚不确认,OpenAI 原本希望可以在谷歌Gemini发布之前推出,但很明显被“宫斗”耽误了。


另外就在谷歌发布Gemini之前,微软刚刚宣布了旗下AI助手Copilot重大升级,将接入OpenAI的最新模型GPT-4 Turbo。


Gemini的发布掀起了多模态领域的冰山一角,这类领域目前还在技术探索初期,技术路径还未确定。比起大语言模型,多模态模型增加了音频、视频、图片这些数据,训练难度也更大。


但为什么巨头们还要做?据思科的年度互联网报告——视频已经占据互联网超过80%的流量。在视频内容已经称为信息时代主流的时候,单纯只有文字和图片的大模型显然是不够的。


虽然目前看起来, Google Gemini在“跑分”上更胜一筹,但接下来,更重要的是各家大模型在实际应用中的比拼。其中AI安全是最近的热门话题,也是谷歌本次重点强调的。


谷歌基础设施与系统副总裁Amin Vahdat表示,Gemini在开发的各个阶段都会考虑潜在的风险,并努力进行测试和降低这些风险。


他透露,Gemini的安全评估包括偏见和毒性评估,并应用了 Google Research 的对抗性测试技术,帮助在部署 Gemini 之前检测关键的安全问题。


例如,为了在 Gemini 的训练阶段诊断内容安全问题,并确保其输出符合政策,谷歌团队使用了一些基准测试,例如真实毒性提示(Real Toxicity Prompts),这是一套由 Allen Institute of AI 的专家开发的基准测试,包含了从网络上提取的 10 万条具有不同程度毒性的提示。


此外,为了减少伤害,团队还构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象等方面的内容。“此外,我们正继续解决模型面临的已知挑战,例如事实性、基础、归因性以及协作性。”


谷歌没有透露未来是否会专门为Gemini定制应用程序,但高管对记者表示,更加希望看到用户在这种技术的基础上创建更多的应用程序。


谷歌透露,从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 获取 Gemini Pro。


免责声明本文转自网络,版权归原作者所有,如涉及作品版权问题,请及时与我们联系,谢谢!


加入粉丝交流群


张飞实战电子为公众号的各位粉丝,开通了专属学习交流群,想要加群学习讨论/领取文档资料的同学都可以扫描图中运营二维码一键加入哦~ 
(广告、同行勿入)

电源研发精英圈 开关电源研发工程师精英汇集的平台!我们将定期发送开关电源技术资料与行业新闻,欢迎各位关注。(关键字: 电源开发工程师,LED电源,LED驱动电源,电源工程师, 电源学习,电源知识,电源技术,线性电源,逆变电源,电源芯片,电源模块,电源系统)
评论
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 76浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 86浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 166浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 75浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 110浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 171浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 122浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 48浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 81浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 72浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 68浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 80浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 176浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦