Meta表示Llama3击败了包括Gemini在内的大多数其他人工智能模型

IEEE电气电子工程师学会 2024-04-24 15:49

点击蓝字 关注我们

SUBSCRIBE to US


Illustration by Nick Barclay / The Verge


该公司在一篇博客文章中表示(https://ai.meta.com/blog/meta-llama-3/),Meta的下一代大型语言模型Llama(https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival)将向AWS等云提供商和Hugging Face等模型库发布,其性能优于大多数当前的人工智能模型。


Llama 3目前有两个模型权重,分别为8B和70B参数(包含80亿参数的Llama 3 8B和包含700亿参数的Llama 3 70B。)。到目前为止,它只提供基于文本的响应,但Meta表示,这是对前一版本的“重大飞跃”( https://ai.meta.com/blog/meta-llama-3/)。Llama 3在回答提示方面表现出更多的多样性,拒绝回答问题的错误拒绝更少,而且可以更好地推理。Meta还表示,Llama 3比以前理解了更多的指令,编写了更好的代码。


Meta在帖子中声称,在某些基准测试中,两种尺寸的Llama 3都击败了谷歌的Gemma和Gemini(https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source)、Mistral 7B和Anthropic的Claude 3等尺寸相似的型号。在通常衡量常识的MMLU基准中,Llama 3 8B的表现明显好于Gemma 7B和Mistral 7B,而Llama 2 70B的表现略好于Gemini Pro 1.5(https://www.theverge.com/2024/2/15/24073457/google-gemini-1-5-ai-model-llm)。


(值得注意的是,Meta 2700字的帖子中没有提到OpenAI的旗舰机型GPT-4。)


还应该注意的是,基准测试人工智能模型虽然有助于了解它们的强大程度,但并不完美(https://www.theverge.com/2024/4/15/24131097/measuring-ai-models-needs-an-overhaul)。用于对模型进行基准测试的数据集已被发现是模型训练的一部分,这意味着模型已经知道评估人员会问它的问题的答案。


Screenshot: Emilia David / The Verge


Meta表示,人类评估人员对Llama 3的评分也高于其他模型,包括OpenAI的GPT-3.5。Meta表示,它为人类评估人员创建了一个新的数据集,以模拟可能使用Llama 3的真实世界场景。这个数据集包括一些用例,如征求建议、总结和创造性写作。该公司表示,研究该模型的团队无法获得这些新的评估数据,也不会影响模型的性能。


Meta在其博客文章中表示:“该评估集包含1800个提示,涵盖12个关键用例:征求建议、头脑风暴、分类、封闭式问题回答、编码、创造性写作、提取、角色/伪装、开放式问题回答,推理、重写和总结。”


Llama 3有望获得更大的模型尺寸(可以理解更长的指令和数据串),并能够做出更多的多模式响应,如“生成图像”或“转录音频文件”。Meta表示,这些较大的版本参数超过400B,理想情况下可以比较小版本的模型学习更复杂的模式,目前正在训练中,但初步性能测试表明,这些模型可以回答基准测试提出的许多问题。


不过,Meta没有发布这些大型模型的预览,也没有将它们与GPT-4等其他大型模型进行比较。


微信号|IEEE电气电子工程师学会

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


人工智能如何帮助抵御网络攻击

人工智能引领数据中心发展新趋势

汽车知晓你的信息?解读隐私与安全挑战

汽车成为信息时代的移动计算机:5大数据收集方式解析

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论 (0)
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 137浏览
  • 在全球供应链紧张和国产替代需求推动下,国产存储芯片产业快速发展,形成设计到封测一体化的完整生态。北京君正、兆易创新、紫光国芯、东芯股份、普冉股份和佰维存储等六大上市公司在NOR/NAND Flash、DRAM、嵌入式存储等领域布局各具特色,推动国产替代提速。贞光科技代理的品牌紫光国芯,专注DRAM技术,覆盖嵌入式存储与模组解决方案,为多领域客户提供高可靠性产品。随着AI、5G等新兴应用兴起,国产存储厂商有望迎来新一轮增长。存储芯片分类与应用易失性与非易失性存储芯片易失性存储芯片(Volatile
    贞光科技 2025-05-12 16:05 187浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 342浏览
  • ‌磁光克尔效应(Magneto-Optic Kerr Effect, MOKE)‌ 是指当线偏振光入射到磁性材料表面并反射后,其偏振状态(偏振面旋转角度和椭偏率)因材料的磁化强度或方向发生改变的现象。具体表现为:1、‌偏振面旋转‌:反射光的偏振方向相对于入射光发生偏转(克尔旋转角 θK)。2、‌椭偏率变化‌:反射光由线偏振变为椭圆偏振(克尔椭偏率 εK)。这一效应直接关联材料的磁化状态,是表征磁性材料(如铁磁体、反铁磁体)磁学性质的重要非接触式光学探测手段,广泛用于
    锦正茂科技 2025-05-12 11:02 293浏览
  •   定制软件开发公司推荐清单   在企业数字化转型加速的2025年,定制软件开发需求愈发多元复杂。不同行业、技术偏好与服务模式的企业,对开发公司的要求大相径庭。以下从技术赛道、服务模式及行业场景出发,为您提供适配的定制软件开发公司推荐及选择建议。   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转
    华盛恒辉l58ll334744 2025-05-12 15:55 319浏览
  •   基于 2025 年行业权威性与时效性,以下梳理国内知名软件定制开发企业,涵盖综合型、垂直领域及特色技术服务商:   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转型、新能源软件、光伏软件、汽车软件,ERP,系统二次开发,CRM等领域有很多成功案例。   五木恒润科技有限公司:是一家专业的部队信
    华盛恒辉l58ll334744 2025-05-12 16:13 243浏览
  • 在当下竞争激烈的 AI 赛道,企业高层的变动往往牵一发而动全身,零一万物近来就深陷这样的动荡漩涡。近日,零一万物联合创始人、技术副总裁戴宗宏离职创业的消息不胫而走。这位在大模型基础设施领域造诣颇深的专家,此前在华为云、阿里达摩院积累了深厚经验,在零一万物时更是带领团队短期内完成了千卡 GPU 集群等关键设施搭建,其离去无疑是重大损失。而这并非个例,自 2024 年下半年以来,李先刚、黄文灏、潘欣、曹大鹏等一众联创和早期核心成员纷纷出走。
    用户1742991715177 2025-05-13 21:24 71浏览
  •   舰艇电磁兼容分析与整改系统平台解析   北京华盛恒辉舰艇电磁兼容分析与整改系统平台是保障海军装备作战效能的关键技术,旨在确保舰艇电子设备在复杂电磁环境中协同运行。本文从架构、技术、流程、价值及趋势五个维度展开解析。   应用案例   目前,已有多个舰艇电磁兼容分析与整改系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润舰艇电磁兼容分析与整改系统。这些成功案例为舰艇电磁兼容分析与整改系统的推广和应用提供了有力支持。   一、系统架构:模块化智能体系   电磁环境建模:基
    华盛恒辉l58ll334744 2025-05-14 11:22 38浏览
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 139浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 254浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦