群英荟萃：盘点2024年的大语言模型

陈芝麻 2024-12-18 14:49

您在使用示波器时面临的最大挑战是什么？ 【有奖调研】泰克入门级示波器用户调研

随着人工智能技术的迅猛发展，大语言模型（LLM）已成为推动语言理解和生成能力进步的关键力量。2024年，无论是在学术研究还是商业应用领域，LLM都取得了显著的进展。大语言模型在2024年有哪些成功的案例？本文将对2024年国内外大语言模型的进展进行总结，并展望2025年的发展。2024年大语言模型（LLM）在多个领域的成功案例有以下内容。

2024的大语言模型汇总

国外大语言模型汇总

1. Open AI

l o1大模型

OpenAI在2024年9月13日公开了一系列全新AI大模型，旨在专门解决难题。这些新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。o1模型在一系列高难基准测试中展现出了超强实力，相比GPT-4o有巨大提升。

2. Meta

l Llama 3.1

Meta发布了Llama 3.1，这是当时最大的开源AI模型，拥有4050亿参数。该模型在多个基准测试中的表现超过了GPT-4o和Anthropic的Claude 3.5 Sonnet。Llama 3.1主要处理文本任务，包括编程、回答基本数学问题以及用八种语言（英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语）总结文件。

l Llama 3.2

Meta发布了其首款能够处理图像和文本的开源模型Llama 3.2。Llama 3.2包括两个视觉模型（分别拥有110亿和900亿参数）和两个轻量级仅文本模型（分别拥有10亿和30亿参数），旨在在高通、联发科等Arm硬件上运行。

l MovieGen

Meta推出了MovieGen，这是一个能够根据文本输入生成视频的AI模型，具备高达300亿个参数的能力，使其能够生成长达16秒的高质量视频。MovieGen的Audio版本则可以为视频提供同步的高保真音频，标志着Meta在多模态生成技术上的重要进展

3. Google

l Gemini系列模型

v Gemini 1.5 Pro：这是Gemini系列的一个进阶版本，提供了100万Tokens的上下文长度，并支持35种语言。它在多模态和长上下文处理方面取得了突破，能够处理长达2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。

v Gemini 1.5 Flash：这是一个更轻量级的模型，针对需要快速响应和成本效益的任务进行了优化。它在AI Studio和Vertex AI中提供，并且是为规模化构建的。

l Gemma 2

Google DeepMind在2024年6月27日发布了Gemma 2，这是Gemma系列轻量级开放语言模型的最新成员。Gemma 2在架构和训练方法上都有重大创新，在多项基准测试中取得了显著进步，甚至可以与参数规模大2-3倍的模型相媲美。Gemma 2模型的训练数据量约为其第一代的两倍，总计13万亿Tokens（27b模型）和8万亿Tokens（9b模型）的网页数据（主要是英语）、代码和数学数据。

4. Microsoft

l GPT-4o

Microsoft推出了GPT-4o，这是OpenAI的新旗舰模型，集成了文本、视觉和音频能力，为生成性和会话AI体验树立了新标准。GPT-4o现在可以在Azure OpenAI服务中以预览版的形式试用，支持文本和图像输入。

l Med42

Microsoft通过Azure AI Studio提供了Med42，这是一个领先的临床大型语言模型（LLM），利用AI的力量颠覆传统医疗系统，为临床医生、科学家和患者提供价值。

l LLM2CLIP：

Microsoft研究团队提出了LLM2CLIP，这是一种新方法，利用大型语言模型（LLMs）的力量来解锁CLIP的潜力。通过在标题空间中微调LLM进行对比学习，将LLM的文本能力提取到输出嵌入中，显著提高了输出层的文本可区分性。

5. NVIDIA

l NVLM 1.0系列模型

NVIDIA发布了NVLM 1.0系列多模态大语言模型，其中以72亿参数的NVLM-D-72B为代表，展示了在视觉和语言任务上的卓越性能，并增强了仅文本能力。NVLM-D-72B模型在处理复杂视觉和文本输入方面表现出色，提升了多模态训练后仅文本任务的性能，平均准确度提高了4.3个百分点。

l NVIDIA NIM微服务

NVIDIA宣布了针对OpenUSD语言的NVIDIA NIM™微服务，这些AI模型可以生成OpenUSD语言回答用户查询、生成OpenUSD Python代码、对3D对象应用材料，并理解3D空间和物理以帮助加速数字孪生开发。

国内大语言模型汇总

在国内，截至2024年11月30日，多家大模型企业和机构正式宣布其服务已经上线，并向全社会开放。目前，百度、金山、智谱、百川、字节等多家企业和机构的大模型已经落地，它们可以正式上线并向公众提供服务。

1. 百度

l 文心大模型

百度文心大模型的日均调用量已经超过了15亿次，相较一年前首次披露的5000万次，增长了近30倍。文心大模型家族持续拓展，支持企业和开发者灵活调用，百度文心大模型4.0 Turbo对企业用户全面开放。

l 千帆大模型平台3.0（千帆3.0）

百度智能云千帆大模型平台正式发布的功能，旨在帮助企业快速开发出面向复杂对话场景的AI应用，快速拥有专业水平的“数字员工”。

2. 金山

l WPS AI 2.0

金山办公在2024年7月发布了WPS AI 2.0，该版本在AI写作助手、AI阅读助手、AI数据助手、AI设计助手四个维度实现了范式革新。

l 金山云瀚海大模型平台

金山云在2024年3月发布了qzhou-72B基座模型和金山云瀚海大模型平台，为企业开发者提供一站式大模型训练及推理服务平台。

3. 智谱AI

l GLM-4

智普AI在2024年1月16日的「智谱技术开放日(Zhipu DevDay)」上发布了新一代基座大模型GLM-4。GLM-4的整体性能相比上一代大幅提升，十余项指标逼近或达到GPT-4。GLM-4支持更长上下文、更强的多模态能力、更快推理速度，更多并发，大大降低推理成本。

l GLM-4-Voice

智普AI推出并开源端到端语音模型GLM-4-Voice，能够直接理解和生成中英文语音，进行实时语音对话，并能遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。

l GLM-4-Plus

智普AI在KDD国际数据挖掘与知识发现大会上发布了GLM-4-Plus基座模型，通过多种方式构造出了海量高质量数据，并利用PP0等多项技术，有效提升了模型推理、指令遵循等方面的表现。

4. 阿里

l 通义千问新一代开源模型Qwen2.5

阿里云全面升级AI基础设施，发布了通义千问新一代开源模型Qwen2.5，其旗舰版本Qwen2.5-72B在多项基准测试中表现强劲，超越行业对手。Qwen2.5系列是一个超级AI模型「百宝箱」，涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型。每个尺寸都有基础版本、指令跟随版本和量化版本，总计上架了100多个模型，刷新了业界纪录。

l 八观气象大模型

阿里巴巴达摩院发布的八观气象大模型，通过融合多源数据，提升了气象指标预测的准确性，尤其在新能源电力系统的应用上，时空精度达到了1小时1公里。该模型显著提高了辐照度、风速等气象数据的预测准确率，提升了新能源发电功率和电力负荷预测的准确率，分别达到了96%和98%以上。

5. 字节跳动

l 豆包大模型家族

包括通用模型pro、通用模型lite、语音识别模型等九款模型，其中主力模型在企业市场的定价仅为0.0008元/千Tokens。

l PixelDance视频生成模型

字节跳动视频生成模型PixelDance将很快在即梦AI上线，面向公众开放使用。PixelDance在语义理解、多个主体运动的复杂交互画面，还是多镜头切换的内容一致性方面，都表现出不错的效果。

这些案例展示了大语言模型在不同领域的广泛应用和深远影响，从智能体的创建到特定领域的专业应用，大模型技术正在推动各行各业的创新和发展。

2024年大语言模型技术突破与应用前景

2024年ACL会议揭示了检索增强生成（RAG）技术的重大进展。这项技术通过结合检索和生成，提升了LLMs在复杂任务中的性能。例如，“CallMeWhenNecessary: LLMs Can Efficiently and Faithfully Reason over Structured Environments”的研究通过定义标准化的推理路径，优化了模型表现，提升了推理的准确性。此外，“LLMs as Prompter: Low-resource Inductive Reasoning on Arbitrary Knowledge Graphs”探索了低资源场景下的知识图谱归纳推理，为资源受限环境中应用AI提供了新的可能性。

中国市场的大语言模型产业发展迅速，百度、阿里、华为等巨头厂商陆续宣布研发或已发布大语言模型产品。这些模型不仅服务于公司战略业务拓展，还形成了差异化的商业路线。例如，百度的“文心千帆”产品剑指B端市场，意图带动云服务营收。

OpenAI的GPT-4o模型通过添加文本、图像和音频集成，扩展了多模态功能，同时降低了成本，提高了响应速度。此外，Qwen-1.5模型能以较低成本提供接近GPT-4的能力，还能通过自定义数据集进行微调，以适应特定的使用需求。

IMLIP 2024大会汇聚了全球AI语言处理专家，探讨了语言技术的未来。会议涵盖了大模型与语音技术的融合、视觉域适应与深度视频压缩的研究等多项前沿技术，推动了AI语言处理技术的深入发展。

2025年大语言模型发展展望

1. 个性化体验与对话式AI

2025年，生成式AI将在个性化体验和对话式AI领域取得重大进展。企业将利用大语言模型为客户提供定制化的内容和服务，提升客户黏性和转化率。对话式AI将提升传统的客户服务体验，通过自然语言处理（NLP）和深度学习，生成式对话系统能够理解上下文并适应用户的需求。

2. 科学研究与素材生成

基于大语言模型的工具将加速各学科对复杂数据集的分析，推动药物发现、材料科学等领域的创新。图像和视频生成技术也将消除传统创作过程中的瓶颈，广泛应用于广告、游戏等领域。

3. 多语言模型与全球协作

到2025年，大语言模型在语言翻译和本地化中的应用将取得显著进展，彻底改变个人和企业跨语言沟通的方式。随着全球化的不断扩大，对精准且符合文化背景的翻译需求也将不断增加，大语言模型将提升机器翻译的能力，为用户提供更自然、理解语境的翻译。

4. 隐私保护与负责任的AI实践

隐私保护技术的集成以及负责任的AI实践将有助于建立用户信任，确保大语言模型的应用符合伦理标准。随着各类组织利用这些进展，我们可以预见大语言模型将越来越擅长理解语境、生成类似人类的文本，并在各行各业提供定制化的解决方案。

结论

2024年，大语言模型在技术突破、产业发展、多模态与多语言能力等方面取得了显著进展。展望2025年，大语言模型将继续在个性化体验、对话式AI、科学研究、素材生成等领域发挥重要作用，同时注重多语言能力的提升和隐私保护技术的集成。随着技术的不断进步，大语言模型将在智能化需求中扮演越来越关键的角色，为全球的协作与沟通提供强大的支持。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

陈芝麻 Altium Designer 22 电路设计与仿真实战从入门到精通一书作者

进入专栏

陈芝麻 Altium Designer 22 电路设计与仿真实战从入门到精通一书作者

文章：12篇粉丝：0人

 私信

群英荟萃：盘点2024年的大语言模型

1. Open AI

2. Meta

3. Google

4. Microsoft

5. NVIDIA

最近文章

热门文章

推荐

最新资讯