大模型与小模型将长期共存并相互融合

智能计算芯世界 2024-12-15 09:34

2017 年谷歌将注意力机制引入神经网络,提出了新一代深度学习底层算法 Transformer。由于其在物体分类、语义理解等多项任务中准确率超过 CNN、RNN 等传统算法,且能应用于 CV、NLP 等多个模态,Transformer 的提出使得多任务、多模态的底层算法得到统一目前主流大模型均采用 Transformer 作为底层骨干网络,但在编码器\解码器选择、多模态融合、自注意力机制等方面有所创新。 

下载链接:

人工智能基础知识

2024年全球AI生态全景概览
人工智能讲义(冯翔)
生成式AI在科研学习中的应用(2024)
AIGC行业全景篇:算力、模型与应用的创新融合
2024生成式AI如何改变AI缺陷检测的传统范式白皮书
大规模语言模型:从理论到实践
浅谈人工智能:现状、任务、架构与统一
人工智能和机器学习概述
《2024年AI产业系列深度报告合集》 
1、AI产业系列深度报告(一):生成式AI多领域落地,赋能传媒行业发展 
2、AI产业系列深度报告(二):AIPC赛道风起,产业链创新云涌
《2024全球开发者大会(大模型专题)》
1、百度基于大模型安全运营的质效提升实践 
2、从社区数据看大模型开发生态的全景与趋势 
3、大模型技术重塑智能研发新范式 
4、安全大模型的最后一公里实践 
5、大模型在华为云数字化运维的全面探索和实践 
6、大模型训练中PyTorch与国产芯片的爱恨情仇 
7、百度文心智能体开发实战与分发模式创新
《英特尔AI实战手册合集》
1、英特尔中国物流与交通AI实战手册 
2、英特尔中国制造及能源行业AI实战手册 
3、英特尔中国教育行业AI实战手册 
4、英特尔中国金融行业AI实战手册 
5、英特尔中国医疗健康行业AI实战手册


算法:骨干网络Transformer架构 

目前主流大模型可以根据骨干网络架构的差异分 Encoder-only、Encoder-Decoder、Decoder-only 共 3 类,如下图: 

  • 其中 Encoder-only 主要为谷歌的 Bert 及其衍生优化版本;

  • 使用 Encoder-Decoder 架构的模型有谷歌的 T5 以及清华智谱的 GLM 等;

  • OpenAI 的GPT 系列、Anthropic 的 Claude 系列、Meta 的 LLaMA 系列等均采用 Decoder-Only架构。 

Decoder-Only 架构更适合生成类任务且推理效率更高,为大模型厂商所青睐: 

  • 功能方面:Encoder-Only 架构更擅长理解类而非生成类任务,以采用 Encoder-Only 架构的 Bert 为例,其学习目标包括 Masked LM(随机遮盖句子中若干 token 让模型恢复)和 Next Sentence Prediction(让模型判断句对是否前后相邻关系),训练目标与文本生成不直接对应;

  • 推理效率方面:Encoder-Decoder 和 Decoder-Only 架构均能够用于文本生成,但在模型效果接近的情况下,后者的参数量和占用的计算资源更少,且具有更好的泛化能力。 

三种骨干网络特点对比如下图:

 

Transformer 模型结构及自注意力机制原理如下图:

Transformer 模型采用编码器-解码器结构:

  • 其中编码器负责从输入内容中提取全部有用信息,并使用一种可以被模型处理的格式表示(通常为高维向量);

  • 而解码器的任务是根据从编码器处接收到的内容以及先前生成的部分序列,生成翻译后的文本或目标语言

 自注意力机制(Self-Attention)使得 Transformer 架构能够处理多模态任务。自注意力机制将输入数据进行线性映射创建三个新向量,分别为 Q/K/V

  • 其中 Q 向量可以看作是某个人的关注点

  • V 向量可以看作是具体的事物

  • 而 K 向量可以看作是人对不同事物的关注程度

通过计算 Q 向量和 K 向量的点乘,可以得出一个值,表示这个人对某个事物的关注程度,然后将这个关注程度与 V 向量相乘,以表示事物在这个人眼中的表现形式。

这种方式使得模型能够更好地捕捉长序列中不同部分的关联性和重要性,而各种模态的信息均可以通过一定方式转化为一维长序列,因而Transformer 具备处理多模态问题的能力。

以上海 AI Lab 和香港大学联合推出的 Meta-Transformer 为例,该模型通过一个多模态共享的分词器,将不同模态的输入映射到共享的数据空间中,进而实现了处理 12种非成对的模态数据,包括文本、图像、点云、音频、视频、X 光、红外等。

 

将 Transformer 与其他模态领先算法融合,能够显著提升多模态处理能力,有望加速大模型多模态融合趋势。

24 年 2 月 OpenAI 发布文生视频大模型 Sora,主要根据Diffusion Transformer(DiT)框架设计而成。其中,扩散模型(Diffusion)是一种图像生成方法,通过逐步向数据集中添加噪声,然后学习如何逆转这一过程。

扩散模型能够生成高质量的图像和文本,但仍存在可扩展性低、生成效率低等问题。

DiT 模型在扩散模型基础上引入 Transformer 架构,通过将图像分割成小块(patches),并将这些块作为序列输入到 Transformer 中,DiT 能够有效地处理图像数据,同时保持了Transformer 在处理序列数据时的优势,能够显著改善扩散模型的生成效率。此外,将自动驾驶领域的 BEV(鸟瞰视图)模型与 Transformer 相结合,已经成为目前自动驾驶领域主流感知框架,并在众多辅助驾驶产品中量产应用。  

大模型和小模型在工业领域将长期并存且分别呈现 U 型和倒 U 型分布态势


从工业智能化的发展历程可以看出,在大模型出现之前,人工智能技术在工业领域已有较多应用。在前期阶段,工业人工智能的应用主要是以专用的小模型为主,而大模型开启了工业智能化的新阶段。结合两者不同的技术特点和应用能力,目前在工业领域形成了不同的分布态势。

 

1. 以判别式 AI 为主的小模型应用呈现倒 U 型分布 

根据中国信通院2对 507 个 AI 小模型应用案例的统计分析,这些应用主要集中在生产制造领域,占比高达 57%,而在研发设计和经营管理领域的应用则相对较少。这种分布呈现出明显的倒 U 型。

小模型的核心特点是学习输入与输出之间的关系。小模型通过学习数据中的条件概率分布,即一个样本归属于特定类别的概率,再对新的场景进行判断、分析和预测。它的优点是通常比大模型训练速度更快,而且可以产生更准确的预测结果,尤其适用于对特定任务进行快速优化和部署的场景。以工业质检领域为例,小模型能够从海量的工业产品图片数据中,学习到产品的外观特征、质量标准和缺陷模式等关键信息。

当面对新的样本时,小模型能够迅速判断样本是否合格,从而实现对产品质量的快速检测。同样在设备预测性维护方面,小模型通过对设备运行数据的分析,能够学习到设备正常运行的模式和潜在的故障特征。一旦监测到异常情况,小模型能够及时发出预警,提醒工作人员进行检修或维护。

小模型的能力更适合工业生产制造领域。首先,小模型能够基于有限数据支撑精准的判别和决策,而生产过程需要针对不同场景进行精准的分析和决策,这两者间的契合使得小模型在生产制造领域具有独特的优势。其次,生产制造过程对准确性和稳定性有着极高的要求,任何微小的误差都可能导致产品质量下降或生产线停工。小模型在训练过程中,能够针对具体场景进行精细化的调整和优化,从而确保模型的准确性和稳定性,这使得小模型在生产制造领域的应用更为可靠和有效。最后,小模型在成本投入方面相对较低,使得其在生产制造现场的应用更具经济性,并在有限的硬件条件下,能够稳定运行。

小模型的定制化需求制约了其进一步渗透。尽管小模型在生产制造领域表现出色,但其应用过程中也面临着一些挑战。以判别式 AI 为代表的小模型通常需要依靠个性化的业务逻辑进行数据采集、模型训练与调优,往往只能处理单一维度的数据。这一过程不仅消耗大量的算力和人力,而且训练后的模型往往无法在多行业通用。例如,工业缺陷检测领域的视觉模型往往需要针对一个产品或者一个设备训练一个模型,产品或设备不同,就要对模型进行重新训练,这种定制化的需求在一定程度上制约了小模型在工业领域的进一步渗透。

2. 以生成式 AI 为主的大模型应用呈现 U 型分布

根据对 99 个工业大模型应用案例的统计分析,大模型在研发设计和经营管理领域的应用相对更多,整体上呈现出 U 型分布。这表明大模型当前的能力更适配于研发设计和经营管理,在生产制造环节的能力和性能还需进一步提升。

大模型通过构建庞大的参数体系来深入理解现实世界的复杂关系。大模型的核心在于学习数据中的联合概率分布,即多个变量组成的向量在数据集中出现的概率分布,进而通过使用深度学习和强化学习等技术,能够生成全新的、富有创意的内容。与传统的数据处理方法不同,大模型并不简单地区分自变量与因变量,相反,它致力于在庞大的知识数据库中提炼出更多的特征变量。

这些特征变量不仅数量庞大,而且涵盖了多个维度和层面,从而更全面地反映现实世界的复杂关系。以自然语言处理为例,大模型通过学习大量的文本数据,能够掌握语言的规律和模式。当给定一个句子或段落时,大模型能够基于联合概率分布生成与之相关的新句子或段落。这些生成的内容不仅符合语法规则,而且能够保持语义上的连贯性和一致性。此外,大模型还能够根据上下文信息理解并回答复杂的问题,展现出强大的推理和创造能力。

大模型更适合综合型和创造类的工业场景。在综合型工业场景中,由于涉及到多个系统、多个流程的协同工作,需要处理文档、表格、图片等多类数据,变量之间的关系往往错综复杂,难以用传统的分析方法进行精确描述。大模型通过深度学习和复杂的网络结构,可以捕捉并模拟这些关系,从而实现对复杂系统的全面理解和优化。在创造类工业场景中,大模型的优势体现在其强大的内容生成能力上。例如,在产品外观设计方面,传统的设计方法往往依赖于设计师的经验和灵感,设计周期长且难以保证设计的创新性。而大模型通过学习大量的设计数据,能够掌握设计领域的规律和模式,进而生成符合要求的全新设计内容,提升产品设计的效率和质量。

大模型在工业领域的应用潜力仍有待释放。首先,大模型技术本身正处于快速发展的阶段,尽管已取得了显著进步,但在成本、效率和可靠性等方面仍有待进一步提升,以适应工业领域日益复杂的需求。其次,工业场景众多且各具特色,大模型作为新技术,需要逐步与各个工业场景紧密结合,在逐步提升技术渗透率的过程中,挖掘可利用的场景,并根据行业特定需求提供定制化的解决方案。最后,工业领域自身的数据分散且缺少高质量的工业数据集,同时在实际生产中如何确保工业数据的隐私和安全也是企业关注的重点,这些现实问题也限制了大模型的推广应用。

 3. 大模型与小模型将长期共存并相互融合

 

目前大模型在工业领域还未呈现出对小模型的替代趋势。尽管以生成式 AI 为代表的大模型被视为当前 AI 的热点,但在工业领域的实际应用中,大模型的能力和成本问题导致其尚不能完全取代以判别式 AI 为代表的小模型。

一方面,小模型在工业领域具有深厚的应用基础和经验积累,其算法和模型结构相对简单,易于理解和实现,其稳定性和可靠性得到了验证。

另一方面,大模型在成本收益比、稳定性和可靠性等方面存在问题,其在工业领域的探索还处在初级阶段。小模型以其高效、灵活的特点,在特定场景和资源受限的环境中发挥着重要作用;

而大模型则以其强大的泛化能力和处理复杂任务的优势,在更广泛的领域展现着巨大潜力,两者将长期共存。

大模型与小模型有望融合推动工业智能化发展。对于小模型而言,利用大模型的生成能力可以助力小模型的训练。

小模型训练需要大量的标注数据,但现实工业生产过程可能缺少相关场景的数据,大模型凭借强大的生成能力,可以生成丰富多样的数据、图像等。例如,在质检环节,大模型可以生成各种可能的产品缺陷图片,为小模型提供丰富的训练样本,从而使其能够更准确地识别缺陷和异常。

此外,大模型可以通过 Agent等方式调用小模型,以实现灵活性与效率的结合。例如,在某些场景下,大模型可以负责全局的调度和决策,而小模型可以负责具体的执行和控制。这样既能保证系统的整体性能,又能提高响应速度和灵活性。

参考资料


  • 全球视野 !工业AI大模型案例及发展深度分析 2024

  • AGI大模型现状及发展路径研究 2024

  • 工业大模型技术应用与发展报告1.0

  • ChatGLM开源生态项目和大模型微调技术

来源:https://www.cnblogs.com/tgzhu/p/18174432

下载链接:
谷歌TPU:为更专业的AI计算而生
《2024智算中心算力技术白皮书合集》
1、2024智算中心基础设施演进白皮书 2、2024年中国智能算力行业白皮书
2024年全球人工智能现状全景报告
2024年智能传感器产业:前景机遇与技术趋势探析报告
《2024年AI算力“卖水人”系列报告合集》
1、AI算力“卖水人”系列(1):2024年互联网AI开支持续提升 2、AI算力“卖水人”系列(2):芯片散热从风冷到液冷,AI驱动产业革新
3、AI算力“卖水人”系列(3):NVIDIA GB200:重塑服务器、铜缆、液冷、HBM分析
《数据中心技术与趋势合集》
1、中伦互联网数据中心全解读 2、中国第三方数据中心服务商分析报告 3、面向AI 智算数据中心网络架构与连接技术的发展路线展望 4、新一代智算数据中心基础设施技术白皮书 5、中国数据中心产业发展白皮书
《2024全球人工智能开发与应用大会》
1、大语言模型在计算机视觉领域的应用 2、大模型的异构计算和加速 3、大模型辅助需求代码开发 4、大模型在华为推荐场景中的探索和应用 5、大模型在推荐系统中的落地实践 6、大语言模型的幻觉检测 7、大语言模型在法律领域的应用探索
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。




智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 136浏览
  • 文/Leon编辑/侯煜‍就在小米SU7因高速交通事故、智驾性能受到质疑的时候,另一家中国领先的智驾解决方案供应商华为,低调地进行了一场重大人事变动。(详情见:雷军熬过黑夜,寄望小米SU7成为及时雨)4月4日上午,有网友发现余承东的职务发生了变化,华为官网、其个人微博认证信息为“常务董事,终端BG董事长”,不再包括“智能汽车解决方案BU董事长”。余承东的确不再兼任华为车BU董事长,但并非完全脱离华为的汽车业务,而是聚焦鸿蒙智行。据悉,华为方面寻求将车BU独立出去,但鸿蒙智行仍留在华为终端BG部门。
    华尔街科技眼 2025-04-09 15:28 21浏览
  •   卫星图像智能测绘系统全面解析   一、系统概述   卫星图像智能测绘系统是基于卫星遥感技术、图像处理算法与人工智能(AI)技术的综合应用平台,旨在实现高精度、高效率的地理空间数据获取、处理与分析。该系统通过融合多源卫星数据(如光学、雷达、高光谱等),结合AI驱动的智能算法,实现自动化、智能化的测绘流程,广泛应用于城市规划、自然资源调查、灾害监测等领域。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星图像智能测绘系统
    华盛恒辉l58ll334744 2025-04-08 15:04 72浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 138浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 141浏览
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 176浏览
  •   物质扩散与污染物监测系统软件:多领域环境守护的智能中枢   北京华盛恒辉物质扩散与污染物监测系统软件,作为一款融合了物质扩散模拟、污染物监测、数据分析以及可视化等多元功能的综合性工具,致力于为环境科学、公共安全、工业生产等诸多领域给予强有力的技术支撑。接下来,将从功能特性、应用场景、技术实现途径、未来发展趋势等多个维度对这类软件展开详尽介绍。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这
    华盛恒辉l58ll334744 2025-04-09 14:54 24浏览
  •   卫星图像智能测绘系统:地理空间数据处理的创新引擎   卫星图像智能测绘系统作为融合卫星遥感、地理信息系统(GIS)、人工智能(AI)以及大数据分析等前沿技术的综合性平台,致力于达成高精度、高效率的地理空间数据采集、处理与应用目标。借助自动化、智能化的技术路径,该系统为国土资源管理、城市规划、灾害监测、环境保护等诸多领域输送关键数据支撑。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉北京五木恒润卫星图像智能测绘系统。这些成功案例为卫星
    华盛恒辉l58ll334744 2025-04-08 16:19 69浏览
  • 文/郭楚妤编辑/cc孙聪颖‍伴随贸易全球化的持续深入,跨境电商迎来蓬勃发展期,物流行业 “出海” 成为不可阻挡的必然趋势。加之国内快递市场渐趋饱和,存量竞争愈发激烈。在此背景下,国内头部快递企业为突破发展瓶颈,寻求新的增长曲线,纷纷将战略目光投向海外市场。2024 年,堪称中国物流企业出海进程中的关键节点,众多企业纷纷扬帆起航,开启海外拓展之旅。然而,在一片向好的行业发展表象下,部分跨境物流企业的经营状况却不容乐观。它们受困于激烈的市场竞争、不断攀升的运营成本,以及复杂的国际物流环境,陷入了微利
    华尔街科技眼 2025-04-09 15:15 25浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 218浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦