一文深度看懂视觉语言模型(VLM)

原创 Vehicle 2024-12-24 21:02


在本文来自于encord,从VLM 算法架构,原理,到应用方向,挑战难点方面探讨VLM 的架构、评估策略和主流数据集,以及该领域的主要挑战和未来趋势。

通过了解这些基础方面,读者将深入了解如何将 VLM 应用于医疗保健、机器人和媒体等行业,汽车行业属于机器人板块,熟悉VLM可以帮助理解当前自动驾驶产品,算法挑战以及发展趋势。

是一篇带有深度的科普文章,文章比较长而且需要一定的算法基础和强烈兴趣爱好来读。
很长一段时间以来,人工智能(AI)能够像人类一样有效地理解视觉和文本线索的想法似乎遥不可及且难以想象。
然而,随着多模态人工智能的出现,我们看到了一场革命,人工智能可以同时理解各种模态,如文本、图像、语音、面部表情、生理手势等,以理解我们周围的世界。处理多种模态的能力为人工智能应用开辟了各种途径。
多模态 AI 的一个令人兴奋的应用是视觉语言模型 (VLM)。这些模型可以同时处理和理解语言(文本)和视觉(图像)的模态,以执行高级视觉语言任务,例如视觉问答 (VQA)、图像字幕和文本到图像搜索。
在本文中,您将了解:
  • VLM 架构。
  • VLM 评估策略。
  • 用于开发视觉语言模型的主流数据集。
  • VLM 面临的主要挑战、主要应用和未来趋势。
让我们首先了解什么是视觉语言模型。
什么是视觉语言模型?
视觉语言模型是视觉和自然语言模型的融合。它将图像及其各自的文本描述作为输入,并学习将两种模式的知识关联起来。该模型的视觉部分从图像中捕获空间特征,而语言模型则对文本中的信息进行编码。
两种模态的数据(包括检测到的物体、图像的空间布局和文本嵌入)相互映射。例如,如果图像包含一只鸟,模型将学习将其与文本描述中的类似关键字关联起来。
这样,模型就会学会理解图像并将知识转化为自然语言(文本),反之亦然。
训练 VLM
构建 VLM 涉及预训练基础模型(foundation models)零样本学习(zero-shot learning)迁移学习技术(Transfer learning)(例如知识提炼)可用于微调模型以完成更具体的下游任务。 
这些是更简单的技术,需要更小的数据集和更少的训练时间,同时保持良好的结果。
另一方面,现代框架使用各种技术来获得更好的结果,例如:
  • 对比学习。

  • 掩蔽语言图像建模。

  • 带有变压器等的编码器-解码器模块。
这些架构可以学习各种模态之间的复杂关系并提供最先进的结果。让我们详细讨论一下。
视觉语言模型:架构以及当前流行的模型
目前 VLM 主流模型架构有CLIP、Flamingo和VisualBert等,他们所使用的学习技术有:
对比学习
对比学习是一种通过了解数据点之间的差异来学习数据点的技术。该方法计算数据实例之间的相似度得分,旨在最大限度地减少对比损失。它在半监督学习中最有用,在半监督学习中,只有少数标记样本引导优化过程来标记看不见的数据点。
例如,了解猫长什么样子的一种方法是将其与类似的猫图像和狗图像进行比较。对比学习模型通过识别面部结构、身体大小和毛发等特征来学习区分猫和狗。这些模型可以确定哪幅图像更接近原始图像(称为“锚点”),并预测其类别。
CLIP是一个使用对比学习的模型示例,它使用文本和视觉编码器计算文本和图像嵌入之间的相似性。它遵循三步流程来实现零样本预测。
  1. 在预训练期间训练文本和图像编码器以学习图像-文本对。

  2. 将训练数据集类别转换为标题。

  3. 估计给定输入图像的零样本预测的最佳标题。
CLIP 等 VLM 为Encord Active中的语义搜索功能提供支持。当您登录 Encord → Active →选择项目→ 使用自然语言搜索查找数据集中带有文本描述的项目时。以下是使用“白色运动鞋”作为查询词使用自然语言搜索的方法:
ALIGN是另一个示例,它使用图像和文本编码器通过对比损失函数来最小化相似嵌入之间的距离。
PrefixLM 
PrefixLM 是一种 NLP 学习技术,主要用于模型预训练。它输入文本的一部分(前缀),并学习预测序列中的下一个单词。在视觉语言模型中,PrefixLM 使模型能够根据图像及其相应的前缀文本预测下一个单词序列。它利用视觉变换器(ViT) 将图像划分为一维块序列,每个块序列代表一个局部图像区域。
然后,该模型对处理后的补丁应用卷积或线性投影,以生成上下文化的视觉嵌入。对于文本模态,该模型将相对于补丁的文本前缀转换为标记嵌入。Transformer 的编码器-解码器块接收视觉和标记嵌入。在那里,模型学习嵌入之间的关系。
SimVLM是一种采用 PrefixLM 学习方法的流行架构。它的 Transformer 架构比其前辈更简单,在各种基准测试中都超越了前辈的结果。
它使用 Transformer 编码器来学习图像前缀对,并使用 Transformer 解码器来生成输出序列。该模型还展示了良好的泛化能力和零样本学习能力。

SimVLM 架构
类似地,VirTex使用卷积神经网络 提取图像特征,并使用带有转换器的文本头来管理文本前缀。您可以通过将图像-文本对输入到文本头来端到端地训练模型,以预测正确的图像标题。

VirTex 架构
Frozen PrefixLM
虽然 PrefixLM 技术需要从头开始训练视觉和文本编码器,但 Frozen PrefixLM 允许您使用预先训练的网络并仅更新图像编码器的参数。
例如,下图展示了《Frozen》如何使用预训练语言模型和视觉编码器工作。文本编码器可以属于任何大型语言模型 (LLM),而视觉编码器也可以是预训练的视觉基础模型。
您可以微调图像编码器,使其图像表示与文本嵌入一致,从而允许模型做出更好的预测。

Frozen Architecture

Flamingo 的架构采用了更先进的 (SOTA) 方法。它使用类似 CLIP 的视觉编码器和名为Chinchilla的 LLM 。保持 LLM 固定,您可以在文本之间交错的图像上训练视觉编码器。
视觉编码器通过感知器采样器处理图像。该技术可加快推理速度,使 Flamingo 成为小样本学习的理想选择。

Flamingo 架构
交叉注意的多模态融合
该方法通过添加交叉注意层,利用预训练的 LLM 编码器进行视觉表征学习。VisualGPT是一个主要示例,它允许快速调整 LLM 预训练编码器权重以适应视觉任务。

VisualGPT 架构
从业者从图像输入中提取相关对象并将其输入到视觉编码器。然后将得到的视觉表征输入到解码器,并根据预先训练的 LLM 使用权重进行初始化。解码器模块通过自复活激活单元 (SRAU) 平衡视觉和文本信息。
SRAU 方法避免了梯度消失的问题,这是深度学习中常见的问题,由于梯度较小,模型权重无法更新。因此,VisualGPT 的表现优于几个基线模型,例如普通 Transformer、Attention-on-Attention ( AoA ) Transformer 和 X-Transformer。
掩码语言建模 (MLM) 和图像文本匹配 (ITM)
MLM 在BERT等语言模型中发挥作用,通过屏蔽或隐藏文本序列的一部分并训练模型来预测缺失的文本。ITM 涉及预测句子 Y 是否跟在句子 X 之后。
您可以调整 MLM 和 ITM 技术以完成视觉任务。下图展示了在COCO数据集上训练的VisualBERT的架构。

VisualBERT 架构
它通过引入图像序列和掩码文本描述来增强 MLM 程序。基于视觉嵌入,目标是预测缺失的文本。同样,ITM 预测标题是否与图像匹配。
无需培训
您可以直接使用大规模、预先训练的视觉语言模型,而无需进行任何微调。例如,MAGIC和ASIF是无需训练的框架,旨在预测与输入图像紧密相关的文本描述。
MAGIC 使用基于 CLIP 生成的图像嵌入的专门分数来指导语言模型的输出。使用此分数,LLM 可以生成与图像语义紧密一致的文本嵌入,从而使模型能够以零样本方式执行多模态任务。
ASIF 采用相似图像具有相似标题的理念。该模型计算训练数据集的查询和候选图像之间的相似度。接下来,它将查询图像嵌入与相应候选图像的文本嵌入进行比较。
然后,它预测一个嵌入与查询图像最相似的描述,从而实现与CLIP和LiT等模型相当的零样本性能。

ASIF 预测策略
知识蒸馏/提炼
该技术涉及将知识从大型、训练有素的教师模型转移到具有少量参数的较轻学生模型。这种方法允许研究人员从较大的预训练模型中训练 VLM。
例如,ViLD是一种使用知识蒸馏方法开发的流行 VLM。该模型使用预先训练的开放词汇图像分类模型作为老师来训练两阶段检测器(学生)。
该模型将来自文本编码器的文本嵌入与图像嵌入进行匹配。

ViLD 建筑
知识蒸馏将知识从图像编码器转移到主干模型,以自动生成区域嵌入。只有主干模型在推理过程中生成区域嵌入,并将它们与未见过的文本嵌入进行匹配。
目标是根据文本描述在图像中的对象周围绘制正确的边界框。
评估视觉语言模型
VLM 验证涉及评估图像和文本数据之间关系的质量。对于图像字幕模型,这意味着将生成的字幕与真实描述进行比较。
您可以使用各种基于 n-gram 的自动化评估策略来比较预测标签的准确性、语义和信息精度。以下是一些关键的 VLM 评估指标。
BLEU:双语评估替代 ( BLEU ) 指标最初是为评估机器翻译任务而提出的。它通过考虑候选句子中有多少个单词出现在参考中来计算目标文本与参考(基本事实)相比的精度。
ROUGE:面向回忆的要点评估替补模型 ( ROUGE ) 通过考虑参考句子中有多少个单词出现在候选中来计算回忆率。
METEOR:具有明确排序的翻译评估指标 ( METEOR ) 计算准确率和召回率的调和平均值,赋予召回率更多权重并将其乘以惩罚项。该指标比其他使用准确率或召回率的指标有所改进,因为它结合了两者的信息以提供更好的评估。
CIDEr:基于共识的图像描述评估 ( CIDEr ) 通过使用TF-IDF分数计算参考句子和目标句子之间的平均相似度,将目标句子与一组人类句子进行比较。
现在您已经了解了与视觉语言模型 (VLM) 相关的评估指标,了解如何为这些模型整理数据集至关重要。合适的数据集为训练和验证 VLM 提供了肥沃的土壤,并且对于确定模型在不同任务中的表现至关重要。
视觉语言模型的数据集
为 VLM 收集训练数据比传统 AI 模型更具挑战性,因为它涉及多种数据模式的收集和质量保证。以下是结合图像和文本数据进行多模式训练的几个数据集的列表。
LAION-5B:从业者使用LAION-5B数据集构建大型、预训练的 VLM。该数据集包含由 CLIP 生成的超过 50 亿个图像文本对,并配有英文和外语描述,可满足多语言领域的需要。
PMD:公共模型数据集(PMD)最初出现在FLAVA 论文中,包含 700 亿个图像-文本对。它是来自其他大型数据集的数据集合,例如COCO、概念字幕(CC)、RedCaps等。该数据集是多模态数据的宝库,可促进稳健的模型训练。
VQA:专家使用VQA数据集来微调预训练的 VLM,以用于下游 VQA 和视觉推理任务。该数据集包含超过 200,000 张图像,每张图像有 5 个问题、10 个真实答案,每个问题有 3 个错误答案。
ImageNet:ImageNet包含超过 1400 万张图像,这些图像的注释按照WordNet层次结构进行分类。它有助于为简单的下游任务(例如图像分类和对象识别)构建模型。
尽管有高质量的多模态数据集,VLM 在模型开发过程中仍面临重大挑战。下面让我们讨论一下。
视觉语言模型的局限性
尽管 VLM 在理解视觉和文本模式以处理信息方面功能强大,但它们面临着三个主要挑战:
  • 模型复杂性。

  • 数据集偏差。

  • 评估困难。
模型复杂度
语言和视觉模型本身就相当复杂,将两者结合起来只会使问题变得更糟。它们的复杂性带来了额外的挑战,包括获取强大的计算资源进行训练、收集大型数据集以及在物联网设备等弱硬件上部署。
数据集偏差
当 VLM 记住训练和测试集中的深层模式而不解决任何问题时,就会出现数据集偏差。例如,使用从互联网上精选的图像训练 VLM 可能会导致模型记住特定模式,而不会学习各种图像之间的概念差异。
评估策略
上面讨论的评估策略仅将候选句子与参考句子进行比较。该方法假设参考句子是唯一的基本事实。然而,一个特定的图像可以有多个基本事实描述。
尽管 CIDEr 等基于共识的指标可以解决这个问题,但当特定图像的共识较低时,使用它们会变得很困难。另一个挑战是当通用描述适用于多幅图像时。
虚假相关
如图所示,VLM 可以注释或检索与通用标题匹配的多个相关图像。然而,实际上,该模型只不过是一个词袋。它所做的只是考虑诸如“城市”、“公共汽车”、“灯光”等词语来描述图像,而不是真正理解标题的顺序和真正的上下文含义。
此外,用于 VQA 的 VLM 可以对无意义的问题生成高度可信的答案。例如,对于包含白马的图像,向 VLM 询问“汽车是什么颜色的?”,VLM 会生成“白色”的答案,而不是指出图片中没有汽车。
最后,VLM 缺乏组合泛化能力。这意味着它们在处理新概念时性能会下降。例如,VLM 可能无法将黄色马识别为一个类别,因为很少将黄色与马联系起来。
尽管存在许多开发和部署挑战,研究人员和实践者在采用 VLM 解决实际问题方面取得了重大进展。下面让我们简单讨论一下。
视觉语言模型的应用
虽然前面讨论的大多数 VLM 都有助于为图像添加字幕,但它们的实用性还扩展到利用桥接视觉和语言模式的能力的各个领域。以下是一些其他应用程序:
图像检索:FLAVA等模型可帮助用户浏览图像存储库,帮助他们根据语言查询找到相关照片。电子商务网站就是一个相关的例子。访问者可以在搜索栏中描述他们正在寻找的内容,VLM 将在屏幕上显示合适的选项。此应用程序在智能手机上也很流行,用户可以输入关键字(风景、建筑物等)来从图库中检索相关图像。
生成式人工智能:通过文本提示生成图像是一个不断发展的领域,DALL-E等模型允许用户根据自己的描述创作艺术品或照片。该应用在设计师和发明家想要将不同的产品创意形象化的企业中非常实用。它还有助于为网站和博客创建内容,并有助于讲故事。
分割:像SegGPT这样的 VLM有助于完成诸如实例、全景、语义等分割任务。SegGPT 通过理解用户提示并利用独特的配色方案在上下文中分割对象来分割图像。例如,用户可以要求 SegGPT 从多幅图像中分割出彩虹,SegGPT 将有效地注释所有彩虹。
未来研究方向
以下是 VLM 领域的一些重要未来研究方向:
更好的数据集
研究界正在努力构建更好的训练和测试数据集,以帮助 VLM 理解成分。CLEVR就是其中一个例子。

CLEVR 数据集
如图所示,它包含新颖形状、颜色和相应问题的图像,可供专家测试 VLM 的视觉推理能力。
更好的评估方法
评估挑战需要深入研究更好的评估方法,以构建更强大的 VLM。一种替代方法是通过ARO基准测试 VLM 的各项技能。
属性识别、关系推理和词序敏感性 (ARO) 是 VLM 必须掌握的三项技能。

ARO 数据集
上图解释了 ARO 在不同情况下的含义。使用这样的数据集,专家可以分析 VLM 学到了什么以及如何改善结果。
机器人应用
研究人员还在使用 VLM 构建专用机器人。此类机器人可以帮助导航环境,通过监控物品改善制造业的仓库运营,并通过让机器人理解人类的手势(如面部表情、肢体语言、语音语调等)来增强人机交互。最近理想和小米智能驾驶竞相推出的VLM应用就是这个范畴。
医疗 VQA应用
VLM 注释图像和识别复杂物体的能力可以帮助医疗专业人员进行医疗诊断。例如,他们可以向 VLM 询问有关 X 射线或 MRI 扫描的关键问题,以便尽早发现潜在问题。
视觉语言模型:关键要点
视觉语言建模是一个不断发展的领域,对人工智能行业来说前景广阔。以下是有关 VLM 的几个关键点:
  • 视觉语言模型是一种同时理解图像和文本数据模式的多模式架构。

  • 他们使用 CV 和 NLP 模型来关联来自两种模态的信息(嵌入)。

  • 存在几种 VLM 架构,旨在将视觉语义与文本表示关联起来。

  • 尽管用户可以使用自动评分来评估 VLM,但更好的评估策略对于构建更可靠的模型至关重要。

  • VLM 有许多工业用途,例如机器人、医疗诊断、聊天机器人等。

*未经准许严禁转载和摘录-参考资料:

加入我们的知识星球可以下载包含以上参考资料的公众号海量参考资料


>>>>

相关推荐

  • 采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA
  • 智能驾驶技术演进与未来挑战:从目标物识别到大模型上车
  • 被逼墙角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能驾驶
  • 欧盟加征关税下的中国汽车出海
  • AI 巨头 Nvidia 英伟达在汽车领域做什么?

Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论
  • 概述随着工业4.0的深入推进,制造业对自动化和智能化的需求日益增长。传统生产线面临空间不足、效率低下、灵活性差等问题,尤其在现有工厂改造项目中,如何在有限空间内实现高效自动化成为一大挑战。此次项目的客户需要在现有工厂基础上进行改造,空间有限。为此,客户选择了SCARA型线性轴机器人作为执行设备。然而,SCARA机器人的高效运行离不开强大的控制系统支持。宏集凭借其先进的智能控制系统,为客户提供了高效、灵活的自动化解决方案,确保SCARA机器人在有限空间内发挥最大效能。一、客户需求在此次改造项目中,
    宏集科技 2025-03-06 11:27 120浏览
  • 在六西格玛项目中,团队的选择往往决定了最终的成败。合适的团队成员不仅能推动项目顺利进行,更能确保最终成果符合预期。因此,组建六西格玛团队时,必须挑选最合适的人才,确保他们具备必要的能力和特质。团队主管的关键特质每个精益六西格玛项目都需要一位主管来带领团队。他们不仅需要具备领导力,还要能够分析数据、制定策略,并与管理层和团队成员高效沟通。团队主管的核心职责包括:领导团队行动:能够激励成员,确保团队朝着既定目标前进。数据分析能力:精通数据处理和分析,能基于数据做出决策。沟通协调:能够在管理层和团队之
    优思学院 2025-03-06 12:51 98浏览
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 36浏览
  • 引言嘿,各位电动汽车的爱好者们!咱们今儿个就来聊聊电动汽车里那些“看不见,摸不着”,但又至关重要的零部件。要说电动汽车这玩意儿,那可真是科技含量满满,各种高精尖的技术都往里堆。但要让这些高科技玩意儿协同工作,稳定可靠地运转,那就得靠一些幕后英雄,比如说——电容器。你可能会想,电容器?这不就是电子电路里常见的元件嘛,能有多重要? 哎,你可别小瞧了这小小的电容器。在电动汽车的心脏地带——高压直流转换器(DC-DC转换器)里,车规级的电容器那可是扮演着举足轻重的角色。 今天,咱们就聚焦分析三星电机车规
    贞光科技 2025-03-05 17:02 90浏览
  • 文/Leon编辑/侯煜‍2008至2021年间,创维以高举高打的凌厉之势,果断进行投资,一度成为中国市场大屏OLED产业的旗手,引领着显示技术的发展方向。但近年来,创维在 OLED 领域的发展轨迹却逐渐模糊,态度陷入暧昧不明的混沌状态。究其根源,一方面,创维对过往的押注难以割舍,在技术革新与市场变化的浪潮中,不愿轻易推翻曾经的战略布局;另一方面,早期在大屏OLED 技术研发、市场推广等环节投入的巨额资金,已然形成沉没成本,极大地限制了创维在显示技术路线上的重新抉择。但市场瞬息万变,为适应激烈的行
    华尔街科技眼 2025-03-05 20:03 147浏览
  • 在当今竞争激烈的市场环境中,企业不仅需要优化成本,还需积极响应国家的能源政策,减少对环境的影响。提升工业能源效率正是实现这一双重目标的关键。中国近年来大力推进“双碳”目标(碳达峰、碳中和),并出台了一系列政策鼓励企业节能减排。通过宏集CODRA的Panorama解决方案,企业可以获得专为这一目标设计的SCADA工具,实时监控和调整所有工业设备的能耗。特别是其中的能源管理模块,能够有效分析数据,预防故障,避免能源浪费。Panorama的优化技术宏集CODRA提供的解决方案,尤其是Panorama
    宏集科技 2025-03-06 11:25 115浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 36浏览
  • 随着自动驾驶技术的迅猛发展,构建高保真、动态的仿真场景成为了行业的迫切需求。传统的三维重建方法在处理复杂场景时常常面临效率和精度的挑战。在此背景下,3D高斯点阵渲染(3DGS)技术应运而生,成为自动驾驶仿真场景重建的关键突破。一、3DGS技术概述与原理1、3DGS的技术概述3DGS是一种基于3D高斯分布的三维场景表示方法。通过将场景中的对象转化为多个3D高斯点,每个点包含位置、协方差矩阵和不透明度等信息,3DGS能够精确地表达复杂场景的几何形状和光照特性。与传统的神经辐射场(NeRF)方法相比,
    康谋 2025-03-06 13:17 120浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 42浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 86浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦