一文深度看懂视觉语言模型(VLM)

原创 Vehicle 2024-12-24 21:02


在本文来自于encord,从VLM 算法架构,原理,到应用方向,挑战难点方面探讨VLM 的架构、评估策略和主流数据集,以及该领域的主要挑战和未来趋势。

通过了解这些基础方面,读者将深入了解如何将 VLM 应用于医疗保健、机器人和媒体等行业,汽车行业属于机器人板块,熟悉VLM可以帮助理解当前自动驾驶产品,算法挑战以及发展趋势。

是一篇带有深度的科普文章,文章比较长而且需要一定的算法基础和强烈兴趣爱好来读。
很长一段时间以来,人工智能(AI)能够像人类一样有效地理解视觉和文本线索的想法似乎遥不可及且难以想象。
然而,随着多模态人工智能的出现,我们看到了一场革命,人工智能可以同时理解各种模态,如文本、图像、语音、面部表情、生理手势等,以理解我们周围的世界。处理多种模态的能力为人工智能应用开辟了各种途径。
多模态 AI 的一个令人兴奋的应用是视觉语言模型 (VLM)。这些模型可以同时处理和理解语言(文本)和视觉(图像)的模态,以执行高级视觉语言任务,例如视觉问答 (VQA)、图像字幕和文本到图像搜索。
在本文中,您将了解:
  • VLM 架构。
  • VLM 评估策略。
  • 用于开发视觉语言模型的主流数据集。
  • VLM 面临的主要挑战、主要应用和未来趋势。
让我们首先了解什么是视觉语言模型。
什么是视觉语言模型?
视觉语言模型是视觉和自然语言模型的融合。它将图像及其各自的文本描述作为输入,并学习将两种模式的知识关联起来。该模型的视觉部分从图像中捕获空间特征,而语言模型则对文本中的信息进行编码。
两种模态的数据(包括检测到的物体、图像的空间布局和文本嵌入)相互映射。例如,如果图像包含一只鸟,模型将学习将其与文本描述中的类似关键字关联起来。
这样,模型就会学会理解图像并将知识转化为自然语言(文本),反之亦然。
训练 VLM
构建 VLM 涉及预训练基础模型(foundation models)零样本学习(zero-shot learning)迁移学习技术(Transfer learning)(例如知识提炼)可用于微调模型以完成更具体的下游任务。 
这些是更简单的技术,需要更小的数据集和更少的训练时间,同时保持良好的结果。
另一方面,现代框架使用各种技术来获得更好的结果,例如:
  • 对比学习。

  • 掩蔽语言图像建模。

  • 带有变压器等的编码器-解码器模块。
这些架构可以学习各种模态之间的复杂关系并提供最先进的结果。让我们详细讨论一下。
视觉语言模型:架构以及当前流行的模型
目前 VLM 主流模型架构有CLIP、Flamingo和VisualBert等,他们所使用的学习技术有:
对比学习
对比学习是一种通过了解数据点之间的差异来学习数据点的技术。该方法计算数据实例之间的相似度得分,旨在最大限度地减少对比损失。它在半监督学习中最有用,在半监督学习中,只有少数标记样本引导优化过程来标记看不见的数据点。
例如,了解猫长什么样子的一种方法是将其与类似的猫图像和狗图像进行比较。对比学习模型通过识别面部结构、身体大小和毛发等特征来学习区分猫和狗。这些模型可以确定哪幅图像更接近原始图像(称为“锚点”),并预测其类别。
CLIP是一个使用对比学习的模型示例,它使用文本和视觉编码器计算文本和图像嵌入之间的相似性。它遵循三步流程来实现零样本预测。
  1. 在预训练期间训练文本和图像编码器以学习图像-文本对。

  2. 将训练数据集类别转换为标题。

  3. 估计给定输入图像的零样本预测的最佳标题。
CLIP 等 VLM 为Encord Active中的语义搜索功能提供支持。当您登录 Encord → Active →选择项目→ 使用自然语言搜索查找数据集中带有文本描述的项目时。以下是使用“白色运动鞋”作为查询词使用自然语言搜索的方法:
ALIGN是另一个示例,它使用图像和文本编码器通过对比损失函数来最小化相似嵌入之间的距离。
PrefixLM 
PrefixLM 是一种 NLP 学习技术,主要用于模型预训练。它输入文本的一部分(前缀),并学习预测序列中的下一个单词。在视觉语言模型中,PrefixLM 使模型能够根据图像及其相应的前缀文本预测下一个单词序列。它利用视觉变换器(ViT) 将图像划分为一维块序列,每个块序列代表一个局部图像区域。
然后,该模型对处理后的补丁应用卷积或线性投影,以生成上下文化的视觉嵌入。对于文本模态,该模型将相对于补丁的文本前缀转换为标记嵌入。Transformer 的编码器-解码器块接收视觉和标记嵌入。在那里,模型学习嵌入之间的关系。
SimVLM是一种采用 PrefixLM 学习方法的流行架构。它的 Transformer 架构比其前辈更简单,在各种基准测试中都超越了前辈的结果。
它使用 Transformer 编码器来学习图像前缀对,并使用 Transformer 解码器来生成输出序列。该模型还展示了良好的泛化能力和零样本学习能力。

SimVLM 架构
类似地,VirTex使用卷积神经网络 提取图像特征,并使用带有转换器的文本头来管理文本前缀。您可以通过将图像-文本对输入到文本头来端到端地训练模型,以预测正确的图像标题。

VirTex 架构
Frozen PrefixLM
虽然 PrefixLM 技术需要从头开始训练视觉和文本编码器,但 Frozen PrefixLM 允许您使用预先训练的网络并仅更新图像编码器的参数。
例如,下图展示了《Frozen》如何使用预训练语言模型和视觉编码器工作。文本编码器可以属于任何大型语言模型 (LLM),而视觉编码器也可以是预训练的视觉基础模型。
您可以微调图像编码器,使其图像表示与文本嵌入一致,从而允许模型做出更好的预测。

Frozen Architecture

Flamingo 的架构采用了更先进的 (SOTA) 方法。它使用类似 CLIP 的视觉编码器和名为Chinchilla的 LLM 。保持 LLM 固定,您可以在文本之间交错的图像上训练视觉编码器。
视觉编码器通过感知器采样器处理图像。该技术可加快推理速度,使 Flamingo 成为小样本学习的理想选择。

Flamingo 架构
交叉注意的多模态融合
该方法通过添加交叉注意层,利用预训练的 LLM 编码器进行视觉表征学习。VisualGPT是一个主要示例,它允许快速调整 LLM 预训练编码器权重以适应视觉任务。

VisualGPT 架构
从业者从图像输入中提取相关对象并将其输入到视觉编码器。然后将得到的视觉表征输入到解码器,并根据预先训练的 LLM 使用权重进行初始化。解码器模块通过自复活激活单元 (SRAU) 平衡视觉和文本信息。
SRAU 方法避免了梯度消失的问题,这是深度学习中常见的问题,由于梯度较小,模型权重无法更新。因此,VisualGPT 的表现优于几个基线模型,例如普通 Transformer、Attention-on-Attention ( AoA ) Transformer 和 X-Transformer。
掩码语言建模 (MLM) 和图像文本匹配 (ITM)
MLM 在BERT等语言模型中发挥作用,通过屏蔽或隐藏文本序列的一部分并训练模型来预测缺失的文本。ITM 涉及预测句子 Y 是否跟在句子 X 之后。
您可以调整 MLM 和 ITM 技术以完成视觉任务。下图展示了在COCO数据集上训练的VisualBERT的架构。

VisualBERT 架构
它通过引入图像序列和掩码文本描述来增强 MLM 程序。基于视觉嵌入,目标是预测缺失的文本。同样,ITM 预测标题是否与图像匹配。
无需培训
您可以直接使用大规模、预先训练的视觉语言模型,而无需进行任何微调。例如,MAGIC和ASIF是无需训练的框架,旨在预测与输入图像紧密相关的文本描述。
MAGIC 使用基于 CLIP 生成的图像嵌入的专门分数来指导语言模型的输出。使用此分数,LLM 可以生成与图像语义紧密一致的文本嵌入,从而使模型能够以零样本方式执行多模态任务。
ASIF 采用相似图像具有相似标题的理念。该模型计算训练数据集的查询和候选图像之间的相似度。接下来,它将查询图像嵌入与相应候选图像的文本嵌入进行比较。
然后,它预测一个嵌入与查询图像最相似的描述,从而实现与CLIP和LiT等模型相当的零样本性能。

ASIF 预测策略
知识蒸馏/提炼
该技术涉及将知识从大型、训练有素的教师模型转移到具有少量参数的较轻学生模型。这种方法允许研究人员从较大的预训练模型中训练 VLM。
例如,ViLD是一种使用知识蒸馏方法开发的流行 VLM。该模型使用预先训练的开放词汇图像分类模型作为老师来训练两阶段检测器(学生)。
该模型将来自文本编码器的文本嵌入与图像嵌入进行匹配。

ViLD 建筑
知识蒸馏将知识从图像编码器转移到主干模型,以自动生成区域嵌入。只有主干模型在推理过程中生成区域嵌入,并将它们与未见过的文本嵌入进行匹配。
目标是根据文本描述在图像中的对象周围绘制正确的边界框。
评估视觉语言模型
VLM 验证涉及评估图像和文本数据之间关系的质量。对于图像字幕模型,这意味着将生成的字幕与真实描述进行比较。
您可以使用各种基于 n-gram 的自动化评估策略来比较预测标签的准确性、语义和信息精度。以下是一些关键的 VLM 评估指标。
BLEU:双语评估替代 ( BLEU ) 指标最初是为评估机器翻译任务而提出的。它通过考虑候选句子中有多少个单词出现在参考中来计算目标文本与参考(基本事实)相比的精度。
ROUGE:面向回忆的要点评估替补模型 ( ROUGE ) 通过考虑参考句子中有多少个单词出现在候选中来计算回忆率。
METEOR:具有明确排序的翻译评估指标 ( METEOR ) 计算准确率和召回率的调和平均值,赋予召回率更多权重并将其乘以惩罚项。该指标比其他使用准确率或召回率的指标有所改进,因为它结合了两者的信息以提供更好的评估。
CIDEr:基于共识的图像描述评估 ( CIDEr ) 通过使用TF-IDF分数计算参考句子和目标句子之间的平均相似度,将目标句子与一组人类句子进行比较。
现在您已经了解了与视觉语言模型 (VLM) 相关的评估指标,了解如何为这些模型整理数据集至关重要。合适的数据集为训练和验证 VLM 提供了肥沃的土壤,并且对于确定模型在不同任务中的表现至关重要。
视觉语言模型的数据集
为 VLM 收集训练数据比传统 AI 模型更具挑战性,因为它涉及多种数据模式的收集和质量保证。以下是结合图像和文本数据进行多模式训练的几个数据集的列表。
LAION-5B:从业者使用LAION-5B数据集构建大型、预训练的 VLM。该数据集包含由 CLIP 生成的超过 50 亿个图像文本对,并配有英文和外语描述,可满足多语言领域的需要。
PMD:公共模型数据集(PMD)最初出现在FLAVA 论文中,包含 700 亿个图像-文本对。它是来自其他大型数据集的数据集合,例如COCO、概念字幕(CC)、RedCaps等。该数据集是多模态数据的宝库,可促进稳健的模型训练。
VQA:专家使用VQA数据集来微调预训练的 VLM,以用于下游 VQA 和视觉推理任务。该数据集包含超过 200,000 张图像,每张图像有 5 个问题、10 个真实答案,每个问题有 3 个错误答案。
ImageNet:ImageNet包含超过 1400 万张图像,这些图像的注释按照WordNet层次结构进行分类。它有助于为简单的下游任务(例如图像分类和对象识别)构建模型。
尽管有高质量的多模态数据集,VLM 在模型开发过程中仍面临重大挑战。下面让我们讨论一下。
视觉语言模型的局限性
尽管 VLM 在理解视觉和文本模式以处理信息方面功能强大,但它们面临着三个主要挑战:
  • 模型复杂性。

  • 数据集偏差。

  • 评估困难。
模型复杂度
语言和视觉模型本身就相当复杂,将两者结合起来只会使问题变得更糟。它们的复杂性带来了额外的挑战,包括获取强大的计算资源进行训练、收集大型数据集以及在物联网设备等弱硬件上部署。
数据集偏差
当 VLM 记住训练和测试集中的深层模式而不解决任何问题时,就会出现数据集偏差。例如,使用从互联网上精选的图像训练 VLM 可能会导致模型记住特定模式,而不会学习各种图像之间的概念差异。
评估策略
上面讨论的评估策略仅将候选句子与参考句子进行比较。该方法假设参考句子是唯一的基本事实。然而,一个特定的图像可以有多个基本事实描述。
尽管 CIDEr 等基于共识的指标可以解决这个问题,但当特定图像的共识较低时,使用它们会变得很困难。另一个挑战是当通用描述适用于多幅图像时。
虚假相关
如图所示,VLM 可以注释或检索与通用标题匹配的多个相关图像。然而,实际上,该模型只不过是一个词袋。它所做的只是考虑诸如“城市”、“公共汽车”、“灯光”等词语来描述图像,而不是真正理解标题的顺序和真正的上下文含义。
此外,用于 VQA 的 VLM 可以对无意义的问题生成高度可信的答案。例如,对于包含白马的图像,向 VLM 询问“汽车是什么颜色的?”,VLM 会生成“白色”的答案,而不是指出图片中没有汽车。
最后,VLM 缺乏组合泛化能力。这意味着它们在处理新概念时性能会下降。例如,VLM 可能无法将黄色马识别为一个类别,因为很少将黄色与马联系起来。
尽管存在许多开发和部署挑战,研究人员和实践者在采用 VLM 解决实际问题方面取得了重大进展。下面让我们简单讨论一下。
视觉语言模型的应用
虽然前面讨论的大多数 VLM 都有助于为图像添加字幕,但它们的实用性还扩展到利用桥接视觉和语言模式的能力的各个领域。以下是一些其他应用程序:
图像检索:FLAVA等模型可帮助用户浏览图像存储库,帮助他们根据语言查询找到相关照片。电子商务网站就是一个相关的例子。访问者可以在搜索栏中描述他们正在寻找的内容,VLM 将在屏幕上显示合适的选项。此应用程序在智能手机上也很流行,用户可以输入关键字(风景、建筑物等)来从图库中检索相关图像。
生成式人工智能:通过文本提示生成图像是一个不断发展的领域,DALL-E等模型允许用户根据自己的描述创作艺术品或照片。该应用在设计师和发明家想要将不同的产品创意形象化的企业中非常实用。它还有助于为网站和博客创建内容,并有助于讲故事。
分割:像SegGPT这样的 VLM有助于完成诸如实例、全景、语义等分割任务。SegGPT 通过理解用户提示并利用独特的配色方案在上下文中分割对象来分割图像。例如,用户可以要求 SegGPT 从多幅图像中分割出彩虹,SegGPT 将有效地注释所有彩虹。
未来研究方向
以下是 VLM 领域的一些重要未来研究方向:
更好的数据集
研究界正在努力构建更好的训练和测试数据集,以帮助 VLM 理解成分。CLEVR就是其中一个例子。

CLEVR 数据集
如图所示,它包含新颖形状、颜色和相应问题的图像,可供专家测试 VLM 的视觉推理能力。
更好的评估方法
评估挑战需要深入研究更好的评估方法,以构建更强大的 VLM。一种替代方法是通过ARO基准测试 VLM 的各项技能。
属性识别、关系推理和词序敏感性 (ARO) 是 VLM 必须掌握的三项技能。

ARO 数据集
上图解释了 ARO 在不同情况下的含义。使用这样的数据集,专家可以分析 VLM 学到了什么以及如何改善结果。
机器人应用
研究人员还在使用 VLM 构建专用机器人。此类机器人可以帮助导航环境,通过监控物品改善制造业的仓库运营,并通过让机器人理解人类的手势(如面部表情、肢体语言、语音语调等)来增强人机交互。最近理想和小米智能驾驶竞相推出的VLM应用就是这个范畴。
医疗 VQA应用
VLM 注释图像和识别复杂物体的能力可以帮助医疗专业人员进行医疗诊断。例如,他们可以向 VLM 询问有关 X 射线或 MRI 扫描的关键问题,以便尽早发现潜在问题。
视觉语言模型:关键要点
视觉语言建模是一个不断发展的领域,对人工智能行业来说前景广阔。以下是有关 VLM 的几个关键点:
  • 视觉语言模型是一种同时理解图像和文本数据模式的多模式架构。

  • 他们使用 CV 和 NLP 模型来关联来自两种模态的信息(嵌入)。

  • 存在几种 VLM 架构,旨在将视觉语义与文本表示关联起来。

  • 尽管用户可以使用自动评分来评估 VLM,但更好的评估策略对于构建更可靠的模型至关重要。

  • VLM 有许多工业用途,例如机器人、医疗诊断、聊天机器人等。

*未经准许严禁转载和摘录-参考资料:

加入我们的知识星球可以下载包含以上参考资料的公众号海量参考资料


>>>>

相关推荐

  • 采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA
  • 智能驾驶技术演进与未来挑战:从目标物识别到大模型上车
  • 被逼墙角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能驾驶
  • 欧盟加征关税下的中国汽车出海
  • AI 巨头 Nvidia 英伟达在汽车领域做什么?

Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论 (0)
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 230浏览
  •   物质扩散与污染物监测系统软件:多领域环境守护的智能中枢   北京华盛恒辉物质扩散与污染物监测系统软件,作为一款融合了物质扩散模拟、污染物监测、数据分析以及可视化等多元功能的综合性工具,致力于为环境科学、公共安全、工业生产等诸多领域给予强有力的技术支撑。接下来,将从功能特性、应用场景、技术实现途径、未来发展趋势等多个维度对这类软件展开详尽介绍。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这
    华盛恒辉l58ll334744 2025-04-09 14:54 83浏览
  • 文/Leon编辑/侯煜‍就在小米SU7因高速交通事故、智驾性能受到质疑的时候,另一家中国领先的智驾解决方案供应商华为,低调地进行了一场重大人事变动。(详情见:雷军熬过黑夜,寄望小米SU7成为及时雨)4月4日上午,有网友发现余承东的职务发生了变化,华为官网、其个人微博认证信息为“常务董事,终端BG董事长”,不再包括“智能汽车解决方案BU董事长”。余承东的确不再兼任华为车BU董事长,但并非完全脱离华为的汽车业务,而是聚焦鸿蒙智行。据悉,华为方面寻求将车BU独立出去,但鸿蒙智行仍留在华为终端BG部门。
    华尔街科技眼 2025-04-09 15:28 68浏览
  •   物质扩散与污染物监测系统:环境守护的关键拼图   一、物质扩散原理剖析   物质扩散,本质上是物质在浓度梯度、温度梯度或者压力梯度等驱动力的作用下,从高浓度区域向低浓度区域迁移的过程。在环境科学范畴,物质扩散作为污染物在大气、水体以及土壤中迁移的关键机制,对污染物的分布态势、浓度动态变化以及环境风险程度有着直接且重大的影响。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这些成功案例为物质
    华盛恒辉l58ll334744 2025-04-09 11:24 47浏览
  • 文/郭楚妤编辑/cc孙聪颖‍伴随贸易全球化的持续深入,跨境电商迎来蓬勃发展期,物流行业 “出海” 成为不可阻挡的必然趋势。加之国内快递市场渐趋饱和,存量竞争愈发激烈。在此背景下,国内头部快递企业为突破发展瓶颈,寻求新的增长曲线,纷纷将战略目光投向海外市场。2024 年,堪称中国物流企业出海进程中的关键节点,众多企业纷纷扬帆起航,开启海外拓展之旅。然而,在一片向好的行业发展表象下,部分跨境物流企业的经营状况却不容乐观。它们受困于激烈的市场竞争、不断攀升的运营成本,以及复杂的国际物流环境,陷入了微利
    华尔街科技眼 2025-04-09 15:15 74浏览
  •     在研究Corona现象时发现:临界电压与介电材料表面的清洁程度有关。表面越清洁的介电材料,临界电压越高;表面污染物越多的地方,越容易“爬电”。关于Corona现象,另见基础理论第007篇。    这里说的“污染物”,定义为——可能影响介电强度或表面电阻率的固体、液体或气体(电离气体)的任何情况。    IEC 60664-1 (对应GB/T 16935.1-2023) 定义了 Pollution Degree,中文术语是“污染等
    电子知识打边炉 2025-04-07 22:06 103浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 142浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 154浏览
  •   卫星图像智能测绘系统:地理空间数据处理的创新引擎   卫星图像智能测绘系统作为融合卫星遥感、地理信息系统(GIS)、人工智能(AI)以及大数据分析等前沿技术的综合性平台,致力于达成高精度、高效率的地理空间数据采集、处理与应用目标。借助自动化、智能化的技术路径,该系统为国土资源管理、城市规划、灾害监测、环境保护等诸多领域输送关键数据支撑。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉北京五木恒润卫星图像智能测绘系统。这些成功案例为卫星
    华盛恒辉l58ll334744 2025-04-08 16:19 77浏览
  •   卫星图像智能测绘系统全面解析   一、系统概述   卫星图像智能测绘系统是基于卫星遥感技术、图像处理算法与人工智能(AI)技术的综合应用平台,旨在实现高精度、高效率的地理空间数据获取、处理与分析。该系统通过融合多源卫星数据(如光学、雷达、高光谱等),结合AI驱动的智能算法,实现自动化、智能化的测绘流程,广泛应用于城市规划、自然资源调查、灾害监测等领域。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星图像智能测绘系统
    华盛恒辉l58ll334744 2025-04-08 15:04 90浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 143浏览
  • ## DL/T645-2007* 帧格式:* 帧起始字符:68H* 地址域:A0 A1 A2 A3 A4 A5* 帧起始字符:68H* 控制码:1字节* 主站:* 13H:请求读电能表通信地址* 11H:请求读电能表数据* 1CH:请求跳闸、合闸* 从站:* 91H:正常应答读电能表* 9CH:正常应答跳闸、合闸* 数据域长度:1字节* 数据域:DI0 DI1 DI2 DI3* 发送方:每字节+33H* 接收方:每字节-33H* 数据标识:* 电能量* 最大需量及发生时间* 变量* 事件记录*
    四毛打印店 2025-04-09 10:53 49浏览
  • 曾几何时,汽车之家可是汽车资讯平台领域响当当的“扛把子”。2005 年成立之初,它就像一位贴心的汽车小助手,一下子就抓住了大家的心。它不仅吸引了海量用户,更是成为汽车厂商和经销商眼中的“香饽饽”,广告投放、合作推广不断,营收和利润一路高歌猛进,2013年成功在纽交所上市,风光无限。2021年更是在香港二次上市,达到了发展的巅峰,当年3月15日上市首日,港股股价一度高达184.6港元,市值可观。然而,如今的汽车之家却陷入了困境,业务下滑明显。业务增长瓶颈从近年来汽车之家公布的财报数据来看,情况不容
    用户1742991715177 2025-04-07 21:48 113浏览
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 182浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦