9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

OpenCV学堂 2024-12-30 22:06

构建AI未来，Arm计算平台无处不在 如何提升高压系统的实时性能?

点击上方↑↑↑“OpenCV学堂”关注我

来源：公众号新智元授权

【导读】视觉价值模型（VisVM）通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量，减少幻觉现象。实验表明，VisVM能显著提高模型的视觉理解能力，并可通过自我训练进一步提升性能。

在现代多模态视觉语言模型（VLM）的发展中，提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能，但在实际应用中，模型仍面临识别细微图像区域和减少「幻觉」现象的问题。

推理时搜索（inference time search）作为一种提升响应质量的有效方法，已在大型语言模型中展现出巨大潜力。

O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答，在数学和代码等任务中展现了远超越其他模型的卓越性能。

那么，我们能否同样通过推理时搜索来提升多模态视觉语言模型的响应质量，并减少响应中的幻觉呢？答案是是的。

来自马里兰大学和微软的研究团队提出了视觉价值模型（Vision Value Model, VisVM），通过精确控制搜索过程来显著提高模型在视觉任务中的表现。

论文地址：https://arxiv.org/abs/2412.03704

项目页面：https://si0wang.github.io/projects/VisVM/

项目代码：https://github.com/si0wang/VisVM

VisVM是一种价值网络，可以通过对逐步生成描述性标题提供奖励信号来指导视觉语言模型（VLM）在推理时的搜索。

模型训练

VisVM首先使用VLM自身生成多个多样化的响应，并将这些响应按照句子维度拆分成的sentence pair。

对于每一个current sentence使用CLIP model计算这句话和对应图像的cosine similarity作为reward，最后构成< current sentence, reward，next sentence, Image>的四元组作为VisVM的训练数据。

VisVM使用强化学习中的时序差分学习（Temporal Difference learning）作为损失函数进行训练。这使得VisVM不仅可以评估当前句子与图像之间的匹配程度，还可以预测当前句子如何影响未来句子的生成，为搜索提供一个长期价值信号。

VisVM引导下的推理阶段搜索：

在训练好VisVM之后，作者使用VisVM作为奖励信号来逐步精细化推理过程。这一过程包括以下几个步骤：

1. 生成多个句子候选：首先，模型会生成多个可能的句子，作为响应的候选。

2. 通过VisVM进行评估：接下来，利用VisVM对这些候选句子进行综合评估，考察其与图像内容的匹配度以及对未来生成句子的潜在影响（句子中包含的幻觉，细致程度等）。

3. 选择最佳句子：根据VisVM的评估，从候选中挑选出最优的句子来继续生成。

相比于直接使用只考虑当前句子与图像匹配程度的clip分数作为奖励信号进行搜索，VisVM可以进一步通过考虑后续生成的句子中的潜在幻觉来预测长期价值，使得VisVM能够避开具有更高幻觉风险的响应候选，并生成不易产生幻觉且更详细的图像描述。

通过这种迭代的推理过程，VLM能够构建出完整且高质量的响应序列，有效减少信息遗漏和幻觉错误，显著提升模型的应用性能。

实验

研究人员采用LLaVA-Next-Mistral-7B作为实验的基础模型，通过在其encoder的最后一层添加一个线性层作为value head，构建了VisVM并基于这个结构使用上文中构造的数据集与损失函数进行训练。

在后续的实验中，均使用LLaVA-Next-Mistral-7B作为base model用于生成响应。

研究人员首先评估了使用不同解码方式生成的响应质量，作者从COCO2017数据集中采样了1000个图像，并与llava detailed description 数据集中用于图像描述的9个prompt进行了随机匹配作为测试集用于生成图像藐视。

分别使用人类评估和GPT-4o评估，将VisVM引导的搜索与其他常规方法如CLIP-PRM指导搜索、Best-of-N选择和贪婪解码得到的图像描述进行了比较。

结果表明VisVM在生成图像描述时不仅细节更为丰富，产生的幻觉也大幅减少，其生成的描述性内容更加受到evaluator的青睐。

尤其是在人类作为评估者的情况下，VisVM引导搜索得到的图像描述相比于其他三个方法分别取得了66.0%, 63.5%和74.0%的获胜比率。

例如，在描述这个场景时，VisVM引导的搜索甚至可以描述出挡风玻璃上的水滴挡住了绿色指示牌，这种细节在人类标注的时候甚至都难以察觉。展示了视觉价值模型对于细节描述的强大能力。

在现有幻觉的benchmark中，研究人员在VLM的inference阶段使用了非搜索方式生成响应用于评估。

在CHAIR和MMHal两个用于测试VLM幻觉的benchmark上VisVM引导的搜索取得了显著优于其他方法的效果，展示出减少VLM生成响应中的幻觉的强大能力

并且，作者还进一步探索了了VisVM引导搜索的scaling law，结果发现无论是采用VisVM引导的搜索还是CLIP-PRM引导的搜索，随着搜索步骤大小的增加，模型的性能都会逐步提升。这一现象证明了扩大推理时间的计算量能够显著增强VLM的视觉理解能力。

特别值得注意的是，随着步骤大小的增加，VisVM引导搜索的性能提升速度更快，使得两种方法之间的性能差距不断扩大。VisVM在达到与CLIP-PRM相当的性能时，其计算效率几乎是后者的两倍。

通过扩大搜索步骤，VisVM不仅能更快地达到理想的性能，还能以更低的计算成本实现，这在提升模型处理复杂视觉任务时尤为重要。

基于VisVM强大的减少幻觉的能力，作者使用使用LLaVA-NEXT-Mistral-7B作为基础模型，并利用VisVM作为奖励信号，搜索生成高质量的图像描述作为监督微调（SFT）数据，对LLaVA-NEXT-Mistral-7B进行训练。

在九个理解和幻觉基准上的测试表明，VisVM引导的自我训练使LLAVA-next-7B的性能平均提升了10.8%，相比于其他搜索方法得到的图像描述作为训练数据提升显著。

特别是在提升了视觉理解能力后，VLM的reasoning能力也有所提高，例如MMMU和MathVista两个benchmark，该结果进一步展示了VisVM搜索得到的图像描述质量之高。

此外，这也揭示了VisVM在自我训练框架中的应用潜力，仅通过在语言空间中进行高质量搜索并进行微调，就能显著提升原始VLM的视觉理解能力，这一发现为未来VLM的发展提供了新的方向和思路。

参考资料：

https://arxiv.org/abs/2412.03704

OpenCV4系统化学习

深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

OpenCV学堂专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!

进入专栏

文章：1738篇粉丝：26人

 私信

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

【导读】视觉价值模型（VisVM）通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量，减少幻觉现象。实验表明，VisVM能显著提高模型的视觉理解能力，并可通过自我训练进一步提升性能。

最近文章

热门文章

推荐

最新资讯