点击上方↑↑↑“OpenCV学堂”关注我
来源:公众号 新智元 授权
推理时搜索(inference time search)作为一种提升响应质量的有效方法,已在大型语言模型中展现出巨大潜力。
O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答,在数学和代码等任务中展现了远超越其他模型的卓越性能。
那么,我们能否同样通过推理时搜索来提升多模态视觉语言模型的响应质量,并减少响应中的幻觉呢?答案是是的。
来自马里兰大学和微软的研究团队提出了视觉价值模型(Vision Value Model, VisVM),通过精确控制搜索过程来显著提高模型在视觉任务中的表现。
项目代码:https://github.com/si0wang/VisVM
VisVM是一种价值网络,可以通过对逐步生成描述性标题提供奖励信号来指导视觉语言模型(VLM)在推理时的搜索。
模型训练
VisVM使用强化学习中的时序差分学习(Temporal Difference learning)作为损失函数进行训练。这使得VisVM不仅可以评估当前句子与图像之间的匹配程度,还可以预测当前句子如何影响未来句子的生成,为搜索提供一个长期价值信号。
VisVM引导下的推理阶段搜索:
在训练好VisVM之后,作者使用VisVM作为奖励信号来逐步精细化推理过程。这一过程包括以下几个步骤:
1. 生成多个句子候选:首先,模型会生成多个可能的句子,作为响应的候选。
2. 通过VisVM进行评估:接下来,利用VisVM对这些候选句子进行综合评估,考察其与图像内容的匹配度以及对未来生成句子的潜在影响(句子中包含的幻觉,细致程度等)。
3. 选择最佳句子:根据VisVM的评估,从候选中挑选出最优的句子来继续生成。
相比于直接使用只考虑当前句子与图像匹配程度的clip分数作为奖励信号进行搜索,VisVM可以进一步通过考虑后续生成的句子中的潜在幻觉来预测长期价值,使得VisVM能够避开具有更高幻觉风险的响应候选,并生成不易产生幻觉且更详细的图像描述。
通过这种迭代的推理过程,VLM能够构建出完整且高质量的响应序列,有效减少信息遗漏和幻觉错误,显著提升模型的应用性能。
实验
在后续的实验中,均使用LLaVA-Next-Mistral-7B作为base model用于生成响应。
研究人员首先评估了使用不同解码方式生成的响应质量,作者从COCO2017数据集中采样了1000个图像,并与llava detailed description 数据集中用于图像描述的9个prompt进行了随机匹配作为测试集用于生成图像藐视。
分别使用人类评估和GPT-4o评估,将VisVM引导的搜索与其他常规方法如CLIP-PRM指导搜索、Best-of-N选择和贪婪解码得到的图像描述进行了比较。
结果表明VisVM在生成图像描述时不仅细节更为丰富,产生的幻觉也大幅减少,其生成的描述性内容更加受到evaluator的青睐。
尤其是在人类作为评估者的情况下,VisVM引导搜索得到的图像描述相比于其他三个方法分别取得了66.0%, 63.5%和74.0%的获胜比率。
例如,在描述这个场景时,VisVM引导的搜索甚至可以描述出挡风玻璃上的水滴挡住了绿色指示牌,这种细节在人类标注的时候甚至都难以察觉。展示了视觉价值模型对于细节描述的强大能力。
在现有幻觉的benchmark中,研究人员在VLM的inference阶段使用了非搜索方式生成响应用于评估。
在CHAIR和MMHal两个用于测试VLM幻觉的benchmark上VisVM引导的搜索取得了显著优于其他方法的效果,展示出减少VLM生成响应中的幻觉的强大能力
并且,作者还进一步探索了了VisVM引导搜索的scaling law,结果发现无论是采用VisVM引导的搜索还是CLIP-PRM引导的搜索,随着搜索步骤大小的增加,模型的性能都会逐步提升。这一现象证明了扩大推理时间的计算量能够显著增强VLM的视觉理解能力。
特别值得注意的是,随着步骤大小的增加,VisVM引导搜索的性能提升速度更快,使得两种方法之间的性能差距不断扩大。VisVM在达到与CLIP-PRM相当的性能时,其计算效率几乎是后者的两倍。
通过扩大搜索步骤,VisVM不仅能更快地达到理想的性能,还能以更低的计算成本实现,这在提升模型处理复杂视觉任务时尤为重要。
基于VisVM强大的减少幻觉的能力,作者使用使用LLaVA-NEXT-Mistral-7B作为基础模型,并利用VisVM作为奖励信号,搜索生成高质量的图像描述作为监督微调(SFT)数据,对LLaVA-NEXT-Mistral-7B进行训练。
在九个理解和幻觉基准上的测试表明,VisVM引导的自我训练使LLAVA-next-7B的性能平均提升了10.8%,相比于其他搜索方法得到的图像描述作为训练数据提升显著。
特别是在提升了视觉理解能力后,VLM的reasoning能力也有所提高,例如MMMU和MathVista两个benchmark,该结果进一步展示了VisVM搜索得到的图像描述质量之高。
此外,这也揭示了VisVM在自我训练框架中的应用潜力,仅通过在语言空间中进行高质量搜索并进行微调,就能显著提升原始VLM的视觉理解能力,这一发现为未来VLM的发展提供了新的方向和思路。
OpenCV4系统化学习
推荐阅读
OpenCV4.8+YOLOv8对象检测C++推理演示
ZXING+OpenCV打造开源条码检测应用
攻略 | 学习深度学习只需要三个月的好方法
三行代码实现 TensorRT8.6 C++ 深度学习模型部署
实战 | YOLOv8+OpenCV 实现DM码定位检测与解析
对象检测边界框损失 – 从IOU到ProbIOU
初学者必看 | 学习深度学习的五个误区