9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

OpenCV学堂 2024-12-30 22:06



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。
在现代多模态视觉语言模型(VLM)的发展中,提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能,但在实际应用中,模型仍面临识别细微图像区域和减少「幻觉」现象的问题。

推理时搜索(inference time search)作为一种提升响应质量的有效方法,已在大型语言模型中展现出巨大潜力。

O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答,在数学和代码等任务中展现了远超越其他模型的卓越性能。

那么,我们能否同样通过推理时搜索来提升多模态视觉语言模型的响应质量,并减少响应中的幻觉呢?答案是是的。

来自马里兰大学和微软的研究团队提出了视觉价值模型(Vision Value Model, VisVM),通过精确控制搜索过程来显著提高模型在视觉任务中的表现。

论文地址:https://arxiv.org/abs/2412.03704
项目页面:https://si0wang.github.io/projects/VisVM/

项目代码:https://github.com/si0wang/VisVM

VisVM是一种价值网络,可以通过对逐步生成描述性标题提供奖励信号来指导视觉语言模型(VLM)在推理时的搜索。

模型训练

VisVM首先使用VLM自身生成多个多样化的响应,并将这些响应按照句子维度拆分成的sentence pair。
对于每一个current sentence使用CLIP model计算这句话和对应图像的cosine similarity作为reward,最后构成< current sentence, reward,next sentence, Image>的四元组作为VisVM的训练数据。

VisVM使用强化学习中的时序差分学习(Temporal Difference learning)作为损失函数进行训练。这使得VisVM不仅可以评估当前句子与图像之间的匹配程度,还可以预测当前句子如何影响未来句子的生成,为搜索提供一个长期价值信号。

VisVM引导下的推理阶段搜索:

在训练好VisVM之后,作者使用VisVM作为奖励信号来逐步精细化推理过程。这一过程包括以下几个步骤:

1. 生成多个句子候选:首先,模型会生成多个可能的句子,作为响应的候选。

2. 通过VisVM进行评估:接下来,利用VisVM对这些候选句子进行综合评估,考察其与图像内容的匹配度以及对未来生成句子的潜在影响(句子中包含的幻觉,细致程度等)。

3. 选择最佳句子:根据VisVM的评估,从候选中挑选出最优的句子来继续生成。

相比于直接使用只考虑当前句子与图像匹配程度的clip分数作为奖励信号进行搜索,VisVM可以进一步通过考虑后续生成的句子中的潜在幻觉来预测长期价值,使得VisVM能够避开具有更高幻觉风险的响应候选,并生成不易产生幻觉且更详细的图像描述。

通过这种迭代的推理过程,VLM能够构建出完整且高质量的响应序列,有效减少信息遗漏和幻觉错误,显著提升模型的应用性能。

实验

研究人员采用LLaVA-Next-Mistral-7B作为实验的基础模型,通过在其encoder的最后一层添加一个线性层作为value head,构建了VisVM并基于这个结构使用上文中构造的数据集与损失函数进行训练。

在后续的实验中,均使用LLaVA-Next-Mistral-7B作为base model用于生成响应。

研究人员首先评估了使用不同解码方式生成的响应质量,作者从COCO2017数据集中采样了1000个图像,并与llava detailed description 数据集中用于图像描述的9个prompt进行了随机匹配作为测试集用于生成图像藐视。

分别使用人类评估和GPT-4o评估,将VisVM引导的搜索与其他常规方法如CLIP-PRM指导搜索、Best-of-N选择和贪婪解码得到的图像描述进行了比较。

结果表明VisVM在生成图像描述时不仅细节更为丰富,产生的幻觉也大幅减少,其生成的描述性内容更加受到evaluator的青睐。

尤其是在人类作为评估者的情况下,VisVM引导搜索得到的图像描述相比于其他三个方法分别取得了66.0%, 63.5%和74.0%的获胜比率。

例如,在描述这个场景时,VisVM引导的搜索甚至可以描述出挡风玻璃上的水滴挡住了绿色指示牌,这种细节在人类标注的时候甚至都难以察觉。展示了视觉价值模型对于细节描述的强大能力。

在现有幻觉的benchmark中,研究人员在VLM的inference阶段使用了非搜索方式生成响应用于评估。

在CHAIR和MMHal两个用于测试VLM幻觉的benchmark上VisVM引导的搜索取得了显著优于其他方法的效果,展示出减少VLM生成响应中的幻觉的强大能力

并且,作者还进一步探索了了VisVM引导搜索的scaling law,结果发现无论是采用VisVM引导的搜索还是CLIP-PRM引导的搜索,随着搜索步骤大小的增加,模型的性能都会逐步提升。这一现象证明了扩大推理时间的计算量能够显著增强VLM的视觉理解能力。

特别值得注意的是,随着步骤大小的增加,VisVM引导搜索的性能提升速度更快,使得两种方法之间的性能差距不断扩大。VisVM在达到与CLIP-PRM相当的性能时,其计算效率几乎是后者的两倍。

通过扩大搜索步骤,VisVM不仅能更快地达到理想的性能,还能以更低的计算成本实现,这在提升模型处理复杂视觉任务时尤为重要。

基于VisVM强大的减少幻觉的能力,作者使用使用LLaVA-NEXT-Mistral-7B作为基础模型,并利用VisVM作为奖励信号,搜索生成高质量的图像描述作为监督微调(SFT)数据,对LLaVA-NEXT-Mistral-7B进行训练。

在九个理解和幻觉基准上的测试表明,VisVM引导的自我训练使LLAVA-next-7B的性能平均提升了10.8%,相比于其他搜索方法得到的图像描述作为训练数据提升显著。

特别是在提升了视觉理解能力后,VLM的reasoning能力也有所提高,例如MMMU和MathVista两个benchmark,该结果进一步展示了VisVM搜索得到的图像描述质量之高。

此外,这也揭示了VisVM在自我训练框架中的应用潜力,仅通过在语言空间中进行高质量搜索并进行微调,就能显著提升原始VLM的视觉理解能力,这一发现为未来VLM的发展提供了新的方向和思路。

参考资料:
https://arxiv.org/abs/2412.03704

OpenCV4系统化学习


深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 随着全球汽车行业向更加清洁、可持续的能源转型,燃料电池汽车(FCV)作为一种具有广阔前景的技术,正逐渐受到业界的广泛关注。这类氢能源车辆通过燃料电池中的电化学反应,将氢气转化为电能,并仅产生水作为副产品,展现出显著的环境效益。然而,氢气的易燃性也为燃料电池汽车的安全带来了挑战,因此,高效的氢气泄漏检测系统和残氢排放监控技术对于确保车辆的安全性和可靠性至关重要。 ‌一、氢能源车氢气泄漏检测技术‌为了确保燃料电池汽车的安全性,氢气传感器被广泛应用于氢气泄漏检测中。这些传感器能够集成到车辆的
    锂电小助手 2025-01-02 10:05 33浏览
  • 起源与诞生:AI 技术的起源可以追溯到 20 世纪 40 年代,随着计算机技术的兴起,科学家们开始思考如何让机器具备类似人类的智能。1950 年,英国数学家艾伦・图灵提出了著名的 “图灵测试”,为 AI 技术的发展奠定了理论基础。1956 年,美国达特茅斯学院举行了一次人工智能研讨会,标志着 AI 作为一门独立学科的诞生。符号主义阶段(20 世纪 50 年代 - 70 年代):研究人员主要关注如何使用符号逻辑和推理规则来模拟人类思维,试图通过构建复杂的逻辑系统来解决各种问题。然而,由于这种方法的
    Jeffreyzhang123 2025-01-02 15:15 66浏览
  • 前言近年来,随着汽车工业的快速发展,尤其是新能源汽车与智能汽车领域的崛起,汽车安全标准和认证要求日益严格,应用范围愈加广泛。ISO 26262和ISO 21448作为两个重要的汽车安全标准,它们在“系统安全”中扮演的角色各自不同,但又有一定交集。在智能网联汽车的高级辅助驾驶系统(ADAS)应用中,理解这两个标准的区别及其相互关系,对于保障车辆的安全性至关重要。ISO 26262:汽车功能安全的基石如图2.1所示,ISO 26262对“功能安全”的定义解释为:不存在由于电子/电气系统失效引起的危害
    广电计量 2025-01-02 17:18 43浏览
  • 2层PCB设计时候回路的寄生电感计算方式。由两个平面构成电流路径的回路电感,取决于每个平面路径的局部自感和它们之间的局部互感。平面越宽,电流分布就越扩散开,平面的局部自感就越小,从而回路电感也就越小。平面越长,局部自感就越大,从而回路电感也就越大。平面间距越小,平面之间的互感就越大,从而回路电感也就越小。当该区域为正方形,即长度等于宽度时,无论边长是多少,长和宽之比始终等于1。令人惊奇的是,一对平面上的边长为100mil的正方形区域和边长为1in的正方形区域的回路电感相同。平面对上的任一正方形区
    tao180539_524066311 2025-01-02 13:51 33浏览
  • 从无到有:智能手机的早期探索无线电话装置的诞生:1902 年,美国人内森・斯塔布菲尔德在肯塔基州制成了第一个无线电话装置,这是人类对 “手机” 技术最早的探索。第一部移动手机问世:1938 年,美国贝尔实验室为美国军方制成了世界上第一部 “移动” 手机。民用手机的出现:1973 年 4 月 3 日,摩托罗拉工程师马丁・库珀在纽约曼哈顿街头手持世界上第一台民用手机摩托罗拉 DynaTAC 8000X 的原型机,给竞争对手 AT&T 公司的朋友打了一个电话。这款手机重 2 磅,通话时间仅能支持半小时
    Jeffreyzhang123 2025-01-02 16:41 54浏览
  • 国际标准IPC 标准:IPC-A-600:规定了印刷电路板制造过程中的质量要求和验收标准,涵盖材料、外观、尺寸、焊接、表面处理等方面。IPC-2221/2222:IPC-2221 提供了用于设计印刷电路板的一般原则和要求,IPC-2222 则针对高可靠性电子产品的设计提供了进一步的指导。IPC-6012:详细定义了刚性基板和柔性基板的要求,包括材料、工艺、尺寸、层次结构、特征等。IPC-4101:定义了印刷电路板的基板材料的物理和电气特性。IPC-7351:提供了元件封装的设计规范,包括封装尺寸
    Jeffreyzhang123 2025-01-02 16:50 65浏览
  • 常见通信标准无线通信标准蜂窝移动通信标准:如 2G(GSM)、3G(WCDMA、CDMA2000、TD - SCDMA)、4G(LTE)以及 5G 等。以 5G 为例,其具有高速率、低时延、大容量等特点,为智能交通、工业互联网和物联网等领域提供支持。无线局域网标准:主要是 IEEE802.11 标准,也就是我们常说的 Wi - Fi。例如 IEEE802.11ac 和 IEEE802.11ax(Wi-Fi 6)等标准,不断提升无线局域网的传输速度和稳定性。短距离无线通信标准:包括蓝牙(Bluet
    Jeffreyzhang123 2025-01-02 14:33 31浏览
  • 早期概念与探索阶段(19 世纪以前):在古代,人类就对自动机械充满了想象,如古希腊时期的希罗发明的自动门、水钟等自动装置,中国古代的指南车、木牛流马等,虽然这些装置不能称之为真正的机器人,但为后来机器人的发展奠定了思想基础。从概念走向实践阶段(19 世纪~20 世纪初):随着工业革命的到来,自动机概念开始与实际机械设计结合,出现了具有实际功能的自动机械,例如雅卡尔提花机等,可通过穿孔卡片控制编织图案,为后续可编程控制的机器人发展提供了灵感。现代机器人产业萌芽期(1920 年代~1950 年代):
    Jeffreyzhang123 2025-01-02 14:53 66浏览
  •  在这个日新月异的科技时代,智能家居正以前所未有的速度融入我们的日常生活,从智能灯光到温控系统,从安防监控到语音助手,每一处细节都透露着科技的温度与智慧。而在这场智能化浪潮中,一个看似不起眼却至关重要的组件——晶体管光耦,正扮演着连接物理世界与数字世界的隐形桥梁角色,默默推动着智能家居行业的发展与革新。 晶体管光耦——智能家居的“神经递质”晶体管光耦,作为一种能够将电信号转换为光信号,再通过光信号控制另一侧电路开关的电子元器件,其独特的工作原理使得它在隔离传输、抗干扰及保护电
    晶台光耦 2025-01-02 16:19 42浏览
  • 在科技飞速发展的今天,5G 通信技术无疑是最耀眼的明星之一。它如同一场数字革命的风暴,以其前所未有的速度、极低的延迟和强大的连接能力,为我们的生活、经济和社会带来了翻天覆地的变化,开启了一个万物互联的崭新时代。5G 技术的卓越特性5G,即第五代移动通信技术,相比其前辈们,有着诸多令人瞩目的特性。首先是超高速率。5G 网络的理论峰值下载速度可达 10Gbps,这意味着下载一部高清电影只需短短几秒钟,而 4G 网络可能需要几分钟甚至更长时间。这种高速率让高清视频流、云游戏等对带宽要求极高的应用变得流
    Jeffreyzhang123 2025-01-02 14:18 51浏览
  •  近年来,消费电子行业难言景气,长期处于萎靡不振的状态。其中,作为明星品类的智能手机同样被寒意所笼罩,出货量持续下跌。据IDC发布的报告显示,2023年全年,中国智能手机市场出货量约2.71亿台,同比下降5.0%,创近10年以来最低出货量。不过,在智能手机行业整体低迷之际,折叠屏手机却表现亮眼,成为智能手机市场唯一实现增长的品类。据IDC发布的跟踪报告显示,2023年,中国折叠屏手机市场出货量约700.7万台,同比增长114.5%。而这也是自2019年首款产品上市以来,出货量连续4年同
    刘旷 2025-01-02 11:27 27浏览
  • 在科技飞速发展的今天,机器人已经逐渐深入到我们生活和工作的各个领域。从工业生产线上不知疲倦的机械臂,到探索未知环境的智能探测机器人,再到贴心陪伴的家用服务机器人,它们的身影无处不在。而在这些机器人的背后,C 语言作为一种强大且高效的编程语言,发挥着至关重要的作用。C 语言为何适合机器人编程C 语言诞生于 20 世纪 70 年代,凭借其简洁高效、可移植性强以及对硬件的直接操控能力,成为机器人编程领域的宠儿。机器人的运行环境往往对资源有着严格的限制,需要程序占用较少的内存和运行空间。C 语言具有出色
    Jeffreyzhang123 2025-01-02 16:26 51浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦