推理效率比ControlNet高20+倍!谷歌发布MediaPipeDiffusion插件,「移动端」可用的图像生成控制模型

OpenCV学堂 2023-07-16 15:13



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】谷歌发布低成本可控文生图插件模型MediaPipe Diffusion,移动端提速20+倍,在v100上运行提速高达100倍。


近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。

 

不过仅凭文本来控制图像的生成往往得不到想要的结果,比如具体的人物姿势、面部表情等很难用文本指定。

 

 

最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体

 

背景知识

 

基于扩散模型的图像生成过程可以认为是一个迭代去噪过程。

 

从噪声图像开始,在每个步骤中,扩散模型会逐渐对图像进行降噪以生成符合目标概念的图像,将文本提示作为条件可以大大提升图像生成的效果。

 

对于文本到图像生成,文本嵌入通过交叉注意层连接到图像生成模型上,不过仍然有部分信息难以通过文本提示来描述,比如物体的位置和姿态等。

 

为了解决这个问题,研究人员提出引入额外的模型添加到扩散模型中,在条件图像中注入控制信息。

 

常用的控制文生图方法包括:

 

1. 即插即用(Plug-and-Play)用到去噪扩散隐式模型(DDIM)inversion方法,从输入图像开始反转生成过程来导出初始噪声输入,然后采用扩散模型(Stable Diffusion1.5的情况下需要8.6亿参数)对来自输入图像的条件进行编码。

 

即插即用从复制的扩散中提取具有自注意力的空间特征,并将其注入到文本转图像的扩散过程中。

 

2. ControlNet会创建扩散模型编码器的一个可训练副本,通过零初始化参数后的卷积层连接,将传递到解码器层的条件信息进行编码。

 

3. T2I Adapter是一个较小的网络(7700万参数),在可控生成中可以实现类似的效果,只需要将条件图像作为输入,其输出在所有扩散迭代中共享。

 

不过T2I适配器模型并不是为便携式移动设备设计的。

 

MediaPipe Diffusion插件

 

为了使条件生成更高效、可定制且可扩展,研究人员将MediaPipe扩散插件设计为一个单独的网络:

 

1. 可插入(Plugable):可以很容易地与预训练基础模型进行连接;

 

2. 从零开始训练(Trained from scratch):不使用来自基础模型的预训练权重;

 

3. 可移植性(Portable):可以在移动设备上运行基础模型,并且推理成本相比原模型来说可以忽略不计。

 

即插即用、ControlNet、T2I适配器和MediaPipe扩散插件的对比,*具体数字会根据选用模型不同而发生变化

 

简单来说,MediaPipe扩散插件就是一个用于文本到图像生成的,可在便携式设备上运行的模型,从条件图像中提取多尺度特征,并添加到相应层次扩散模型的编码器中;当连接到文生图扩散模型时,插件模型可以向图像生成提供额外的条件信号。

 

插件网络是一个轻量级的模型,只有600万参数,使用MobileNetv2中的深度卷积和反向瓶颈(inverted bottleneck)在移动设备上实现快速推理。

 

MediaPipe扩散模型插件是一个单独的网络,输出可以插入到预训练的文本到图像生成模型中,提取的特征应用于扩散模型的相关下采样层(蓝色)。

 

与ControlNet不同,研究人员在所有扩散迭代中注入相同的控制功能,所以对于图像生成过程只需要运行一次插件,节省了计算量。

 

下面的例子中可以看到,控制效果在每个扩散步骤都是有效的,即使在前期迭代步中也能够控制生成过程;更多的迭代次数可以改善图像与文本提示的对齐,并生成更多的细节。

 

使用MediaPipe扩散插件进行生成过程的演示

 

示例

 

在这项工作中,研究人员开发了基于扩散的文本到图像生成模型与MediaPipe face landmark,MediaPipe holistic landmark,深度图和Canny边缘的插件。

 

对于每个任务,从超大规模的图像-文本数据集中选择约10万张图像,并使用相应的MediaPipe解决方案计算控制信号,使用PaLI优化后的描述来对插件进行训练。

 

Face Landmark

 

MediaPipe Face Landmarker任务计算人脸的478个landmark(具有注意力)。

 

研究人员使用MediaPipe中的drawing utils来渲染人脸,包括脸部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色进行表示。

 

下面这个例子展现了通过调节面网格和提示随机生成的样本;作为对比,ControlNet和Plugin都可以在给定条件下控制文本到图像的生成。

 

用于文本到图像生成的Face-landmark插件,与ControlNet进行比较。

 

Holistic Landmark

 

MediaPipe Holistic Landmark任务包括身体姿势、手和面部网格的landmark,可以通过调节整体特征来生成各种风格化的图像。

 

用于文本到图像生成的Holistic landmark插件。

 

深度

 

深度插件的文本到图像生成。

 

Canny Edge

 

用于生成文本到图像的Canny-edge插件。

 

评估

 

研究人员对face landmark插件进行定量评估以证明该模型的性能,评估数据集包含5000张人类图像,使用的评估指标包括Fréchet起始距离(FID)和CLIP分数。

 

基础模型使用预训练的文本到图像扩散模型Stable Diffusion v1.5

 

FID、CLIP和推理时间的定量比较

 

从实验结果中的FID和CLIP分数来看,ControlNet和MediaPipe扩散插件生成的样本质量比基础模型好得多。

 

与ControlNet不同,插件模型只需要为每个生成的图像运行一次,不需要在每个去噪步中都运行,所以推理时间只增加了2.6%

 

研究人员在服务器机器(使用Nvidia V100 GPU)和移动端设备(Galaxy S23)上测量了三种模型的性能:在服务器上,使用50个扩散步骤运行所有三个模型;在移动端上,使用MediaPipe图像生成应用程序运行20个扩散步骤。

 

与ControlNet相比,MediaPipe插件在保持样本质量的同时,在推理效率方面表现出明显的优势。

 

插件在不同移动的设备上的推理时间(ms)

 

总结

 

在这项工作中,研究人员提出了MediaPipe,一个可在移动端使用的、有条件的文本到图像生成插件,将从条件图像中提取的特征注入扩散模型,从而控制图像的生成过程。

 

便携式插件可以连接到在服务器或设备上运行的预训练的扩散模型,通过在设备上完全运行文本到图像生成和插件,可以更灵活地应用生成式AI


参考资料:
https://ai.googleblog.com/2023/06/on-device-diffusion-plugins-for.html


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 145浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 145浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 189浏览
  •                                                窗        外       年底将近,空气变得格外寒冷,估计这会儿北方已经是千里
    广州铁金刚 2024-12-23 11:49 101浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 108浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 143浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 98浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 197浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 239浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 116浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 121浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 145浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 153浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦