推理效率比ControlNet高20+倍!谷歌发布MediaPipeDiffusion插件,「移动端」可用的图像生成控制模型

OpenCV学堂 2023-07-16 15:13



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】谷歌发布低成本可控文生图插件模型MediaPipe Diffusion,移动端提速20+倍,在v100上运行提速高达100倍。


近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。

 

不过仅凭文本来控制图像的生成往往得不到想要的结果,比如具体的人物姿势、面部表情等很难用文本指定。

 

 

最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体

 

背景知识

 

基于扩散模型的图像生成过程可以认为是一个迭代去噪过程。

 

从噪声图像开始,在每个步骤中,扩散模型会逐渐对图像进行降噪以生成符合目标概念的图像,将文本提示作为条件可以大大提升图像生成的效果。

 

对于文本到图像生成,文本嵌入通过交叉注意层连接到图像生成模型上,不过仍然有部分信息难以通过文本提示来描述,比如物体的位置和姿态等。

 

为了解决这个问题,研究人员提出引入额外的模型添加到扩散模型中,在条件图像中注入控制信息。

 

常用的控制文生图方法包括:

 

1. 即插即用(Plug-and-Play)用到去噪扩散隐式模型(DDIM)inversion方法,从输入图像开始反转生成过程来导出初始噪声输入,然后采用扩散模型(Stable Diffusion1.5的情况下需要8.6亿参数)对来自输入图像的条件进行编码。

 

即插即用从复制的扩散中提取具有自注意力的空间特征,并将其注入到文本转图像的扩散过程中。

 

2. ControlNet会创建扩散模型编码器的一个可训练副本,通过零初始化参数后的卷积层连接,将传递到解码器层的条件信息进行编码。

 

3. T2I Adapter是一个较小的网络(7700万参数),在可控生成中可以实现类似的效果,只需要将条件图像作为输入,其输出在所有扩散迭代中共享。

 

不过T2I适配器模型并不是为便携式移动设备设计的。

 

MediaPipe Diffusion插件

 

为了使条件生成更高效、可定制且可扩展,研究人员将MediaPipe扩散插件设计为一个单独的网络:

 

1. 可插入(Plugable):可以很容易地与预训练基础模型进行连接;

 

2. 从零开始训练(Trained from scratch):不使用来自基础模型的预训练权重;

 

3. 可移植性(Portable):可以在移动设备上运行基础模型,并且推理成本相比原模型来说可以忽略不计。

 

即插即用、ControlNet、T2I适配器和MediaPipe扩散插件的对比,*具体数字会根据选用模型不同而发生变化

 

简单来说,MediaPipe扩散插件就是一个用于文本到图像生成的,可在便携式设备上运行的模型,从条件图像中提取多尺度特征,并添加到相应层次扩散模型的编码器中;当连接到文生图扩散模型时,插件模型可以向图像生成提供额外的条件信号。

 

插件网络是一个轻量级的模型,只有600万参数,使用MobileNetv2中的深度卷积和反向瓶颈(inverted bottleneck)在移动设备上实现快速推理。

 

MediaPipe扩散模型插件是一个单独的网络,输出可以插入到预训练的文本到图像生成模型中,提取的特征应用于扩散模型的相关下采样层(蓝色)。

 

与ControlNet不同,研究人员在所有扩散迭代中注入相同的控制功能,所以对于图像生成过程只需要运行一次插件,节省了计算量。

 

下面的例子中可以看到,控制效果在每个扩散步骤都是有效的,即使在前期迭代步中也能够控制生成过程;更多的迭代次数可以改善图像与文本提示的对齐,并生成更多的细节。

 

使用MediaPipe扩散插件进行生成过程的演示

 

示例

 

在这项工作中,研究人员开发了基于扩散的文本到图像生成模型与MediaPipe face landmark,MediaPipe holistic landmark,深度图和Canny边缘的插件。

 

对于每个任务,从超大规模的图像-文本数据集中选择约10万张图像,并使用相应的MediaPipe解决方案计算控制信号,使用PaLI优化后的描述来对插件进行训练。

 

Face Landmark

 

MediaPipe Face Landmarker任务计算人脸的478个landmark(具有注意力)。

 

研究人员使用MediaPipe中的drawing utils来渲染人脸,包括脸部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色进行表示。

 

下面这个例子展现了通过调节面网格和提示随机生成的样本;作为对比,ControlNet和Plugin都可以在给定条件下控制文本到图像的生成。

 

用于文本到图像生成的Face-landmark插件,与ControlNet进行比较。

 

Holistic Landmark

 

MediaPipe Holistic Landmark任务包括身体姿势、手和面部网格的landmark,可以通过调节整体特征来生成各种风格化的图像。

 

用于文本到图像生成的Holistic landmark插件。

 

深度

 

深度插件的文本到图像生成。

 

Canny Edge

 

用于生成文本到图像的Canny-edge插件。

 

评估

 

研究人员对face landmark插件进行定量评估以证明该模型的性能,评估数据集包含5000张人类图像,使用的评估指标包括Fréchet起始距离(FID)和CLIP分数。

 

基础模型使用预训练的文本到图像扩散模型Stable Diffusion v1.5

 

FID、CLIP和推理时间的定量比较

 

从实验结果中的FID和CLIP分数来看,ControlNet和MediaPipe扩散插件生成的样本质量比基础模型好得多。

 

与ControlNet不同,插件模型只需要为每个生成的图像运行一次,不需要在每个去噪步中都运行,所以推理时间只增加了2.6%

 

研究人员在服务器机器(使用Nvidia V100 GPU)和移动端设备(Galaxy S23)上测量了三种模型的性能:在服务器上,使用50个扩散步骤运行所有三个模型;在移动端上,使用MediaPipe图像生成应用程序运行20个扩散步骤。

 

与ControlNet相比,MediaPipe插件在保持样本质量的同时,在推理效率方面表现出明显的优势。

 

插件在不同移动的设备上的推理时间(ms)

 

总结

 

在这项工作中,研究人员提出了MediaPipe,一个可在移动端使用的、有条件的文本到图像生成插件,将从条件图像中提取的特征注入扩散模型,从而控制图像的生成过程。

 

便携式插件可以连接到在服务器或设备上运行的预训练的扩散模型,通过在设备上完全运行文本到图像生成和插件,可以更灵活地应用生成式AI


参考资料:
https://ai.googleblog.com/2023/06/on-device-diffusion-plugins-for.html


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 2025-4-25全球信息报告出版商Global Info Research(环洋市场咨询)发布了【2025年全球市场高介电常数材料总体规模、主要生产商、主要地区、产品和应用细分研究报告】,报告主要调研全球高介电常数材料总体规模、主要地区规模、主要生产商规模和份额、产品分类规模、下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2020至2024年,预测数据为2025
    用户1745398400862 2025-04-25 08:48 89浏览
  • 引言:语音交互的智能化跃迁在全球化与智能化深度融合的今天,语音交互设备的应用场景已从单一提示功能向多语言支持、情感化表达及AI深度交互演进。传统离线语音方案受限于语种单一、存储容量不足等问题,而纯在线方案又依赖网络稳定性,难以满足复杂场景需求。WT3000A离在线TTS方案,通过“本地+云端”双引擎驱动,集成16国语种、7种方言切换、AI大模型对话扩展等创新功能,重新定义语音提示器的边界,为智能硬件开发者提供更灵活、更具竞争力的语音交互解决方案。一、方案核心亮点离在线双模融合,场景全覆盖离线模式
    广州唯创电子 2025-04-25 09:14 78浏览
  •   智慧军营车辆管理系统解析   北京华盛恒辉智慧军营车辆管理系统是推动军队车辆管理智能化、精细化的重要工具,通过多系统协同与前沿技术应用,实现车辆全生命周期管理。以下从系统构成、核心功能、技术支撑、应用价值及发展方向进行全面解读。   应用案例   目前,已有多个智慧军营车辆管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润智慧军营车辆管理系统。这些成功案例为智慧军营车辆管理系统的推广和应用提供了有力支持。   一、系统构成   系统由五大子系统组成,构建起全流程智
    华盛恒辉l58ll334744 2025-04-25 19:55 46浏览
  •   无人机电磁干扰对抗演练平台系统解析   无人机电磁干扰对抗演练平台系统是提升无人机在复杂电磁环境下作战能力的关键工具,通过模拟实战场景,检验无人机系统的抗干扰性能与任务执行能力。以下从系统架构、技术实现、应用场景及发展趋势展开解读。   应用案例   目前,已有多个无人机电磁干扰对抗演练平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机电磁干扰对抗演练平台。这些成功案例为无人机电磁干扰对抗演练平台的推广和应用提供了有力支持。   一、核心系统组成与功能   (一
    华盛恒辉l58ll334744 2025-04-25 16:55 64浏览
  • 为通过金融手段积极推进全球绿色发展,国际金融论坛(IFF)于2020年创立了“IFF全球绿色金融奖”,旨在对全球绿色金融领域取得突出成绩的机构及创新性的解决方案进行表彰和奖励。该奖项依托IFF“高层次、高水平、国际化”一流智库资源优势,积极促进绿色金融领域的国际交流合作和创新实践,助力联合国可持续发展目标的实现。“IFF全球绿色金融奖”重点关注和鼓励那些促进经济增长模式转型、防治环境污染、应对气候变化,以及致力于提高能效水平、强化节能减排实效的绿色金融创新解决方案。该奖项面向全球,是对政策创新、
    华尔街科技眼 2025-04-24 20:43 40浏览
  • 最近,途虎养车发布的2024年财报数据,可谓相当吸睛。全年营收达到147.59亿元,同比增长8.5%,这个数字直观地展现了途虎在市场上的强大吸金能力,在行业里稳稳占据前列。利润方面同样出色,毛利37.46亿元,毛利率提升0.7个百分点至25.4%;经调整净利润6.24亿元,同比增长 29.7%,经营利润同比更是增长104%至3.31亿元,盈利能力显著增强,这样的利润增长幅度,在同行业中十分亮眼。在用户规模上,途虎养车同样成绩斐然。累计注册用户近1.4亿,同比增长20.4%,交易用户数达2410万
    用户1742991715177 2025-04-24 19:12 71浏览
  • 引言在智能语音技术飞速发展的今天,语音交互已成为消费电子、智能家居、工业控制等领域的标配功能。传统的ISD系列录音芯片虽应用广泛,但其高成本与功能局限性逐渐难以满足市场对高性价比、高灵活性的需求。推出的WT2000P录音语音芯片,凭借其卓越性能、低功耗设计及高度可定制化特性,成为ISD系列芯片的理想替代方案,助力开发者突破产品创新瓶颈。一、WT2000P产品概述WT2000P是一款专为嵌入式语音场景设计的多功能录音芯片,采用ESOP8封装,体积小巧(尺寸仅4.9mm×3.9mm),集成度高,支持
    广州唯创电子 2025-04-25 08:44 65浏览
  • ESD(Electrostatic Discharge,静电放电)二极管是一种专门用于保护电子设备免受静电放电或瞬态电压冲击的半导体器件。以下是其特点、优势和应用场景的详细说明:一、ESD二极管的特点快速响应响应时间极短(通常小于 1纳秒),能迅速将ESD能量旁路到地,避免电路受损。低钳位电压在ESD事件中,钳位电压远低于被保护器件的耐受阈值(例如 <30V),确保敏感元件不被击穿。低电容典型电容值低至 0.5pF~5pF,适合高频信号线路(如USB 3.0、
    时源芯微 2025-04-25 16:17 77浏览
  •   智慧军营车辆管理平台软件解析   北京华盛恒辉智慧军营车辆管理平台软件是部队实现车辆高效管理的关键工具,通过核心功能模块与前沿技术结合,为部队车辆管理带来显著价值。   应用案例   目前,已有多个智慧军营车辆管理平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润智慧军营车辆管理平台。这些成功案例为智慧军营车辆管理平台的推广和应用提供了有力支持。   一、核心功能模块   (一)车辆信息全生命周期管理   从车辆采购登记到退役报废,全程记录车辆基础信息、技术参数、使
    华盛恒辉l58ll334744 2025-04-25 20:10 41浏览
  •   基于 GIS 的任务规划与决策系统平台解析   北京华盛恒辉基于 GIS 的任务规划与决策系统平台是空间信息技术与决策科学融合的成果,通过地理空间数据处理与分析,为复杂任务提供科学智能的规划决策支持。以下从架构、功能、技术、应用及趋势展开解读。   应用案例   目前,已有多个基于 GIS 的任务规划与决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润基于 GIS 的任务规划与决策系统。这些成功案例为基于 GIS 的任务规划与决策系统的推广和应用提供了有力支持
    华盛恒辉l58ll334744 2025-04-25 15:47 55浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦