Meta最新图像生成工具火了,竟能把梦境画成现实!

OpenCV学堂 2022-07-22 22:27



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权

【导读】在AI画画上,国外大厂已经卷上了新高度。这不,Meta也整了一个AI「画家」——Make-A-Scene。|还在纠结会不会错过元宇宙和web3浪潮?清华大学科学史系副教授胡翌霖,这次给你讲个透!


AI在画画这块儿,已经拿捏的死死的。

近日,Meta也整了一个AI「画家」——Make-A-Scene。



还以为只是用文字生成画作就这么简单吗?


要知道,仅是靠文字描述还有时候会「翻车」,就比如谷歌前段时间推出的「艺术家」Parti。


「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯。」



这次,Make-A-Scene可以通过文本描述,再加上一张草图,就能生成你想要的样子。


构图上下、左右、大小、形状等各种元素都由你说了算。



就连LeCun也出来力推自家的产品了,创意就不用说了,关键还「可控」!



Make-A-Scene有多厉害,不如一起来看看。


Meta的神笔马良


光说不练,假把式!


我们这就看看,人们究竟会怎么用Make-A-Scene,来实现他们的想象力。


研究团队将和知名的人工智能艺术家一起来进行Make-A-Scene的演示环节。



艺术家团队可谓阵容强大,包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol等等,这些大师都有第一手的应用生成性人工智能的使用经验。


研发团队让这些艺术家们用Make-A-Scene作为创作过程的一部分,边使用边反馈。


接下来,我们就来欣赏一下大师们用Make-A-Scene创作出的作品吧。


例如,Sofia Crespo是一位专注于自然和技术交融的艺术家。她很爱想象从来没存在过的人造生命形式感,所以她使用Make-A-Scene的素描和文本提示功能,创造了全新的「混合生物」。



比如,花形的水母。


Crespo利用它的自由绘画功能,可以快速迭代新的想法。她表示,Make-A-Scene将有助于艺术家更好地发挥创造力,能让艺术家使用更直观的界面作画。


(花型的水母)


Scott Eaton是一位艺术家、教育家和创意技术专家,他的工作是调研究当代现状和技术之间的关系。


他用Make-A-Scene作为一种构成场景的方式,通过不同的提示来探索场景的变化,比如用类似「沙漠中沉没和腐烂的摩天大楼」这种主题来强调气候危机。


(沙漠中的摩天大楼)


Alexander Reben是一位艺术家、研究人员和机器人专家。


他认为,如果能对输出有更多的掌控,确实有助于表达自己的艺术意图。他将这些工具融入了他正在进行的系列作品之中。



而对于媒体艺术家和导演Refik Anadol来说,这个工具是一种促进想象力发展、更好地探索未知领域的方式。



其实,这个原型工具不仅仅是为对艺术有兴趣的人准备的。


研究团队相信,Make-A-Scene可以帮助任何人更好地表达自己,包括那些没什么艺术细胞的人。


作为开始,研究团队向美达公司的员工提供了一部分使用权。他们正在测试并提供关于他们使用Make-A-Scene经验的反馈。


美达公司的项目经理Andy Boyatzis使用Make-A-Scene与他两岁和四岁的孩子一起创造艺术。他们用俏皮的图画把他们的想法和想象力变成了现实。


以下就是他们的作品~



一只五彩斑斓的雕塑猫~是不是很可爱。但是这个色调其实有点不忍直视,像小孩把一大坨橡皮泥瞎揉到一起。



一只乘坐火车的怪兽熊。说真的,密恐患者抓紧绕行。小编看完这张图密恐直接窜到顶了。看看这诡异的胳膊,像脸一样的身子,像眼珠子一样的轮子...



一座山峰。讲道理,这张图蛮有意境的。但有没有感觉,远处的山和近处的小火车压根不是一个画风?



背后技术


虽然目前的方法提供了文本和图像域之间还算不错的转换,但它们仍然有几个关键问题没有很好地解决:可控性、人类感知、图像质量。


该模型的方法一定程度提高了结构一致性和图像质量。


整个场景由三个互补的语义分割组(全景、人类和人脸)组成。


通过组合三个提取的语义分割组,网络学习生成语义的布局和条件,生成最终图像。


为了创建场景的token空间,作者们采用了「VQ-SEG」,这是一项对「VQ-VAE」的改进。


在该实现中,「VQ-SEG」的输入和输出都是m个通道。附加通道是分隔不同类和实例的边的映射。边缘通道为同一类的相邻实例提供分离,并强调具有高度重要性的稀缺类。


在训练「VQ-SEG」网络时,由于每个人脸部分在场景空间中所占的像素数量相对较少,因此导致了重建场景中代表人脸部分(如眼睛、鼻子、嘴唇、眉毛)的语义分割频繁减少。


对此,作者们尝试在分割人脸部分类的基础上采用加权二元交叉熵人脸损失,更加突出人脸部分的重要性。此外,还将人脸部分的边缘作为上述语义分割边缘图的一部分。


作者们采用了在ImageNet数据集上训练的预训练VGG网络,而不是专门的人脸嵌入网络,并引入了表示重建图像和真实图像之间感知差异的特征匹配损失。


通过使用特征匹配,给VQ-IMG中的encoder和decoder分别添加额外的上采样层和下采样层,便可以将输出图像的分辨率从256×256进行提高。


想必大家对Transformer并不陌生,那么基于场景的Transformer又是什么呢?


它依赖于一个具有三个独立连续的token空间的自回归Transformer,即文本、场景和图像。



token序列由BPE编码器编码的文本token、VQ-SEG编码的场景token以及VQ-IMG编码或者解码的图像token组成。


在训练基于场景的Transformer之前,每个编码好的token序列都对应一个[文本,场景,图像]元组,使用相应的encoder提取。


此外,作者们还采用了无分类器引导,即将无条件样本引导到条件样本的过程。


该模型实现了SOTA结果。具体看一下和之前方法的效果对比



现在,研究人员还将Make-A-Scene整合了一个超分辨率网络,就可以生成2048x2048、4倍分辨率的图像。


如下:



其实,与其他生成AI模型一样,Make-A-Scene通过对数百万个示例图像进行训练来学习视觉和文本之间的关系。


不可否认的是,训练数据中反映的偏差会影响这些模型的输出。


正如研究者所指出的那样,Make-A-Scene还有很多地方有待提高。


参考资料:
https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 108浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 121浏览
  •                                                窗        外       年底将近,空气变得格外寒冷,估计这会儿北方已经是千里
    广州铁金刚 2024-12-23 11:49 102浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 145浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 153浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 200浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 239浏览
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 145浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 143浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 116浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 189浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 98浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦