写好剧本直接出片!Google发布首个「讲故事」的视频生成模型

OpenCV学堂 2022-10-12 22:33



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权

【导读】刚做完画家,普通人又能当导演了?

基于文本的图像生成模型效果惊艳,可以说是时下讨论最火热的AI研究领域了,内行外行都能看个热闹。


那要是让照片动起来,效果是不是更赛博朋克了?


最近Google投稿ICLR 2023的一篇论文在生成模型界又掀起波澜,除了让照片动起来,文中提出的Phenaki模型还可以在文本描述中添加剧情,让视频内容更丰富。

论文链接:https://openreview.net/forum?id=vOEXS39nOF

比如输入文本:

A photorealistic teddy bear is swimming in the ocean at San Francisco.
一只逼真的泰迪熊在旧金山的大海里游泳。
The teddy bear goes under water.
泰迪熊进入水中。
The teddy bear keeps swimming under the water with colorful fishes.
泰迪熊在水中不断地游动,旁边有五颜六色的鱼
A panda bear is swimming under water.
一只大熊猫在水底游泳



如果说前面还算合理,看到最后泰迪熊变身大熊猫,实在绷不住了。

反转放短视频平台上不得几百万点赞,豆瓣评分都得9.9,扣0.1分怕你骄傲。

再来一个例子,依然能完美还原剧本
Side view of an astronaut is walking through a puddle on mars
宇航员在火星上走过水坑的侧影
The astronaut is dancing on mars
宇航员在火星上跳舞
The astronaut walks his dog on mars
宇航员在火星上带着他的狗散步
The astronaut and his dog watch fireworks
宇航员和他的狗观看烟花


一人一狗,外太空,看的有点感动怎么回事。

相比文本引导的图像生成模型来说,生成视频的计算成本更高,高质量的文本-视频训练数据也要少的多,并且输入的视频长度参差不齐等问题,从文本中直接生成视频更困难。

为了解决这些问题,Phenaki引入了一个学习视频表示的新模型,将视频压缩后用离散tokens进行表征,tokenizer在时间维度上使用因果注意力(causal attention)来处理不同长度的视频,然后使用一个预训练的双向掩码Transformer模型对文本进行编码直接生成视频。


为了解决数据问题,研究人员提出一种联合训练方法,使用大量的文本-图像语料以及少量的文本-视频语料实现更好的泛化性能。

与之前的视频生成方法相比,Phenaki支持任意领域的文本故事,剧情可以随时间变化且能够生成任意长度的视频。

这也是第一次有论文研究从时间可变的文本提示中生成视频,并且文中提出的视频编码器/解码器在空间和时间上的质量均优于其他模型。

从文本到视频


从本质上讲,虽然视频就是一个图像序列,但生成一个长且连贯的视频却并不容易。

图像领域不缺训练数据,比如LAION-5B, FFT4B等数据集都包括数十亿的文本-图像数据对,而文本-视频数据集如WebVid则只有大约一千万个视频,远远不够支撑开放领域的视频生成。

从计算力上来看,训练和推理图像生成模型已经快把GPU的性能榨干了,是否能挤出计算空间留给视频生成解码器也是一个要解决的问题。

文本引导的视频生成任务还有一个难点,一小段文本对于图片生成来说可能足够描述细节,但对于一个长视频来说远远不够,并且视频包括上下文,即下一个片段的生成需要以当前片段作为条件,随着时间的推移,故事逐渐展开。


理想情况下,视频生成模型必须能够生成任意长度的视频,同时有能力将某一时刻的生成帧以当前时刻的文本提示作为条件,这些文本提示会随时间步变化。

这种能力可以将视频与会动的图像明确区分开来,并为艺术、设计和内容创作等现实世界创造性应用开辟道路。

在此之前,基于故事的有条件视频生成(story based conditional video generation)是一块从未被探索过的领域,这就是第一篇朝该目标迈出的论文。

想要用传统的深度学习方法,即直接从数据中学习视频生成是不可能的,因为没有基于故事的数据集可以学习。

为了实现这一目标,研究人员为Phenaki模型设计了两个组件,一个编码器-解码器模型用来把视频压缩成离散的embeddings,以及一个Transformer模型,把文本embeddings翻译成视频tokens,其中文本向量由预训练模型T5X进行编码。


1、编码器-解码器视频模型:C-VIVIT

这个模块要解决的主要问题是如何获得视频的压缩表征,之前关于文本转视频的工作要么对每帧图像进行编码,但对视频长度有限制;要么使用固定长度的视频编码器,无法生成可变长度的视频。

C-ViViT是ViViT的因果变体,专门为视频生成任务调整了模型架构,可以在时间和空间维度上压缩视频,同时在时间维度上保持自回归,从而允许自回归地生成任意长度的视频。


首先在空间和时间Transformer中删除[CLS]标记,然后对所有由空间编码器计算的空间token使用时间Transfomrer,与ViViT中对[CLS]标记的单一时间Transformer的运行不同。

最重要的是,ViViT编码器需要一个固定长度的视频输入,因为它在时间上采用的是all-to-all注意力。将其替换为因果注意力之后,C-ViViT编码器就会变成自回归,并允许输入帧的数量可变。

2、使用双向Transformers从文本中生成视频

可以把文本到视频的任务看作是sequence-to-sequence的问题,以预测输入的文本向量对应的视频tokens

大部分的seq-to-seq模型都使用自回归Transformer,根据编码的文本特征按照顺序预测图像或视频tokens,即采样时间与序列长度成线性关系,对于长视频的生成来说是不可接受的。

Phenaki采用掩码双向Transformer,通过一个小且固定的采样步骤来减少采样时间,而无需考虑不同的视频序列长度,双向Transfomrer可以同时预测不同的视频tokens


在每个训练步骤,首先从0到1中随机选择一个掩码比率,并根据视频长度随机地用特殊标记[MASK]替换一部分token

然后根据给定的文本向量和未掩码的视频tokens,通过最小化掩码token的交叉熵损失来学习模型参数。

在推理过程中,首先将所有的视频tokens标记为特殊词[MASK],然后在每个推理步骤中,根据文本向量和未掩码的(要预测的)视频tokens,平行地预测所有被掩码(未知)的视频token

在每个采样步骤中,选择一个预测token的比例,其余的tokens在下一步中将被重新掩码和重新预测。

对于长视频的推理和自回归生成,使用事前训练(classifier-free)的引导来控制生成和文本条件之间的一致性。


一旦生成了第一个视频,就可以通过使用C-ViViT对最后一个视频中的最后K个生成的帧进行编码,自动递归地推理出其他帧。

用C-ViViT编码器计算出的token初始化MaskGIT,并继续生成以文本输入为条件的剩余视频标记。

在视频推理过程中,文本条件可以是相同的,也可以是不同的,这也使得该模型能够在之前和当前文本条件的视觉内容之间动态地创建视觉过渡,有效地生成一个由输入文本描述的视觉故事。

最终,研究人员在1500万8FPS的文本-视频对,5000万个文本-图像对,以及4亿混合语料库LAION-400M上进行训练,最终Phenaki模型参数量为18亿。

batch size为512的情况下训练了100万步,用时不到5天,其中80%的训练数据来自视频数据集。

在视觉的定性评价上,可以看到模型对视频中的人物和背景动态的控制程度都很高,并且外观和视频的风格也可以通过文本提示来调整(例如,普通视频、卡通或铅笔画)


在定量比较上,Phenaki在zero-shot设置下实现了和其他模型相当的生成质量。


在考虑训练数据的影响时,可以发现在只用视频训练的模型和用更多的图像数据训练的模型之间存在着性能上的权衡。
参考资料:
https://phenaki.video/

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 深圳触觉智能RK3506开发板现已上市,开启预售!搭载瑞芯微RK3506B/J超低功耗工业处理器(1.5GHz三核A7+M0,主频1.5GHz);支持1280×1280显示、双百兆网口、星闪无线三模,板载高达2路CAN FD与5路串口。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机交互等应用场景。其多核异构架构(3xCortex-A7+Cortex-M0)和外设接口丰富,支持Buildroot、Yocto系统,适合轻量级HMI应用‌。‌工业通信‌:RK3506均支
    Industio_触觉智能 2025-03-07 10:04 119浏览
  • 在企业管理和职场环境中,权力是一个常被提及却又让人感到微妙的话题。有人觉得它充满吸引力,有人却对它避之不及。然而,不管你对权力的态度如何,理解它、掌握它,甚至善用它,都是职场成功的重要一环。今天,我们就来深入探讨权力的本质,特别是个人权力和社会权力的区别,以及如何在职场中逐步建立属于自己的影响力。权力的两种面貌:你掌控自己,还是掌控他人?说到权力,首先要区分它的两种类型。个人权力是你对自己生活的掌控感。比如,你能自由决定自己的职业方向,不用总是请示他人。这种权力让人感到踏实和满足,是我们在生活中
    优思学院 2025-03-07 15:56 172浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 131浏览
  • 深圳触觉智能SOM3506核心板现已上市,搭载瑞芯微RK3506B/J超低功耗处理器(1.5GHz三核A7+M0),低功耗满载仅0.7W,支持40℃~85℃工作环境,即日起宽温级59元/工业级68元,特价开售!芯片介绍RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机
    Industio_触觉智能 2025-03-07 10:03 139浏览
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 153浏览
  • 一、系统概述MYD-LD25X搭载的Debian系统包含以太网、WIFI/BT、USB、RS485、RS232、CAN、AUDIO、HDMI显示和摄像头等功能,同时也集成了XFCE轻量化桌面、VNC远程操控、SWITCH网络交换和TSN时间敏感网络功能,为工业设备赋予“超强算力+实时响应+极简运维”的体验!类别名称描述源码TF-AArm Trusted Firmware 2.8OP-TEEOP-TEE 3.19BootloaderU-boot 2022.10KernelLinux Ke
    米尔电子嵌入式 2025-03-07 14:08 223浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 123浏览
  •        深夜的公园里,当路灯熄灭后,传统监控摄像头只能拍出模糊的黑白画面,仿佛老式胶片电影里的场景。而搭载为旌瑶光ISP的摄像头,却能像猫科动物一样,在几乎全黑的环境中捕捉到行人衣服的颜色、树叶的纹理,甚至快速跑动的宠物狗毛发细节。这种从“黑白默片”到“全彩4K电影”的跨越,背后是为旌瑶光ISP对传统红外补光技术的颠覆性创新。一、传统方案之困:被红外光“绑架”的夜视世界        传统安防摄像头依赖红外
    中科领创 2025-03-07 16:50 276浏览
  • ​CS6212是一款可分别用于USB Type-C主机/显示端口源应用的带重定时的有源开关。这设备符合USB 3.2标准版本1.0和USB Type-C标准上的VESA DisplayPort Alt模式 1.0版,支持通过GPIO或12C进行灵活的模式切换。此设备支持USB 3.2第2x1代 运行速度高达10Gbps,DisplayPort 1.4运行速度高达HBR3 8.1Gbps。CS6212管脚分布及功能定义:CS6212支持重定时器训练,并支持USB 3.2标准中定义的状态状态机(RT
    QQ1540182856 2025-03-07 10:09 150浏览
  • 近年来,越来越多的企业在5S管理的基础上,开始追求6S、7S甚至8S管理,仿佛S越多,管理就越先进,企业就越优秀。于是,6S增加了“安全”,7S又加上了“节约”,8S甚至引入了“学习”……看似更加全面,实则很多企业只是机械地增加S,却忽略了管理的核心目标:提升效率、降低浪费、优化工作环境。优思学院认为,5S本身已经是一套成熟的精益管理工具,它的核心理念不仅简单高效,而且易于实施和推广。如果企业只是为了赶时髦,盲目增加S,而没有真正理解5S的本质,那么这些额外的“S”很可能会变成管理上的负担,而不
    优思学院 2025-03-07 12:43 165浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 158浏览
  • Sub-GHz,即工作频段低于1GHz的无线通信技术,常见频段有315MHz、433MHz、868MHz与915MHz等。其可借助无线电波在自由空间传播的特性,把数据调制到射频载波上进行传输,达成物联网设备间的无线通信,是物联网设备实现高效、稳定、无缝交互的“通信基石”。典型射频信号(无线电波)收发电路简示在工业自动化、智慧城市、智慧农业与智能家居等物联网领域中,LoRa、Wi-SUN、Z-Wave、Sigfox等工业级通信协议大多运行在Sub-GHz频段。而正是通过Sub-GHz射频技术,传感
    华普微HOPERF 2025-03-07 11:39 144浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦