写好剧本直接出片!Google发布首个「讲故事」的视频生成模型

OpenCV学堂 2022-10-12 22:33



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权

【导读】刚做完画家,普通人又能当导演了?

基于文本的图像生成模型效果惊艳,可以说是时下讨论最火热的AI研究领域了,内行外行都能看个热闹。


那要是让照片动起来,效果是不是更赛博朋克了?


最近Google投稿ICLR 2023的一篇论文在生成模型界又掀起波澜,除了让照片动起来,文中提出的Phenaki模型还可以在文本描述中添加剧情,让视频内容更丰富。

论文链接:https://openreview.net/forum?id=vOEXS39nOF

比如输入文本:

A photorealistic teddy bear is swimming in the ocean at San Francisco.
一只逼真的泰迪熊在旧金山的大海里游泳。
The teddy bear goes under water.
泰迪熊进入水中。
The teddy bear keeps swimming under the water with colorful fishes.
泰迪熊在水中不断地游动,旁边有五颜六色的鱼
A panda bear is swimming under water.
一只大熊猫在水底游泳



如果说前面还算合理,看到最后泰迪熊变身大熊猫,实在绷不住了。

反转放短视频平台上不得几百万点赞,豆瓣评分都得9.9,扣0.1分怕你骄傲。

再来一个例子,依然能完美还原剧本
Side view of an astronaut is walking through a puddle on mars
宇航员在火星上走过水坑的侧影
The astronaut is dancing on mars
宇航员在火星上跳舞
The astronaut walks his dog on mars
宇航员在火星上带着他的狗散步
The astronaut and his dog watch fireworks
宇航员和他的狗观看烟花


一人一狗,外太空,看的有点感动怎么回事。

相比文本引导的图像生成模型来说,生成视频的计算成本更高,高质量的文本-视频训练数据也要少的多,并且输入的视频长度参差不齐等问题,从文本中直接生成视频更困难。

为了解决这些问题,Phenaki引入了一个学习视频表示的新模型,将视频压缩后用离散tokens进行表征,tokenizer在时间维度上使用因果注意力(causal attention)来处理不同长度的视频,然后使用一个预训练的双向掩码Transformer模型对文本进行编码直接生成视频。


为了解决数据问题,研究人员提出一种联合训练方法,使用大量的文本-图像语料以及少量的文本-视频语料实现更好的泛化性能。

与之前的视频生成方法相比,Phenaki支持任意领域的文本故事,剧情可以随时间变化且能够生成任意长度的视频。

这也是第一次有论文研究从时间可变的文本提示中生成视频,并且文中提出的视频编码器/解码器在空间和时间上的质量均优于其他模型。

从文本到视频


从本质上讲,虽然视频就是一个图像序列,但生成一个长且连贯的视频却并不容易。

图像领域不缺训练数据,比如LAION-5B, FFT4B等数据集都包括数十亿的文本-图像数据对,而文本-视频数据集如WebVid则只有大约一千万个视频,远远不够支撑开放领域的视频生成。

从计算力上来看,训练和推理图像生成模型已经快把GPU的性能榨干了,是否能挤出计算空间留给视频生成解码器也是一个要解决的问题。

文本引导的视频生成任务还有一个难点,一小段文本对于图片生成来说可能足够描述细节,但对于一个长视频来说远远不够,并且视频包括上下文,即下一个片段的生成需要以当前片段作为条件,随着时间的推移,故事逐渐展开。


理想情况下,视频生成模型必须能够生成任意长度的视频,同时有能力将某一时刻的生成帧以当前时刻的文本提示作为条件,这些文本提示会随时间步变化。

这种能力可以将视频与会动的图像明确区分开来,并为艺术、设计和内容创作等现实世界创造性应用开辟道路。

在此之前,基于故事的有条件视频生成(story based conditional video generation)是一块从未被探索过的领域,这就是第一篇朝该目标迈出的论文。

想要用传统的深度学习方法,即直接从数据中学习视频生成是不可能的,因为没有基于故事的数据集可以学习。

为了实现这一目标,研究人员为Phenaki模型设计了两个组件,一个编码器-解码器模型用来把视频压缩成离散的embeddings,以及一个Transformer模型,把文本embeddings翻译成视频tokens,其中文本向量由预训练模型T5X进行编码。


1、编码器-解码器视频模型:C-VIVIT

这个模块要解决的主要问题是如何获得视频的压缩表征,之前关于文本转视频的工作要么对每帧图像进行编码,但对视频长度有限制;要么使用固定长度的视频编码器,无法生成可变长度的视频。

C-ViViT是ViViT的因果变体,专门为视频生成任务调整了模型架构,可以在时间和空间维度上压缩视频,同时在时间维度上保持自回归,从而允许自回归地生成任意长度的视频。


首先在空间和时间Transformer中删除[CLS]标记,然后对所有由空间编码器计算的空间token使用时间Transfomrer,与ViViT中对[CLS]标记的单一时间Transformer的运行不同。

最重要的是,ViViT编码器需要一个固定长度的视频输入,因为它在时间上采用的是all-to-all注意力。将其替换为因果注意力之后,C-ViViT编码器就会变成自回归,并允许输入帧的数量可变。

2、使用双向Transformers从文本中生成视频

可以把文本到视频的任务看作是sequence-to-sequence的问题,以预测输入的文本向量对应的视频tokens

大部分的seq-to-seq模型都使用自回归Transformer,根据编码的文本特征按照顺序预测图像或视频tokens,即采样时间与序列长度成线性关系,对于长视频的生成来说是不可接受的。

Phenaki采用掩码双向Transformer,通过一个小且固定的采样步骤来减少采样时间,而无需考虑不同的视频序列长度,双向Transfomrer可以同时预测不同的视频tokens


在每个训练步骤,首先从0到1中随机选择一个掩码比率,并根据视频长度随机地用特殊标记[MASK]替换一部分token

然后根据给定的文本向量和未掩码的视频tokens,通过最小化掩码token的交叉熵损失来学习模型参数。

在推理过程中,首先将所有的视频tokens标记为特殊词[MASK],然后在每个推理步骤中,根据文本向量和未掩码的(要预测的)视频tokens,平行地预测所有被掩码(未知)的视频token

在每个采样步骤中,选择一个预测token的比例,其余的tokens在下一步中将被重新掩码和重新预测。

对于长视频的推理和自回归生成,使用事前训练(classifier-free)的引导来控制生成和文本条件之间的一致性。


一旦生成了第一个视频,就可以通过使用C-ViViT对最后一个视频中的最后K个生成的帧进行编码,自动递归地推理出其他帧。

用C-ViViT编码器计算出的token初始化MaskGIT,并继续生成以文本输入为条件的剩余视频标记。

在视频推理过程中,文本条件可以是相同的,也可以是不同的,这也使得该模型能够在之前和当前文本条件的视觉内容之间动态地创建视觉过渡,有效地生成一个由输入文本描述的视觉故事。

最终,研究人员在1500万8FPS的文本-视频对,5000万个文本-图像对,以及4亿混合语料库LAION-400M上进行训练,最终Phenaki模型参数量为18亿。

batch size为512的情况下训练了100万步,用时不到5天,其中80%的训练数据来自视频数据集。

在视觉的定性评价上,可以看到模型对视频中的人物和背景动态的控制程度都很高,并且外观和视频的风格也可以通过文本提示来调整(例如,普通视频、卡通或铅笔画)


在定量比较上,Phenaki在zero-shot设置下实现了和其他模型相当的生成质量。


在考虑训练数据的影响时,可以发现在只用视频训练的模型和用更多的图像数据训练的模型之间存在着性能上的权衡。
参考资料:
https://phenaki.video/

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 一、引言无人机,作为近年来迅速崛起的新兴技术产物,正以前所未有的速度改变着众多行业的运作模式,从民用领域的航拍、物流,到工业领域的测绘、巡检,再到军事领域的侦察、打击等,无人机的身影无处不在。为了深入了解无人机的现状,本次调研综合了市场数据、行业报告、用户反馈等多方面信息,全面剖析无人机的发展态势。二、市场规模与增长趋势随着技术的不断进步和成本的逐渐降低,无人机市场呈现出爆发式增长。近年来,全球无人机市场规模持续扩大,预计在未来几年内仍将保持较高的增长率。从应用领域来看,消费级无人机市场依然占据
    Jeffreyzhang123 2024-12-27 17:29 197浏览
  • 引言工程师作为推动科技进步和社会发展的核心力量,在各个领域发挥着关键作用。为深入了解工程师的职场现状,本次调研涵盖了不同行业、不同经验水平的工程师群体,通过问卷调查、访谈等方式,收集了大量一手数据,旨在全面呈现工程师的职场生态。1. 工程师群体基本信息行业分布:调研结果显示,工程师群体广泛分布于多个行业,其中制造业占比最高,达到 90%,其次是信息技术、电子通信、能源等行业。不同行业的工程师在工作内容、技术要求和职业发展路径上存在一定差异。年龄与经验:工程师群体以中青年为主,30 - 45 岁年
    Jeffreyzhang123 2024-12-27 17:39 141浏览
  • 在当今这个数字化的时代,电子设备无处不在,从我们手中的智能手机、随身携带的笔记本电脑,到复杂的工业控制系统、先进的医疗设备,它们的正常运行都离不开一个关键的 “幕后英雄”—— 印刷电路板(Printed Circuit Board,简称 PCB)。PCB 作为电子设备中不可或缺的重要部件,默默地承载着电子元件之间的连接与信号传输,是整个电子世界的基石。揭开 PCB 的神秘面纱PCB,简单来说,就是一块由绝缘材料制成的板子,上面通过印刷、蚀刻等工艺形成了导电线路和焊盘,用于固定和连接各种电子元件。
    Jeffreyzhang123 2024-12-27 17:21 115浏览
  • 采购与分销是企业运营中至关重要的环节,直接影响到企业的成本控制、客户满意度和市场竞争力。以下从多个方面介绍如何优化采购与分销:采购环节优化供应商管理供应商评估与选择:建立一套全面、科学的供应商评估体系,除了考虑价格因素,还要综合评估供应商的产品质量、交货期、信誉、研发能力、售后服务等。通过多维度评估,选择那些能够提供优质产品和服务,且与企业战略目标相契合的供应商。建立长期合作关系:与优质供应商建立长期稳定的合作关系,这种合作模式可以带来诸多好处。双方可以在信任的基础上进行深度沟通与协作,共同开展
    Jeffreyzhang123 2024-12-27 17:43 131浏览
  • 在当今这个科技飞速发展的时代,物联网(IoT)已经不再是一个陌生的概念,它正以一种前所未有的速度改变着我们的生活和工作方式,像一股无形的力量,将世界紧密地连接在一起,引领我们步入一个全新的智能时代。物联网是什么简单来说,物联网就是通过感知设备、网络传输、数据处理等技术手段,实现物与物、人与物之间的互联互通和智能化管理。想象一下,你的家里所有的电器都能 “听懂” 你的指令,根据你的习惯自动调节;工厂里的设备能够实时监测自身状态,提前预警故障;城市的交通系统可以根据实时路况自动优化信号灯,减少拥堵…
    Jeffreyzhang123 2024-12-27 17:18 100浏览
  • 在当今科技飞速发展的时代,工业电子作为现代制造业的中流砥柱,正以前所未有的速度推动着各个行业的变革与进步。从汽车制造到航空航天,从智能家居到工业自动化,工业电子的身影无处不在,为我们的生活和生产带来了巨大的改变。工业电子的崛起与发展工业电子的发展历程可谓是一部波澜壮阔的科技进化史。追溯到上世纪中叶,电子技术开始逐渐应用于工业领域,最初主要是简单的电子控制装置,用于提高生产过程的自动化程度。随着半导体技术、计算机技术和通信技术的不断突破,工业电子迎来了爆发式的增长。集成电路的发明使得电子设备的体积
    Jeffreyzhang123 2024-12-27 15:40 129浏览
  • 从教师的角度来看,麻省理工学院开除因学术造假的学生,这一决定是合理且必要的。首先,学术诚信是学术研究的基石。在学术界,真实性和原创性是至关重要的。学术造假不仅破坏了学术研究的公正性和准确性,还损害了学术领域的整体声誉。因此,对于任何形式的学术不端行为,包括伪造数据、抄袭等,学校都应采取严厉措施,以维护学术诚信。其次,学校对学生具有管理权,包括对学生的处分权。按照相关规定,学校有权对违纪学生进行警告、严重警告、记过、留校察看、勒令退学、开除学籍等处分。开除学籍是一种严厉的处分,通常适用于严重违反学
    curton 2024-12-28 21:49 81浏览
  • 在科技飞速发展的今天,汽车不再仅仅是一种交通工具,更是一个融合了先进技术的移动智能空间。汽车电子作为汽车产业与电子技术深度融合的产物,正以前所未有的速度推动着汽车行业的变革,为我们带来更加智能、安全、舒适的出行体验。汽车电子的发展历程汽车电子的发展可以追溯到上世纪中叶。早期,汽车电子主要应用于发动机点火系统和简单的电子仪表,功能相对单一。随着半导体技术的不断进步,集成电路被广泛应用于汽车领域,使得汽车电子系统的性能得到了显著提升。从电子燃油喷射系统到防抱死制动系统(ABS),从安全气囊到车载导航
    Jeffreyzhang123 2024-12-27 11:53 140浏览
  • 在当今竞争激烈的商业世界中,供应链管理已成为企业生存与发展的核心竞争力之一。它就像一条无形的纽带,将供应商、制造商、分销商、零售商直至最终消费者紧密相连,确保产品和服务能够高效、顺畅地流转。今天,就让我们一同深入探索供应链管理的奥秘。供应链管理是什么简单来说,供应链管理是对从原材料采购、生产制造、产品配送直至销售给最终用户这一整个过程中,涉及的物流、信息流和资金流进行计划、协调、控制和优化的管理活动。它不仅仅是对各个环节的简单串联,更是一种通过整合资源、优化流程,实现整体效益最大化的管理理念和方
    Jeffreyzhang123 2024-12-27 17:27 115浏览
  • 在科技飞速发展的今天,医疗电子作为一个融合了医学与电子技术的交叉领域,正以前所未有的速度改变着我们的医疗模式和健康生活。它宛如一颗璀璨的明珠,在医疗领域绽放出耀眼的光芒,为人类的健康福祉带来了诸多惊喜与变革。医疗电子的神奇应用医疗电子的应用范围极为广泛,深入到医疗的各个环节。在诊断方面,各种先进的医学成像设备堪称医生的 “火眼金睛”。X 光、CT、MRI 等成像技术,能够清晰地呈现人体内部的结构和病变情况,帮助医生准确地发现疾病。以 CT 为例,它通过对人体进行断层扫描,能够提供比传统 X 光更
    Jeffreyzhang123 2024-12-27 15:46 120浏览
  • 一、前言 回首2024,对于我而言,是充满挑战与收获的一年。在这一年里,我积极参与了论坛的众多活动,不仅拓宽了我的认知边界(有些东西不是你做不到,而是你想不到),还让我在实践中收获了宝贵的经验和。同时,多种多样的论坛活动让我们全方面的接受新东西,连接新知识,多种类型的的活动交织了你我的2024。在这里说一说对过去一年的活动经历,进行一次年终总结,并谈谈我的收获和感受,以及对2025年的展望。二、活动足迹(一)快速体验:机智云Gokit2.0开发板初体验 机智云Gokit2.0开发板的体验活动让大
    无言的朝圣 2024-12-27 14:50 91浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦