视频生成技术路线在过去主要有两条,一条是基于Transformer的路线,以Phenaki为代表,第二条是Diffusion Model(扩散模型)路线,该路线在2023年是主流路线,诞生了Meta的Make-A-Video、英伟达的Video LDM,Runway的Gen1、Gen2,字节的MagicVideo等代表性产品。
本文来自“2024 AIGC视频生成:走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索”。Sora的发布,对Transformer + Diffusion Model(DiT)路线进行了成果瞩目的验证。
Sora模型将视频压缩到低维空间(latent space),并使用时空补丁(Spacetime latent patches)来表示视频。这个过程类似于将文本转换为Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。
Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。
Sora是diffusion transformer,而transformer在各个领域都表现出显著的规模效应。
AI应用专题:百花齐放,静待杀手级别应用
人工智能技术系列:大模型技术
空间计算:Vision Pro开启空间计算时代
中国人工智能行业应用发展趋势(2024)
人形机器人的国产供应链机遇
AI智算时代:算力芯片加速升级
算力底座:算力承载与网络中枢
《人形机器人研究报告合集》
1、人形机器人之一:海外国内代表企业纵览及核心零部件分析
2、人形机器人之二:人工智能的终极载体,开启十年产业大周期
3、人形机器人之三:更精确的感知,更高效的交互
4、人形机器人之四:滚珠丝杠让运动更丝滑,国产化替代蓄势待发
大模型专题报告:百模渐欲迷人眼,AI应用繁花开(2024)
下载链接:
AIGC产业图谱V2.0(2023年)
《AI人工智能行业技术报告合集》
1、AI全域变革图景趋势洞察
2、中国AI技术变革企业服务报告
3、中国AI基础软件市场研究报告
4、AI大模型应用研究报告
5、中国AI人工智能行业概览
6、中国AI工业质检行业产业链分析
《OpenAI新工具Sora,文字秒生短片》
1、OpenAI推新工具Sora,一句话生成60秒短片 2、OpenAI Sora存缺陷易穿帮,暂未对公众开放使用
OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升