爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了

电子工程世界 2024-02-19 09:00
▲ 更多精彩内容 请点击上方蓝字关注我们吧!

就说Sora有多火吧。

生成的视频上线一个、疯传一个。

作者小哥新上传的效果,很快引来围观。

失败案例都让人看得上瘾。

将近1万人点赞。

学术圈更炸开锅了,各路大佬纷纷开麦。

纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。

马斯克感叹“人类愿赌服输”。
360集团创始人、董事长兼CEO周鸿祎预言“AGI实现将从10年缩短到1年”。
身为竞争对手的AI文生视频创企Runway联合创始人兼CEO Cristóbal Valenzuela也被惊到发表感言。

英伟达高级研究科学家Jim Fan高呼,这就是视频生成的GPT-3时刻啊!

尤其在技术报告发布后,讨论变得更加有趣。因为其中诸多细节不是十分明确,所以大佬们也只能猜测。

包括“Sora是一个数据驱动的物理引擎”、“Sora建立在DiT模型之上、参数可能仅30亿”等等。

所以,Sora为啥能如此惊艳?它对视频生成领域的意义是?这不,很快就有了一些可能的答案。

视频生成的GPT-3时刻

总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”

关于技术细节,官方报告简单提了以下6点

一是视觉数据的“创新转化”

与大语言模型中的token不同,Sora采用的是“Patches(补片)”来统一不同的视觉数据表现形式。

如下图所示,在具体操作中,模型先将视频压缩到低维潜空间中,然后将它们表示分解为时空补片,从而将视频转换为补片。(啊这,说了又仿佛什么都没说)

二是训练了一个视频压缩网络

它可以降低视觉数据维度,输入视频,输出时空上压缩的潜表示。

Sora就在这上面完成训练。相应地,OpenAI也训练了一个专门的解码器。

三是时空补片技术(Spacetime latent patches)

给定一个压缩的输入视频,模型提取一系列时空补片,充当Transformer的token。正是这个基于补片的表示让Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。

在推理时,模型则通过在适当大小的网格中排列随机初始化的补片来控制生成视频的大小。

四是扩展Transformer也适用于视频生成的发现

OpenAI在这项研究中发现,扩散型Transformer同样能在视频模型领域中完成高效扩展。

下图展示出随着训练资源的增加,样本质量明显提升(固定种子和输入条件)

五是视频多样化上的一些揭秘。

和其他模型相比,Sora能够hold住各种尺寸的视频,包括不同分辨率、时长、宽高比等等。

也在构图和布局上优化了更多,如下图所示,很多业内同类型模型都会盲目裁剪输出视频为正方形,造成主题元素只能部分展示,但Sora可以捕捉完整的场景:

报告指出,这都要归功于OpenAI直接在视频数据的原始尺寸上进行了训练。

最后,是语言理解方面上的功夫。

在此,OpenAI采用了DALL·E 3中引入的一种重新标注技术,将其应用于视频。

除了使用描述性强的视频说明进行训练,OpenAI也用GPT来将用户简短的提示转换为更长的详细说明,然后发送给Sora。

这一系列使得Sora的文字理解能力也相当给力。

关于技术的介绍报告只提了这么多,剩下的大篇幅都是围绕Sora的一系列效果展示,包括文转视频、视频转视频,以及图片生成。

可以看到,诸如其中的“patch”到底是怎么设计的等核心问题,文中并没有详细讲解。

有网友吐槽,OpenAI果然还是这么地“Close”(狗头)

正是如此,各路大佬和网友们的猜测也是五花八门。

谢赛宁分析

1、Sora应该是建立在DiT这个扩散Transformer之上的。

简而言之,DiT是一个带有Transformer主干的扩散模型,它= [VAE 编码器 + ViT + DDPM + VAE 解码器]。

谢赛宁猜测,在这上面,Sora应该没有整太多花哨的额外东西。

2、关于视频压缩网络,Sora可能采用的就是VAE架构,区别就是经过原始视频数据训练。

而由于VAE是一个ConvNet,所以DiT从技术上来说是一个混合模型。

3、Sora可能有大约30亿个参数

谢赛宁认为这个推测不算不合理,因Sora可能还真并不需要人们想象中的那么多GPU来训练,如果真是如此,Sora的后期迭代也将会非常快。

英伟达AI科学家Jim Fan则认为

Sora应该是一个数据驱动的物理引擎。

Sora是对现实或幻想世界的模拟,它通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。

比如这个效果中,提示词是两艘海盗船在一杯咖啡里航行厮杀的逼真特写视频。

Jim Fan分析,Sora首先要提供两个3D资产:不同装饰的海盗船;必须在潜在空间中解决text-to-3D的隐式问题;并且要两艘船避开彼此的路线,兼顾咖啡液体的流体力学、保持真实感、带来仿佛光追般的效果。

有一些观点认为,Sora只是在2D层面上控制像素。Jim Fan明确反对这种说法。他觉得这就像说GPT-4不懂编码,只是对字符串进行采样。

不过他也表示,Sora还无法取代游戏引擎开发者,因为它对于物理的理解还远远不够,仍然存在非常严重的“幻觉”。

所以他提出Sora是视频生成的GPT-3时刻

回到2020年,GPT-3不是一个很完美的模型,但是它有力证明了上下文学习的重要性。所以不要纠结于GPT-3的缺陷,多想想后面的GPT-4。

除此之外,还有胆大的网友甚至怀疑Sora用上了虚幻引擎5来创建部分训练数据。

他甚至挨个举例分析了好几个视频中的效果以此佐证猜想:


不过反驳他的人也不少,理由包括“人走路的镜头明显还是奇怪,不可能是引擎的效果”、“YouTube上有数十亿小时的各种视频,ue5的用处不大吧”……

如此种种,暂且不论。

最后,有网友表示,尽管不对OpenAI放出更多细节抱有期待,但还是很想知道Sora在视频编码、解码,时间插值的额外模块等方面是不是有创新。

OpenAI估值达800亿美元

在Sora引发全球关注的同时,OpenAI的估值也再次拉高,成为全球第三高估值的科技初创公司。

随着最新一要约收购完成,OpenAI的估值正式达到800亿美元,仅次于字节跳动和SpaceX。

这笔交易由风投公司Thrive Capital牵头,外部投资者可以从一些员工手中购买股份,去年年初时OpenAI就完成过类似交易,使其当时的估值达到290亿美元。

而在Sora发布后,GPT-4 Turbo也大幅降低速率限制,提高TPM(每分钟最大token数量),较上一次实现2倍提升。

总裁Brockman还亲自带货宣传。

但与此同时,OpenAI申请注册“GPT”商标失败了

理由是“GPT”太通用。

One More Thing

值得一提的是,有眼尖的网友发现,Stability AI发布了SVD 1.1

但似乎在Sora发布不久后火速删博。

有人锐评,这不是翻版汪峰么?不应该删,应该返蹭个热度。

这还玩个p啊。

还有人感慨,Sora一来,立马就明白张楠为啥要聚焦剪映了。

以及卖课大军也闻风而动,把商机拿捏死死的


来源:量子位

参考链接

[1]https://openai.com/research/video-generation-models-as-world-simulators
[2]https://twitter.com/DrJimFan/status/1758210245799920123
[3]https://x.com/sainingxie/status/1758433676105310543?s=20
[4]https://twitter.com/charliebholtz/status/1758200919181967679
[5]https://www.reuters.com/technology/openai-valued-80-billion-after-deal-nyt-reports-2024-02-16/

[6]https://mp.weixin.qq.com/s/VwoBLwoIvPNCQU1V0eUIcw



· END ·







电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论 (0)
  • 人形机器人产业节奏预估:2024年原型机元年,2025年小规模量产元年。当宇树科技H1人形机器人以灵动的手部动作在春晚舞台上演创意融合舞蹈《秧Bot》,舞出"中国智造"时,电视机前十几亿观众第一次深刻意识到:那个需要仰望波士顿动力的时代正在落幕。*图源:宇树科技短短数周后,宇树G1机器人又用一段丝滑的街舞在网络收割亿级播放量,钢铁之躯跳出赛博朋克的浪漫。2月11日,宇树科技在其京东官方旗舰店上架了两款人形机器人产品,型号分别为Unitree H1和G1。2月12日,9.9万元的G1人形机器人首批
    艾迈斯欧司朗 2025-03-22 21:05 106浏览
  • 精益管理的理念和思维是源于日本的丰田模式,虽然精益管理有很多有效而丰有智慧的思想和方法,但在欧美企业要应用精益也并不容易,始终东西方的文化、人民习性都会存在着一点差异。不过,客观来说,精益管理是其优缺点的,以下,优思学院[1]综合吉朱·安东尼(Jiju Antony)教授《中小企业精益六西格玛》一书中的研究略作说明。精益的优点以下是精益生产系统的一些优点(Schonberger,2008):1)积极的劳动力效应。精益战略往往基于员工的主动性,那些从事实际工作的员工才是改善工作的最具创造力的人员。
    优思学院 2025-03-21 15:09 28浏览
  • 在人工智能与物联网技术蓬勃发展的今天,语音交互已成为智能设备的重要功能。广州唯创电子推出的WT3000T8语音合成芯片凭借其高性能、低功耗和灵活的控制方式,广泛应用于智能家居、工业设备、公共服务终端等领域。本文将从功能特点、调用方法及实际应用场景入手,深入解析这款芯片的核心技术。一、WT3000T8芯片的核心功能WT3000T8是一款基于UART通信的语音合成芯片,支持中文、英文及多语种混合文本的实时合成。其核心优势包括:高兼容性:支持GB2312/GBK/BIG5/UNICODE编码,适应不同
    广州唯创电子 2025-03-24 08:42 111浏览
  • 核心板简介创龙科技 SOM-TL3562 是一款基于瑞芯微 RK3562J/RK3562 处理器设计的四核 ARM C ortex-A53 + 单核 ARM Cortex-M0 全国产工业核心板,主频高达 2.0GHz。核心板 CPU、R OM、RAM、电源、晶振等所有元器件均采用国产工业级方案,国产化率 100%。核心板通过 LCC 邮票孔 + LGA 封装连接方式引出 MAC、GMAC、PCIe 2.1、USB3.0、 CAN、UART、SPI、MIPI CSI、MIPI
    Tronlong 2025-03-24 09:59 115浏览
  • 文/郭楚妤编辑/cc孙聪颖‍在人工智能与实体经济深度融合的时代浪潮中,究竟何种 AI 产品,方能切实契合用户对美好未来的向往与期待?3 月 20 日,备受全球瞩目的中国家电及消费电子博览会(AWE2025)于上海新国际博览中心盛大开幕。展会首日,长虹重磅推出首款治愈系 AI TV、客餐厅 PRO 共享空调,以及面向低空经济领域的通信模组等一系列创新产品。这一举动充分展现了长虹在家电领域全面推进 AI 化的坚定决心,以及为低空经济等新兴产业提供有力科技支撑的硬核实力 。“首发” 新品,领航用户价值
    华尔街科技眼 2025-03-21 21:13 49浏览
  • 文/Leon编辑/cc孙聪颖‍去年,百度公关部副总裁璩静的争议言论闹得沸沸扬扬,最终以道歉离职收场。时隔一年,百度的高管又出事了。近日,“百度副总裁谢广军女儿开盒孕妇”事件登上热搜,持续发酵,引起网友对百度数据安全性的怀疑。3月19日晚间,百度正式发布声明,表示坚决谴责窃取和公开他人隐私的网络暴力行为,同时强调,百度内部实施匿名化、假名化处理,经查验,泄露数据并非来自百度,而是海外的社工库,“当事人承认家长给她数据库”为不实信息,针对相关谣言百度已经向公安机关报案。然而,并非所有网友都对这份声明
    华尔街科技眼 2025-03-21 21:21 84浏览
  • 在智慧城市领域中,当一个智慧路灯项目因信号盲区而被迫增设数百个网关时,当一个传感器网络因入网设备数量爆增而导致系统通信失效时,当一个智慧交通系统因基站故障而导致交通瘫痪时,星型网络拓扑与蜂窝网络拓扑在构建广覆盖与高节点数物联网网络时的局限性便愈发凸显,行业内亟需一种更高效、可靠与稳定的组网技术以满足构建智慧城市海量IoT网络节点的需求。星型网络的无线信号覆盖范围高度依赖网关的部署密度,同时单一网关的承载设备数量有限,难以支撑海量IoT网络节点的城市物联系统;而蜂窝网络的无线信号覆盖范围同样高度依
    华普微HOPERF 2025-03-24 17:00 94浏览
  • 在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的语音处理能力、灵活的控制模式及超低功耗设计,成为工业控制、商业终端、公共服务等领域的理想选择。本文将从技术特性、场景适配及成本优势三方面,解析其如何助力行业智能化转型。一、核心技术优势:精准、稳定、易集成1. 高品质语音输出,适配复杂环境音频性能:支持8kbps~320kbps宽范围比特率,兼容MP3/WAV格式,音质清晰自然,无机械感。大容量存储:内置Flash最大支
    广州唯创电子 2025-03-24 09:08 118浏览
  • 近年来,随着半导体产业的快速发展和技术的不断迭代,物联网设备种类繁多(如智能家居、工业传感器),对算力、功耗、实时性要求差异大,单一架构无法满足所有需求。因此米尔推出MYD-YT113i开发板(基于全志T113-i)来应对这一市场需求。米尔基于全志T113-i核心板及开发板part 01  T113-i芯片及OpenAMP简介T113-i芯片简介T113-i由两颗ARM A7 、一颗C906(RISC-V)和一颗DSP(HIFI 4)组成。C906(RISC-V核)特性:主频
    米尔电子嵌入式 2025-03-21 16:28 30浏览
  • 今年全国两会期间,“体重管理”和“育儿”整体配套政策引发了持久广泛关注。从“吃”到“养”,都围绕着国人最为关心的话题:健康。大家常说“病从口入”,在吃这件事上,过去大家可能更多是为了填饱肚子,如今,消费者从挑选食材到厨电都贯彻着健康的宗旨,吃得少了更要吃得好了。这也意味着在新消费趋势下,谁能抓住众人的心头好,就能带起众人的购买欲望,才能在新一轮竞争中脱颖而出。作为家电行业的风向标,在2025年中国家电及消费电子博览会(AWE)上,这两个话题也被媒体和公众频繁提及。深耕中国厨房三十余年的苏泊尔再次
    华尔街科技眼 2025-03-22 11:42 49浏览
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 23浏览
  • 文/Leon编辑/cc孙聪颖‍“无AI,不家电”的浪潮,正在席卷整个家电行业。中国家电及消费电子博览会(AWE2025)期间,几乎所有的企业,都展出了搭载最新AI大模型的产品,从电视、洗衣机、冰箱等黑白电,到扫地机器人、双足机器人,AI渗透率之高令人惊喜。此番景象,不仅让人思考:AI对于家电的真正意义是什么,具体体现在哪些方面?作为全球家电巨头,海信给出了颇有大智慧的答案:AI化繁为简,将复杂留给技术、把简单还给生活,是海信对于AI 家电的终极答案。在AWE上,海信发布了一系列世俱杯新品,发力家
    华尔街科技眼 2025-03-23 20:46 71浏览
  • 在科技飞速发展的今天,视频监控领域对于高清、稳定、多功能解码芯片的需求与日俱增。现在,一款具有划时代意义的解码芯片——XS9922B 震撼登场,它将为车载监控、倒车影像等应用场景带来全新的变革体验。多协议支持,高清标清一网打尽,XS9922B 作为一款 4 通道模拟复合视频解码芯片,拥有强大的协议兼容性。它不仅支持 HDCCTV 高清协议,让你轻松捕捉高清画面的每一个细节,还兼容 CVBS 标清协议,满足不同设备和场景的多样化需求。无论是 720P/1080P 的高清制式,还是 960H/D1
    芯片徐15652902508 2025-03-21 13:58 25浏览
  • 无论你是刚步入职场的新人,还是已经有几年经验的职场老手,培养领导力都是职业发展中一个至关重要的环节。拥有良好的领导能力不仅能让你从人群中脱颖而出,也能让你在团队中成为一个值得信赖、富有影响力的核心成员。什么是领导力?领导力并不仅仅意味着“当老板”或者“发号施令”。它更多地是一种能够影响他人、激发团队潜能,并带领大家实现目标的能力。一位优秀的领导者需要具备清晰的沟通能力、解决问题的能力,以及对人心的深刻理解。他们知道如何激励人心,如何在压力下保持冷静,并能在关键时刻做出正确的决策。如何培养领导力?
    优思学院 2025-03-23 12:24 69浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦