从ChatGPT到文本转图像模型Dall.E,再到文本转视频模型Sora,据科技数据平台CB Insights报告指出,OpenAI现在是全球最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。纽约时报援引消息人士称,OpenAI已经完成了一笔交易,估值达到了800亿美元或更多。在不到10个月的时间里,OpenAI的估值增长了近两倍。

电子工程专辑讯 近日,OpenAI在官网隆重介绍了一款文本转视频模型Sora。可以说Sora一出,再次引爆生成式人工智能的无限可能,尤其在视频模型领域。科技圈以及资本市场的投资焦点再次聚焦在OpenAI上。

从ChatGPT到文本转图像模型Dall.E,再到文本转视频模型Sora,据科技数据平台CB Insights报告指出,OpenAI现在是全球最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。

纽约时报援引消息人士称,OpenAI已经完成了一笔交易,估值达到了800亿美元或更多。在不到10个月的时间里,OpenAI的估值增长了近两倍。

什么是Sora?

根据OpenAI官网介绍,Sora是一个 AI 模型,可以根据文本指令创建现实且富有想象力的场景,也就是文本转视频模型,可以生成长达一分钟的视频。OpenAI的定义是,我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

在OpenAI官网上从多个维度展示了基于Sora大模型生成的视频风格,Sora 可以生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅能够理解用户的提示词,还能了解提示词中所需要的物理世界中的存在方式。

此外,Sora可以在单个生成的视频中创建多个镜头,且保留角色的视觉风格。

当前存在的缺点分别有,Sora难以准确模拟复杂场景中的物理原理,以及事件发生的因果关系,比如,一个人咬了一口饼干,但这个饼干可能没有咬痕。还有就是空间细节问题,不能精准描述随着事件推移的事件。

图/OpenAI的论文:Video generation models as world simulators

值得一提的是,以往的图像和视频生成方式需要通过将视频调整或裁剪为标准尺寸,Sora可以采用宽屏1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。解决了原生宽高比不同的设备之间,也可以完成视频内容创建。

目前,Sora并未完全开放。在Sora可用之前,OpenAI还需要采取一些重要的安全措施。OpenAI正在与红队成员(错误信息、 有害的内容和偏见等领域的领域专家)合作,这些红队成员将以对抗性的方式测试Sora模型的安全性。比如,在 OpenAI 的文本分类器中,将检查并拒绝违反其使用政策的文本输入提示,例如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。

在技术上,Sora是如何自动生成视频?

Sora是一个扩散模型, 与OpenAI的GPT模型类似,Sora也是使用transformer的架构。基于大语言模型(LLM)的成功启发,这些模型通过“数据”训练来获得通用能力。

在OpenAI公布的技术报告中,OpenAI 称,LLM 的成功部分得益于标记的使用,这些标记优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们将考虑如何继承视觉数据生成模型的这些优点。LLM 有文本标记,而 Sora 有视觉补丁。我们发现,对于在不同类型的视频和图像上训练生成模型来说,补丁是一种高度可扩展且有效的表示方法。

图/OpenAI的论文:Video generation models as world simulators

LLM的文本标记,就是将文本序列转化为模型可以理解的单个单词、词语等。Sora则将视频压缩到低维潜在空间中,然后将其分解为“时间空间补丁”,从而将视频转化为补丁。

OpenAI训练的“视频压缩网络”技术,是该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示,Sora 在这个压缩潜空间内进行训练,并生成视频。

OpenAI还训练了一个相应的解码器模型,将生成的“半成品视频”还原像素。

总的来说,OpenAI的文本转视频大模型的三个关键步骤分别是视频压缩网络、空间时间潜在补丁提取、视频生成的Transformer模型。而Sora就是这个空间时间潜在补丁的一个步骤。

图/OpenAI的论文:Video generation models as world simulators

Sora 能给定输入的噪声片段(以及文本提示等调节信息),经过训练后,它可以预测原始的 "干净 "片段。Transformer模型在语言建模、计算机视觉、和图像生成等多个领域都表现出显着的扩展特性。

随着训练计算量的增加,样本质量明显提高。

图/OpenAI的论文:Video generation models as world simulators

OpenAI表示,“训练文本到视频生成系统需要大量带有相应文字说明的视频。我们将DALL·E 3 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。我们发现,在高度描述性的视频字幕上进行训练可提高文本的保真度以及视频的整体质量。与 DALL·E 3 类似,我们也利用 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够准确地按照用户提示生成高质量的视频。”

未来,OpenAI在视频制作上提供了便利,只要输入图像和提示词,Sora就可以生成视频。

如何权衡Sora模型带来的机会与隐患?

新模型Sora在视频内容制作方面让人感到震撼的同时,尤其是广告界或将迎来重大的转折点。以往视频广告的制作成本高昂,新模型Sora也将为一些中小企业提供了制作视频广告的新机会。

360公司创始人、董事长兼CEO点评道,AI不一定那么快颠覆所有行业,但它能激发更多人的创造力。Sora可能给广告业、电影预告片、短视频行业带来极大的颠覆,但它不一定那么快击败TikTok,更可能称为TikToK的创作工具。这次Sora只是小试牛刀,它展示的不仅仅是一个视频制作的能力,它展示的是大模型对真是世界有了理解和模拟之后,会带来新的成果和突破。同时意味着,通用人工智能(AGI)实现将从10年缩短到两三年。

不过,图灵奖获得者、Meta 首席科学家 Yann LeCun(杨立昆)则表示,“我从未预料到,看到这么多从未对人工智能或 ML 做出任何贡献的人,其中有些人在邓宁-克鲁格尺度(Dunning-Kruger scale)上已经走得很远,却告诉我关于人工智能和 ML 的种种错误、愚蠢、盲目、无知、误导、嫉妒、偏见、不合群等等……”

图/X:截图自Yann LeCun 

与此同时,深度伪造也将成为一大隐患。根据民调机构YouGov调查显示,有将近85%的美国人对AI伪造表示非常或者有些担忧。

人们惊呼:“真实世界将不再存在。”

不少科技公司被加强要求对AI生成内容的管理力度,美国Meta公司2月6日称,该公司将推出一种检测并标识AI生成图片的技术,并将应用于该公司旗下Facebook、Instagram和Threads社交平台,为AI生成图片“打上标签”。不过,Meta公司也表示,该技术暂不适用于视频及音频。

不过如何识别不同平台的AI内容还是难点,目前该技术尚未成熟,不过Meta公司希望能够借由此项技术的推出“创造一种势头”,并“鼓励行业内其他企业跟进”。

本文参考自央视财经、OpenAI官网等内容报道

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
BelGaN于2024年7月申请破产保护,并在破产拍卖中吸引了多家潜在收购方的兴趣,包括中国公司和瑞典-芬兰财团等。BelGaN的破产拍卖于2025年1月16日完成,拍卖筹集了约2300万欧元的资金,其中三分之一的资产被中国企业收购......
继原CEO赵明离职后,包括荣耀中国区CMO姜海荣和荣耀中国区销售部部长郑树宝也即将陆续离职......
2025年英特尔将面临的收购猜测将加剧,马斯克成为潜在的收购者,英特尔董事会缺乏半导体经验,正在积极寻找新任首席执行官,同时考虑收购要约,这增加了不确定性......
TikTok公司向美国用户发布通知,称由于美国官方禁令将于1月19日生效,TikTok将暂时停止在美国的服务。但仅仅过了不到12小时,即美东时间1月19日早晨,TikTok宣布恢复在美国的服务。特朗普表示,帮助 TikTok 避免“黑屏”的任何公司将不承担任何责任......
此次人事变动正值闻泰科技面临巨大挑战之际,根据公司1月17日发布的2024年业绩预告,预计公司归母净亏损在30亿元至40亿元之间……
如果以2023年的总股本数513亿股为基准进行推测,那么此次华为的分红总金额应该不低于723亿元。按照去年的参与人数151,796人来计算,人均分红应该不低于48万元。
大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而,也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....
在与芯科科技(Silicon Labs)首席技术官Daniel Cooley的交谈中,我们了解到该公司在物联网(IoT)和智能边缘领域所发挥的作用和未来发展。
虽然绕过产品防伪保护的手段变得越来越高级,但是最新的 NFC 芯片技术提高了信息安全性,让品牌能够保护知识产权,预防客户误买假冒商品。
西门子推出Simcenter更新版本,助力客户简化工作流程,加快航空航天认证,同时提供深入洞见
 /记得星标我/比大部分人早一步看见未来在日新月异的数字浪潮中,中小企业作为国家经济的生力军,正站在数智化转型的十字路口。中国移动,作为信息通信领域的领军者,积极响应国家政策,以科技创新为笔,绘制出一
近日,荣耀公司高层人事变动频繁,继原CEO赵明因身体原因离职后,荣耀中国区CMO姜海荣、中国区销售部部长郑树宝等多位高管也相继离职。           1月20日,据荣耀内部公告,荣耀中国区CMO姜
现货促销让采购/更简单/更高效为了更好地帮助大家采购芯片,实现供需资源的无缝对接。AMEYA360决定开启【现货促销】专栏,通过AMEYA360微信公众号,每天推送原厂现货促销物料,助力广大用户制定更
    三极管的电流放大作用应该算是模拟电路里面的一个难点内容,我想用这几个动画简单的解释下为什么小电流Ib能控制大电流Ic的大小,以及放大电路的原理。    我这里的三极管也叫双极型晶体管,模电的放
来源:《中国半导体大硅片年度报告2024》2016 年至 2023 年间,全球半导体硅片(不含 SOI)销售额从 72.09 亿美元上升至121.29 亿美元,年均复合增长率达 7.72%。2016
● 第六届半导体湿电化学品与电子气体论坛将于3月19日在杭州召开1月20日消息,近日国家人工智能产业投资基金合伙企业(有限合伙)成立,出资额600.6亿元。合伙人包括:国智投(上海)私募基金管理有限公
文|温风2024是所有豪华品牌都不好过的一年。中国市场豪华品牌在参与价格战和不参与价格战中反复横跳,也牵动着跨国品牌全球市场的销量和财报数字。想在全球豪华市场榜单脱颖而出,就必须在销量占全球近1/3,
‌‌Jan. 21, 2025 产业洞察根据TrendForce集邦咨询调查1月21日嘉义地区芮氏规模6.4地震对邻近的晶圆代工厂、面板厂影响情况,TSMC(台积电)及UMC(联电)的台南厂因震度达4
面板价格观察-1月下旬版昨日,TrendForce集邦咨询公布了1月下旬面板报价,TrendForce集邦咨询表示:2025年1月下旬,电视面板价格上涨;显示器、笔记本面板价格持稳。1电视进入1月份,
近日,纳芯微宣布推出全新基于AMR(各向异性磁阻技术)的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏感单元与ASIC技术,能够精准监测车轮转速,为防抱死制动系统(ABS)、车身电子