从ChatGPT到文本转图像模型Dall.E,再到文本转视频模型Sora,据科技数据平台CB Insights报告指出,OpenAI现在是全球最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。纽约时报援引消息人士称,OpenAI已经完成了一笔交易,估值达到了800亿美元或更多。在不到10个月的时间里,OpenAI的估值增长了近两倍。

电子工程专辑讯 近日,OpenAI在官网隆重介绍了一款文本转视频模型Sora。可以说Sora一出,再次引爆生成式人工智能的无限可能,尤其在视频模型领域。科技圈以及资本市场的投资焦点再次聚焦在OpenAI上。

从ChatGPT到文本转图像模型Dall.E,再到文本转视频模型Sora,据科技数据平台CB Insights报告指出,OpenAI现在是全球最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。

纽约时报援引消息人士称,OpenAI已经完成了一笔交易,估值达到了800亿美元或更多。在不到10个月的时间里,OpenAI的估值增长了近两倍。

什么是Sora?

根据OpenAI官网介绍,Sora是一个 AI 模型,可以根据文本指令创建现实且富有想象力的场景,也就是文本转视频模型,可以生成长达一分钟的视频。OpenAI的定义是,我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

在OpenAI官网上从多个维度展示了基于Sora大模型生成的视频风格,Sora 可以生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅能够理解用户的提示词,还能了解提示词中所需要的物理世界中的存在方式。

此外,Sora可以在单个生成的视频中创建多个镜头,且保留角色的视觉风格。

当前存在的缺点分别有,Sora难以准确模拟复杂场景中的物理原理,以及事件发生的因果关系,比如,一个人咬了一口饼干,但这个饼干可能没有咬痕。还有就是空间细节问题,不能精准描述随着事件推移的事件。

图/OpenAI的论文:Video generation models as world simulators

值得一提的是,以往的图像和视频生成方式需要通过将视频调整或裁剪为标准尺寸,Sora可以采用宽屏1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。解决了原生宽高比不同的设备之间,也可以完成视频内容创建。

目前,Sora并未完全开放。在Sora可用之前,OpenAI还需要采取一些重要的安全措施。OpenAI正在与红队成员(错误信息、 有害的内容和偏见等领域的领域专家)合作,这些红队成员将以对抗性的方式测试Sora模型的安全性。比如,在 OpenAI 的文本分类器中,将检查并拒绝违反其使用政策的文本输入提示,例如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。

在技术上,Sora是如何自动生成视频?

Sora是一个扩散模型, 与OpenAI的GPT模型类似,Sora也是使用transformer的架构。基于大语言模型(LLM)的成功启发,这些模型通过“数据”训练来获得通用能力。

在OpenAI公布的技术报告中,OpenAI 称,LLM 的成功部分得益于标记的使用,这些标记优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们将考虑如何继承视觉数据生成模型的这些优点。LLM 有文本标记,而 Sora 有视觉补丁。我们发现,对于在不同类型的视频和图像上训练生成模型来说,补丁是一种高度可扩展且有效的表示方法。

图/OpenAI的论文:Video generation models as world simulators

LLM的文本标记,就是将文本序列转化为模型可以理解的单个单词、词语等。Sora则将视频压缩到低维潜在空间中,然后将其分解为“时间空间补丁”,从而将视频转化为补丁。

OpenAI训练的“视频压缩网络”技术,是该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示,Sora 在这个压缩潜空间内进行训练,并生成视频。

OpenAI还训练了一个相应的解码器模型,将生成的“半成品视频”还原像素。

总的来说,OpenAI的文本转视频大模型的三个关键步骤分别是视频压缩网络、空间时间潜在补丁提取、视频生成的Transformer模型。而Sora就是这个空间时间潜在补丁的一个步骤。

图/OpenAI的论文:Video generation models as world simulators

Sora 能给定输入的噪声片段(以及文本提示等调节信息),经过训练后,它可以预测原始的 "干净 "片段。Transformer模型在语言建模、计算机视觉、和图像生成等多个领域都表现出显着的扩展特性。

随着训练计算量的增加,样本质量明显提高。

图/OpenAI的论文:Video generation models as world simulators

OpenAI表示,“训练文本到视频生成系统需要大量带有相应文字说明的视频。我们将DALL·E 3 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。我们发现,在高度描述性的视频字幕上进行训练可提高文本的保真度以及视频的整体质量。与 DALL·E 3 类似,我们也利用 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够准确地按照用户提示生成高质量的视频。”

未来,OpenAI在视频制作上提供了便利,只要输入图像和提示词,Sora就可以生成视频。

如何权衡Sora模型带来的机会与隐患?

新模型Sora在视频内容制作方面让人感到震撼的同时,尤其是广告界或将迎来重大的转折点。以往视频广告的制作成本高昂,新模型Sora也将为一些中小企业提供了制作视频广告的新机会。

360公司创始人、董事长兼CEO点评道,AI不一定那么快颠覆所有行业,但它能激发更多人的创造力。Sora可能给广告业、电影预告片、短视频行业带来极大的颠覆,但它不一定那么快击败TikTok,更可能称为TikToK的创作工具。这次Sora只是小试牛刀,它展示的不仅仅是一个视频制作的能力,它展示的是大模型对真是世界有了理解和模拟之后,会带来新的成果和突破。同时意味着,通用人工智能(AGI)实现将从10年缩短到两三年。

不过,图灵奖获得者、Meta 首席科学家 Yann LeCun(杨立昆)则表示,“我从未预料到,看到这么多从未对人工智能或 ML 做出任何贡献的人,其中有些人在邓宁-克鲁格尺度(Dunning-Kruger scale)上已经走得很远,却告诉我关于人工智能和 ML 的种种错误、愚蠢、盲目、无知、误导、嫉妒、偏见、不合群等等……”

图/X:截图自Yann LeCun 

与此同时,深度伪造也将成为一大隐患。根据民调机构YouGov调查显示,有将近85%的美国人对AI伪造表示非常或者有些担忧。

人们惊呼:“真实世界将不再存在。”

不少科技公司被加强要求对AI生成内容的管理力度,美国Meta公司2月6日称,该公司将推出一种检测并标识AI生成图片的技术,并将应用于该公司旗下Facebook、Instagram和Threads社交平台,为AI生成图片“打上标签”。不过,Meta公司也表示,该技术暂不适用于视频及音频。

不过如何识别不同平台的AI内容还是难点,目前该技术尚未成熟,不过Meta公司希望能够借由此项技术的推出“创造一种势头”,并“鼓励行业内其他企业跟进”。

本文参考自央视财经、OpenAI官网等内容报道

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
尽管思瑞浦在模拟混合信号设计方面拥有丰富经验,其MCU产品在市场上的表现并不理想。究其原因,是因为国内MCU领域竞争已经非常激烈,产品同质化严重,企业之间的竞争主要集中在性价比上,导致利润空间被严重压缩。
随着工艺技术的发展放缓而晶体管数量增加,芯片开发变得越来越困难。Synopsys选择了收购设计分析和仿真巨头Ansys,此后,拥有管理和优化 EDA 计算环境所需所有工具的Altair,成为了最后一个可以挑战 Ansys 而不受约束的玩家。如今,花落西门子……
A某现年50多岁,居住在安徽省合肥市,被逮捕前在一家中国芯片公司工作,与妻子和两个女儿共同生活。去年12月,合肥市国家安全局的调查人员将A某从家中带走,并在当地酒店隔离调查了5个多月……
10月30日,中兴通讯对此事进行了官方回应,表示对联想在英国高等法院提起知识产权诉讼感到十分遗憾。
小米SU7 Ultra以6分46秒874的成绩刷新了纽北尘封7年的最速四门车圈速纪录,代表中国品牌首次拿下“纽北全球最速四门车”的桂冠,也让中国车第一次站在了世界之巅。
英特尔在2024年上半年面临较大的财务压力,尽管部分业务如客户端计算业务表现良好,但整体收入增长放缓且出现亏损。为此,今年 8 月,英特尔采取了包括裁员在内的多项措施以改善财务状况,并计划到2025年节省100亿美元的成本。
微电子和软件技术的快速发展正在深刻地改变车载娱乐中控和安全系统设计,重新定义驾驶体验。
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考虑的一些问题。
在即将到来的慕尼黑国际电子元器件博览会(electronica 2024)上,英飞凌科技股份公司将展示其创新的解决方案如何推动全球低碳化和数字化进程,充分展现半导体产品如何为实现净零经济铺平道路,并释放人工智能的全部潜力。
vivo旗下品牌iQOO正式发布了年度性能旗舰iQOO 13,除了高通骁龙8芯片、vivo自研的电竞芯片Q2外,最值得一提的是还采用了汇顶科技提供的多项创新技术,包括超声波指纹识别、新一代屏下光线传感器以及智能音频放大器与软件方案。
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,据报道,一名在华韩国人A某因涉嫌违反《中华人民共和国反间谍法》被逮捕!我外交部29
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
近日,网友爆料曾经厦门最大的宝马经销商厦门中宝已停产停工!公司通告称,由于2024年9月宝马取消了对我司的经销授权,公司面临着极其严峻的经营困境,公司的业务受到了多方面重大挑战,资金流紧张,市场环境变
01周价格表02周价格观察硅料环节本周硅料价格:单晶复投料主流成交价格为37元/KG,单晶致密料的主流成交价格为35元/KG;N型料报价为41元/KG。交易情况上下游交易延续低迷情绪,拉晶端尚处艰难去
GIPHY平台于2023年被Shutterstock收购,每天触达超过10亿用户。美通社消息,作为全球最大的GIF和贴纸库,GIPHY与领先的移动短视频平台TikTok达成合作,旨在通过人工智能技术驱
10月31消息,据报道,三星电子目前正逐步扩大高通骁龙芯片在其产品中的应用范围,尤其是在旗舰手机中,仅有少数低端市场和家电产品采用自家Exynos芯片。据行业内部消息透露,三星正积极探索将高通芯片技术
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,荣耀引入了中国电信、中金资本旗下基金、基石旗下基金、特发基金,以及新一轮代理商投资
10月29日,诺基亚与惠普宣布签署了一项多年专利授权协议,允许惠普公司在其设备中使用诺基亚的视频技术。诺基亚一年前曾表示,已在美国对惠普提起法律诉讼,指控惠普未经授权使用诺基亚专利的视频相关技术,但本
理想汽车最近宣布成立了一个专注于海外业务的一级部门,由王进领导,他将直接向销售与服务高级副总裁邹良军汇报工作。理想汽车表示,此次海外扩张计划重点关注中东和中亚市场,并考虑进入拉丁美洲市场。公司打算在这
2024年10月标准动态英文标准发布IPC-7095E BGA 设计与组装工艺的实施适用行业:1. PCB Fabricator/Manufacturer2. EMS/Assembly/Contrac