全面升级的“新清影”,给AI生成视频带来了哪些新玩法?

原创 Alter聊科技 2024-11-08 15:09

相信在不久后,视频创作将不再拘泥于专业群体,普通用户也可以通过简单、直观的工具,用AI视频表达自己的创意和想法。

撰文张贺飞
编辑沈菲菲

就在刚刚,智谱清言App上线了“新清影”,同时对外开源了智谱最新的图生视频模型CogVideoX v1.5。

3个多月前的智谱Open Day上,视频创作智能体清影正式在智谱清言上线,只需30秒即可生成时长6秒、1440x960清晰度的高精视频,随即涌现出了短视频、表情包梗图、广告制作等创新玩法。

短短一个多月的时间,智谱就将清影背后的图生视频模型CogVideoX 2B和5B版本给开源了,可以在消费级显卡上流畅运行,陆续衍生出了CogVideoX-factory等大量二次开发项目。

经过3个多月打磨和进化的“新清影”,都有什么能力上的提升,又将带来哪些有趣的新体验呢?

我们有幸拿到了提前内测的资格,下面和大家一起来揭晓答案。

01.
更高清、更快速、更逼真的图生视频

在和多位内容创作者的沟通中,我们了解到:相较于文生视频的趣味性,大家对图生视频有着更高频的需求,因为图生视频进一步提高了生成视频的控制和一致性,可以快速生成可用的视频素材。

“新清影”的第一个亮点,正是“图生视频”能力的全面提升,确切地说可以归纳为四个方面:

一是4K超高清分辨率,相较于清影6秒、1440x960的清晰度,“新清影”支持生成10s、4K、60帧超高清视频。

二是可变比例,用户可以上传任意比例的图像生成视频,哪怕是超宽画幅,都可以生成对应比例的视频。

三是多通道生成能力,以往的图生视频类产品,一次只能生成一个,“新清影”可以一次性生成4个视频。

四是模型能力的提升,CogVideoX在内容连贯性、可控性和训练效率等方面实现了多项创新,让“新清影”的图像质量、美学表现、运动合理性、复杂提示词的语义理解等能力显著提升;同时有着更强的人物面部、表演细节、动作连贯性和物理特性模拟。简而言之就是更加自然和逼真。

前三个方面的提升很容易判断,需要验证的创新点恰恰是视频质量和逼真度,也是视频生成类产品最核心的价值。于是我们找到了几组图片,输入对应的提示词,来验证“新清影”是否言过其实。

第一组照片是站在木桩上的仓鸮,后面的背景被虚化了,给出的提示词也很简单——“让图片中的动物动起来”,以此来验证“新清影”在运动合理性、动作连贯性和图像质量等方面的表现。

视频的整体表现可圈可点,仓鸮转头的动作自然连贯,每一根毛发、每一道纹路、每一处细节都清晰可见。即使背景做了虚化处理,也能感受到有风吹动树叶,仓鸮脚上的绑带也在随风晃动,近乎可以充当真实拍摄的视频。

第二组是一张在雪地里行驶的汽车,在构图上比前面要复杂的多,主体是一台黑色汽车,远处隐约可见一片森林,同时在提示词上也更复杂一些——“在雪地里弹射起步的汽车,掀起了滚滚烟尘”。

这次生成的视频超出了我们的预期:尽管汽车有一点点形变,但起步时轮胎转动溅起的残雪、汽车起步的速度、汽车驶远后逐渐消失的烟尘等等,都遵循了物理规律,甚至可以清晰的看到远处被汽车遮挡的树木,并且符合冬天的场景。

做一个总结的话,“新清影”生成的视频在画面上高度还原了输入图像,光影和色调自然地融入了场景中,视频的自然度和逼真度极大提升。更重要的是,视频生成不再需要不停“抽卡”和二次剪辑,生成的素材几乎可以直接使用。

02.
“无声视频”一步跨越到“有声时代”

“新清影”的另一大亮点,在于即将上线的音效功能。

目前AI生成的视频还处于“默片”时代,抑或是人为添加一段背景音乐,并没有解决音效问题。“新清影”即将填补市场空白,可自动生成与画面匹配的音效,让AI视频一步跨越到了“有声时代”。

为了验证音效功能的效果,我们从Pixabay上下载了三段无声的视频片段,然后用智谱的音效模型CogSound匹配了音效。

第一个片段是田野中工作的收割机,并不是一个常见的场景,但CogSound准确生成了拖拉机轰隆隆的引擎声,音效和画面的连贯性、平滑过渡完成很好,让人仿佛置身于秋收的热闹场景里。

第二个片段是篝火旁倒水的场景,CogSound的表现再次令人惊艳,一开始是木柴燃烧的噼啪声响,在水倒出的时候,恰如其分地出现了倒水的声音,声音和画面几乎没有任何偏差和失配。

第三个片段是大雪中站在木桩上的鸟,也是一个语义理解的“陷阱”,很可能会出现音效的错配,譬如森林里的鸟鸣声。结果超出了我们的想象,可以听到风雪天熟悉的“白噪音”,并且伴随着嘈杂的鸟叫。

如果说“新清影”的图生视频能力,解决了内容创作中对高质量素材的需求,音效功能上线后,进一步让外界看到了更大的应用空间。

比如电影中大规模战斗、灾难等场景,现在可以直接用AI生成音效,不仅将缩短制作周期,还将极大地降低制作成本,在提升产能和效率的同时,加速电影制作从流水线时代进入到智能化时代。

再比如游戏、广告等内容的音效制作,过去需要专业的技术团队,利用专业的设备才能完成,现在只需要一个音效模型CogSound。创作门槛的降低,对一个行业繁荣度的催化作用不言而喻。

可能很多人会产生这样的疑问:既然音效制作是一个复杂的系统性工程,CogSound是怎么实现的?

这里就涉及到大模型中常用的Diffusion架构。

核心思想是将扩散过程从高维原始音频空间转移到低维潜空间中进行,可以在保持生成质量的同时,实现高效的音频合成。


智谱的研发团队采用了基于Unet的Latent Diffusion潜空间扩散,同时引入分块时序对齐交叉注意力机制,在架构中整合了旋转位置编码技术,确保了生成音效与视频内容在语义上的高度一致,并在连贯性和平滑过渡方面效果显著。

通俗一些的解释,智谱的CogSound是这样工作的:

先基于GLM-4V的视频理解能力,准确识别并理解视频背后的语义和情感,再由音频模型根据视频内容生成音效、节奏,甚至是复杂的混合音效,包括爆炸声、水流、乐器、动物叫声、交通工具的声音等等。

03.
内容创作“All in One”已不再遥远

年初视频生成模型刚诞生时,吸引了无数人的兴趣,其中畅想最多的一个方向,正是越来越多人参与到视频内容的生产创作。

可惜到目前为止,大多数产品还只是生成短小片段的“创意玩具”,在社交平台上进行轻量化的应用,和生产力仍然有相当大的距离:需要花费大量的时间进行视频剪辑和合成,才能制作出一个看起来还行的短视频。

对于其中存在的症结,可以大致分为两个方面:

一个是模型本身的能力局限,比如语义理解能力,能否准确理解用户的指令;视频生成效果,涉及画面流畅度、人物稳定性、动作连贯性、光影一致性、风格准确性等等;以及生成视频的时长和分辨率。

另一个是产品的易用性,相较于PR、AE等专业的制作工具,AI生成视频极大地降低了门槛,只需输入简短的指令,即可实现丰富的效果。但距离普通小白快速生成高质量视频,还有很长一段路要走。

乐观的是,技术的每一次迭代,都让理想离用户更近一步。

以智谱为例,不到一年时间里,就在视频时长、生成速度、分辨率、一致性等方面实现了长足的进步,验证了scaling law在视频生成方面的有效性,不排除模型能力在很短时间里再一次创新升级的可能。


毕竟3个多月前的清影,还是国内最早全量上线 C 端、人人可用的生成视频功能,刚刚实现技术的从0到1,仅一个季度就完成了能力的全面升级。在这个“技术大爆炸”的时代,所有的技术难题,在根结上不过是时间早晚的问题。

而在产品易用性上,也传出了一些利好的“小道消息”。

联想到智谱在半个月前上线的情感语音模型GLM-4-Voice,和“新清影”一同亮相的音效模型CogSound、音乐模型CogMusic,已然构建了基于 GLM 原创可控技术的,覆盖文本、图像、视频和声音的多模态模型矩阵。

于是我们进行了进一步的测试:让“新清影”将图片生成视频,同时用CogSound给视频生成对应的音效。


除了效果依旧让人惊艳,更直观的体验是效率,整个过程只有几分钟的时间。可以预见,将照片素材批量生成自带音效的视频,或是接下来一段时间里一个重要的应用方向。

进一步猜测:是否存在用工具流同步调用多个模型,只需一个指令就能生成画面和音效同步的视频呢?

借用智谱官方的表态来看:“我们的理想状态是,只需一个好的创意,剩下的事AI都能辅助搞定,轻松将一个 idea、一张图,变成一段自带 bgm 的影片。”言外之意,从脚本、视频画面到声音和音效,过去需要整个团队分工协作完成的任务,以后都可以交给大模型,实现全流程自动化。

一个All in One的视频创作平台,注定不再遥远。

04.
写在最后

也许过不了多久,短视频的创作模式就将被重构。
创作者们不再需要亲自出镜,不再需要奔赴拍摄地点;只要通过语言清晰描述自己所需的场景与内容,就可以轻松批量生成符合需求的短视频。

内容创作不再拘泥于专业群体,普通用户也可以通过简单、直观的工具,用AI视频表达自己的创意和想法。

这是大模型的机会,也是所有创作者的机会。

往期推荐


01

智谱AI再放“大招”,30秒将任意文字生成视频

02

我们用GLM-4-Plus搞了个“阅读智能体”



主理人 | 张贺飞(Alter)


前媒体人、公关,现专职科技自媒体


钛媒体、36kr、创业邦、福布斯中国等专栏作者


转载、商务、开白以及读者交流,请联系个人微信「imhefei」

Alter聊科技 探究产业兴衰,专注商业解读。
评论
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 118浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 157浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 88浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 75浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 65浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 60浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 63浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 161浏览
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦