深度丨国内AI视频主要玩家落座，进入商业模式PK环节

原创 AI芯天下 2024-08-28 20:30 563浏览 0评论 0点赞

【直播】零成本升级IC验证效能 AI数据中心过热？ST 10kW压缩机方案让液冷系统效能翻倍

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

经过长达半年的不懈努力，国内在大型人工智能模型领域的发展终于迎来了关键时刻。

从人工智能驱动的舞蹈表演、火柴人动画的创作，到能够生成时长为5至16秒的高质量视频，AI视频生成技术的整体水平已经实现了质的飞跃。

国内AI视频市场的主要玩家已经基本确立，并且进入了商业模式的PK环节。

作者 | 方文三

图片来源 | 网络

DiT技术架构已成为AI视频领域主流

此前，AI视频生成的技术路径主要分为两类：一类是扩散模型技术路径，主要参与者包括Runway、Pika Labs等；

另一类是基于Transformer架构的大语言模型生成视频的技术路径。

去年12月底，谷歌发布了基于大语言模型的生成式AI视频模型VideoPoet，这被视为在扩散模型之外，为视频生成领域提供了另一种解决方案和可能性。

扩散模型通过向图片中引入噪声，将其转变为原始马赛克状态，随后利用[神经网络]。

例如基于卷积神经网络（CNN）的UNet结构，从特定时间点的画面中减去预测的噪声，从而得到无噪声的原始画面，即最终生成的画面。

两种技术路径各有优劣，单一模型生成的视频在时长和画面效果上难以实现根本性的突破。

Sora选择了一种结合扩散模型和Transformer模型的技术架构体系——DiT（Diffusion＋Transformer）架构。

具体而言，Sora将扩散模型中的U-Net架构替换为Transformer架构。

因此，Sora发布后，DiT技术架构已成为AI视频领域玩家的主流技术架构。

数据、算法、算力决定AI视频成本

数据投入成本高昂。一贯重视版权的Adobe，在模型训练初期计划向摄影师、艺术家购买视频，并根据视频长度付费，每分钟费用在2.60美元至7.25美元之间（约合人民币20至50元/分钟）。

训练一个AI大语言模型需要亿级数量的参数，而训练视频模型所需的数据量更是有过之而无不及。

运营AI视频应用所需的算力成本同样巨大。AI视频无法像桥梁那样通过边际效应来计算成本。

每个用户都需要算力，用户使用越多，算力需求就越大。

在数据成本和算力成本的双重压力下，AI视频的参与者无法像大模型参与者那样[慷慨]地直接降价。

如果草率地采取降价策略来[跑马圈地]，AI视频参与者极有可能面临资金被算力成本耗尽的风险，同时用户体验也可能受到影响，可谓两头不讨好。

因此，大多数AI视频参与者总是小心翼翼，选择在增值功能上下功夫。

一份关于AI应用定价策略的报告指出，只有26%的AI公司采用了Freemium的混合模式，绝大多数（71%）仍然采用传统的SaaS订阅定价模式。

智谱清影推出的则是[加速]模式。普通用户使用清影是无限次免费的，若想缩短排队等待时间，可以购买加速券，5元可加速一整天。

最具创意的定价模式莫过于月之暗面的Kimi大模型。

自今年三月起，Kimi一直稳居国内AI产品Top5，甚至一度因流量过大而宕机。

为了平衡用户体验和算力需求，Kimi推出了打赏功能。

用户可以通过支付5.20至399元不等的金额，获得不同时间长度的[高峰期优先使用]功能。

不难看出，国内AI产品对商业化模式的探索持开放态度。

自身优势也影响了到产品特点

快手的可灵在人物姿态的自然流畅性方面表现突出，智谱清影和爱诗科技的PixVerse在色彩表现上更为鲜明。

特别是快手的可灵，依托快手平台海量的视频数据优势，能够迅速生成符合中文语境和审美习惯的视频，主打对物理世界特性的高强度模拟，并成功解决了众多AI难以攻克的[吃]的问题。

生数科技的Vidu在动作幅度和运动速度上更为显著，而字节跳动的即梦则擅长于动画风格，能够精确控制物体运动的速度。

智谱清影和生数科技的Vidu在生成速度上表现尤为出色，仅需30秒即可完成，而国内外主流产品的生成时间大约为5分钟左右。

字节跳动旗下的剪映上线即梦AI，在视频生成的基础上创新了故事模式，能够从提示词到角色、场景，实现从创意到成品的快速转化。

此外，阿里达摩院的AI视频产品[寻光]和百度的AI视频模型UniVG虽然仍在内测阶段，但从官方发布的信息来看，二者在可控编辑、语义一致性等方面具有很大的潜力。

国内产品生成高品质内容仍需升级

AI视频生成面临的挑战包括准确性、一致性和丰富性。实际体验效果与各公司发布的宣传片之间存在较大差异。

若AI视频生成技术想要实现商业应用，仍需克服诸多挑战。

目前，无论是国内还是国际上的AI视频生成技术，大多数支持480p/720p分辨率的视频生成，而支持1080p高清视频的则相对较少。

素材的质量和算力的高低直接影响生成视频的品质。

然而，即便拥有高质量的素材和强大的算力，并不意味着能够保证生成的视频品质。

使用低分辨率素材训练的模型若试图生成高分辨率视频，可能会导致视频出现崩坏或重复现象，例如出现多手多脚的情况。

这类问题通常可以通过放大、修复和重绘等手段解决，但其效果和细节通常不尽如人意。

在国内，大多数AI视频生成技术能够支持2-3秒的视频，能够达到5-10秒的则属于较为先进的产品。

也有个别产品表现突出，例如即梦技术可以生成长达12秒的视频。

但与Sora技术相比，后者曾宣称能够生成长达60秒的视频，尽管目前尚未对外开放使用，其具体表现尚无法验证。

除了视频长度，生成内容的合理性同样重要。

理论上，AI可以持续输出视频，甚至长达一个小时，但用户通常需要的不是监控视频或循环播放的风景画，而是具有精美画面和故事性的短片。

即梦技术虽然在视频长度上有所突破，但生成质量并不理想，例如主角小女孩的形象在后期会出现变形。

Vega AI也存在类似问题；而PixVerse技术生成的画质较差。

相比之下，Morph技术在内容准确性上表现良好，但视频时长仅为2秒。

艺映技术的画质佳，但在理解文字方面存在不足，导致关键元素如兔子丢失，且生成的视频风格偏向漫画，缺乏写实感。

目前，许多宣称使用AI进行全流程制作的影视短片，实际上采用的是图像生成视频或视频到视频的技术。

视频的连贯性至关重要，许多AI视频工具通过单帧图片预测后续动作来实现视频转换，但预测的准确性目前仍依赖于运气。

在实现视频中主角一致性方面，各家技术并非完全依赖数据生成。

然而，目前这些技术仍在探索阶段，即便进行了技术叠加，人物一致性问题仍未得到完全解决。

目前生成时长与效果差异不大

目前，市面上主流的AI视频工具主要生成时长在4秒至10秒左右的视频片段。

Vidu效果生数科技此次推出的Vidu开放文生视频、图生视频两项功能，提供了4秒和8秒两种时长选项，最高支持1080P的分辨率。

在处理速度方面，实测生成一段4秒视频片段仅需30秒。

爱诗科技的PixVerse V2能够支持生成单个时长为8秒的视频片段，并且具备一键生成1至5段连续视频内容的功能，确保片段间主体形象、画面风格及场景元素保持一致。

智谱AI的智谱清影能够制作出时长为6秒的视频，制作时间大约为30秒，清晰度可达到1440x960（3：2）。

快手可灵生成的视频时长为5秒，但其具备将视频时长扩展的功能，可以将视频时长延长至10秒。

然而，在视频生成速度上，快手可灵相对较慢，通常需要2至3分钟的时间。

从技术积累的角度审视，尽管国内人工智能视频生成企业均在布局DiT架构，但相较于Sora的水平，它们在视频生成的时长和效果方面仍处于追赶状态。

国内AI视频大模型已经开启了商业探索

相较于聊天机器人工具如ChatGPT，AI视频生成被视为大模型技术商业化的黄金赛道。

其成为黄金赛道的原因主要有两个方面：首先，AI视频生成工具本身具有明显的收费优势。

目前，多数AI视频生成工具面向消费者端用户采用会员制度。

以可灵为例，其会员分为黄金、铂金、钻石三个等级；

经过优惠后，三档月卡的价格分别为33元、133元和333元，分别提供660、3000、8000[灵感值]，可生成大约66个、300个或800个标准视频。

智谱清影推出的定价策略如下：在首发测试期间，所有用户均可免费体验；

支付5元，可获得一天（24小时）的高速通道权益；

支付199元，则可解锁一年的高速通道权益。然而，AI视频生成领域的商业化目前仍处于起步阶段。

对于企业级用户，这些工具支持通过调用API接口进行收费。

例如智谱AI，除了会员制收费方式外，还在开放平台上开放API接口，收取一定费用。

另一方面，AI视频生成工具模糊了创作者与消费者之间的界限，特别是在快手和抖音等平台上，视频博主既是消费者，也可以利用AI视频工具进行创作，转变为视频生产方。

这种大C小B的消费者群体极为重要，甚至可能是最关键的，ToB和ToC的界限日益模糊。

然而，从商业生态的角度来看，大型企业和初创企业在变现策略上存在差异。

像抖音、快手这样的行业领先视频平台，可以利用其庞大的用户基础，通过提供AI视频生成工具，鼓励用户创作相关内容，从而丰富自身的视频生态体系。

这些大型平台无需直接销售工具，而是通过用户实现商业化变现。

对于初创企业而言，直接销售工具在中国市场并不现实，未来可能只有行业巨头才有机会，因为它们拥有庞大的用户群体。

对于大模型初创企业来说，如果仅限于销售工具，在中国只能面向ToB，而不能面向ToC。

只有面向企业端，才是实现商业化变现的可行途径。

企业愿意为此付费的原因在于，它们能够通过视频实现商业交付，产生收益，以支持相应的成本支出。

因此，在AI视频的商业化过程中，消费者端的成功更多地属于行业巨头，而创业者的机遇则在于企业端。

目前，C端用户利用AI视频大模型平台开发的视频应用缺乏明确的指向性，平台本身亦难以预测C端用户将如何运用这些视频。

互联网巨头很可能将扮演引领者的角色

核心竞争要素在于数据、场景和用户。数据是训练高质量模型的关键，而场景决定了产品的市场适应性和商业潜力，互联网巨头在这三个维度均占优势。

目前，移动互联网月活跃用户增长放缓，而AIGC APP的月活跃用户快速增长，2024年6月渗透率提升至5%，并仍有提升空间。

未来的流量分配格局将很大程度由人工智能主导，用户将天然地流向更好用、更有趣、更低门槛的内容消费平台。

这解释了为什么字节跳动、快手高度重视视频生成项目。字节跳动将剪映定位为P0级项目，由原CEO张楠带队；

快手则将[可灵]定位于战略级项目，由技术大牛万鹏飞带队，获得程一笑的支持，集全公司数据、算力和资金资源。

另一方面，专业的全流程影视创作平台仍然具有较强的用户壁垒。

结尾：

根据头豹研究院提供的数据，2021年中国AI视频生成行业的市场规模为800万元，预计到2026年，市场规模将增长至92.79亿元。

根据启明创投的数据，2023年一级市场中AI投资金额达到了224亿美元，超过了前十年投资的累计总和。

众多行业专家预测，2024年将是AI视频生成领域的一个重要转折点，即所谓的[Midjourney时刻]。

部分资料参考：太平洋科技：《价格定得好，国产Sora们躺着跑》，东西文娱：《AI视频的六月：玩家就位》，定焦：《半年过去，AI视频卷到哪儿了？》，光锥智能：《爆[卷]的AI视频，大厂向左，创企向右》，科技新知：《实测4款国产头部AI视频大模型》，中信建投证券研究：《国产AI视频：可用度强性价比高，快手可灵开启C端付费》，第一新声：《探秘视频生成大模型：谁将成为下一个风口王者？》，亿邦动力：《AI视频爆发！一天10万条，冲进抖音快手小红书》，第一财经：《视频生成混战：在[GPT-3]时代，[大家看不懂的时候要先上]》

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

END

推荐阅读：