近日,Google的人工智能(AI)研究实验室DeepMind表示,它正在开发为视频生成配乐的人工智能技术——V2A技术(”视频到音频”的缩写)。这项技术被视为人工智能在媒体创作领域的重要进展,旨在解决现有AI模型无法同时生成音效的问题。
据悉,V2A技术的独特之处在于其能够自动匹配音频和视频场景,填补了当前AI生成媒体中同步视听生成的空白。此外,该技术还通过训练系统在大量视频、音频和AI生成注释的基础上学习如何将特定的声音与视频内容关联起来。
V2A技术与视频生成模型如Veo集成,可以大幅提升创意制作能力,实现对话、音效和音乐与视频的无缝匹配。这意味着创作者可以更加专注于内容创作本身,而不是花费大量时间在音频编辑上。此外,这项技术解决了AI视频生成中缺乏同步音频的问题,推动了视频内容创作的新可能性。
V2A技术能够创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。这种无缝匹配的音频和视频结合能够显著提升观众的观看体验,使视频内容更加生动和引人入胜。
尽管V2A技术带来了许多积极影响,但也存在一些局限性。此外,语音同步也存在待改进之处。DeepMind正在努力解决这些问题,并与顶级创作者合作改进技术。
为了确保V2A技术对创意社区产生积极影响,DeepMind正在收集来自顶尖创作者和电影制作人的多元视角和见解,并利用这些宝贵的反馈进行改进。这种开放的态度有助于不断优化技术,使其更好地服务于创作者和观众。
V2A技术被认为是一个充满希望的未来发展方向,即无声视频可以通过声音赋予生命,这对科技爱好者和音视频行业的专业人士来说是一个重要的突破。随着技术的不断进步和完善,其对创作者和观众的实际影响将会越来越显著。
DeepMind 在其官方博客上发表文章称,V2A技术是人工智能生成媒体拼图中必不可少的一部分。虽然包括 DeepMind在内的许多机构已经开发出了视频生成人工智能模型,但这些模型无法在生成视频时同步生成音效。
DeepMind写道:”视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术‘可能’成为让生成的电影栩栩如生的一种有前途的方法”。“通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。”