谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)最近在由LinkedIn联合创始人里德·霍夫曼(Reid Hoffman)共同主持的播客Possible上表示,这家搜索巨头计划最终将其Gemini AI模型与Veo视频生成模型结合起来,以提高前者对物理世界的理解。
“我们从一开始就将我们的基础模型 Gemini 构建为多模态,”Hassabis 说,“我们这样做的原因是 [因为] 我们对通用数字助理的想法有一个愿景,实际上在现实世界中对你有所帮助。
AI 行业正在逐渐转向“全能”模型,如果你愿意的话,这些模型可以理解和合成多种形式的媒体。谷歌最新的 Gemini 模型可以生成音频以及图像和文本,而 OpenAI 在 ChatGPT 中的默认模型现在可以创建图像——当然包括吉卜力工作室风格的艺术。亚马逊还宣布计划在今年晚些时候推出“任意对任意”模式。
这些 Gemini 模型需要大量的训练数据 — 图像、视频、音频、文本等。哈萨比斯暗示,Veo的视频数据主要来自谷歌拥有的平台YouTube。
“基本上,通过观看 YouTube 视频——很多 YouTube 视频——[Veo 2] 可以弄清楚,你知道的,世界的物理学,”哈萨比斯说。
谷歌此前告诉 TechCrunch,根据它与 YouTube 创作者的协议,其模型“可能”在“一些”YouTube 内容上进行训练。据报道,该公司去年扩大了服务条款,部分原因是为了利用更多数据来训练其 AI 模型。