电子工程专辑在昨日刚刚介绍了《谷歌发布多模态大模型Gemini》,这是谷歌自称强于OpenAI技术的目前最强大的AI,然而据彭博社报道称,Google在关于"双子座"的性能视频演示中作假了。
视频来源:Google Gemini AI演示
这段六分钟的视频展示了 Gemini 的多模态功能(例如,口语对话提示与图像识别相结合)。双子座似乎能快速识别图像(甚至是连线图片),在几秒钟内做出反应,并实时跟踪杯球游戏中的纸团。当然,人类可以做到所有这些,但这是一个能够识别并预测接下来会发生什么的人工智能。
彭博社专栏作家帕米-奥尔森(Parmy Olson)说,Google的"What the AI quack"视频中,Gemini 看起来能力非凡,也许能力太强了。
不过,视频描述中,Google有一个重要的免责声明:"为了演示的目的,延迟已经减少,双子座的输出已经缩短,以求简洁"。
这正是奥尔森不满意的地方。根据她在彭博社发表的文章,Google在被要求发表评论时承认,视频演示并不是通过语音提示实时进行的,而是使用了原始镜头中的静止图像帧,然后写出文字提示,让双子座做出回应。奥尔森写道:"这与Google似乎在暗示的内容大相径庭:人可以与双子座进行流畅的语音对话,同时双子座会实时观察并回应周围的世界。公平地说,Google公司经常编辑演示视频,尤其是许多公司希望避免现场演示带来的任何技术故障。稍作调整是常有的事。但是,Google在视频演示方面一直存在问题。人们曾怀疑Google的 Duplex 演示(还记得 Duplex 吗?Duplex 是一款人工智能语音助手,可以打电话给发廊和餐馆预订房间。而预先录制的人工智能模型视频往往会让人更加怀疑。"
在这种情况下,奥尔森认为Google是在"作秀",目的是误导人们,让他们不知道 Gemini 仍然落后于 OpenAI 的 GPT。
不过Google对此并不认同。当被问及演示的真实性时,Google指出了Google DeepMind 研究副总裁兼深度学习负责人 Oriol Vinyals(也是 Gemini 的联合负责人)的一篇文章,其中解释了团队是如何制作视频的。
Vinyals 说:"视频中的所有用户提示和输出都是真实的,为了简洁起见进行了缩短。视频展示了使用 Gemini 构建的多模式用户体验。我们制作它是为了激励开发人员。"
他补充说,团队给双子座提供了图片和文本,并要求它预测接下来会发生什么。
其他质疑
1、MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果。而作为对比的GPT-4,却是无提示词技巧、只尝试5次,这个标准下Gemini Ultra其实并不如GPT-4。
2、对于那段精彩视频,也有人从开篇的文字免责声明中发现了问题。机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的。后来谷歌在一篇博客文章中解释了多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。
Gemini vs ChatGPT,谁是真正的强者?
虽然ChatGPT所用的大语言模型来自谷歌实验室,相当于对于AI来说,谷歌是最早投入,在模型方面,他是鼻祖。然而,AI的成熟度除了模型之外,还需要算力和时间。算力方面,相信谷歌不会输给OpenAI,但是时间方面,OpenAI已经从最初的ChatGPT3.0进化到了4.0,这其中成长了一年的时间,对于快速进化的AI来说,一年是非常非常重要的,而Gemini AI还是刚刚发布。
同时,目前Gemini Pro版本,还只能对标GPT-3.5,对标GPT-4的大杯Gemini Ultra,要明年才出。
此外,Gemini仅支持英文,中文和其他语言也需要明年了。
然而,更多人关心的是,Gemini AI是否一直免费?能否抛弃ChatGPT Plus每月20美元的账单?
这就引发另一个问题,谷歌能否创立一种新的AI商业模式,但是,目前来说,由于AI需要大量的算力投入,成本非常巨大,除非在性能上有了数个数量级的突破,否则人工智能技术依然没法像互联网一样采用免费模式。