编辑 | 周子意
随着秋季的临近,谷歌和OpenAI展开一场软件竞赛,旨在推出下一代“多模态(multimodal)”大型语言模型(LLM)。
这些多模态模型可以处理图像和文本,例如,用户只需要给该模型发送一张网页草图,该模型就可以为网站生成代码,或者向用户提供可视图表的文本分析。
此前有报道称,谷歌正在接近这个目标,它已经与一小部分外部公司分享了其即将推出的Gemini多模态大型语言模型。
但是如今,OpenAI似乎想要抢在谷歌之前发布。据知情人士透露,这家人工智能初创公司正将其最先进的大型语言模型GPT-4与多模态功能相结合,这个更强大的多模态模型代号为Gobi。
▌一场较量即将展开
与GPT-4不同,Gobi从一开始就被设计为多模式,不过似乎OpenAI公司目前还没开始训练这个模型。
此外,随着关于GPT-5的传言逐渐传播开来,人们开始好奇Gobi是否就是GPT-5,不过有分析人士称,现在就下定论还为时过早。
谷歌那边怎么样呢?考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据(包括来自搜索和YouTube等消费产品的数据),这一优势将有利于谷歌向多模态模型的推动。
一位使用过Gemini早期版本的人士透露,与现有的模型相比,Gemini似乎产生的错误答案更少。
无论如何,这场竞赛类似于人工智能版的苹果与安卓之争。而Gemini的到来将揭示谷歌和OpenAI之间的差距到底有多大。
▌对恶意使用的考量
OpenAI此前在3月份发布GPT-4时曾预展示了多模态功能,但除了一家名为“Be My Eyes”的公司外,其没有向其他公司开放。Be My Eyes是一家为盲人或视力低下的人提供技术的公司。
六个月后,OpenAI公司准备在更大范围内推出被称为GPT-Vision的功能。据悉,OpenAI可能会在GPT-Vision之后再推出Gobi。
为什么隔了这么长时间才推出?信息安全问题是一个主要的考量因素。
OpenAI主要是担心新的视觉功能会被恶意利用,比如通过自动解决验证码来冒充人类,或者通过面部识别来跟踪人。但如今,OpenAI的工程师们似乎已经接近于解决围绕这项新技术的法律担忧。
谷歌也有同样的困扰。不过对于大模型被恶意使用或滥用的问题,谷歌给出的回答是,该公司在7月份就做出了一系列承诺,以确保其所有产品都被负责任地开发。
推荐阅读