新较量即将展开！OpenAI试图抢在谷歌Gemini前发布多模态模型

科创板日报 2023-09-19 20:07 661浏览 0评论 0点赞

【直播】零成本升级IC验证效能 AI数据中心过热？ST 10kW压缩机方案让液冷系统效能翻倍

谷歌和OpenAI展开一场软件竞赛，都旨在最快推出下一代“多模态（multimodal）”大型语言模型（LLM）；OpenAI正将其最先进的大型语言模型GPT-4与多模态功能相结合，新模型代号为Gobi。

编辑 | 周子意

随着秋季的临近，谷歌和OpenAI展开一场软件竞赛，旨在推出下一代“多模态（multimodal）”大型语言模型（LLM）。

这些多模态模型可以处理图像和文本，例如，用户只需要给该模型发送一张网页草图，该模型就可以为网站生成代码，或者向用户提供可视图表的文本分析。

此前有报道称，谷歌正在接近这个目标，它已经与一小部分外部公司分享了其即将推出的Gemini多模态大型语言模型。

但是如今，OpenAI似乎想要抢在谷歌之前发布。据知情人士透露，这家人工智能初创公司正将其最先进的大型语言模型GPT-4与多模态功能相结合，这个更强大的多模态模型代号为Gobi。

▌一场较量即将展开

与GPT-4不同，Gobi从一开始就被设计为多模式，不过似乎OpenAI公司目前还没开始训练这个模型。

此外，随着关于GPT-5的传言逐渐传播开来，人们开始好奇Gobi是否就是GPT-5，不过有分析人士称，现在就下定论还为时过早。

谷歌那边怎么样呢？考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据（包括来自搜索和YouTube等消费产品的数据），这一优势将有利于谷歌向多模态模型的推动。

一位使用过Gemini早期版本的人士透露，与现有的模型相比，Gemini似乎产生的错误答案更少。

无论如何，这场竞赛类似于人工智能版的苹果与安卓之争。而Gemini的到来将揭示谷歌和OpenAI之间的差距到底有多大。

▌对恶意使用的考量

OpenAI此前在3月份发布GPT-4时曾预展示了多模态功能，但除了一家名为“Be My Eyes”的公司外，其没有向其他公司开放。Be My Eyes是一家为盲人或视力低下的人提供技术的公司。

六个月后，OpenAI公司准备在更大范围内推出被称为GPT-Vision的功能。据悉，OpenAI可能会在GPT-Vision之后再推出Gobi。

为什么隔了这么长时间才推出？信息安全问题是一个主要的考量因素。

OpenAI主要是担心新的视觉功能会被恶意利用，比如通过自动解决验证码来冒充人类，或者通过面部识别来跟踪人。但如今，OpenAI的工程师们似乎已经接近于解决围绕这项新技术的法律担忧。

谷歌也有同样的困扰。不过对于大模型被恶意使用或滥用的问题，谷歌给出的回答是，该公司在7月份就做出了一系列承诺，以确保其所有产品都被负责任地开发。

推荐阅读

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

科创板日报国内首个专注科创板、创投及TMT等领域的新锐媒体，致力于打造领先、专业、权威的科创信息服务平台。

进入专栏

科创板日报国内首个专注科创板、创投及TMT等领域的新锐媒体，致力于打造领先、专业、权威的科创信息服务平台。

文章：5756篇粉丝：8人

最近文章