GPT-4o怎么抢了Midjourney的饭碗

原创脑极体 2025-04-10 21:39 170浏览 0评论 0点赞

汽车智能照明背后的“黑科技”传感器，你知道吗？ 超低功耗CW32L083系列

2025年3月26日，OpenAI凌晨官宣，GPT-4o的原生多模态图像生成功能正式上线。用户不再需要登录OpenAI的文生图模型DALL-E，可以直接在ChatGPT应用里调用4o生成、修改图片。

一夜之间，AI生成的吉卜力图像在X等社交媒体上疯传，互联网被一场温柔的二次元画风浪潮淹没。人们上传自拍照，输入“吉卜力风格”，几秒后，宫崎骏动画中的唯美与梦幻便流淌在发丝衣角间，甚至连OpenAI创始人奥特曼也晒出自己的吉卜力头像，为这场热潮添了一把火。

不过，吉卜力的火爆只是其一，更关键的是，GPT-4o的绘图能力出圈打破了文生图领域的固有格局，以Midjourney等垂类应用为首的赛道第一次遭到了大模型的挑战。

原来，人们用Midjourney生图时，仍面临着一个致命问题：随机性太强，在提示词过于复杂的时候，细节还原度就会显著降低，而GPT-4o控图能力的跃升，让人类第一次感受到了与AI艺术家在多轮对话中精准改图的魅力。

那么，一个人类印象里只会聊天的通用大模型GPT-4o，是如何赶超文生图领域专业选手Midjourney的呢？

实际上，类似Midjourney一样的应用早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像，甚至在画面细腻感、解析力上略胜于GPT-4o。但GPT-4o的聪明之处在于，它没有选择正面硬刚其艺术领域的生图质量，而是在应用门槛、修图改图、跨学科能力等细分赛道弯道超车。

一是自然语言对话能力的提升大大降低了使用门槛。传统文生图领域，用户必须掌握一套复杂的结构化提示指令，比如风格、镜头、色彩、角度、背景、主体等，差之毫厘、谬以千里。而GPT-4o可以精准理解自然语言命令，只需要像跟好友一样交流，张嘴画图成为现实。

自然语言就是大白话，日常生活中的口头语。比如，如果你需要一张瀑布图，只需要告诉GPT-4o，“帮我生成一幅清晨茂密森林里的彩虹瀑布”就可以了。但面对Midjourney就需要像下图一般，用高度结构化的prompt指令告诉它：这个图像的主体有什么，背景是什么颜色，仰角、俯角还是平视，风格是油画、古典或者赛博朋克，需要细分到这种程度才可能达到理想效果，但就算分得这么细了，依然会有一些无关紧要的画面元素跳出来画蛇添足。

二是多模态能力带来的图生图、图改图功能的上线。类似Midjourney一样的应用只能发文字指令，不支持上传一张图片再做修改，或者说不支持AI生图后，再调整图像的分辨率、色彩、背景。如果成图效果不理想，只能回到第一步重写提示词碰运气，之前生成的图像等同作废。

GPT-4o的强悍就在于用户可以随便上传一张图片多次修改，可以是AI生成的，也可以是自己拍的。比如，你可以上传一张全身照，把头型换成大波浪，把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去p图去修改，相当于我们不用学习PS这种具有高壁垒性质的修图技术。

更牛的是它还可以多轮对话，支持在原图上不限次数地一直改，直到满意为止。你可以一会儿改一个头发，一会儿把背景换成沙漠，或者一会儿调整滤镜风格。只要你想，它便满足。

图源：小红书@Mr.汤先森

除了交互门槛的降低和控图能力的提升，GPT-4o的跨学科知识储备也让人惊艳。集成了大语言模型原有知识库的GPT-4o相当于一个知天文、晓地理的画家，不仅能解高数、做物理题，还原建筑草图也不在话下。相比之下，Midjourney作为垂类应用始终局限在艺术领域里，为电影宣发、广告等文娱产业服务。

GPT-4o有多牛？给一个题目就可以生成函数图像，相当于一款画图指导版的拍照搜题应用。甚至于你给他一个没有任何色彩的铅笔画建筑草图，它都能生成出施工后的房屋实景，完全跨越了学科的边界，是一个文理双全的全能型选手。

图源：小红书@云安

既然GPT-4o生图改图功能如此惊艳，我们就要发问了，在其火爆出圈背后，能够为普通人带来什么实际价值呢？

就在其上线一周内，Midjourney CEO大卫·霍尔兹坐不住了，发文称：GPT-4o只是花架子，Midjourney-v7下周上线。

GPT-4o和Midjourney孰优孰劣，现在还难以定论。但能够肯定的是，GPT-4o火出圈了，它冲出了设计师这个小众的圈子，走入了大多数人的工作场景里，就算完全不知道AI生图是什么，但一定也知道社交媒体上突然冒出一个能用嘴P图的网络工具。

那么，GPT-4o为什么这么火，给我们带来的一个最实际的价值点在哪里？

首先，它真的做到了应用零门槛，用户甚至不需要任何艺术功底和AI基础，毫无基础的普通人也能直接上手。用Midjourney，你必须知道一些基本的流派、色彩、光学、框架等绘画知识以及/imagine（生成图像）、--ar（图像宽高比）等基础英文提示指令。但用GPT-4o，你也可以不懂透视、框架、光线，也不需要知道什么是结构化提示词，完全不用任何专业基础，就像跟朋友对话一般交流就可以修图。

图源：小红书@Geek4Fun

除了使用门槛降低，模型产品的质量和效能也大幅提升。一是生图更快，以前用Midjourney解析复杂指令需要1min左右，GPT-4o在20s内就可以还原。

第二，生图和改图的控制性提高了，GPT-4o能够完全还原你给它的指令。比如同样的一个指令“给我生成一个猫猫和狗狗在草地里玩耍的场景”，GPT-4o生成的就是一只猫和一只狗在草地上玩，没有任何其他会突然冒出的元素，但Midjourney可能在草坪上多一个公园或建筑，不会完全按指令来。通俗地讲，就是GPT-4o更能听你的人话了，它就像你的电子仆人一样，你让他干嘛，他就干嘛，多余的事一件不做，该做的事也绝不少干，精确度更强了。

由此，GPT-4o打开全民赛道，进入到我们工作场景里。之前，普通用户用Midjourney更多还是出于兴趣，娱乐属性强、工具属性弱。生成的油画、动漫等各种风格的图像虽好看，但既不能提升工作效率，也不能赚钱，主要起到了一个造型上的作用。

而GPT-4o的用嘴P图让AI绘图能够落地的行业增多，从娱乐化与艺术性走向了专业化与生产力，可以应用到电商、教育、建筑、设计等各行各业。比如你的小孩不会做题，以前需要请教课老师或者下载作业帮，辅导费用贵而作业帮的讲解只有干巴巴的一段文字，令人费解。但是GPT-4o完全可以生成一张讲解草稿图，函数怎么生成的，答案怎么得来的，推导过程流畅自然。

再比如电商行业的宣传海报，甲方需要你生成一个针对欧美市场的英语海报，其中设计元素和语言都需要做本地化润色。之前的流程是对接设计师修改元素、去翻译软件润色，再导入PS软件修改，费时费力。但现在GPT-4o只需要一句话，“把这张海报改成欧美风，语言变成英语”，它就很快就能设计一张符合要求的海报，跨领域跨学科的集成能力非常强悍。

聊完GPT-4o的画图出圈，不如再聊聊，GPT-4o作为一种底层模型还有什么可挖掘的地方。

我们都知道，Midjourney是一个架构在模型上的应用，但GPT-4o本身就是一个模型，生图是它的能力之一。2022年刚出道的ChatGPT只是一个能够文字交流的对话助手，后来可以语音打电话，现在又能画图，一直不停在不同维度上迭代升级。

而此次GPT-4o能绘图赛道突出重围，真要感谢其原生多模态模型能力的大幅涌现。跟Midjourney不一样，GPT-4o有更多技术路径可走。现在文生图领域应用普遍用的底层模型叫扩散模型diffusion model，原理是先生成一个大概的图像，再消除噪点，就像雪中作画、雾里看花，还原能力不强。而GPT-4o沿用文生图自回归模型，相当于把之前预测token的逻辑推理能力进一步延伸到了文生图领域，通过逐帧绘制的方式，从已生成的像素推测下一个像素，本质是模仿人类画画。这意味着，与垂类应用不同，大模型可以从底层架构上选择不同的技术路径，而架构的升级通常会带来性能的跃升，基于GPT-4o等原生模型的功能有更多的生长空间。

第二个是，多模态融合会带来跨领域的融会贯通，GPT-4o作为一种通用大模型，拥有整合文字、音频、图像等不同格式信息的能力，现阶段已经可以打电话、生图改图了。而在未来，是不是可以直接生成音乐和视频，也值得期待。实际上，GPT-4o本次上线的生图功能就脱胎于OpenAI的文生图模型DALL-E。或许，OpenAI旗下的文生视频模型Sora也可能通过某种技术被整合到GPT模型里。届时，在一个模型里交叉处理多种模态的信息将不再遥远。

而多模态创新也进一步说明，模型走向多功能后，处理各种任务的能力越来越强，带来的总AI使用成本降低。一个可以预见的趋势是，大模型正在试图成为一个一站式打包站点，将代码、设计、音乐、数据处理等多种任务集成在一起。可能在未来某一天，类似于ChatGPT一样的模型强悍到在任何领域都能做到前三，我们也不再需要下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用，直接下载类似于ChatGPT一样的模型，就能解决所有的事情。这样一来，手机的内存更大了，运行效率也快了。每个月还可以省下了垂类应用一百块左右的会员定制费，性价比更高了。