GPT-4o怎么抢了Midjourney的饭碗

原创 脑极体 2025-04-10 21:39


2025年3月26日,OpenAI凌晨官宣,GPT-4o的原生多模态图像生成功能正式上线。用户不再需要登录OpenAI的文生图模型DALL-E,可以直接在ChatGPT应用里调用4o生成、修改图片。


一夜之间,AI生成的吉卜力图像在X等社交媒体上疯传,互联网被一场温柔的二次元画风浪潮淹没。人们上传自拍照,输入“吉卜力风格”,几秒后,宫崎骏动画中的唯美与梦幻便流淌在发丝衣角间,甚至连OpenAI创始人奥特曼也晒出自己的吉卜力头像,为这场热潮添了一把火。



不过,吉卜力的火爆只是其一,更关键的是,GPT-4o的绘图能力出圈打破了文生图领域的固有格局,以Midjourney等垂类应用为首的赛道第一次遭到了大模型的挑战。


原来,人们用Midjourney生图时,仍面临着一个致命问题:随机性太强,在提示词过于复杂的时候,细节还原度就会显著降低,而GPT-4o控图能力的跃升,让人类第一次感受到了与AI艺术家在多轮对话中精准改图的魅力。


那么,一个人类印象里只会聊天的通用大模型GPT-4o,是如何赶超文生图领域专业选手Midjourney的呢?



实际上,类似Midjourney一样的应用早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像,甚至在画面细腻感、解析力上略胜于GPT-4o。但GPT-4o的聪明之处在于,它没有选择正面硬刚其艺术领域的生图质量,而是在应用门槛、修图改图、跨学科能力等细分赛道弯道超车。


一是自然语言对话能力的提升大大降低了使用门槛。传统文生图领域,用户必须掌握一套复杂的结构化提示指令,比如风格、镜头、色彩、角度、背景、主体等,差之毫厘、谬以千里。而GPT-4o可以精准理解自然语言命令,只需要像跟好友一样交流,张嘴画图成为现实。


自然语言就是大白话,日常生活中的口头语。比如,如果你需要一张瀑布图,只需要告诉GPT-4o,“帮我生成一幅清晨茂密森林里的彩虹瀑布”就可以了。但面对Midjourney就需要像下图一般,用高度结构化的prompt指令告诉它:这个图像的主体有什么,背景是什么颜色,仰角、俯角还是平视,风格是油画、古典或者赛博朋克,需要细分到这种程度才可能达到理想效果,但就算分得这么细了,依然会有一些无关紧要的画面元素跳出来画蛇添足。



二是多模态能力带来的图生图、图改图功能的上线。类似Midjourney一样的应用只能发文字指令,不支持上传一张图片再做修改,或者说不支持AI生图后,再调整图像的分辨率、色彩、背景。如果成图效果不理想,只能回到第一步重写提示词碰运气,之前生成的图像等同作废。


GPT-4o的强悍就在于用户可以随便上传一张图片多次修改,可以是AI生成的,也可以是自己拍的。比如,你可以上传一张全身照,把头型换成大波浪,把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去p图去修改,相当于我们不用学习PS这种具有高壁垒性质的修图技术。


更牛的是它还可以多轮对话,支持在原图上不限次数地一直改,直到满意为止。你可以一会儿改一个头发,一会儿把背景换成沙漠,或者一会儿调整滤镜风格。只要你想,它便满足。


图源:小红书@Mr.汤先森


除了交互门槛的降低和控图能力的提升,GPT-4o的跨学科知识储备也让人惊艳。集成了大语言模型原有知识库的GPT-4o相当于一个知天文、晓地理的画家,不仅能解高数、做物理题,还原建筑草图也不在话下。相比之下,Midjourney作为垂类应用始终局限在艺术领域里,为电影宣发、广告等文娱产业服务。


GPT-4o有多牛?给一个题目就可以生成函数图像,相当于一款画图指导版的拍照搜题应用。甚至于你给他一个没有任何色彩的铅笔画建筑草图,它都能生成出施工后的房屋实景,完全跨越了学科的边界,是一个文理双全的全能型选手。


图源:小红书@云安


既然GPT-4o生图改图功能如此惊艳,我们就要发问了,在其火爆出圈背后,能够为普通人带来什么实际价值呢?



就在其上线一周内,Midjourney CEO大卫·霍尔兹坐不住了,发文称:GPT-4o只是花架子,Midjourney-v7下周上线。



GPT-4o和Midjourney孰优孰劣,现在还难以定论。但能够肯定的是,GPT-4o火出圈了,它冲出了设计师这个小众的圈子,走入了大多数人的工作场景里,就算完全不知道AI生图是什么,但一定也知道社交媒体上突然冒出一个能用嘴P图的网络工具。


那么,GPT-4o为什么这么火,给我们带来的一个最实际的价值点在哪里?


首先,它真的做到了应用零门槛,用户甚至不需要任何艺术功底和AI基础,毫无基础的普通人也能直接上手。用Midjourney,你必须知道一些基本的流派、色彩、光学、框架等绘画知识以及/imagine(生成图像)、--ar(图像宽高比)等基础英文提示指令。但用GPT-4o,你也可以不懂透视、框架、光线,也不需要知道什么是结构化提示词,完全不用任何专业基础,就像跟朋友对话一般交流就可以修图。


图源:小红书@Geek4Fun


除了使用门槛降低,模型产品的质量和效能也大幅提升。一是生图更快,以前用Midjourney解析复杂指令需要1min左右,GPT-4o在20s内就可以还原。


第二,生图和改图的控制性提高了,GPT-4o能够完全还原你给它的指令。比如同样的一个指令“给我生成一个猫猫和狗狗在草地里玩耍的场景”,GPT-4o生成的就是一只猫和一只狗在草地上玩,没有任何其他会突然冒出的元素,但Midjourney可能在草坪上多一个公园或建筑,不会完全按指令来。通俗地讲,就是GPT-4o更能听你的人话了,它就像你的电子仆人一样,你让他干嘛,他就干嘛,多余的事一件不做,该做的事也绝不少干,精确度更强了。


由此,GPT-4o打开全民赛道,进入到我们工作场景里。之前,普通用户用Midjourney更多还是出于兴趣,娱乐属性强、工具属性弱。生成的油画、动漫等各种风格的图像虽好看,但既不能提升工作效率,也不能赚钱,主要起到了一个造型上的作用。



而GPT-4o的用嘴P图让AI绘图能够落地的行业增多,从娱乐化与艺术性走向了专业化与生产力,可以应用到电商、教育、建筑、设计等各行各业。比如你的小孩不会做题,以前需要请教课老师或者下载作业帮,辅导费用贵而作业帮的讲解只有干巴巴的一段文字,令人费解。但是GPT-4o完全可以生成一张讲解草稿图,函数怎么生成的,答案怎么得来的,推导过程流畅自然。


再比如电商行业的宣传海报,甲方需要你生成一个针对欧美市场的英语海报,其中设计元素和语言都需要做本地化润色。之前的流程是对接设计师修改元素、去翻译软件润色,再导入PS软件修改,费时费力。但现在GPT-4o只需要一句话,“把这张海报改成欧美风,语言变成英语”,它就很快就能设计一张符合要求的海报,跨领域跨学科的集成能力非常强悍。



聊完GPT-4o的画图出圈,不如再聊聊,GPT-4o作为一种底层模型还有什么可挖掘的地方。


我们都知道,Midjourney是一个架构在模型上的应用,但GPT-4o本身就是一个模型,生图是它的能力之一。2022年刚出道的ChatGPT只是一个能够文字交流的对话助手,后来可以语音打电话,现在又能画图,一直不停在不同维度上迭代升级。



而此次GPT-4o能绘图赛道突出重围,真要感谢其原生多模态模型能力的大幅涌现。跟Midjourney不一样,GPT-4o有更多技术路径可走。现在文生图领域应用普遍用的底层模型叫扩散模型diffusion model,原理是先生成一个大概的图像,再消除噪点,就像雪中作画、雾里看花,还原能力不强。而GPT-4o沿用文生图自回归模型,相当于把之前预测token的逻辑推理能力进一步延伸到了文生图领域,通过逐帧绘制的方式,从已生成的像素推测下一个像素,本质是模仿人类画画。这意味着,与垂类应用不同,大模型可以从底层架构上选择不同的技术路径,而架构的升级通常会带来性能的跃升,基于GPT-4o等原生模型的功能有更多的生长空间。



第二个是,多模态融合会带来跨领域的融会贯通,GPT-4o作为一种通用大模型,拥有整合文字、音频、图像等不同格式信息的能力,现阶段已经可以打电话、生图改图了。而在未来,是不是可以直接生成音乐和视频,也值得期待。实际上,GPT-4o本次上线的生图功能就脱胎于OpenAI的文生图模型DALL-E。或许,OpenAI旗下的文生视频模型Sora也可能通过某种技术被整合到GPT模型里。届时,在一个模型里交叉处理多种模态的信息将不再遥远。


而多模态创新也进一步说明,模型走向多功能后,处理各种任务的能力越来越强,带来的总AI使用成本降低。一个可以预见的趋势是,大模型正在试图成为一个一站式打包站点,将代码、设计、音乐、数据处理等多种任务集成在一起。可能在未来某一天,类似于ChatGPT一样的模型强悍到在任何领域都能做到前三,我们也不再需要下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用,直接下载类似于ChatGPT一样的模型,就能解决所有的事情。这样一来,手机的内存更大了,运行效率也快了。每个月还可以省下了垂类应用一百块左右的会员定制费,性价比更高了。



简言之,GPT-4o绘图能力的出圈让我们看到了底层大模型集成多应用的能力。而从这个能力衍生出的愿景是,我们未来可以在一个一站式的模型里面同时使用绘画、音乐、代码等多维能力。并且,它的使用门槛是非常低的,低到任何一个毫无技术基础,甚至连AI都不了解的人都能用。


而这或许才是人类发明AI的终极目标——让技术普惠到每一个角落。



·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论 (0)
  •   高海拔区域勤务与装备保障调度系统平台解析   北京华盛恒辉高海拔区域勤务与装备保障调度系统平台专为高海拔特殊地理环境打造,致力于攻克装备适应、人员健康保障、物资运输及应急响应等难题。以下从核心功能、技术特点、应用场景及发展趋势展开全面解读。   应用案例   目前,已有多个高海拔区域勤务与装备保障调度系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润高海拔区域勤务与装备保障调度系统。这些成功案例为高海拔区域勤务与装备保障调度系统的推广和应用提供了有力支持。   一、核心
    华盛恒辉l58ll334744 2025-04-24 10:13 124浏览
  • 引言:语音交互的智能化跃迁在全球化与智能化深度融合的今天,语音交互设备的应用场景已从单一提示功能向多语言支持、情感化表达及AI深度交互演进。传统离线语音方案受限于语种单一、存储容量不足等问题,而纯在线方案又依赖网络稳定性,难以满足复杂场景需求。WT3000A离在线TTS方案,通过“本地+云端”双引擎驱动,集成16国语种、7种方言切换、AI大模型对话扩展等创新功能,重新定义语音提示器的边界,为智能硬件开发者提供更灵活、更具竞争力的语音交互解决方案。一、方案核心亮点离在线双模融合,场景全覆盖离线模式
    广州唯创电子 2025-04-25 09:14 66浏览
  •   通用装备论证与评估系统平台解析   北京华盛恒辉通用装备论证与评估系统平台是服务军事装备全生命周期管理的综合性信息化平台,通过科学化、系统化手段,实现装备需求论证、效能分析等核心功能,提升装备建设效益。   应用案例   目前,已有多个通用装备论证与评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润通用装备论证与评估系统。这些成功案例为通用装备论证与评估系统的推广和应用提供了有力支持。   一、系统分层架构   (一)数据层   整合装备性能、作战、试验等多源异
    华盛恒辉l58ll334744 2025-04-24 16:14 151浏览
  • 最近,途虎养车发布的2024年财报数据,可谓相当吸睛。全年营收达到147.59亿元,同比增长8.5%,这个数字直观地展现了途虎在市场上的强大吸金能力,在行业里稳稳占据前列。利润方面同样出色,毛利37.46亿元,毛利率提升0.7个百分点至25.4%;经调整净利润6.24亿元,同比增长 29.7%,经营利润同比更是增长104%至3.31亿元,盈利能力显著增强,这样的利润增长幅度,在同行业中十分亮眼。在用户规模上,途虎养车同样成绩斐然。累计注册用户近1.4亿,同比增长20.4%,交易用户数达2410万
    用户1742991715177 2025-04-24 19:12 56浏览
  •   陆地装备体系论证与评估综合平台系统解析   北京华盛恒辉陆地装备体系论证与评估综合平台系统是契合现代军事需求而生的专业系统,借助科学化、智能化手段,实现对陆地装备体系的全方位论证与评估,为军事决策和装备发展提供关键支撑。以下从功能、技术、应用及展望展开分析。   应用案例   目前,已有多个陆地装备体系论证与评估综合平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润陆地装备体系论证与评估综合平台。这些成功案例为陆地装备体系论证与评估综合平台的推广和应用提供了有力支持。
    华盛恒辉l58ll334744 2025-04-24 10:53 125浏览
  •   海上训练与保障调度指挥平台系统解析   北京华盛恒辉海上训练与保障调度指挥平台系统是现代海上作战训练的核心枢纽,融合信息技术、GIS、大数据及 AI 等前沿技术,旨在实现海上训练高效组织、作战保障科学决策。以下从架构功能、应用场景、系统优势及发展挑战展开解读。   应用案例   目前,已有多个海上训练与保障调度指挥平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上训练与保障调度指挥平台。这些成功案例为海上训练与保障调度指挥平台的推广和应用提供了有力支持。   一
    华盛恒辉l58ll334744 2025-04-24 15:26 136浏览
  • 随着轻薄笔记本的普及,再加上电竞玩家对于高画质音视频体验的需求日益高涨,如何让轻薄笔记本在兼顾轻便携带性的同时,还能提供足以支持3A(AAA/Triple-A game)大作的良好运算性能,便成为各家品牌急欲突破的共同难题。然而,对于主打轻巧便携的轻薄笔记本而言,若要内置独立显卡,势必要先突破空间受限的瓶颈,同时还需解决散热问题,确实难以兼顾两全!对此,“Thunderbolt”与“OCuLink”这两项技术应运而生。用户可以通过这两种传输接口,再搭配外接显卡盒(eGPU)及高性能显卡(如NVI
    百佳泰测试实验室 2025-04-24 17:56 50浏览
  •   基于 GIS 的任务规划与决策系统平台解析   北京华盛恒辉基于 GIS 的任务规划与决策系统平台是空间信息技术与决策科学融合的成果,通过地理空间数据处理与分析,为复杂任务提供科学智能的规划决策支持。以下从架构、功能、技术、应用及趋势展开解读。   应用案例   目前,已有多个基于 GIS 的任务规划与决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润基于 GIS 的任务规划与决策系统。这些成功案例为基于 GIS 的任务规划与决策系统的推广和应用提供了有力支持
    华盛恒辉l58ll334744 2025-04-25 15:47 28浏览
  • 引言在智能语音技术飞速发展的今天,语音交互已成为消费电子、智能家居、工业控制等领域的标配功能。传统的ISD系列录音芯片虽应用广泛,但其高成本与功能局限性逐渐难以满足市场对高性价比、高灵活性的需求。推出的WT2000P录音语音芯片,凭借其卓越性能、低功耗设计及高度可定制化特性,成为ISD系列芯片的理想替代方案,助力开发者突破产品创新瓶颈。一、WT2000P产品概述WT2000P是一款专为嵌入式语音场景设计的多功能录音芯片,采用ESOP8封装,体积小巧(尺寸仅4.9mm×3.9mm),集成度高,支持
    广州唯创电子 2025-04-25 08:44 61浏览
  •   航空兵训练与战术对抗仿真平台系统解析   北京华盛恒辉航空兵训练与战术对抗仿真平台系统是现代军事训练的关键工具,借助计算机技术构建虚拟战场,支持多兵种协同作战模拟,为军事决策、训练及装备研发提供科学依据。   应用案例   目前,已有多个航空兵训练与战术对抗仿真平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润航空兵训练与战术对抗仿真平台。这些成功案例为航空兵训练与战术对抗仿真平台的推广和应用提供了有力支持。   一、系统架构与核心功能   系统由模拟器、计算机兵力生
    华盛恒辉l58ll334744 2025-04-24 16:34 154浏览
  • 2025-4-25全球信息报告出版商Global Info Research(环洋市场咨询)发布了【2025年全球市场高介电常数材料总体规模、主要生产商、主要地区、产品和应用细分研究报告】,报告主要调研全球高介电常数材料总体规模、主要地区规模、主要生产商规模和份额、产品分类规模、下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2020至2024年,预测数据为2025
    用户1745398400862 2025-04-25 08:48 75浏览
  • 为通过金融手段积极推进全球绿色发展,国际金融论坛(IFF)于2020年创立了“IFF全球绿色金融奖”,旨在对全球绿色金融领域取得突出成绩的机构及创新性的解决方案进行表彰和奖励。该奖项依托IFF“高层次、高水平、国际化”一流智库资源优势,积极促进绿色金融领域的国际交流合作和创新实践,助力联合国可持续发展目标的实现。“IFF全球绿色金融奖”重点关注和鼓励那些促进经济增长模式转型、防治环境污染、应对气候变化,以及致力于提高能效水平、强化节能减排实效的绿色金融创新解决方案。该奖项面向全球,是对政策创新、
    华尔街科技眼 2025-04-24 20:43 34浏览
  •   有效样本分析决策系统平台全面解析   一、引言   北京华盛恒辉有效样本分析决策系统在当今数据驱动的时代,企业、科研机构等面临着海量数据的处理与分析挑战。有效样本分析决策系统平台应运而生,它通过对样本数据的精准分析,为决策提供有力支持,成为提升决策质量和效率的关键工具。   应用案例   目前,已有多个有效样本分析决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效样本分析决策系统。这些成功案例为有效样本分析决策系统的推广和应用提供了有力支持。   二、平台概述
    华盛恒辉l58ll334744 2025-04-24 11:13 121浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦