奥特曼归来,GPT-4o霸屏!
这两天,我的朋友圈和工作群都被奥特曼家的GPT-4o文生图模型给刷爆了!前天凌晨刚发布,那热度,简直了!
编辑部的小伙伴们都玩疯了,用GPT-4o疯狂搞创作:做头像、P表情包、画漫画,创意一个比一个炸裂。打开小红书,首页推荐全是GPT画的图,好家伙,这波OpenAI是真支棱起来了!奥特曼抱完娃,回来还是顶流啊!
简单来说,GPT-4o文生图模型,让“用嘴P图”、“敲字画图”这种看似离谱的需求,变成了现实。直接在OpenAI官网就能用,效果那叫一个攒劲!当时我就觉得,这波操作,绝对会让不少AI从业者和设计师怀疑人生!
看看官网的演示案例:抓拍的马克思、心有猛虎的小猫,还有草图变照片、倒影里的摄影师转身击掌…这都啥玩意儿?确定不是P的?
我二话不说,充了20刀,直接上手开测!玩了一天,我只能说,虽然还有瑕疵,但从四个方面来看,OpenAI这波生图功能,确实又秀又6。
一、画面风格转化,那是相当丝滑
经过金毛火锅的同意,我们用了一张它和机器狗对峙的照片,让AI转成漫画版。
这神态,还真挺有内味儿!虽然细节有点翻车,给火锅补了眼睛,但考虑到咱给的图比较糊,也算情有可原。
反过来,把画改成真实风格,GPT-4o也搞得有模有样。我们上传了一张刻在很多人DNA里的孔子画像,让它生成一张真实照片。
看到这效果,有没有一种时空穿越的赶脚?
对比一下其他文生图模型,你就知道GPT-4o是什么水平了。下面几张图都是用同一套提示词生成的,依次是Midjourney, ImageFX, GPT-4o和Gemini-2.0-flash-exp。
很明显,GPT-4o和Midjourney是一个档次的,而且效果遥遥领先!
不过,风格转化和逼真图像生成,Midjourney也能跟GPT-4o掰手腕,顶多就是80分和90分的区别。但接下来的几点,可能就只有OpenAI能做到了。
二、文本渲染,简直丧心病狂!
让它生成一个学者在白板上写量子力学的公式和理论,虽然内容我基本都告诉它了,但数学公式加框图,很难搞对吧?
结果人家全识别出来,都给整到板书上了!白板的倒影效果都做出来了!
怕你们不知道这啥水平,用OpenAI某友商的模型,相同提示词,效果是这样的:
看起来好像那么回事,但细看文字内容,就知道OpenAI这波有多强了。
三、多主体生成,又准又狠!
看这段提示词,7个不同元素,个数和颜色都不一样,暗藏玄机!
其他模型直接慌了,交出了这样的作业,数字都错了!
OpenAI这边,分毫不差执行了要求,稳如老狗!据说其他模型处理5-8个对象就顶不住了,GPT-4o最多能处理10-20个!
仔细看图,OpenAI的元素都不是随机摆放的,而是有设计,像一个有故事的动画场景。
四、理解能力,堪比人脑!
4o的图片生成模型对文字和图像的理解,简直像长了脑子一样!在复杂指令,特别是长文本理解上,不仅能搞懂你想表达啥,还能把你要的画面直接给你。
我特意上了强度,叫它画一个房间里的大象,但不能直接看见大象,得是那种明明存在,但所有人都看不见,但在氛围里又真的存在的大象。够刁钻了吧?
看到这图我真没想到!写实风格,用光影搞了一个透明的空气大象!
除了理解,它这种把知识作为链接,真正能把文本和图像联系起来的能力尤其出色。比如,不给任何参考信息,让它直接用插图解释牛顿发现的光的折射原理,它能直接给出教科书级的专业插图。
GPT-4o凭什么这么牛?
OpenAI说他们用的是自回归方法,而不是以往文生图常用的Diffusion扩散模型。自回归是靠之前的信息来预测后面的,再用后面的预测更后面的;Diffusion是让模型从一堆乱码中,逐渐变清晰。
相比Diffusion,自回归在语义识别上更牛。所以用GPT-4o生成图片的时候,会发现它从上往下一点一点画出来的,就像AI写文章一样,一个词一个词往外蹦,这就是自回归。
有趣的是,OpenAI第一次大火就是在用了自回归Transformer模型的GPT-3.5上,现在在图片生成领域,他们又靠着自回归扳回一局。
当然,用了这种新方法,生成图片的时间可能会稍微长一点,但是OpenAI觉得,为了高质量的图片,这点时间值得。
GPT-4o也有Bug?
或许是因为自回归模型的原因,GPT-4o生成的图片也会出现一些大模型幻觉。但不是多根手指,而是图片元素过多,或者长度太长,到后面就会崩了。
比如让它生成一堆元素贴纸组成的海报:
初看觉得像模像样,但细看会发现,它多搞了机器人和冲浪者,弄丢了无人机,比较马虎。
官方博客还说,他们对拉丁文字处理得不错,但对其他小语种就不行了。比如三哥那边的文字,生成的就有问题,细节缺胳膊少腿。
写在最后:拥抱AI,别被AI卷死
相比GPT-4o的小缺点,它给业界最大的震撼是:AI更新速度实在太快了!
以前费劲研究的“经验”,在模型能力面前,显得尴尬,甚至一夜之间毫无价值。
有个老哥看到GPT-4o的效果后,心态崩了:
好不容易花时间琢磨提示词、调参数,刚把一个提示词或工作流弄到70分,没过几天,人家冒出个知识库+工作流的新玩意儿,直接顶替之前的努力。等你刚适应知识库+工作流,更厉害的智能体又来了。
使用AI的经验,保质期跟不上AI的速度。真正能让你立于不败之地的,是模型本身的能力。模型能力强了,以前绞尽脑汁琢磨的东西,模型自己就能轻松搞定,创造力也能更自由。这才是技术爆发时代对人的红利。