图像生成模型 —— 生成式 AI 的常用子集 —— 可以解析并理解书面语言,然后将文字转换为几乎任何风格的图像。
Black Forest Labs 的一系列新模型代表了图像生成领域的前沿技术 —— 现在可在 PC 和工作站上试用 —— 在 GeForce RTX 和 NVIDIA RTX GPU 上的运行速度最快。
流畅的功能
FLUX.1 AI 是由 Black Forest Labs 开发的文本生成图像模型套件。这些模型基于 Diffusion Transformer(DiT)体系架构而构建,以便大参数量的模型保持高效运行。Flux 模型在拥有 120 亿个参数的模型上进行训练,以生成高质量图像。
DiT 模型属于高效的计算密集型模型 —— NVIDIA RTX GPU 对于处理这些新模型至关重要,其中最大规模的模型如果不进行重大调整,将无法在非 RTX GPU 上运行。Flux 模型现在支持 NVIDIA TensorRT 软件开发套件,该套件可将这些模型的性能提升高达 20%。用户可以在 ComfyUI 中借助 TensorRT 试用 Flux 和其他模型。
提示:“一张杂志照片:在暴风雪中,一只猴子在温泉中沐浴,水面上飘着蒸汽。”
此图片由 FLUX.1 生成。来源:NVIDIA
Flux 的优势
FLUX.1 在生成高质量、多样化的图像方面表现卓越,其出色的指令遵循性意味着 AI 能够准确理解并执行指令。提示依从性较高,意味着生成的图像与文本提示描述的元素、风格和情绪高度匹配。提示依从性较低会导致图像可能部分或完全偏离给定的指令。
FLUX.1 以能够精确渲染人体解剖结构(包括手部和人脸等具有挑战性的复杂特征)而著称。FLUX.1 还显著改进了在图像中生成易读文本的过程,解决了文本转图像模型的另一个常见挑战。这使得 FLUX.1 模型非常适合需要精确文本表示的应用,例如宣传材料和书籍封面。
FLUX.AI 具有三种变体,可为用户提供最适合其工作流的选择,而不会牺牲质量:
FLUX.1 pro:为企业用户提供最高质量的模型;可通过应用编程接口访问。
FLUX.1 dev:FLUX.1 pro 的免费精华版本,仍然具有较高质量。
FLUX.1 schnell:运行速度最快的模型,非常适合本地开发和个人使用;具有宽松的 Apache 2.0 许可证。
dev 和 schnell 模型为开源版本,Black Forest Labs 在流行平台 Hugging Face 上提供对其关键功能的访问。这一做法得到社区广泛认可。
得到社区广泛认可
自发布以来,Flux 模型的 dev 和 schnell 变体已在 Hugging Face 上被下载 200 多万次。
FLUX.1 的强大功能受到用户广泛赞誉,称其能够生成具有非凡细节和逼真度、视觉效果令人惊艳的图像,并且可以处理复杂的提示,而无需调整大量参数。
提示:“一张细节丰富的专业特写照片:一只变形孟加拉虎身穿白色无袖背心,戴着太阳镜,脖子上挂着耳机,爪子放在舞台上的唱盘上,在伊比沙岛晚间的户外电子舞曲音乐会上担任 DJ;派对气氛,少量烟雾与焦散光照。”
此图片由 FLUX.1 生成。来源:NVIDIA
提示:“一张摄影品质图像:雨夜,繁华的城市街道上,一辆黄色出租车停在路边,前灯亮着,照射在潮湿路面上。一位身着红色外套的女性撑着一把亮绿色雨伞,看着她的智能手机。左侧有一家咖啡店,霓虹灯标志牌上面显示着蓝色字母‘Café Mocha’。咖啡店装着大窗户,从中可以看到人们在享受饮料。路灯照亮了该区域,在整个场景上投射出温暖的光芒,而雨滴在空中产生了雾霾效果。背景中,一座高楼上的大型数字时钟显示时间为下午 8 点 45 分。”
此图片由 FLUX.1 生成。来源:NVIDIA
此外,FLUX.1 还善于处理各种艺术风格,并能够快速高效地生成图像,因此是完成个人和专业项目不可或缺的重要工具。
入门指南
用户可以使用 ComfyUI 等流行社区网页访问 FLUX.1。社区运行的 ComfyUI 维基百科提供了入门分步说明。
许多创作者还提供了有关 Flux 模型的视频教程,例如 MDMZ 制作的这个视频教程:
点击“阅读原文”或扫描海报二维码,北京时间 1 月 7 日(星期二)上午 10:30 观看 NVIDIA CEO 黄仁勋在拉斯维加斯现场发表的 CES 开幕主题演讲。