资讯专栏INFORMATION COLUMN

AI图像生成迎来新霸主:开源模型FLUX.1横空出世,文生图模型杀出大黑马

UCloud小助手 / 342人阅读

在人工智能领域,每一天都可能发生颠覆性的变革。就在Midjourney刚刚进行大更新的第二天,开源图像生成领域就迎来了一匹令人瞩目的黑马——FLUX.1。这个突如其来的新玩家不仅在性能上声称大幅超越了DALL·E3、Midjourney V6等闭源模型,还将开源的SD3系列全线秒杀,瞬间引爆了AI圈。

出道即巅峰专找最硬的打,有点乔峰横扫聚贤庄的意思。原来刚成立的FLUX.1的创始人是大名鼎鼎的Robin Rombach。Robin是扩散模型领域的权威之一,其代表作有VQGANTaming TransformersLatent Diffusion

后来,Stability AI收购了Robin的Latent Diffusion模型,并聘请他成为首席科学家,期间他领导了全球著名文生图开源项目Stable Diffusion系列,这也是全球下载最多、使用最广的开源大模型之一。

今年3月,由于Stability AI内部出现动荡,Robin选择离开。经过四个月的沉淀,他带着新的开源大模型平台FLUX.1重磅回归。更令人惊讶的是,FLUX.1一亮相就获得了由著名风投机构Andreessen Horowitz领投的3200万美元种子轮融资。这无疑为FLUX.1的未来发展注入了强心剂。

那么,FLUX.1到底有什么过人之处?

擅长生成文字、人手三种模型规模秒级生成

FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。 文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词,例如生成一个黑森林Flux Schnell蛋糕:

而在构图方面,FLUX.1则表现出来非常擅长遵循复杂的指令,确定图像中事物的位置的能力。

例如,FLUX.1完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。

人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还称不上是完美,但实现了很大的进步。

FLUX.1共有专业版、开发者版、快速版三种版本。

其中,FLUX.1[pro]是最先进的一个版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。

FLUX.1[dev]面向非商业应用,它从FLUX.1[pro]提炼而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效。

FLUX.1[schnell]是三款模型中最快的,专为本地开发和个人使用而定制,并根据Apache 2.0标准许可公开提供。

击败MJ V6、DALL·E 3,技术报告即将发布

性能方面,FLUX.1经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。

其中FLUX.1[pro]和[dev]两款模型,在5项测评标准中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模型。 FLUX.1[schnell]作为轻量级模型,不仅优于同类竞争对手,还优于Midjourney v6.0、DALL·E 3等强大的非蒸馏模型。

此外,所有FLUX.1模型均支持0.1和2.0百万像素的多种宽高比和分辨率。以下是一些实例作品:

而如此强大的性能是怎么做到的?

在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。

团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。

根据FLUX.1团队的测试数据,即便是开源的Schnell版本,在文本语义还原、图片质量、动作一致性、连贯性和多样性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特别是在文本嵌入图片方面,FLUX.1展现出了明显的优势。

SD原班人马,即将发布SOTA视频模型

Flux.1由Stable Diffusion的创始团队成立,该团队此前的工作还包括高质量图像生成模型VQGAN、视频生成模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持续开发SD后续版本的成员,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在该项目创始团队中。

该团队称,其核心信念是开发广泛可访问的模型,促进研究界和学术界的创新和协作,并提高模型透明度。 在下一步的工作上,工作室预告将发布一款SOTA文生视频模型,“让所有人都能将文本转为视频”。该模型将建立在FLUX.1的基础上,“以高清和前所未有的速度实现精确创作和编辑”。

结语:多模态大模型领域值得关注的黑马

在众多大厂、创企狂卷文生视频之际,文生图领域突然迎来黑马。

“横空出世”的FLUX.1的不仅展现出卓越的性能,在文字生成、复杂构图、人手描绘等方面突破难关,还以多样化的版本满足不同用户的需求。

对于开发者和AI爱好者来说,FLUX.1的出现无疑是一个重大利好。Schnell版本已经完全开源,并获得了Comfyui的支持。

如果你有36G以上的显存,甚至可以运行t5的fp16版本。FLUX.1的横空出世,不仅为开源AI图像生成领域带来了新的希望,也为整个AI行业注入了新的活力。它的强大性能和开源特性,很可能会加速AI图像生成技术的普及和创新。对于普通用户来说,这意味着我们可能很快就能在家用电脑上运行媲美甚至超越Midjourney的AI图像生成模型。


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/131145.html

相关文章

  • 智谱AIGLM-4-Plus上线开放平台!可视频通话

    GLM-4-Plus是智谱AI最新推出的旗舰级预训练语言模型,标志着公司在人工智能技术上取得了重大突破。相比前一代GLM-3模型,GLM-4-Plus在多个关键指标上实现了大幅提升,尤其是在语言理解能力、指令遵循能力和长文本处理能力方面。这些进步使得GLM-4-Plus在各类自然语言处理任务中的表现更加出色。主要更新语言基座模型 GLM-4-Plus:在语言理解、指令遵循、长文本处理等方面性能得到...

    miguel.jiang 评论0 收藏0
  • 传媒人必备:不花钱的AI开源视频神助攻

    前几个月OpenAI大名鼎鼎的Sora 一经发布,似乎象征着视频领域已经进入了生成式 AI 时代。不过直到今天,我们仍然没有用上OpenAI 的官方视频生成工具,等不及的人们已经开始寻找其他的方法。其中不乏一些国内的厂商如快手的可灵等等。而在近日,一款全新的开源视频编辑工具 Clapper 引发了人们的关注。与其他的文生视频或者文生视频工具不同,这款工具的设计目的并非取代传统视频编辑器,或使用 3...

    UCloud小助手 评论0 收藏0
  • ICCV 2021 口罩人物身份鉴别全球挑战赛冠军方案分享

    摘要:损失函数此次竞赛我们采用的基线损失函数为,该损失函数在训练过程中模拟课程学习的思想,按照样本从易到难的顺序进行训练。 1. 引言10月11-17日,万众期待的国际计算机视觉大会 ICCV 2021 (International Conference on Computer Vision) 在线上如期举行,受到全...

    nidaye 评论0 收藏0
  • 深度学习在人脸识别中的应用 —— 优祖母模型的「进化」

    摘要:本文着重以人脸识别为例介绍深度学习技术在其中的应用,以及优图团队经过近五年的积累对人脸识别技术乃至整个人工智能领域的一些认识和分享。从年左右,受深度学习在整个机器视觉领域迅猛发展的影响,人脸识别的深时代正式拉开序幕。 腾讯优图隶属于腾讯社交网络事业群(SNG),团队整体立足于腾讯社交网络大平台,专注于图像处理、模式识别、机器学习、数据挖掘、深度学习、音频语音分析等领域开展技术研发和业务落地。...

    546669204 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<