新闻动态

九游体育app官网DiffusionNFT)时间-Ninegame-九游体育(中国)官方网站|jiuyou.com

发布日期:2025-11-15 13:56    点击次数:195

比 Nano Banana 更擅长 P 细节的图像裁剪模子来了九游体育app官网,还是更懂中语的那种。

就像这么,条件 AI "把中间白色衣着戴口罩女生的手势改成 OK ",原图如下:

这个名为UniWorld-V2的模子能作念到齐全修改。

而 Nano Banana 则未能生效 get 到教导词的意图。

模子背后,是兔展智能 & 北京大学的 UniWorld 团队的最新时间结果:

他们建议了一种名为 UniWorld-R1 的立异型图像裁剪后期锻真金不怕火框架,该框架初次坚忍化学习(RL)政策优化应用于妥洽架构的图像裁剪模子,是第一个视觉强化学习框架。基于此,他们推出了新一代模子 UniWorld-V2。

UniWorld-V2 在 GEdit-Bench 和 ImgEdit 等行业巨擘基准测试中取得了 SOTA 获利,在详细进展上超过了如 OpenAI 的 GPT-Image-1 等顶尖闭源模子。

全部来看详备时间论述。

苍劲的中笔墨体掌捏与考究化可控

功能上,UniWorld-V2 在实践应用中展现了 SFT 模子难以企及的考究化戒指力。

中笔墨体掌捏

在论文的"海报裁剪"示例中,模子能精确相识指示,并渲染出"月满中秋"和"月圆东说念主圆事事圆"等笔画复杂的艺术中笔墨体,效果明晰、语义准确。

能作念到思改啥字改啥字,只需一句 Prompt。

考究化空间可控

在"红框戒指"任务中,用户不错通过画框(如红色矩形框)来指定裁剪区域,模子省略严格盲从该空间划定,收场"将鸟移出红框"等高难度考究操作。

全局光影和会

模子能真切相识"给场景再行打光"等指示,使物体当然融入场景之中,让画面变得更妥洽和谐,况且光影和会度极高。

中枢立异:UniWorld-R1 框架

收场以上功能,参谋团队的中枢立异是建议了 UniWorld-R1 框架。

传统的图像裁剪模子依赖监督微调(SFT),多数存在对锻真金不怕火数据过拟合、泛化才能差的问题。此外,还存在靠近裁剪指示和任务的万般性,衰退通用奖励模子的瓶颈。

UniWorld-R1 框架的中枢上风在于:

首个基于强化学习的妥洽架构:UniWorld-R1 是业内首个基于政策优化(RL)的图像裁剪后期锻真金不怕火框架。它接管了 Diffusion Negative-aware Finetuning (扩散负向感知微调,DiffusionNFT)时间,这是一种无需似然臆测的政策优化法度,锻真金不怕火更高效,况且允许使用高阶采样器。

MLLM 行动免锻真金不怕火奖励模子:针对裁剪任务万般性导致衰退通用奖励模子的挑战,UniWorld-R1 首创性地使用多模态大言语模子(MLLM,如 GPT-4V)行动妥洽的、免锻真金不怕火的奖励模子。通过愚弄 MLLM 的输出 logits(而非单一评分)来提供考究化的隐式响应,极地面教导了模子对东说念主类意图的对都才能。

如下图所示,UniWorld-R1 的 pipeline 主要包括三个部分:采样、MLLM 评分和 DiffusionNFT,这三个部分冉冉将模子与最优政策对都。

全面超过 SOTA,分数领跑

实验方面,参谋团队整理了一个包含 27572 个基于指示的裁剪样本的数据集。

这些样蓝本自 LAION、LexArt 和 UniWorldV1。为了增强任务万般性,加入了稀零的文本裁剪和红框戒指任务,共酿成九种不同的任务类型。

参谋团队锻真金不怕火 FLUX.1-Kontext [ Dev ] 、Qwen-Image-Edit [ 2509 ] 和 UniWorld-V2 行动基础模子,并接管 ImgEdit 和 GEdit-Bench 行动测试基准。前者将多种成心任务妥洽为一个通用框架以进行全面模子相比,后者通过丰富的当然言语指示评估通用图像裁剪。

在 GEdit-Bench 基准测试中,UniWorld-V2(基于 UniWorld-R1 锻真金不怕火)取得了 7.83 的惊东说念主高分,显赫优于 GPT-Image-1 [ High ] (7.53 分)和 Gemini 2.0(6.32 分)。在 ImgEdit 基准上,UniWorld-V2 相同以 4.49 分领跑,超过了总共已知的开源和闭源模子。

更迫切的是,UniWorld-R1 框架具有极强的通用性。当该框架被应用于 Qwen-Image-Edit 和 FLUX-Kontext 等其他基础模子时,相同带来了显赫的性能教导,充阐明说了其行动通用后期锻真金不怕火框架的庞杂价值。

该法度显赫增强了总共基础模子在 ImgEdit 基准上的进展。关于 FLUX.1-Kontext [ Dev ] ,举座分数显赫提高,从 3.71 飞腾到 4.02,跳动了较强的 Pro 版块(4.00)。相同,在应用于 Qwen-Image-Edit [ 2509 ] 时,该法度将其分数从 4.35 教导到 4.48,收场了开源模子中的首先进性能,并超过了顶级闭源模子如 GPT-Image-1。

除了总得分的教导除外,UniWorld-FLUX.1-Kontext 在"疗养"、"索要"和"移除"维度上进展出显赫的性能教导,而 UniWorld-Qwen-Image-Edit 则在"索要"和"搀杂"维度上进展优异。此外,UniWorld-V2 达到了最好性能。这一风光标明,该法度省略解锁和显赫提高基础模子中之前未开辟的后劲。

在域外 GEdit-Bench 上,UniWorld-R1 为三种模子展示了苍劲的泛化性能。它使 FLUX.1-Kontext [ Dev ] 模子的总分从 6.00 教导到 6.74,进展超过了 Pro 版块(6.56)。关于 Qwen-Image 模子,其得分从 7.54 增多到 7.76。同期,UniWorld-V2 在这一基准测试中建树了新的首先进水平,超过了总共列出的模子,包括 Qwen-Image-Edit(7.56)和 GPT-Image-1(7.53)。这一结果阐发该法度灵验地保留和增强了在未见数据溜达上的中枢裁剪才能,展示了苍劲的泛化才能。

为了全面评估,参谋东说念主员还对 FLUX.1 和 Qwen 系列进行了东说念主工偏好参谋,参与者将本文的微调模子与其基础模子和更苍劲的版块进行相比。他们被条件在两个维度上遴荐最好结果:指示对都和图像质料。

用户在总共模范中更倾向于遴荐 UniWorld-FLUX.1-Kontext 而不是 FLUX.1-Kontext [ Dev ] 。此外,它在裁剪才能上进展出较强的上风,尤其是在与更苍劲的官方版块 FLUX.1-Kontext [ Pro ] 的相比中。总体而言,UniWorld-FLUX.1-Kontext 因其优胜的指示除名才能而取得更多的可爱,尽管官方模子在图像质料上略微胜出。这证实了该法度省略灵验地指点模子生成更安妥东说念主类偏好的输出。

这次发布的 UniWorld-V2,是基于团队早先的 UniWorld-V1 构建的。UniWorld-V1 行动业内首个妥洽相识与生成的模子,其开源时期率先于谷歌 Nano Banana 等后续盛名模子长达三个月,为多模态限制的妥洽架构探索奠定了迫切基础。

另外,UniWorld-R1 的论文、代码和模子均已在 GitHub 和 Hugging Face 平台公开辟布,以扶持后续参谋。

论文地址:

https://arxiv.org/abs/2510.16888

GitHub 连结:

https://github.com/PKU-YuanGroup/UniWorld

一键三连「点赞」「转发」「谨防心」

宽宥在驳倒区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿进展逐日见九游体育app官网



上一篇:九游体育app官网完成一次等量功课需要四个手艺工东说念主合营-Ninegame-九游体育(中国)官方网站|jiuyou.com
下一篇:九游体育app官网沪深两市新开户总额为2015万户-Ninegame-九游体育(中国)官方网站|jiuyou.com