kaiyun sports 阿里开源: 冻结多模态大模子为文生图磨真金不怕火提供高质料Reward - 开云体育官方网站

开云资讯

开云资讯

kaiyun sports 阿里开源: 冻结多模态大模子为文生图磨真金不怕火提供高质料Reward

发布日期：2026-05-07 05:03:58 点击次数：182

kaiyun sports 阿里开源: 冻结多模态大模子为文生图磨真金不怕火提供高质料Reward

本文作家团队来自阿里巴巴集团，共同第一作家为深度学习参谋员刘锦龙和何旺贵，通信作家为姜浩。

用强化学习（RL）优化文生图模子的 prompt following 才调，是一条被粗鄙考据的旅途 —— 让模子把柄 prompt 用不同赶紧种子生成多张图片，通过 reward model 打算 reward，再应用干系 RL 算法优化模子。

这内部最中枢的问题在于：reward 信号从哪来？

传统的对都规划如 CLIP Score 粒渡过粗，无法捕捉属性绑定、空间关系、计数等复杂语义。现时一些开源的 reward 模子（PickScore、ImageReward、HPS v2 等）受限于模子界限和有限的标注数据，难觉得最前沿的工业级的文生图模子提供有用反馈信号。而磨真金不怕火一个高质料的 reward 模子时时代价不低 —— 需要花消无数东说念主力和资本进行标注和磨真金不怕火。

另一方面，开源社区的多模态大模子（VLM）执续发展，这些模子在预磨真金不怕火中见过海量图文数据，自身就具备丰富的图文对都学问，是自然的图文一致性 reward 信号开头。问题在于：怎样把这些学问从 VLM 中高效地索要出来动作 reward？

为此，来自阿里巴巴的参谋团队建议了 PromptEcho—— 一种无需任何标注、无需磨真金不怕火 reward 模子，仅通过冻结 VLM 的一次前向推理就能获取高质料 reward 的尺度。

论文：https://arxiv.org/abs/2604.12652

开源代码 & 模子权重：https://github.com/roooobotx/prompt_echo

中枢尺度：「PromptEcho」

一个直观：如若丹青对了，VLM 就能「复述」出 prompt

念念象一下：你把柄 prompt 画了一幅画，然后把画给一位一又友看，然后问他「请描摹这幅画」。如若画面诚笃地形色了「一只红色的猫站在蓝色的桌子上」，他八成率能准确复述出这些内容。VLM 亦然一样 —— 如若生成图像诚笃校服了 prompt，VLM 在看到图像后就能以很高的概率（似然）逐 token 复述出原始 prompt。或者说把 prompt 的内容「回响」（Echo）了回来，而这个复述的对数似然即是咱们要找的 reward。

反过来，如若画面中猫的神志搞错了，或者桌子不见了，VLM 复述出原始 prompt 的概率就会权贵下跌，reward 随之镌汰。

图 1：PromptEcho 经过。给定生成图像和指导 query，冻结 VLM 在 teacher-forcing 款式下打算原始 prompt 的 token 级交叉熵亏空，取负值动作 reward。

具体而言，PromptEcho 有三个输入：

然后，将图像和 query 输入冻结的 VLM，在 teacher-forcing 款式下（即不让模子解放生成，而是强制输入 prompt 的每个 token），打算 VLM 对原始 prompt 中每个 token 的预测概率。最终的 reward 即是：

一句话总结：reward = VLM 看到图像后，能多八成率「复述」出原始 prompt。

这个 reward 与 VLM 预磨真金不怕火的亏空函数十足一致，仅仅优化对象从 VLM 的模子权重酿成了文生图模子生成的图片。这种一致性恰是 PromptEcho 高效的原因，它复用了 VLM 在预磨真金不怕火中习得的图文对都学问。

为什么不径直让 VLM 打分？

一个当然的问题是：既然用的是冻结 VLM，为什么不径直输入 prompt 和图片让 VLM 推理图文一致性评分作念 reward？为了回话这个问题，参谋团队瞎想了一个对比尺度「InferScore」—— 使用合并个冻结 VLM，但让它以自追念式样生成对图文一致性的评分，动作 reward 信号。两者的区别在于：

InferScore：让 VLM 自追念生成龙套评分 → 受幻觉和采样赶紧性影响，reward 信号不褂讪；更要害的是，开云sports受限于龙套打分机制，关于现时起先进的文生图模子，VLM 频繁无法辞别合并 prompt 下不同种子生成的多张图片在 prompt following 进度上的眇小相反 —— 好多时期对系数图片都给出相易分数，导致 reward 信号确切失效

PromptEcho：通过预磨真金不怕火亏空函数打算通顺的对数似然值 → 笃定性、无采样噪声，自然具备细粒度辞别才调

后续执行将径直考据这少许 —— 雷同基于 Qwen3-VL-32B，PromptEcho 全面优于 InferScore。

执行

PromptEcho 在两个现时最前沿的开源文生图模子（Z-Image 和 QwenImage-2512）上进行了执行，使用 Qwen3-VL-32B 动作 reward VLM。

磨真金不怕火数据构建。参谋团队汇聚了约 10 万张高质料图片，使用 Qwen3-VL-32B 合作请示 "Describe this image in detail" 为每张图片生成约 200–400 词的详备描摹（dense caption），涵盖对象、属性、空间关系、神志、纹理等多维信息。这些 caption 组成了 RL 磨真金不怕火的 prompt 聚拢。

DenseAlignBench ：密集描摹场景下对前沿模子的大幅修订

参谋团队从同源数据中划出 2000 条不在磨真金不怕火连合的 caption，构建了 DenseAlignBench 测试集。该测试集与磨真金不怕火数据同源同踱步，用于径直考据 PromptEcho 的有用性。使用 Gemini-3-flash-preview 进行成对请示校服维度的 GSB 评估：

在密集描摹的场景下，PromptEcho 取得了对前沿模子的大幅修订。

公开 Benchmark：请示校服才调进步的泛化测试

需要强调的是，以下公开 benchmark 的测试 prompt 与磨真金不怕火数据在踱步上存在权贵相反 PromptEcho 莫得针对任何 benchmark 作念针对性磨真金不怕火，以下限度十足反馈请示校服才调的泛化进步：

PromptEcho 在系数公开 benchmark 上均取得了一致的进步，体现了其 reward 信号源自 VLM 海量预磨真金不怕火数据中的图文对都学问，具备跨踱步、跨架构的泛化才调。

Reward VLM 越大越好：Scaling 有用

为了考据 VLM 模子自身的质料对 PromptEcho 遵循的影响，参谋团队在 Z-Image 上分别使用 Qwen3-VL-32B 和 Qwen3-VL-8B 动作 reward VLM 进行了对比执行：

32B 在所策动键规划上向上 8B，标明 reward 质料随 VLM 界限增长。这意味着跟着开源 VLM 执续进化，PromptEcho 的遵循上限也会欺压提高。

PromptEcho vs InferScore

雷同使用 Qwen3-VL-32B，PromptEcho 和 InferScore 的对比：

InferScore 在 DenseAlignBench 上致使不如 baseline。这个考据了前边的论断：通过预磨真金不怕火亏空函数打算通顺对数似然值，远比让 VLM 自追念生成龙套评分更可靠。

笔墨渲染：通用性考据

PromptEcho 动作通用 Reward 范式

PromptEcho 的核神思制（VLM 交叉熵 reward）并不局限于文生图模子的请示校服优化。为了考据其通用性，参谋团队将其迁徙到了一个截然有异的任务：电商海报笔墨渲染。

迁徙过程中，PromptEcho 的中枢打算十足不变，仅需适配两个输入：

指导 query：从通用描摹（「Describe this image in detail」）改为结构化 OCR 识别 prompt—— 条目 VLM 识别图中系数瞎想 / 营销笔墨，并按语义变装分类为主标题、副标题、卖点案牍、其他笔墨

经过 PromptEcho 强化学习之后，在 5000 条测试样本上，海报生成模子全图笔墨正确率从 68% 进步到 75%（+7pp）。这施展 PromptEcho 是一种通用的 reward 构建范式 —— 只需更始指导 query 和标签局势，合并套机制就能适配不同的图像生成模子和优化方向，无需为每个新任务再行磨真金不怕火专用 reward 模子。

Case 展示

下图展示了一些本色的 case： QwenImage-2512（Baseline）与经过 PromptEcho 磨真金不怕火后的模子在合并 prompt 下的生成对比。QwenImage-2512 动作现时起先进的开源文生图模子，举座请示校服才调依然可以。可以看到，经过 PromptEcho 磨真金不怕火后，模子在画面细节、空间关系、对象计数等方面有了进一步的权贵修订。