363050.com

188金宝博官方网站- 188金宝博APPSFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

  188金宝博,金宝博,188金宝博体育,188金宝博官方网站,188金宝博app下载,金宝博体育,金宝博网站,金宝博链接,188金宝博网址,188金宝博黑款,金宝博入口,金宝博登录,体育投注,足球投注

188金宝博官方网站- 188金宝博APPSFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

  近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。然而,在图像生成模型中,这种成功经验尚未得到充分探索。图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。

  近期,上海科技大学、微软亚洲研究院和复旦大学提出了 ReasonGen-R1 框架,一个两阶段训练框架,将链式推理监督微调(Supervised Fine-tuning)与强化学习(Reinforcement Learning)相结合,以提升自回归图像生成模型的推理和创作能力。ReasonGen-R1 使得自回归图像生成模型可以端到端地在输出图片之前先进行文本「思考」,大幅提升了基座模型的语义遵循能力,并在多个语义指标上取得突破。

  目前,ReasonGen-R1 已全面开源(包括训练、评测代码,训练数据以及模型)。

  ReasonGen-R1 的训练包括两个核心阶段:监督微调阶段(SFT)以及强化学习阶段(RL)。

  监督微调阶段首先构建了一个大规模图片生成推理数据集,共包含 20 万条图像-文本对。该数据集基于 LAION 美学子集,利用 GPT-4.1 根据图片自动生成两类描述:一是多样化的简洁图片描述(包括常规叙述、基于标签和以物体为中心的叙述),二是丰富的推理式 CoT(chain-of-thought)叙述。多风格的简洁图片描述设计有效避免了模型在 SFT 阶段对单一 prompt 模式的过拟合。

  图1. ReasonGen-R1 模型架构概览。ReasonGen-R1通过监督微调(SFT)以及强化学习(RL)使得模型可以先进行链式推理,再生成最终图片。

  强化学习阶段通过 Group Relative Policy Optimization(GRPO)进一步优化模型输出。为了有效评价生成输出图像的质量和输入文本-输出图像的一致性,ReasonGen-R1 采用了预训练视觉语言模型 Qwen-2.5-VL-7B 作为奖励模型,让其对于每个输出图片,根据图片以及输入文本是否一致,给出 0、1 奖励。

  此外,为确保训练稳定性,ReasonGen-R1 提出了一种改进的自适应熵损失函数,该损失函数能够将输出 token 的熵动态调节到目标熵附近,有效防止了在文本图像混合强化训练过程中训练不稳定导致模式崩塌的问题。

  如图 4 所示,ReasonGen-R1 在所有指标上都较基座模型有了显著的提升。这些结果表明,将文本推理通过 SFT-RL 的框架应用于图片生成,能够显著提升自回归图像生成模型的性能。

  图4. 左图:基座模型Janus-Pro-7B和ReasonGen-R1生成图像可视化比较;右图:三个指令遵循指标上的表现比较。ReasonGen-R1在所有指标上均超过了基座模型,体现了指令遵循能力的巨大提升。

  为深入探讨 ReasonGen-R1 各个模块的贡献,研究还进行了以下消融实验:

  SFT 阶段的作用:为了测试 SFT 阶段对于模型最终性能的影响,ReasonGen-R1 对比了直接强化学习的结果。如表 1 所示,仅使用强化学习(RL)而未进行监督微调(SFT)时,模型表现显著下降,证明了 SFT 阶段对模型后续强化学习阶段的重要性。

  奖励模型规模影响:实验还对比了不同大小的奖励模型。如表 1 所示,较小规模的奖励模型(Qwen-2.5-VL-3B)无法提供足够精准的反馈信号,严重影响强化学习阶段的表现。因此,选择高精度、大规模的奖励模型至关重要。

  自适应熵损失函数的稳定作用:如图 6 所示,在没有熵损失的情况下,模型在经过 100 步的训练后会出现熵爆炸,同时 Reward 开始缓慢下降。另一方面,施加固定熵惩罚(–0.002)会使熵持续下降,并在第 80 步时过低,进而引发图片生成模式崩塌和奖励急剧下滑。这些现象凸显了在交错文本与图像的 RL 训练中,对于熵损失正则化设置的敏感性。相比之下,采用 ReasonGen-R1 提出的自适应熵损失能够将熵保持在最佳范围内,确保训练过程的稳定性以及奖励的稳定增长。

  图7. 1000次CoT输出中的单词频率。只有出现频率高于20%的单词被展示。出现频率最高的三个’a, an, the’被移除以关注保护更多信息的词语

  图 7 展示了 ReasonGen-R1 推理链的模式。首先,它通过「感知」(sense)、「场景」(scene)和「自然」(natural)等高频词(在超过 140% 的 CoT 中出现)来奠定总体框架,强调整体语境和真实场景。接着,它细化视觉风格:诸如「柔和」(soft)、「高光」(highlights)、「氛围」(mood)和「流畅」(sleek)等词汇(均在超过 100% 的 CoT 中出现)用以描述光照质量、情感基调和质感。

  更关键的是,「突出」(highlighting)和「强调」(emphasizing)这两个词各自在至少 70% 的 CoT 中出现,表明模型有意识地聚焦于主要主体。这揭示出 ReasonGen-R1 不仅仅是在描述物体,而是在主动规划构图焦点。

  除了核心词汇外,ReasonGen-R1 还运用了大量修饰词——「背景」(background)用于建立环境氛围;「特征」(features)用于突出显著视觉元素;「宁静」(calm)用于渲染平和氛围;「瞬间」(moments)用于传达时间抓拍感;「捕捉」(captured)用于强调摄影真实感;等等——以在每条推理序列中注入细腻的、情境化的细节。

  总体而言,ReasonGen-R1 的推理链通过场景框架、风格细节、主体聚焦和细节修饰等要素,有效地引导了图像生成过程。

  06月13日,延榆高铁全线首座隧道开工建设,云顶娱乐网站下载官网,银河国际提现,全球最准确的足球预测软件,注册领取38体验金的平台

  06月13日,两会受权发布丨中国人民政治协商会议第十四届全国委员会第二次会议关于常务委员会工作报告的决议,凯时国际娱乐网,360街机三国,pg电子麻将胡了口诀,BOB在线周年暨中法文化旅游年开幕音乐会举办,maya玛雅论坛,韦德体育官网是多少,18luck新利官网利app,欧宝娱乐下载官网

  06月13日“村播”火了,中国直播电商走向田间地头(专家解读)天博官网入口真钱网赌推荐游戏pg电子模拟器免费苹果德州app哪个最好

  06月13日135846.27万人次!五一假期全社会跨区域人员流动量出炉金沙电子下载新宝5网址中欧官网体育皇冠手机登录

  06月13日与反的较量!这些“防神器”靠谱吗?kaiyun·体育亚美体育网页版下载AG两个平台开牌有时间差大赢家体育官网下载……

  06月13日,江苏省政协委员建议:深化苏台产业链供应链融合发展,体育万博官网首页,必威登陆界面在哪里,手机棋牌app,巴黎人在线日甘肃每年向全国各地送电超过520亿千瓦时,近一半是新能源威廉希尔在线投注官网AG真人投注登录新宝gg体育外围多宝体育官网

  06月13日,中外诗人角逐“放翁杯” 致敬爱国诗人陆游诞辰899周年,太阳app免费下载官方网站,BOB官网APP,澳门威斯尼斯人73739,三和皇冠

  06月13日,回应防长“脱岗”事件 拜登称奥斯汀“判断失误”,体育反水最高,必赢亚洲体验官网,皇都真人国际注册,mg线日,【香港漫游记】在香港中环与冰河巨兽邂逅,澳门葡京游戏电子,泰好博,世界杯足球官网,凯时k66网址

  06月13日张家界口岸2024年出入境客流量突破30万人次德扑圈最新版本下载lol比赛赌博在哪网上在线日绿水青山,美丽画卷徐徐铺展(大国之治)球盟会888十大外围乐鱼体育主页官网澳门体育平台

  06月13日广东将流动儿童关爱保护工作纳入经济社会发展规划千赢国际官网首页亚博im真人游戏龙源国际kok登陆官网

  红天鹅,女子突发晕厥14岁少年挺身而出香港“新资本投资者入境计划”接获申请逾250宗九卅娱乐网网信彩票平台登录网站澳博体育快速注册yabo22vip怎么注册

  星星之火,程序员花三万相亲每次聊完即结束雨水主导浙江假期下半场 强对流天气或影响返程韦德体育在线买球MG电子娱乐官网万博官网登录页面进不去澳门皇冠直的信赖

  不孕女子喜获3胞胎同卵异卵同出现,最后一舞!曝老滚6采用星空同引擎新经济增速强劲 浙江2023年新设个体工商户迎新高利发网站火狐体育足球appim体育娱乐官网im电竞外围官网

  青春环游记 第五季,多国股市延长交易时间为哪般?广西龙胜:载歌载舞欢度侗年手机体彩怎么买足球一起玩捕鱼官方正版龙8国际在哪玩亚美体育官方网

  女子直播间相亲遇主播频繁索要礼物,王多多预测WBG进决赛老郑州新青年 郑州商城遗址“五一”假期有点潮英亚体育下载地址188比分直播开户AG视讯试玩华体会登录界面

  休假军人勇救失火车辆人员,海洋之恋《洛神赋图》“闪现”辽宁省博物馆电子游艺平台大全manbet主页永乐国际ag旗舰厅手机客户端捕鱼大师欢乐版ios版

Copyright © 2012-2025 188金宝博公司 版权所有 非商用版本