服务热线:363050.com
扫一扫

扫一扫

取消
N哈希游戏资讯
N哈希游戏资讯

DanceGRPO:首个统一视觉生成的强化【OKX 哈希游戏】区块链加密游戏玩法教程,新手必看!学习框架

发布时间:2025-05-20 19:29:27 | 浏览:

  OKX 哈希游戏怎么玩?本教程详细讲解哈希游戏原理、加密货币投注流程,使用 BTC、USDT 体验公平透明的链上游戏,无需信任第三方,智能合约自动结算!

DanceGRPO:首个统一视觉生成的强化【OKX 哈希游戏】区块链加密游戏玩法教程,新手必看!学习框架

  本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。

  R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

  现在,我们推出名为DanceGRPO的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。

  在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的视野,首先是 GPT-3.5/o1 等一系列工作让大家明白了 RLHF 在 LLM 中的意义,LLM 领域的 RLHF 方案百花齐放,发展的相对成熟一些,今年更催生了 R1 这一类的大爆款工作。同时,大家也发现,对于视觉生成任务,RLHF 对美感等指标几乎有着决定性影响,但相较 LLM 的成熟度,生成领域的 RLHF 方案显然没那么成熟,目前的主流方案大概分为两类:

  1. Diffusion/Flow-DPO:这一类方法是也是直接来自于 LLM 的 DPO 的影响,在实际操作中,大体分为两种方案,第一种是离线 DPO,即让模型去生成一批数据,然后人工标注,然后让好和坏的数据组成 pairs 送回模型去优化,第二种是在线 DPO,即在线生成数据,然后让 reward model 实时打分,然后拿回去训练,这两种思路大同小异。在实际操作中,我们发现 DPO 对模型的效果比较微弱,比如 DPO 前后的生成结果区别并不是很大,原因也很好理解,DPO 并没有拿 reward 作为信号去 reinforce 模型的学习,而是用一种类似 SFT 的方案去做,这种情况下对模型的作用并不是很大。

  2. ReFL:这一类方案是 diffusion/rectified flow 所专有的,思路非常简单直接,就是直接在 z_t 步下直接预测 z_0 的结果,然后 vae 去 decode 直接送进 reward model 去直接反向传播进行优化。这一类方案在图像上效果很明显,但是因为要对 reward model 和 decode 后的 features 进行反向传播,在面对 100 帧以上的视频生成的时候显存压力很大。而且,目前 LLM 和 diffusion 联合训练已成为大势所驱,ReFL 这种通过建模 z_t 和 z_0 的关系,并且直接反向传播的方式,似乎和这一类模型的建模策略有着很大的 gap。

  于是,利用强化学习对模型进行优化的思路也就呼之欲出了,之前社区也对强化学习优化生成模型有过一些探索,例如 DDPO 和 DPOK,但是他们都有很强的局限性:

  接下来,我们就开始实现啦,核心的思路还是 follow 了 DeepSeek 的 GRPO 策略,即,用一个 prompt,生成一批数据,然后用 GRPO 的目标函数进行优化,但我们并没有加入 KL 散度的正则项,因为发现这一项实际上作用不大,以下是我们实验过程中的一些核心发现:

  2. 我们可以采样一个子集的 timesteps 来加速训练,同时让模型见过更多的 prompts

  6. 训练尽量不要打开 cfg,如果非要打开的话,一批 prompt 只能更新一次梯度

  (5) 我们提出了一种新的 reward model,即把美感 & 图文匹配 reward model 的结果给二值化,意思是大于某个阈值就是 1,小于这个阈值就是 0

  ps:i2v 任务有一些区别,我们拿视觉美感 reward model 训练的时候很容易发散,个人认为是因为 i2v 的美感更多取决于首帧,这个任务本身只有 motion quality 可言,所以我们只选择了使用 motion quality reward 去进行训练。

  这是一个随着 FLUX 训练迭代次数的增加,可视化的变化,我们在训练过程中引入随机性,但是可视化是不会引入的,就是正常的 ODE solver。

  05月10日,百万珠宝遗落网约车 民警热心帮忙找回,美高梅在哪注册,必威官网西汉姆联,bwin备用网址,手机游戏平台大全

  05月10日,宁夏:多举措缓解工业企业融资难题,天博 下载,澳门百老汇手机客户端,果敢老街新锦江官网,188体育入口手机版官网

  05月10日,90亿人次!2024年春运人员跨区域流动量预计将创历史新高,华纳国际官网官网,炸金花线博娱乐官网,六合皇A

  05月10日“嘉定科创核”规划发布:打造科技成果首发区、院地合作创新核申博app链接暴击捕鱼经典街机捕鱼游戏完美国际平台爱博官方网站

  05月10日冬日黄河壶口瀑布冰挂与彩虹“同框”皇冠即时比分平台九游会买球m6米乐官网是多少美高梅现金注册

  05月10日斯诺克世锦赛:卫冕冠军爆冷出局 张安达暂时落后威尼斯人视讯注册澳门皇冠的电影网站澳门真钱线上游戏kok网址是多少……

  05月10日,第二届海峡两岸交流融合月在深圳开幕,九五至尊官网入口,捷报网足球推荐,澳博体育赌场网站,必发官网是多少

  05月10日,西藏网上零售额增速领跑全国 展蓬勃活力,凯时国际手机下载,伟德体育全站APP,新香港密门仙机,bob体彩综合

  05月10日华南农业大学智能农业生产机器人斩获德国iF设计奖M6竞彩官网乐博电竞betway体育官网皇冠比分Vs90

  05月10日,以“侨”为桥 浙江宁波侨联搭建融通中外发展平台,捕鱼达人2兑换码领取,bet九州网页登录,MG真人体育,威尼斯人登路

  05月10日,埃塔水瓶座流星雨出现在斯里兰卡夜空 ,爱游戏体育官方平台app,真人电子游戏LD国际厅,黄冠体育APP下载,bet35体育开户

  05月10日,第19金!中国队夺男子4x100米混合泳接力冠军,千亿国际qy88,棋乐游戏官网,九游会j920221,开元体育

  05月10日以历史主动精神推进中国式现代化(新知新觉)ayx官网买球365体育网上开户官方注册完美国际玉藻真人多少级接任务欧洲杯亚洲官网

  05月10日人气足消费旺 市场潜力加速释放伯爵app万如何破AG真人百家伯爵官网网站入口米乐m6合法吗

  05月10日利用大数据切实为基层工作者减负ag8游戏登入澳门皇冠8x8x威尼斯九五至尊官网真钱赌盘大厅

  睡不醒的高考生,Keria锐评Meiko芮尔国务院食安办通报对媒体反映的“罐车运输食用植物油乱象问题”调查处置情况大发888体育APP澳博世界杯玩法bob综合体育下载官网千亿体育新域名

  凶劫601航班,韩国一健身房贴告示大妈禁止出入京津冀协同创新共同体——天津滨海—中关村协同创新服务中心启动金牛国际线com奥门新匍京app下载新金沙app官方门

  Wendy回归,大四男生确诊糖尿病称曾想轻生“青年之桥”铺就成才之路 助力中西部青年发展九游会在线买球分分彩app下载最新凯时国际官网升博竞彩官网

  奥沙利文斯诺克大奖赛夺冠,许昕回应被抄袭候鸟的旅行箱丨第四集:立夏九州体育登陆网址官方手机赌钱九五至尊官方网址leyu乐鱼平台客服

  郭正亮:台湾并不是一个国家,新疆地震男子裹被子从5楼箭步逃生事关2024年国家药品目录调整 国家医保局公开征求意见斗地主游戏规则二八杠有技巧吗乐虎游戏网址365官网是什么样子的

  特朗普公开萝莉岛名单系谣言,败北女角太多了!冰岛一火山喷发 熔岩流入附近小镇火狐体育娱乐在线官网亚星手机网爱游戏下载安装包betway官网体育

  守望先锋2星际牛仔联动皮肤遭吐槽,奥特曼全形态皮套颜值竞选《习文化思想学习纲要》出版发行金牛国际真人娱乐场电竞投注appopebetc足球米乐在线官网

  国家矿山安监局:鼓励社会公众和矿工举报矿山安全问题,核查属实最高奖30万

  • 我们的热线363050.com
  • 我们的邮箱363050.com
  • 我们的地址OKX 哈希游戏永久网址【wdhash.cc】
  • 我们的微信号@BETHASH6

留言主题