扩散模型与强化学习(0):专栏汇总与导航
前言:最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。
目录
反馈数据收集
奖励模型
基模型反馈学习
超分RLHF框架
反馈数据收集
我们从训练数据集和在线用户中收集提示,并对提示进行数据平衡和信息过滤,以丢弃重复和模糊的提示。我们收集了用于人类偏好标注的高质量视频数据对,包括我们模型不同阶段生成的合成视频。实验结果表明,多源视觉材料的融入可以进一步提升RM模型的领域容量,扩大RM的偏好上界,增强泛化能力。我们在标注过程中采用了多维标注的方法,即在特定的标注维度下选择最好和最差的视频,同时保证最好的视频在其他维度上不劣于最差的视频。
奖励模型
为了全面提升模型性能,我们设计了一个复杂的奖励制度,包括三个专门的奖励模型:基础奖励模型,运动奖励模型和美学奖励模型。这些维度特定的奖励模型,加上视频定制的RLHF优化策略,可以在多个方面对模型能力进行综合改进,如图7所示。基础奖励模型侧重于增强基础模型能力,如图像-文本对齐和结构稳定性。我们采用视觉-语言模型作为这个奖励模型的架构。运动奖励模型有助于减轻视频伪影,同时增强运动幅度和生动性。考虑到视频美学主要来源于关键帧,受Seedream的启发,我们设计了基于图像空间输入的美学奖励模型,并将数据源修改为使用视频中的关键帧。
基模型反馈学习
奖励反馈学习已被广泛应用于现在的扩散模型中。在Seedance 1.0中,我们在训练过程中模拟视频推理管道,在奖励模型( Reward Model,RM )充分评估视频质量的情况下,直接预测x0 (生成干净的视频)。该优化策略直接最大化来自多个RM的复合奖励。针对DPO / PPO / GRPO的对比实验表明,我们的报酬最大化方法是最有效的方法,综合提高了文本-视频对齐、运动质量和美观性。此外,我们在扩散模型和RM之间进行多轮迭代学习。这种方法提高了RLHF过程的性能界限,并且更加稳定和可控
超分RLHF框架
如图8所示,我们还将RLHF应用在我们的扩散refiner上,它可以看作是一个基于扩散的条件生成模型。在训练过程中,低分辨率的VAE隐空间表示作为超分辨率模型的条件输入,而生成的高分辨率视频则由多个奖励模型进行评估。我们直接最大化这些奖励信号的线性组合。值得注意的是,我们的方法将RLHF直接应用于加速refiner模型,在保持计算效率的同时,有效地提高了低NFE场景下的运动质量和视觉保真度。