open sora-2.0相关链接:
- arxiv链接
- huggingface页面
HunyuanVideo VAE
open sora2.0的VAE模型复用了HunyuanVideo的3D VAE,HunyuanVideo的arxiv链接。下图来自论文,可见VAE是一个因果注意力的3D结构。在配图左侧,视频会被编码为video token序列,而在配图右侧,去噪的video token会被解码为视频。
论文图6是hunyuan VAE的结构,可见视频序列在编码过程中,时空上的尺寸会减小,从而减少了序列长度。从《HunYuan-Video 代码解读之3D-VAE》可知:
- CausalConv3d是上采样、下采样的核心实现。
- Cau