简介

VACE是阿里新开源的视频编辑/生成框架,号称能够执行任意的视频编辑/生成。总体而言,该模型在整体结构上并没有太大改变,仅仅是在原Wan2.1模型的基础上,加了一个接受mask和视频输入的controlnet而已。但是这篇文章认为,所有的图片编辑/生成任务,可以通过一个统一的框架完成。笔者认为,这种思想才是本文的价值所在。这里需要特别注意,VACE框架,在模型层面上,接受的输入有三个:文本prompt、视频、mask,且这三者均是必需的。

模型结构

我们先来大致看一眼模型结构:
在这里插入图片描述

改图直接从原始论文中截取,左侧的灰色方块表示了采用的transformer结构,其中a只是例子。实际上采用的是b,文章中将其描述为上下文适配器微调。实际上就是一个controlnet的结构。右侧的黄色块则表示了该controlnet结构,或者说上下文适配器,的输入输出:

输入:

  1. reactive frame(反应帧,需要修改的像素)
  2. inactivate frame (非活动帧,不需要修改的像素)
  3. mask

可以看到前两者是相反的概念,只需要原始视频和mask即可得到。实际调用的时候也是只需要输入原始视频和mask。

输出:

上下文编码

输出很简单,就是上下文编码,实际上就是把该模块的所有输入编码到了一起。

其余流程与正常的视频生成模型的流程一致,此处不再展开。

统一的视频编辑/生成架构

文章认为,所有的视频编辑/生成任务都可以归类于以下4种任务或其组合:

  1. t2v 文本到视频
  2. r2v 参考到视频,即给定参考图,根据参考图生成视频,参考图可以是背景也可以是前景
  3. v2v 视频到视频,例如黑白视频上色,风格迁移等
  4. mv2v(mask video to video)局部编辑,例如框选出视频中的猫,将其换成狗

其他任务,如根据参考图进行局部编辑,可以视作是r2v和mv2v这两种基本任务的组合。

也就是说,仅需要用一个框架定义好以上4种任务如何执行,便可以实现任意视频生成/编辑任务。

那么,这个框架需要如何定义呢?作者给出了如下表格:
在这里插入图片描述

此处对该表格做个简单的介绍,但是在此之前请记住VACE框架,在模型层面上,接受的输入有三个:文本prompt、视频、mask,且这三者均是必需的。

  • 如果是t2v,文生视频任务,那么只需要将原始视频全部初始化为0,并将mask设为全白(即每一帧都需要完全重画)
  • 如果是r2v,参考到视频任务,那么只需要把参考图拼在0初始化的视频开头,mask设置为参考图所在的那几帧全黑(完全不重画),后续的所有帧全白(全部重画)
  • 如果是v2v,视频到视频,那就直接输入参考视频,然后将mask设置为全白(每一帧都要重画)
  • 如果是mv2v,只需要在v2v的基础上,将全白的mask修改为正常的mask即可

那么,其他任务怎么通过这些任务的组合来完成呢?就拿前面提到的根据参考图进行局部编辑为例,只需要把参考图拼在视频开头,然后原本的mask视频前面拼接上几个全黑的帧即可。

性能评价

文中规定的这几个任务表现还不错,但是组合起来之后可能需要一定程度上的微调。如果是根据参考图进行局部编辑,模型对参考图的跟随能力比较弱。

速度请参考官方文档,我个人认为1.3B的速度还是相当快的,内存占用也不算高。

视频长度方面,模型默认处理81帧,不过笔者目前将其拓展为153帧,看起来质量没有明显下滑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86777.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86777.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/86777.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于 opencv+yolov8+easyocr的车牌追踪识别

(本项目所有代码打包至我的资源中,大家可在我的文章底部选择下载) 目录 需求 实现效果 学习视频 大致思路 代码实现 资源下载 需求 通过车辆识别技术,识别视频中每个车辆及其车牌号,车辆应进行追踪,避免重复…

sqlserver函数与过程(二)

过程 SQLserver 过程是具有特定功能,可多次对数据表操作的独立模块。返回值通常用return 返回整数 0,1…。(可选)也可通过output 参数或select 语句返回结果集。 1.过程的定义 本过程定义了一个过程,输入一个动态SQL语句&#…

OpenCV学习3

1、创建图像窗口滑动条 OpenCV 4中通过createTrackbar()函数在显示图像的窗口上创建滑动条。 int cv::createTrackbar(const String &trackbarname,const String &winname, int *value, int count, TrackbarCallback onChange 0, void *us…

SRS流媒体服务器之本地测试rtc推流bug

SRS环境版本 commit 44f0c36b61bc7c3a1d51cb60be0ec184c840f09d Author: winlin <winlinvip.126.com> Date: Wed Aug 2 10:34:41 2023 0800 Release v4.0-r5, 4.0 release5, v4.0.271, 145574 lines. bug1: 无法推流 WebRTC推流必须是HTTPS或者localhost&#xff1a;Ht…

物理服务器是指的什么?作用有哪些?-哈尔滨云前沿

物理服务器是一种基于传统硬件架构构建的服务器&#xff0c;物理服务器是具有处理器、硬盘和网络接口等硬件组件的独立服务器&#xff0c;可以用于托管和存储数据服务&#xff0c;&#xff0c;是计算机网络的核心组件之一&#xff0c;本文就来详细了解一下物理服务器。 物理服务…

Lua现学现卖

一、Lua的变量类型 全局变量&#xff1a;MyVar 局部变量&#xff1a;local MyVar 二、Lua的数据类型 1.nil&#xff1a;一个空值 类似C的nullptr 2.Boolean&#xff1a;true/false 类似C的bool 3.string&#xff1a;字符串 类似C的std::string 4.Number&#xff1a;数字 类似C…

(24)如何在 Qt 里创建 c++ 类,以前已经学习过如何在 Qt 里引入资源图片文件。以及如何为继承于 Qt已有类的自定义类重新实现虚函数

&#xff08;1&#xff09; 如何在Qt里创建 c 类 &#xff1a; 效果图如下 &#xff1a; &#xff08;2&#xff09;开始完善自定义类里面的成员函数 &#xff1a; 接着 &#xff1a; 以及 &#xff1a; 接着重新实现这些继承来的虚函数就可以了。 &#xff08;3&#xff09…

怎样优化HDFS的网络传输

优化HDFS&#xff08;Hadoop Distributed File System&#xff09;的网络传输可以从多个方面入手&#xff0c;以下是一些常见的优化策略&#xff1a; 1. 网络硬件升级 增加带宽&#xff1a;使用更高带宽的网络设备&#xff0c;如10Gbps或更高速度的交换机和网卡。减少延迟&am…

深入探索 Pdfium.Net:在 .NET 中处理和渲染 PDF 文件

在现代软件开发中&#xff0c;PDF 文件的处理变得愈加重要&#xff0c;尤其是在文档管理、报表生成和在线内容展示等领域。为了高效地处理和渲染 PDF 文件&#xff0c;开发者通常会选择一些强大的 PDF 处理库。而 Pdfium.Net&#xff0c;作为 PDFium 库的 .NET 封装&#xff0c…

当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述

作者&#xff1a;Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee 单位&#xff1a;康奈尔大学生物与环境工程系&#xff0c;希腊伯罗奔尼撒大学信息与电信系 论文标题&#xff1a;UAVs Meet Agentic AI: A Multidomain Survey of Autonomous Aerial Intelligenc…

从 0 到 1 玩转 React:打造你的趣味美食相册

想象一下&#xff0c;你想制作一个超酷的 “美食相册” 网页&#xff0c;能展示各种美食图片&#xff0c;还能随时切换查看不同美食。这听起来是不是很有趣&#xff1f;别担心&#xff0c;React 能帮你轻松实现&#xff01;作为前端开发领域最受欢迎的库之一&#xff0c;React …

深入浅出:RocketMQ与Kafka的双剑合璧,实现高可用与高吞吐

本文在创作过程中借助 AI 工具辅助资料整理与内容优化。图片来源网络。 文章目录 引言一、RocketMQ与Kafka的江湖地位1.1 RocketMQ的独门绝技1.2 Kafka的凌厉攻势 二、双剑合璧的策略&#xff1a;双写队列2.1 策略概述2.2 代码实现 三、双剑合璧的实战应用3.1 电商订单处理3.2 …

Apache POI-02.入门案例-通过POI向Excel文件写入文件内容-通过POI读取Excel文件内容

一.入门案例 向excel文件中写入并读出 package com.sky.test;import org.apache.poi.xssf.usermodel.XSSFCell; import org.apache.poi.xssf.usermodel.XSSFRow; import org.apache.poi.xssf.usermodel.XSSFSheet; import org.apache.poi.xssf.usermodel.XSSFWorkbook; impor…

MongoDB06 - MongoDB 地理空间

MongoDB06 - MongoDB 地理空间 文章目录 MongoDB06 - MongoDB 地理空间一&#xff1a;地理空间数据基础1&#xff1a;地理数据表示方式1.1&#xff1a;GeoJSON 格式1.2&#xff1a;传统坐标对 2&#xff1a;地理空间索引2.1&#xff1a;2dsphere 索引2.2&#xff1a;2d索引2.3&…

Bugku——WEB篇(持续更新ing)

目录 一、滑稽 二、计算器 方法一 方法二 三、alert 四、你必须让他停下 五、头等舱 六、GET 七、POST 方法一 方法二 八、source 九、矛盾 十、备份是个好习惯 一、滑稽 1.启动环境后&#xff0c;访问URL&#xff0c;页面出现了一堆滑稽表情 2.按f12(或fnf12)打…

Linux 网络命名空间的奥秘:深入解析struct net与内核模块编译陷阱

引言:网络隔离的基石 在Linux容器化技术(如Docker)和云计算网络中,网络命名空间是实现网络隔离的核心机制。每个隔离的网络环境都由一个关键的内核数据结构描述——struct net。这个结构体不仅是网络隔离的技术基础,也是内核开发者常遇到的编译陷阱源头。 一、解剖网络命…

idea的EasyCode插件连接瀚高数据库(APP)

文章目录 环境症状问题原因解决方案 环境 系统平台&#xff1a;Linux x86-64 Red Hat Enterprise Linux 7 版本&#xff1a;5.6.5 症状 客户在idea工具中使用EasyCode插件连接瀚高数据库的企业版时&#xff0c;连接设置的url中提示“jdbc:highgo不存在”的错误 问题原因 E…

VMware设置虚拟机为固定IP

1. 修改虚拟网络编辑器 打开虚拟机网络“编辑” 点击“VMnet8” 选择“NAT”模式 修改网关&#xff1a;前面的不要修改&#xff0c;最后一位设置为“1”&#xff0c;然后确定 记住这里的网关&#xff0c;后面的配置要保持一致 设置子网IP和子网掩码&#xff1a;一般就…

智核引擎融合生成式AI,重塑企业知识图谱与研发创新范式!

目录 系统架构设计核心实现步骤步骤1&#xff1a;知识图谱构建与数据预处理步骤2&#xff1a;生成式AI与知识图谱融合&#xff08;RAG增强&#xff09;步骤3&#xff1a;智能推理工作流 核心流程可视化企业级部署方案性能优化策略应用场景示例结语 本文将手把手实现企业级知识图…

LogisticRegression(solver = ‘lbfgs‘)的ConvergenceWarning问题解决

&#x1f466;&#x1f466;一个帅气的boy&#xff0c;你可以叫我Love And Program &#x1f5b1; ⌨个人主页&#xff1a;Love And Program的个人主页 &#x1f496;&#x1f496;如果对你有帮助的话希望三连&#x1f4a8;&#x1f4a8;支持一下博主 LogisticRegression的Co…