Stand-In 是一个轻量级、即插即用的身份保护视频生成框架,只需要上传一张人物照片,加上一段提示词,即可生成高度一致性的高保真人物视频,人脸相似度和自然都几乎达到100%还原水平。
Stand-In 能把任何一张人脸(甚至动漫角色、宠物)无缝“贴”到 AI 生成的视频里,只要你有一张图、一句话,Stand-In 就能把它变成会动的、长得像的视频。
Stand-In 支持保持身份的文本到视频生成,非人类主体保留视频生成,保持身份的风格化视频生成以及视频人脸交换和姿态引导视频生成(使用 VACE)等。
应用领域
人像定制短片:上传自拍,一句话生成“我在海边跳舞”的 5 秒视频。
虚拟主播/数字人:让 2D 动漫角色或 3D 形象开口说话。
影视级幻脸:把参考视频里的主角换成指定演员,省时省预算。
风格化创作:宫崎骏风、赛博朋克风……换了脸还能换画风。
非人类角色:猫狗、吉祥物也能当主角,保持原样“出镜”。
使用教程:(建议N卡,显存16G起。支持50系显卡)
下载压缩包和ComfyUI文件夹,解压后,将ComfyUI拷贝到ComfyUI_Stand-In目录下。
双击启动,点击左侧工作流(文件夹图标),选择Stand-In.json导入工作流,上传自己的人物图片,填写提示词,运行即可。
当前版本对显卡要求较高,只适合体验。但生成效果是真的好,有类似需求的可以先体验,等后有量化版本会第一时间更新。
实测RTX4080需要搭配共享显存,生成5s视频需要15分钟左右。RTX4090生成5s视频需要7分钟左右。
下面是我实测的效果以及官方示例
下载地址:点此下载