1.0: (adaptive clasisfier guidance,input 输入一个没cam的branch;提高triplane分辨率)

  • 总结:
    • 大规模再train zero123++,但角度设置不同;adaptive clasisfier guidance(front view和早期,使用更大的CFG)
    • 对input img再加一个cam embeddings全0的branch来融入其特征
    • 用了一种线性复杂度的方法来提高triplane的分辨率(avoid self attention on higher-resolution triplane tokens)
    • (text就是先从text生成img,然后都走img to 3D)
  • intro
    • 还是multiview diffusion + LRM的路线。
    • address的问题:
      • multiview inconsistency,
      • 依赖已知的pose或view
  • Method:
    • Multiview Diffusion:
      • 基本情况:Zero123++ 扩大规模 & 更改角度设置
        • 还是基于Zero123++再训练
          • 注意Zerro123++和InstantMesh的角度是(ele是absolute的)
            [图片]
          • 有侧面,没正面。
        • 扩大:larger parameters, larger dataset
        • 角度:Ele: 0; azimuth: 0,60,120,180,240,300
          • 有正面,没侧面。
          • 说这个ele 0, 可以最大化view中的visible area。emm。放弃上下视角?
        • 分辨率:lite还是320*320, standard进一步扩大到512了。
      • Adaptive Classifier-free guidance (front view和早期,使用更大的CFG)
        • 发现:CFG越大,几何更好但texture不行;正面越高保真但背面越暗
        • 因此:front view和早期,使用更大的CFG
    • Sparse-View Reconstruction (LRM part)
      • Hybrid inputs: 同时使用input img和生成的multiview imgs(其实对于relative角度的方法并不存在此问题)
        • 对input img,专门搞个 角度未知 的branch来融入其信息。(就是camera embedding全设为0)
      • SR
        • 用了一种线性复杂度的方法来提高triplane的分辨率(avoid self attention on higher-resolution triplane tokens)
        • 起初是64641024,(用一个线性层把11 给上采样为44),得到256256120
      • 3D Rep:SDF + MC + UV unwrapping(是否稍显原始了啊??Instantmesh
        已经上flexicubes了啊)

2.0: 几何Hunyuan3D-DiT + 纹理Hunyuan 3D-Paint (albedo)

  • Hunyuan3D- DiT: 一个正常的image-conditioned DiT(Denoising Transformer),latent的。这个latent是用点云来训练的。(用到Uniform和Importance sampled points)mesh表征是SDF + Marching Cubes.
  • Hunyuan3D-Paint: 输入的是img(delighting)和multiview normal 和 multiview position;然后对输出进行SR
    • Double-stream Image Conditioning Reference-Net:
      • 第一个stream是 直接使用VAE的feature,设其time step为0
      • 第二个stream是冻结SD的weights。
    • Texture Baking (怎么把multiview imgs变为3Dmesh的texture?)
      • Dense-view inference:听上去好像是,train的时候每次从44个pre-set view中随机选择6个来输出并train,这样inference的时候,这44个view就都能生成
      • 对输出的multiview imgs逐个进行super resolution
      • Texture inpainting: (邻居扩散,weighted sum)没有对应颜色的UV空间的像素点(texel),用他对应的有颜色的3D点的邻居点的weighted sum来填色。
  • Preprocessing:
    • Image Delighting: 大规模数据集下全监督学习train的。
    • View Selection:
      • 计算每个视角的信息增益,贪婪选择(先固定前后左右,然后选尽可能涵盖更多unseen regions的))

2.1 Paint时增加了material的支持(PBR(Physically-Based Rendering))

  • 这个material似乎是metallic和roughness这两项。(所以就是gen的时候不止gen albedo,还gen他俩)

2.5 new shape generator LATTICE

geometry 变精致多了:
在这里插入图片描述

  • Detailed Shape Generation: LATTICE
    • 一个diffusion model,输入是single or 4 view images
    • 核心点:
      • scaling up
      • 还用了guidance and step distillation 来减少inference时间
  • Texture
    • extend 2.1

    • inherit 3D-aware RoPE to enhance cross-view consistency

    • multi(dual)- channel attention mechanism to ensure sptial alignment

      • 无论albedo还是MR,都用albedo的attention mask

PolyGen:布线(重拓扑)工具

没有开源,没有technical report。
可以参考官方的这篇文章:
https://mp.weixin.qq.com/s/l12y2IPExhvz2fvUJPm-tw

和量子位的这篇文章:
https://baijiahao.baidu.com/s?id=1837134756242570771&wfr=spider&for=pc

跟想象的一样,是MeshGPT这一脉的

Contributions:

  • 自研高压缩率表征BPT
    • 一个面不再需要三个顶点xyz一共9个token了。平均2.3个token每个triangle,比EdgeRunner的四五个更少==(这样可以支持更复杂(多面)的mesh了!)==
  • 强化学习后训练==(稳定生成和美术规范奖励)==

Hunyuan World 1.0

概述

  • 输入single image 或text prompt
  • 输出一个场景的mesh,是分层的(前景物体,地形,天空)
  • 方法:三步走
    • 先生成全景图
    • 用一个视觉LLM来把全景图解耦成前景物体,地形,天空(得到这三者分别的图像)
    • 对他们三个进行深度估计并对其;再重建出mesh
      在这里插入图片描述

全景图生成

world reconstruction

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/94842.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/94842.shtml
英文地址,请注明出处:http://en.pswp.cn/web/94842.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解文本向量嵌入(Vector Embeddings):原理、实践与应用场景

深入理解文本向量嵌入(Vector Embeddings):原理、实践与应用场景 1. 什么是向量嵌入? 文本向量嵌入(Vector Embedding)是一种将文本转化为数值向量的技术,使得字符串之间的关联性可以通过数值…

微论-神经网络中记忆的演变

从微突触到宏认知:论神经网络中记忆的生成、固化与演化人脑的智能,并非源于单个神经元的孤立活动,而是诞生于由万亿突触连接所构成的庞大而复杂的网络动态之中。在这个网络中,连接权重的强度分布——即强的约束与弱的变数——共同…

机器视觉学习-day07-图像镜像旋转

图像的镜像旋转分为三种,分别使用filpcode的参数表示:flipcode0,垂直翻转(x轴为中线) 垂直翻转可以把src沿着x轴翻转,坐标从(x,y)翻转为(x,-y)。flipcode>0,水平翻转&…

Python备份实战专栏第2/6篇:30分钟搭建企业级API认证系统,安全性吊打90%的方案

30分钟搭建企业级API认证系统,安全性吊打90%的方案 专栏导语:《从零到一:构建企业级Python Web自动化备份系统实战指南》第2篇 作者简介:madechango架构师,负责设计零安全事故的API认证系统,拦截100%非法请…

第6篇:链路追踪系统 - 分布式环境下的请求跟踪

项目地址:https://github.com/nemoob/atlas-log 开箱即用。前言 在微服务架构中,一个用户请求往往会经过多个服务的协作处理。本章将实现一个轻量级的链路追踪系统,让日志具备分布式追踪能力。 分布式链路追踪基础概念 链路追踪的核心价值 #m…

ubuntu25.04编译最新版本qgroundcontrol

编译系统版本: 编译器版本: 编译成功效果

如何在 Docker 和AKS上使用 IIS

前言 在我们的一个客户项目中,我们有一个混合 Swarm 集群,其中包含 Linux 和 Windows 节点。在 Windows 节点上,我们运行了许多 IIS 容器,这些容器运行着多个 Web 应用程序。在这篇博文中,我想向您展示在 Docker 容器中将网站部署到 IIS 上是多么简单。 Internet 信息服…

uniapp 页面favicon.ico文件不存在提示404问题解决

1. uniapp 页面favicon.ico文件不存在提示404问题解决 1.1. 场景 在uniapp中经常出现的&#xff0c;因为找不到 favicon.ico 而报404错误的问题。 GET http://localhost:5174/favicon.ico 404 (Not Found)1.2. 问题原因 在document.ejs中使用link标签相对路径引入文件。 <…

Magicodes.IE.Pdf 生成导出PDF文件 bytes Stream FileStreamResult 下载

1、ExporterAttribute&#xff1a;导出特性 Name&#xff1a;名称 HeaderFontSize&#xff1a;头部字体大小 FontSize&#xff1a;正文字体大小 MaxRowNumberOnASheet&#xff1a;一个Sheet最大允许的行数&#xff0c;设置了之后将输出多个Sheet AutoFitAllColumn&#xff1a;自…

Python LangChain RAG从入门到项目实战10.:质量评价指标体系

好的&#xff0c;RAG (Retrieval-Augmented Generation) 系统的评估是一个多维度的问题&#xff0c;需要同时对检索器 (Retriever) 和生成器 (Generator) 的性能进行衡量。 评估指标主要分为三大类&#xff1a;检索质量、生成质量 和 整体系统质量。下图清晰地展示了这些核心指…

【记录】Copilot|Github Copilot重新学生认证通过方法(2025年7月,包括2FA和认证材料、Why are you not on campus)

文章目录前言步骤最重要的一步前言 事实上&#xff0c;Github Copilot马上就要开源了&#xff0c;我原本的认证过期了。但是在我体验了众多的代码补全工具实在是太难用了之后&#xff0c;我觉得一天也等不了了&#xff0c;就去再一次认证了学生认证。 这次严格了很多&#xff…

【C语言16天强化训练】从基础入门到进阶:Day 13

&#x1f525;个人主页&#xff1a;艾莉丝努力练剑 ❄专栏传送门&#xff1a;《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题、洛谷刷题、C/C基础知识知识强化补充、C/C干货分享&学习过程记录 &#x1f349;学习方向&#xff1a;C/C方向学习者…

单元测试到底是什么?该怎么做?

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快一、什么是单元测试&#xff1f;单元测试&#xff08;unit testing&#xff09;&#xff0c;是指对软件中的最小可测试单元进行检查和验证。至于“单元”的大小或范…

PostgreSQL【应用 04】加解密扩展 pgcrypto 使用实例(加密、导出、导入、解密流程说明)

加解密扩展 pgcrypto 使用实例1.需求说明2.工具说明2.1 环境说明2.2 插件添加3.实例分析3.1 测试数据3.2 进行加密3.3 数据导出3.3.1 Navicat 导出3.3.2 copy 命令导出3.4 数据解密3.4.1 Navicat 导入3.4.2 copy 导入3.5 坑1.需求说明 从内网导出敏感数据的时候&#xff0c;对…

SDK、JDK、JRE、JVM的区别

SDK、JDK、JRE、JVM的区别一、SDK二、JDK三、JRE四、JVM五、JDK、JRE、JVM三者关系图一、SDK SDK&#xff08;Software Development Kit&#xff0c;程序软件开发工具包&#xff09;&#xff0c;可以认为jdk只是sdk的一种&#xff08;子集&#xff09;&#xff0c;而当提及jav…

如何启动一个分支网络改造试点?三步走

在多云化、全球化的今天&#xff0c;企业的分支网络早已不仅仅是“能连”的问题。视频会议卡顿、ERP 响应延迟、跨境访问不稳、合规风险增大……这些都让 CIO 和 IT 负责人越来越清楚&#xff1a;分支网络改造是数字化的必修课。但是&#xff0c;面对几百甚至上千个分支机构&am…

四,设计模式-原型模式

目的原型模式的产生是为了解决一个问题&#xff0c;即复制对象时对被复制对象所属类的依赖。当需要复制一个对象时&#xff0c;需要遍历对象中的所有成员并进行复制&#xff0c;但存在一些问题&#xff1a;某些成员对象可能是私有的无法访问。同时要复制某个对象&#xff0c;那…

(笔记)Android窗口管理系统分析

概述 Android窗口管理系统是Android UI框架的核心组件&#xff0c;负责管理所有应用窗口的显示、布局、层级、焦点和输入事件分发。WindowManagerService&#xff08;WMS&#xff09;作为系统服务&#xff0c;协调Surface、Activity、View等组件&#xff0c;为用户提供流畅的界…

WebIDEPLOY 技术支撑草莓数字产业链的构建逻辑与实践路径—— 草莓智能育苗系统实践应用分析

一、WebIDEPLOY 技术与草莓产业数字化的适配逻辑WebIDEPLOY 技术以 “低门槛接入、全链路协同、数据驱动” 为核心特征&#xff0c;其底层架构可精准对接草莓产业链的碎片化需求。通过零代码设备接入模块&#xff0c;能快速整合育苗棚传感器、种植区智能设备、销售端数据平台等…

汽车电气系统的发展演进为测试带来了哪些影响?

随着汽车智能化进程加速&#xff0c;车辆电气系统方案持续演进。为满足日益严格的功能安全要求&#xff0c;主机厂逐渐引入智能配电、冗余配电等新型方案&#xff0c;这给电气系统的测试环节带来了显著影响。智能配电测试何为智能配电&#xff1f;下图分别展示了传统电气架构以…