目录

一、NeRAF

1、概述

2、方法

3、训练过程

4、实验

二、ImVid

1、概述

2、Imvid数据集

3、STG++方法


一、NeRAF

1、概述

        NeRF类方法仅支持视觉合成功能,缺乏声学建模能力。对于以往的声学建模(如NAR/INRAS)会忽略三维场景几何对声波传播的本质影响。

        NeRAF可以在现有图像和音频数据中学习辐射场和声学场信息,并且能够在未知区域合成视听信息,无需依赖同位置的视听传感器进行训练。

2、方法

        NeRAF模型包含三个部分NeRF神经辐射场,网格采样器,神经声学场(NAcF)。

        神经辐射场首先依赖于Nerfacto进行搭建,该框架整合了哈希编码,场景收缩,相机位姿优化等技术,并且NeRAF模型也不对NeRF进行改进。NeRF通过给定xyz坐标和位姿->输出密度和颜色信息。

        网格采样器,目的是将NeRF模型切换到一个可以提取特征的网格特征结构。对整个3D场景构建一个128x128x128的体素网格空间,并对每一个体素中心点X_{vi}=(x_{vi},y_{vi},z_{vi})查询NeRF,不透明度为\alpha=1-exp(-\sigma\delta),并且对每一个坐标投射18个视角,并对每一个视角渲染一个颜色信息,计算均值\hat{C}_{vi},这样就成功的将NeRF模型转换成了一个显式的体素网格结构,输出7通道体素(x,y,z,\hat C,\alpha)

       神经声学场部分:

       RIR:房间脉冲响应,描述声波从声源到麦克风的传播特性,比如正常一个声音从声源传到听者,他需要经过早期反射和晚期混响两个阶段,早期反射反应声源周围的表面到声源的距离信息,晚期混响则是多次散射形成的能量衰减,受场景规模,材质等影响。

        神经声学场(NAcF)旨在学习场景中的声学特性的连续神经表征,也就是计算任意位置上的RIR合成,最后输出到双耳声道。输入任意位置的麦克风坐标X_m=(x_m,y_m,z_m)以及方向角d_m=(\theta_m,\phi_m),以及声源位置的坐标X_s=(x_s,y_s,z_s)和声源方向角d_s=(\theta_s,\phi_s),时间查询t。上述这些信息均用作编码。

        NAcF函数表示:(x_m,d_m,x_s,d_s,t)->RIR(f,t),这个RIR实际上就是STFT的时频表示,可以理解为利用上述五个信息,得到一个某一个位置的房间脉冲响应,这个响应用STFT来表示。

        ResNet3D作为三维场景特征提取器,输入一个体素网格,输出1024或2048维的特征向量,他的目的是学习体素网格中的几何特征和材质特征。

        Multi-modal Fusion包含两个MLP,第一个用来输入所有融合向量,输出一个512维的声学latent vector,用于学习声波在场景中的传播物理规律,第二个MLP分为左右两个声道独立MLP,最终输出STFT频域系数。

        MLP Block1:5层全连接,LeakyReLU作激活函数

        MLP Block2:学习非对称HRTF,证明空间定位能力,两耳存在一定的声压差,Tanh作为激活函数。

        还原RIR波形,通过Griffin-Lim算法来实现还原(参考NAcF)

3、训练过程

损失函数

        NeRF损失包括重建MSE误差和互补损失(相机位姿修正损失和多分辨率哈希损失),不修改原损失。

        声学损失计算光谱对数损失L_SL和光谱收敛损失L_SC

训练策略

        先训练NeRF,并且分批更新体素网格。

        之后联合训练NAcF和NeRF。

数据集

        SoundSpaces:仿真数据由Habitat Sim构建,包含6个室内场景信息,声学数据提供双耳RIR并且每隔0.5m网格进行空间采样,视觉数据则初始128x128 的RGB-D数据,NeRAF重新渲染了512x512的。

        RAF:RAF之前的SoundSpaces和MeshRIR都是合成数据或者稀疏采样,RAF是首个真实世界密集采样视听数据集,每平方米372个样本,只有两个真实房间:空房间和带家具房间。视觉采集来自于VR-NeRF相机环,22个相机多视角共11418张图像,带有深度图。声学采集利用全向麦克风,共86K条,每个4秒钟,48kHz采样,RIR数据。

        RWAVS:来自于AV-NeRF论文,首个真实世界视听同步数据集,包括办公室,公寓,房屋,户外(户外那个视频带一段空房间),并且故意保留了一些设备噪声,环境噪声,脚步声这种,覆盖日常全场景声学特性。数据量232分钟,样本数12319个(8:2训练和验证分开)。数据模态构成为相机位姿+视频帧+双耳音频+单声道源音频。

4、实验

性能指标

        对于重建仍然用LPIPS,PSNR,SSIM

        声学指标上用有T60,C50,EDT,都是计算预测值与真实值之间的误差百分比。STFT error计算频域相似度。你可以理解为前三个是重建环境对音质的影响,最后一个是能重建音色,音调一致。

        T60:混响时间,在一个封闭空间内,当声源突然停止发声后,​​声能衰减60分贝(dB)所需的时间。​T60越长,空间回声感越强,听起来越“空旷”;T60越短,声音消失得越快,听起来越“干”或“死寂”​​。T60的物理属性,受空间大小和界面材质影响,空间越大声音传播路径越长,衰减到同样水平所需时间也就更长。界面材质来说,硬质光滑表面​​(如混凝土墙、玻璃窗):吸声能力差,大部分声能被反射,导致​​T60较长​​。∙​​软质多孔表面​​(如地毯、窗帘、沙发、吸音棉):吸声能力强,将声能转化为热能,导致​​T60较短​​。

        C50:语音清晰度指数,计算声波到达后 ​​前50毫秒​​ 的声能与 50毫秒后​​ 的残余声能的对数比。正值​​表示语音清晰(早期能量>混响能量),​​负值​​表示浑浊(如会议室回音干扰)。家具房间的C50值普遍高于空房间(图7对比),证明物体对混响的抑制作用。

        EDT:声源停止后,​​前10毫秒内​​ 声能衰减曲线的斜率(通常外推至衰减60dB所需时间)。EDT短(如0.5秒)→ 空间感“紧致”;EDT长(如2秒)→ 空间感“开阔”(如教堂)

        STFT Error:短时傅里叶变换误差是评估 ​​生成脉冲响应(RIR)与真实RIR在频域相似度​​ 的核心指标,为什么用STFT error,是因为STFT的频带划分(Bark/Mel尺度)匹配人耳非线性感知,单纯计算RIR的相位信息对听觉影响较小,频谱幅度误差更关键。一般没有障碍的地方STFT error较低,边缘,遮挡的地方误差容易升高。

实验分析

        对比过去的声光场方法中声音的指标。

        对比NeRF基础模型的重建指标。

        难道audio中也有vision信息?这两者可以互补

二、ImVid

1、概述

        动机:一方面受现有数据集稀少影响,当前数据集视角受限,固定相机阵列只能支持静态拍摄,无法覆盖360度背景,当前数据集缺乏同步的音频,比如Diva-360,Replay数据集。当前数据集缺乏动态场景支持,多是单目,低分辨率,时长短的。另一方面工业上Vision Pro的推动,也需要更加全视角覆盖的,兼顾视听多模态的数据集。

        ImVid中主要贡献:

(1)首次设计了移动式多模态采集系统

(2)高质量的动态场景视听数据集ImViD

(3)动态光场重建STG++,无需训练的声场重建(不用神经网络)

2、Imvid数据集

移动式多模态采集系统

        采集系统:46台GoPro相机安装在可移动小车的半球形支架上,高度模拟人眼视角(1.7m)同时相机和麦克风集成,同步采集5K@60FPS视频+48kHz音频。遥控小车可在场景中缓慢移动(速度受限于地形安全),覆盖​​最小6m³空间​​(2分钟内采集1000+图像)。GoPro相机可以实现误差2ms内的同步,并且有降噪功能。

数据集

        价值意义:

        对比传统方案,缺乏动态场景和移动视角,另外手持设备局限。该数据集是首个支持移动中的多模态采集的数据集。

        数据采集

        静态场景高密度采集。小车固定位置,多相机同步拍摄​​高分辨率静态照片​​(5568×4176),覆盖​​360°背景​​(如实验室设备、窗外景物),为动态重建提供环境先验。

        动态场景双模式采集。固定点拍摄模式,不移动小车,捕捉细微动态细节。移动拍摄模式,缓慢移动(每秒0.1立方米),扩展交互空间。

        数据处理

        静态问题上基于GoPro内参利用COLMAP进行稀疏重建,另外基于硬件同步声音时间码对齐。

        动态数据上,对视频切段,分别进行COLMAP重建,并用PnP拼接,但是没有给出具体做法,近期的方法其实也可以预测了。

        数据集:包含7种场景,39个摄像机,共38分46秒,包含人体动作,物体交互,反射表面,光影变化等问题。

3、STG++方法

        首先这个方法对比的是4DGS的方法,不做声光场重建,光场重建依赖从4DGS学来的,声场重建只依赖声源位姿和麦克风位姿,不考虑场景材质信息。

        STG++在STG模型基础上,优化了多相机​​颜色不一致​​导致视图切换时闪烁和分段训练时​​跨段连续性差​的问题,引入了颜色校正模块和时变密度控制两个策略。

        声学重建上,数据机遇39个摄像头携带的多麦克风音频,生成6-DoF的空间音频,对预测位置的声音则完全通过几何计算,加声学优化区分双耳来实现。首先规定:

        声源方向计算相对方位角,表示声源相对于听者正前方的偏角(逆时针为正):

        声源距离映射:计算能量衰减系数,进而计算声音能量下降(模拟声音随着距离的平方反比衰减)

        双耳音频合成:根据SADIE II数据集中的传递函数,利用STFT计算左右耳的频域谱

       

参考论文:

[2405.18213] NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields

[2503.14359] ImViD: Immersive Volumetric Videos for Enhanced VR Engagement

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/94536.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/94536.shtml
英文地址,请注明出处:http://en.pswp.cn/web/94536.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重复文件删除查找工具 Duplicate Files Search Link v10.7.0

软件介绍 Duplicate Same Files Searcher 是一款面向 Windows 平台的专业重复文件检索与清理工具,兼具符号链接替换与 NTFS 高级特性支持,可在无损数据的前提下大幅缩减磁盘冗余。 软件使用 软件打开后是英文版,手动切换中文(按…

简易shell

目录 一、整体功能概述 函数准备 1.env命令 2.getenv()函数 3.snprintf 4.strtok()函数 三、全局变量 四、核心功能函数解析 1. 信息获取函数 2. 命令行交互 3. 命令解析 4. 普通命令执行 5. 内置命令处理(核心功能) 五、主函数流程 六、总…

网关资源权限预加载:从冷启动阻塞到优雅上线的完整闭环

网关资源权限预加载:从冷启动阻塞到优雅上线的完整闭环 基于 Spring Cloud Gateway + Spring Cloud Alibaba Nacos ——一篇可落地的技术方案与源码级实现 1. 场景与痛点 在微服务网关层做 统一资源权限校验 时,必须满足: 启动阻塞:所有权限规则加载完成前,不监听端口,拒…

open webui源码分析8—管道

我们可以把Open WebUI想象成一个管道系统,数据通过管道和阀门流动。管道作为open webui的插件,可以为数据构建新的通路,可以自定义逻辑和处理数据;阀门是管道的可配置部件,控制数据流过管道时的行为。管道可以理解成用…

深入理解 C 语言 hsearch 哈希表:限制、技巧与替代方案

概述 C 语言标准库中的 hsearch 系列函数提供了一套简单易用的哈希表实现,包含在 <search.h> 头文件中。这组函数虽然接口简洁,但在实际使用中存在一些重要的限制和注意事项。本文将深入探讨 hsearch 的功能特点、设计局限,并提供实用的解决方案和替代建议。 hsearc…

Web网络开发 -- HTML和CSS基础

HTML 超文本编辑语言 HTML 介绍 HTML的英文全称是 Hyper Text Markup Language&#xff0c;即超文本标记语言。HTML是由WEB的发明者 Tim Berners-Lee &#xff08;蒂姆伯纳斯李&#xff09;和同事 Daniel W. Connolly于1990年创立的一种标记语言&#xff0c; 它是标准通用化标…

Python爬虫实战:研究开源的高性能代理池,构建电商数据采集和分析系统

1. 绪论 1.1 研究背景与意义 随着互联网技术的飞速发展,网络数据已成为信息时代的核心资源之一。从商业角度看,企业通过分析竞争对手的产品信息、用户评价等数据,可制定更精准的市场营销策略;从学术研究角度,研究者通过爬取社交媒体数据、学术文献等,可开展社会网络分析…

项目设计文档——爬虫项目(爬取天气预报)

一、项目背景以及项目意义 项目背景&#xff1a; 爬虫技术的核心目的是自动化地从互联网上采集&#xff0c;提取和存储数据。网络爬虫是一种自动化程序&#xff0c;用于从互联网上抓取数据并进行处理。C语言因其高效性和接近硬件的特性&#xff0c;常被用于开发高性能的网络爬…

Python 操作 PPT 文件:从新手到高手的实战指南

在日常工作和学习中&#xff0c;PPT 是我们展示信息和进行演示的重要工具。无论是制作报告、演讲还是教学课件&#xff0c;PPT 都扮演着不可或缺的角色。然而&#xff0c;当面对大量重复性的 PPT 编辑任务时&#xff0c;手动操作不仅耗时耗力&#xff0c;还容易出错。幸运的是&…

系统设计中的幂等性

1. 基本概念 幂等性&#xff08;Idempotence&#xff09;是系统设计中经常提到的概念。如果某个操作执行一次或多次都能产生相同的结果&#xff0c;那么它就是幂等的。2. 代码示例 下面这段代码是幂等的。无论你调用多少次&#xff0c;show_my_button 的最终状态都是False。 de…

Pandas vs Polars Excel 数据加载对比报告

📊 Pandas vs Polars Excel 数据加载对比报告 1. 数据基本情况 数据文件:data.xlsx 数据规模:23,670 行 3 列 字段: case_time:日期/时间 case_name:公司名称(字符串) board:所属板块(字符串) 2. 加载方式与代码 Pandas import pandas as pdfrom tools import…

Kafka 为什么具有高吞吐量的特性?

Kafka 高吞吐量原因&#xff1a;面试题总结 在面试中&#xff0c;Kafka 的高吞吐量设计是高频考点&#xff0c;核心需围绕“架构设计”“存储优化”“网络效率”“资源利用”四个维度展开&#xff0c;以下是结构化总结&#xff1a; 一、核心架构&#xff1a;并行化与分层设计分…

MCP 协议原理与系统架构详解—从 Server 配置到 Client 应用

1. MCP MCP&#xff08;Model Context Protocol&#xff0c;模型上下文协议&#xff09;是开发 Claude 模型的(Anthropic)公司推出的一个开放标准协议&#xff0c;就像是一个 “通用插头” 或者 “USB 接口”&#xff0c;制定了统一的规范&#xff0c;不管是连接数据库、第三方…

uniapp安卓真机调试问题解决总结

uniapp安卓真机调试遇到各种连接不上问题&#xff1a; 手机上打开调试数据线不行&#xff0c;换数据线电脑重启手机重启拔出数据线&#xff0c;换个USB插口。

Linux Qt创建和调用so库的详细教程

一、创建so库1.文件-->新建文件或项目-->Library->C Library&#xff0c;如下图2.工程命名为Example3.一直下一步就可以4、工程创建完成&#xff0c;如下图5、删除Example_global.h6、配置.pro文件# 设置输出目录 DESTDIR $$PWD/output #只生成.so文件 CONFIG plugi…

【深度学习】蒙特卡罗方法:原理、应用与未来趋势

作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程&#xff0c;深度学习领域研究生必读教材),开始深度学习领域学习&#xff0c;深入全面的理解深度学习的理论知识。 之前的文章参考下面的链接&#xf…

区块链技术原理(18)-以太坊共识机制

文章目录前言什么是共识&#xff1f;什么是共识机制&#xff1f;共识机制的核心目标共识机制的类型PoW&#xff08;工作量证明&#xff09;协议&#xff1a;&#xff08;2015-2022&#xff09;PoS&#xff08;权益证明&#xff09;协议&#xff1a;&#xff08;PoS&#xff0c;…

java基础(十五)计算机网络

网络模型概述 为了使得多种设备能通过网络相互通信&#xff0c;并解决各种不同设备在网络互联中的兼容性问题&#xff0c;国际标准化组织&#xff08;ISO&#xff09;制定了开放式系统互联通信参考模型&#xff08;OSI模型&#xff09;。与此同时&#xff0c;TCP/IP模型作为实际…

idea将服务封装为一个jar包

你使用的是 IntelliJ IDEA 2018&#xff0c;这个版本虽然不是最新的&#xff0c;但完全支持通过 图形化界面 打 JAR 包&#xff08;无需命令行&#xff09;&#xff0c;非常适合你在公司内部将 Snowflake 模块打包成通用组件。下面我将 手把手、一步一步、图文流程式地教你&…

ZYNQ [Petalinux的运行]

一、下载ubuntu 下载地址很多&#xff0c;这里提供了一个&#xff1a;http://mirrors.aliyun.com/ubuntu-releases/14.04/ 推荐开始浏览器下载之后复制下载链接使用迅雷下载。 二、虚拟机安装Ubuntu vmware中安装Ubutun–这部分不展示 安装ssh sudo apt install openssh-s…