基本信息

题目：PGSR: Planar-based Gaussian Splatting for Efficient and High-Fidelity Surface Reconstruction

来源：TVCG2024

学校：ZJU-3DV

是否开源：https://github.com/zju3dv/PGSR

摘要：3DGS表面重建

最近，3D高斯抛雪球( 3DGS )由于其高质量的渲染效果以及超快的训练和渲染速度引起了广泛的关注。然而，由于高斯点云的非结构化和不规则性，单纯依靠图像重建损失难以保证几何重建精度和多视图一致性。尽管最近出现了许多基于3DGS的曲面重建研究，但其网格质量普遍不尽人意。为了解决这个问题，我们提出了一种快速的基于平面的高斯散点重建表示( PGSR )，在保证高质量渲染的同时实现了高保真的表面重建。具体来说，我们首先介绍一种无偏深度渲染方法，该方法基于点云的高斯分布直接绘制相机原点到高斯平面的距离和对应的法线图，并将两者相除得到无偏深度。然后我们介绍了单视图几何，多视图photometric和几何正则化以保持全局几何精度。我们还提出了一种相机曝光补偿模型来应对光照变化较大的场景。在室内和室外场景上的实验表明，该方法在保持高保真渲染和几何重建的同时，实现了快速的训练和渲染，优于基于3DGS和NeRF的方法。

Introduction

论文针对新型视图合成（Novel View Synthesis）和几何重建（Geometry Reconstruction）问题，这些在AR/VR、3D内容生成和自动驾驶中至关重要。传统NeRF（Neural Radiance Fields）方法渲染质量高但训练和渲染慢（需数小时至数百小时）。3DGS通过显式3D高斯点云实现分钟级训练和毫秒级渲染，但高斯点云的无结构性和不规则性导致几何重建精度差，无法保证多视图一致性。

问题与挑战：

3DGS仅依赖图像重建损失，易陷入局部最优，高斯无法贴合真实表面。
现有3DGS-based表面重建（如SuGaR）网格质量差，无法提取平滑表面。
需要在保持渲染质量和速度的同时，提升几何精度。

主要贡献：

提出无偏深度渲染方法：将3D高斯压缩为平面，渲染平面参数（距离和法线），转换为无偏深度，促进几何约束引入。
引入单视图和多视图正则化：优化每个像素的平面参数，实现全局几何一致性。
曝光补偿模型：处理光照变化大的场景，提升重建精度。
实验证明：在保持3DGS渲染质量和速度的前提下，实现SOTA几何重建精度，训练时间比NeRF-based方法快100倍。

方法概述如图4所示：压缩高斯为平面，渲染距离/法线/深度图；引入几何和光度正则化；曝光补偿RGB损失。

Related Works

论文回顾了表面重建的历史，从传统方法到神经方法，再到基于高斯的最新进展。

传统表面重建：

基于点云、体素或深度图的多视图立体（MVS）Pipeline。【时间太久远的文献就不写出来了】
使用块匹配【PatchMatch】提取稠密点云，然后三角化或隐式表面拟合。
缺点：易受噪声影响，后续方法（如[PatchMatchNet]）整合深度网络提升匹配精度。

神经表面重建：

早期端到端方法使用点云、体素或网格/隐式场，但计算开销大，需要大量标注数据。
NeRF-based方法通过体渲染实现高保真视图合成，但表面捕捉差。
改进：引入占用场或符号距离场（SDF）；分解场景为点（如[Point-NeRF]）或体素（如[Vox-surf,Neuralangelo），减少MLP依赖。
缺点：训练慢（需数天，多GPU）。

基于3DGS的表面重建：

SuGaR ：从3DGS提取网格，通过正则化鼓励高斯贴合表面，从密度场采样点云，用Poisson重建网格。但依赖偏置深度，表面不平滑。
同期工作：2DGS 将3D高斯压缩为2D盘，实现多视图一致几何；GOF 形成高斯不透明场，从水平集提取几何。
缺点：这些方法深度不精确，多视图一致性差。PGSR通过平面渲染和正则化解决这些问题。

III. PRELIMINARY OF 3D GAUSSIAN SPLATTING

3DGS的基础知识，总结的很好，就放在这了。

Method

A. Planar-based Gaussian Splatting Representation

关键概念：

传统3DGS使用3D高斯椭球体表示场景，但难以精确建模几何属性（如深度和法向量），因为椭球体形状不贴合实际表面。
解决方案：将3D高斯“扁平化”（flatten）为2D平面高斯，使其更好地拟合场景表面。平面高斯近似局部平面，便于渲染深度和法向量。
优势：渲染的深度与平面形状一致，避免几何冲突；消除权重累积影响，实现无偏深度（见Fig. 6）。

Flattening 3D Gaussian（扁平化3D高斯）：

[9] Hanlin Chen, Chen Li, and Gim Hee Lee. Neusg: Neural implicit surface reconstruction with 3d gaussian splatting guidance. arXiv preprint arXiv:2312.00846, 2023.

Unbiased Depth Rendering（无偏深度渲染）：

B. Geometric Regularization

这一节引入几何正则化，确保3D高斯贴合实际表面。分为单视图和多视图正则化。

1) Single-View Regularization（单视图正则化）：

[24] Yingwenqi Jiang, Jiadong Tu, Yuan Liu, Xifeng Gao, Xiaoxiao Long, Wenping Wang, and Yuexin Ma. GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces. arXiv preprint arXiv:2311.17977, 2023.

[37] Xiaoxiao Long, Yuhang Zheng, Yupeng Zheng, Beiwen Tian, Cheng Lin, Lingjie Liu, Hao Zhao, Guyue Zhou, and Wenping Wang. Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images. arXiv preprint arXiv:2402.05869, 2024.

[50] Xiaojuan Qi, Renjie Liao, Zhengzhe Liu, Raquel Urtasun, and Jiaya Jia. Geonet: Geometric neural network for joint depth and surface normal estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 283–291, 2018.

2) Multi-View Regularization（多视图正则化）：

[4] Neill DF Campbell, George Vogiatzis, Carlos Herna ́ndez, and Roberto Cipolla. Using multiple hypotheses to improve depth-maps for multiview stereo. In Computer Vision–ECCV 2008: 10th European Conference on Computer Vision, Marseille, France, October 12-18, 2008, Proceedings, Part I 10, pages 766–779. Springer, 2008.

[15] Qiancheng Fu, Qingshan Xu, Yew Soon Ong, and Wenbing Tao. Geoneus: Geometry-consistent neural implicit surfaces learning for multiview reconstruction. Advances in Neural Information Processing Systems, 35:3403–3416, 2022.

[52] Johannes L Schonberger and Jan-Michael Frahm. Structure-from-motion revisited. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4104–4113, 2016.

3) Geometric Regularization Loss（几何正则化损失）：

C. Exposure Compensation Image Loss

D. Training

整体方法评价：

创新：无偏深度渲染解决传统3DGS几何冲突；多层次正则化实现全局一致；曝光补偿提升实际场景鲁棒性。
潜在局限：依赖高质量位姿；计算开销可能高于纯3DGS（多视图计算）。
与参考文献关联：构建于3DGS基础上，融入MVS、NeRF元素（如Eikonal损失提及但未用）。实验（Fig. 7）显示优于基线。

实验

硬件平台

所有实验在NVIDIA RTX 4090 GPU上运行，训练迭代次数固定为30,000次，使用AbsGS的致密化策略，并采用TSDF Fusion算法从渲染深度生成网格。

数据集

数据集：
- Mip-NeRF360 ：用于评估新视图合成性能，包含室内外复杂场景。
- DTU ：15个物体中心场景，用于评估重建质量。
- TnT [28]：大型复杂场景，用于评估重建质量。
评估标准：
- 渲染质量：PSNR（峰值信噪比，↑越高越好）、SSIM（结构相似性指数，↑越高越好）、LPIPS（学习感知图像补丁相似性，↓越低越好）。
- 表面质量：F1分数（↑越高越好）和Chamfer距离（↓越低越好）。

[28] Arno Knapitsch, Jaesik Park, Qian-Yi Zhou, and Vladlen Koltun. Tanks and temples: Benchmarking large-scale scene reconstruction. ACM Transactions on Graphics (ToG), 36(4):1–13, 2017.

Benchmark

[20] Peter Hedman, Julien Philip, True Price, Jan-Michael Frahm, George Drettakis, and Gabriel Brostow. Deep blending for free-viewpoint imagebased rendering. ACM Transactions on Graphics (ToG), 37(6):1–15, 2018.

[45] Thomas M ̈uller, Alex Evans, Christoph Schied, and Alexander Keller. Instant neural graphics primitives with a multiresolution hash encoding. ACM transactions on graphics (TOG), 41(4):1–15, 2022.

[2] Jonathan T Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, and Pratul P Srinivasan. Mip-NeRF: A multiscale representation for anti-aliasing neural radiance fields. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5855–5864, 2021.

[57] Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. arXiv preprint arXiv:2106.10689, 2021.

A. Real-time Rendering（实时渲染）

这一部分在Mip-NeRF360数据集上验证渲染质量，与纯新视图合成方法（如NeRF 、Deep Blending [20]、INGP [45]、Mip-NeRF360 [2]、NeuS [57]）和类似重建方法（如3DGS 、SuGaR 、2DGS 、GOF ）比较。

定量结果（Table I）：
- 室内场景：PGSR的PSNR为30.41、SSIM为0.930、LPIPS为0.161。相比3DGS (PSNR 30.99, SSIM 0.926, LPIPS 0.199)，PGSR在SSIM和LPIPS上略优，但PSNR稍低；优于SuGaR (PSNR 29.44, SSIM 0.911, LPIPS 0.216)和2DGS (PSNR 30.39, SSIM 0.923, LPIPS 0.183)；接近GOF (PSNR 30.80, SSIM 0.928, LPIPS 0.167)。
- 室外场景：PGSR的PSNR为24.45、SSIM为0.730、LPIPS为0.224。优于3DGS (PSNR 24.24, SSIM 0.705, LPIPS 0.283)、SuGaR (PSNR 22.76, SSIM 0.631, LPIPS 0.349)和2DGS (PSNR 24.33, SSIM 0.709, LPIPS 0.284)；略逊于GOF (PSNR 24.76, SSIM 0.742, LPIPS 0.225)。
- 所有场景平均：PGSR的PSNR为27.43、SSIM为0.830、LPIPS为0.193。整体优于3DGS (PSNR 27.24, SSIM 0.803, LPIPS 0.246)、SuGaR (PSNR 26.10, SSIM 0.771, LPIPS 0.283)和2DGS (PSNR 27.03, SSIM 0.804, LPIPS 0.239)；略逊于GOF (PSNR 27.78, SSIM 0.835, LPIPS 0.196)。
- 分析：PGSR在渲染质量上接近SOTA方法，同时提供优秀的表面重建。表中用红色、橙色、黄色标记最佳、次佳和第三佳结果，PGSR在多个指标上排名前列。
定性结果（Fig. 5）：展示了Mip-NeRF360上的渲染比较。PGSR的表面重建更平滑、细节更丰富，与GOF类似，但优于3DGS和SuGaR（后者存在浮动伪影）。

总体而言，PGSR实现了高保真渲染，同时保持表面重建优势。

B. Reconstruction（重建）

在DTU和TnT数据集上与神经表面重建方法（如NeuS [57]、Geo-NeuS [15]、VolSDF [61]、NeuralAngelo [33]）和3DGS-based方法（如SuGaR、2DGS、GOF）比较。

DTU数据集（Table II）：
- Chamfer距离（mm，↓）：PGSR平均为0.49（全分辨率）、0.53（下采样DS版本）。优于NeuralAngelo (0.61)、GOF (0.74)、2DGS (0.80)、NeuS (0.84)、VolSDF (0.86)、SuGaR (1.33)。
- 训练时间：PGSR为1.0小时（DS为0.6小时），远快于NeuralAngelo (>128小时)和NeuS/VolSDF (>12小时)；略慢于2DGS (0.32小时)，但精度更高。
- 具体场景：在scan24、37、40等15个场景中，PGSR在多数场景（如scan24: 0.36）取得最低Chamfer距离，表明重建精度最高。
- 分析：PGSR实现了最高重建精度和相对快速训练。Fig. 7展示了定性比较：PGSR表面更平滑、细节更丰富（如物体边缘），优于SuGaR（粗糙）和2DGS（不完整）。
TnT数据集（Table III）：
- F1分数（↑）：PGSR平均为0.68。接近NeuralAngelo (0.70)，优于GOF (0.66)、2DGS (0.65)、SuGaR (0.62)、NeuS (0.55)等。
- Chamfer距离（↓）：PGSR平均为1.25。优于SuGaR (1.85)、2DGS (1.45)，接近GOF (1.20)和NeuralAngelo (1.15)。
- 训练时间：PGSR为1.0小时，远快于NeuralAngelo (>100小时)。
- 分析：PGSR的F1分数与NeuralAngelo相似，但训练速度快100倍以上，且重建更多表面细节。Fig. 8展示了TnT上的定性结果：PGSR在复杂场景（如建筑物）中产生更完整的几何结构，减少了噪点和空洞。