XR技术体系浅析：VR、AR与MR的区别、联系与应用实践

作者：EQ 雪梨蛋花汤

本文是技术分享文档，浅析VR（虚拟现实）、AR（增强现实）、MR（混合现实）的定义、特性、技术演进路线，并分析AR中的OST（光学透视）与VST（视频透视）两大实现路径，及其与MR技术的融合趋势。

第一章：XR概念总览与技术谱系

XR（Extended Reality）是虚拟与现实空间融合的综合技术名，包括VR、AR和MR。其本质是用数字信息扩展或更新现实感知，实现用户与虚拟内容、现实场景的高度融合和交互。

1.1 基本概念介绍

VR（虚拟现实）：构建纯虚拟的世界，用户被完全隔绝于现实世界，中心是“深度沉浸”。
AR（增强现实）：将虚拟元素、信息、动画在现实环境中加以重新视觉扩展，重点是“现实上的增强”。
MR（混合现实）：将虚拟世界与现实世界规划为一个可以相互作用、环境共享的空间，其核心是“虚实融合、物理交互”。

在这里插入图片描述

1.2 XR技术联系

XR三类技术（VR、AR、MR）在硬件架构、数据流、显示技术、交互方式方面各有侧重，但又存在强关联性。如下图所示：
在这里插入图片描述

1.3 XR发展脉络与趋势

XR并非单一技术进化结果，而是由以下几条技术路径交汇而成：

计算平台：从PC -> 移动端 -> 边缘计算 -> 云渲染；
感知能力：由视觉为主扩展至多模态传感器（IMU、深度、语音）；
网络演进：从4G到5G/6G推动了低延迟XR体验；
人机交互：从手柄到裸手再到脑机接口探索。

第二章：AR技术分析：OST与VST方案

增强现实技术的核心是“在现实的基础上进行信息扩展”。根据环境采集和展示方式，分为OST和VST两类基本实现路径。

2.1 OST（Optical See Through）原理与特性

OST通过半透镜直接观看现实世界，将虚拟图像投射于用户眼前。是一种光学线路双路并行的设计。

技术特点

现实图像无需处理，無延迟。
虚拟图像需要出光光路与观感光路完美对齐，否则有错位感。
因光学透明，无法做好虚实遮挡，虚拟物体很难挡住现实物体。

工作流程

在这里插入图片描述

应用特征

更适合室外强光场景下的信息提示。
通常使用空间定位技术进行图像锚定。
对显示器亮度与视场角要求较高。

2.2 VST（Video See Through）原理与特性

VST方案采用摄像头拍摄现场环境，通过应用程序进行虚拟图像结合和添加，最后返回到显示屏幕。

技术特点

无光学通道，所有观看内容由数字编辑。
可精确控制虚拟遮挡，进行深度挖掘。
对硬件和后端处理性能要求高，容易造成延迟。

数据流基本流程

在这里插入图片描述

应用特征

适合需要复杂交互或遮挡效果的增强现实。
室内场景表现优于OST。
支持与AI视觉分析、SLAM等系统结合。

2.3 OST与VST技术格式对比

组合项	OST（光学透视）	VST（视频透视）
环境观看路径	光学直视	数字转换
虚实遮挡效果	不可精确控制	可完全支持深度遮挡
延迟	极低/无	有延迟（取决于系统效率）
补光、带宽	光影易变	可由后端调整
实现难点	光学对齐、视觉校准	摄像头同步、图像畸变矫正

2.4 AR内容的空间锚定机制

AR体验核心在于“稳定”的虚拟物体放置，这依赖于锚定技术：

图像锚定（Image Anchoring）：识别预定义图案，如海报、书本等；
平面锚定（Plane Tracking）：自动识别水平/垂直平面；
空间锚定（World Anchors）：记录某一三维位置，便于回访。

ARCore 是 Google 推出的用于打造增强现实体验的平台。ARCore 利用不同的 API 让您的手机能够感知其环境、理解世界并与信息进行交互。其中一些 API 在 Android 和 iOS 上提供，以实现共享 AR 体验。

ARCore 的运动跟踪技术使用手机的摄像头来识别兴趣点（称为特征），并跟踪这些点随时间的移动情况。ARCore 会综合考虑这些点的移动和手机惯性传感器的读数，确定手机在空间移动时的位置和方向。
除了识别关键点之外，ARCore 还可以检测平坦的表面（例如桌子或地板），还可以估算周围区域的平均光照强度。这些功能相结合，让 ARCore 可以构建自己对周围世界的理解。

当您的手机在现实世界中移动时，ARCore 会使用视觉SLAM来理解手机相对于周围环境的位置。ARCore 会检测捕获的摄像头图像中视觉上不同的特征（称为特征点），并使用这些点来计算其位置变化。这些视觉信息会与设备 IMU 的惯性测量结果相结合，以估算摄像头相对于周围世界的姿态（位置和方向）。
在这里插入图片描述
环境识别：