~~通俗说法：在多模态自监督学习中，将共享信息和独有信息分离开来~~

Abstract

问题： 传统方法通常假设在训练和推理阶段都可以访问所有模态信息，这在实际应用中面对模态不完整输入时会导致性能显著下降。
解决方法：提出了一种面向遥感数据融合和多模态Transformer的全新不完整多模态学习方法，有监督自监督训练都适用
方法简述：利用多模态Transformer ，结合模态注意力，掩码自注意力机制，整合额外学习得到的token
方法结合重构损失与对比损失

Introduction

传统方法：为了融合不同模态的互补信息，依赖于基于特定领域知识的人为设计特征和融合策略；
基于CNN的深度方法通常假设所有模态在训练与推理阶段都是完整可用的，这在实际应用中却是一个限制因素，因为数据采集过程中可能存在部分模态缺失。
不完整模态学习：对缺失模态用生成模型，或者知识蒸馏（幻觉网络）尽管有一定的效果，但是需要为每一类模态分别部署和训练一个模型。
目标：一些新方法致力于训练一个统一模型来应对下游任务中的不完整模态问题，在这种背景下，实现模态不变（modality-invariant）的融合嵌入表示成为提高鲁棒性的重要手段，尤其适用于部分模态缺失的情况。

近年来没有同时满足自监督和允许不完整模态输入
why 自监督：有监督训练泛化能力差，训练大规模数据集成本高
why 不完整模态输入：实际应用场景存在不完整模态

方法简述

贡献：1.提出在多模态Transformer中引入模态注意力与掩码自注意力机制，用于构建跨模态的融合token，以实现适用于不完整模态输入的对比与重构预训练。
2.在下游任务中，我们基于上述机制提出了随机模态组合训练策略，确保模型在推理阶段面对模态缺失时依然具备强性能。
3.再公开的DFC2023 Track2数据集，和自己构建的四模态数据集，与标准多模态Transformer 对比取得了当前最优性能

Conclusion

本问提出了一种适用于多模态遥感数据融合任务的不完整模态学习框架，支持有监督和自监督，我们的方法支持模态不完整的条件下进行模型的训练和推理。
通过引入模态注意力机制与掩码自注意力机制，我们能够在 MultiMAE 框架中利用对比损失与重构损失对网络进行预训练，同时也可以通过随机模态组合训练策略，从零开始训练或在下游任务中对模型进行微调。该策略使网络在推理阶段即便仅接收到部分模态甚至单一模态输入时，也能保持较高的性能。
（通过俩注意力机制，用俩损失函数，和一个随机组合模态的训练策略训练）

RELATED WORKS

多模态遥感数据融合

多模态掩码自动编码器（MultiMAE）

与依赖对比目标的自监督方法不同，MultiMAE 使用一种预训练任务：对每个输入模态的掩码图像块进行重建。

多模态Transformer

METHODOLOGY

在这里插入图片描述

A 网络架构

主体架构采用VIT ，对每个模态划分16*16patch 进入线性层映射为D维，加入位置嵌入，引入融合token
与瓶颈融合token 不同，采用的是空间融合token，数量与patch一样，然后模态自注意力机制把不同模态的信息融合到token，然后拼接送入Transformer 编码器，使用掩码自注意力机制