从视频中识别情感涉及许多细微的挑战。仅依赖视觉或音频信号的模型，往往无法准确捕捉这两种模态之间的复杂相互作用，从而导致对情感内容的误解。一个关键难题在于可靠地结合视觉线索（如面部表情或肢体语言）与听觉信号（如语调或音调变化）。此外，许多现有系统还缺乏解释其决策过程的能力，这使得人们难以理解特定情感是如何被检测出来的。而且，这些模型有时会生成与输入数据不直接相关的推理，或者未能充分利用重要的音频细节。当模型遇到不熟悉的情景时，这些问题会更加明显，这凸显了对更强大且可解释的多模态情感识别方法的需求。

阿里申请香港纽约双重主要上市，背后有何意义？ - 知乎

在最近的研究中，阿里研究人员提出了 R1-Omni，这是一种将强化学习与可验证奖励（RLVR）应用于全模态大语言模型的情感识别方法。R1-Omni 基于已建立的人类全模态（HumanOmni）框架，并应用 RLVR 来微调模型，使其能够处理视频和音频数据。该方法从冷启动阶段开始，模型使用可解释多模态情感推理（EMER）数据集和手动标注数据集的组合进行预训练。这一初始训练有助于模型在通过 RLVR 进一步优化之前，先学习基本的推理技能。通过在训练过程中集成基于规则的奖励机制，R1-Omni 不仅被优化为准确的情感预测，还能生成清晰且可解释的解释，描述视觉和听觉信息是如何相互作用的。

R1-Omni 设计的核心在于将强化学习与可验证奖励（RLVR）和组相对策略优化（GRPO）相结合。RLVR 用可验证的奖励函数取代了主观的人类反馈需求，该奖励函数根据客观标准评估模型的输出。奖励系统很简单：如果模型的情感预测与真实值匹配，它将获得 1 的奖励；否则，将获得 0。此外，格式奖励确保输出符合指定结构，推理过程与最终预测通过指定标签清晰分开。

GRPO 进一步优化了训练过程，通过比较候选响应的组别，使模型能够识别并倾向于那些推理更连贯且可解释的响应。这种机制有助于减少出现无根据或错位推理的情况，同时提高预测的整体质量。这些技术策略共同提升了推理能力、对多模态输入的理解以及性能，尤其是在模型面对未见过的数据时。

实验通过将 R1-Omni 与多个基线模型进行比较，包括原始的人类全模态 - 0.5B（HumanOmni-0.5B）以及在 EMER 和 MAFW-DFEW 数据集上通过监督微调（SFT）训练的模型。在 DFEW 数据集上，R1-Omni 实现了 65.83% 的未加权平均回忆率（UAR）和 56.27% 的加权平均回忆率（WAR）。这些得分明显高于其他方法所得。同样，在 MAFW 数据集上，R1-Omni 展现出改进的性能，凸显了其在不同类别中准确分类情感的能力。

R1-Omni 的另一个优势在于其生成详细且连贯推理过程的能力。研究中提供的可视化示例表明，与其他模型相比，R1-Omni 提供的解释更能反映视觉和音频线索是如何对预测做出贡献的。当在 RAVDESS 数据集（包含专业演员和标准化演讲）上进行评估时，该模型还表现出强大的泛化能力，这表明它能够适应不同类型的输入数据，同时保持一致的性能水平。

总之，R1-Omni 为多模态情感识别的挑战提供了一种深思熟虑的方法。通过利用强化学习与可验证奖励，该模型不仅被优化为更准确地预测情感，还能阐述其决策背后的推理。这种方法有助于解决该领域一些长期存在的问题，如多模态数据的集成和模型输出的可解释性。

尽管取得了进展，R1-Omni 仍面临挑战。例如，提高字幕识别能力以及减少无根据推理的实例仍是进一步探索的领域。未来的研究可能会集中在增强底层模型、优化音频线索的集成以及深化模型的推理能力上，使其更贴近人类情感理解的微妙性。

总体而言，R1-Omni 提供了一个充满希望的框架，平衡了技术严谨性与可解释性的需求，为开发更透明和有效的多模态情感识别系统提供了有价值的见解。

详见论文：https://arxiv.org/abs/2503.05379