简介：

🌍 SEAMLESSM4T 是一种单一模型，实现了跨越多达 101 种源语言和多种目标语言的语音到语音、语音到文本、文本到语音和文本到文本翻译及自动语音识别。
🚀 该模型性能显著超越现有级联系统，特别是在语音到文本和语音到语音翻译任务上展现出更高的 BLEU 分数。
🛡️ SEAMLESSM4T 还提升了系统对背景噪声和说话者变化的鲁棒性，并通过特定策略缓解了翻译中新增毒性和性别偏见的问题。

摘要：

多模态多语种联合机器翻译 (Joint Multimodal and Multilingual Machine Translation) for Up to 100 Languages: SEAMLESSM4T

研究背景： 现有的语音到语音翻译 (Speech-to-Speech Translation, S2ST) 系统多采用级联 (cascaded) 架构，即将任务分解为自动语音识别 (Automatic Speech Recognition, ASR)、文本到文本翻译 (Text-to-Text Translation, T2TT) 和文本到语音 (Text-to-Speech, TTS) 等独立阶段。这种方法性能受限于各子系统误差累积，且在覆盖语言数量和对低资源语言 (low-resource languages) 的支持上存在局限。构建高性能、可扩展的统一 S2ST 系统面临音频数据稀缺和建模挑战。

研究目标： 开发一个单一的统一模型，能够处理语音和文本之间的多种翻译任务（ASR, T2TT, 语音到文本翻译 [Speech-to-Text Translation, S2TT], 文本到语音翻译 [Text-to-Speech Translation, T2ST], S2ST），覆盖尽可能多的语言，同时超越现有级联系统的性能和鲁棒性。

核心方法 (Core Methodology)：

数据构建：
- SEAMLESSALIGN 语料库： 构建了一个包含超过 470,000 小时自动对齐语音翻译数据的大规模多模态语料库 (multimodal corpus)。
- SONAR 嵌入空间： 利用句子级多模态语言无关表示 (Sentence-level Multimodal and Language-Agnostic Representations, SONAR) 嵌入空间进行数据挖掘。SONAR 编码器可以将语音和文本映射到共享的、语言无关的嵌入空间。通过计算嵌入向量的相似度，使用边缘准则 (margin criterion) 从大规模单语语料中挖掘出对齐数据：
  $\text{score}(x, y) = \frac{1}{2} \left( \sum_{z \in NN_k(x)} \text{cos}(y, z)^2 + \sum_{v \in NN_k(y)} \text{cos}(x, v)^2 \right)$
  其中 $x$ 和 $y$ 是源句和目标句， $NN_k(x)$ 是 $x$ 在另一种语言中最近的 $k$ 个邻居。
- 数据增强： 利用伪标签 (pseudo-labelling) 技术，使用 T2TT 模型为 ASR 数据生成 S2TT 伪标签，并使用 T2U 模型将文本直接转换为离散单元，用于训练 S2ST 模型。
模型架构：
- SEAMLESSM4T (UNITY2)： 基于多任务统一 (multitask UNITY) 架构的改进版本 UNITY2。这是一个双通路解码 (two-pass decoding) 框架：
  - 第一通路 (X2T)： 使用一个多编码器序列到序列 (multi-encoder sequence-to-sequence) 模型 X2T，包含用于语音输入的 Conformer 编码器和用于文本输入的 Transformer 编码器，共享同一个文本解码器。该模型联合微调 (fine-tune) 以优化 ASR、S2TT 和 T2TT 任务，损失函数包括 S2TT 损失、T2TT 损失和令牌级知识蒸馏 (token-level Knowledge Distillation, KDL) 损失。语音编码器使用基于 W2V-BERT 2.0 的无监督语音预训练 (Unsupervised Speech Pretraining) 进行初始化和强化。
  - 第二通路 (NAR T2U)： 使用一个非自回归文本到单元 (Non-Autoregressive Text-to-Unit, NAR T2U) 模型，预测 S2ST 和 T2ST 的目标输出——离散声学单元 (discrete acoustic units)。这些单元是通过对自监督语音表示（如 XLS-R）进行 k-means 聚类获得的。NAR T2U 通过层级上采样 (hierarchical upsampling) 从子词 (subword) 级别上采样到字符 (character) 级别，再到单元级别，利用单元持续时间预测器 (unit duration predictor) 并在多语种对齐器 (multilingual aligner) 的监督下进行训练。
负责任的AI (Responsible AI)：
- 毒性缓解： 评估并缓解翻译过程中可能引入的添加毒性 (added toxicity)。采用训练时过滤和推理时波束过滤 (beam filtering) (MinTox) 等策略。
- 性别偏见评估： 使用 MULTILINGUAL HOLISTICBIAS 数据集及其语音扩展评估模型在处理不同性别信息时的鲁棒性和是否存在过泛化 (overgeneralization) 现象。

主要成果 (Key Results)：

语言覆盖： 支持从 101 种语言到 36 种语言的 S2ST，从 101 种语言到 96 种语言的 S2TT，从 96 种语言到 36 种语言的 T2ST，以及 96 种语言的 T2TT 和 ASR。首次实现了从/到英语的语音和文本翻译的广泛覆盖。
性能提升： 在 S2TT 和 S2ST 任务上，相较于现有最先进级联系统，BLEU 和 ASR-BLEU 分数分别提高了高达 8% 和 23%。对低资源语言的翻译质量有显著提升。
多任务能力： 在 ASR 任务上表现优于 WHISPER-LARGE-V2，WER 降低 56%。在 T2TT 任务上与 NLLB-3.3B 相当。在零样本 T2ST 任务上，性能与级联系统相当或更优。
鲁棒性： 在 S2TT 任务中，对背景噪音和说话人变化的鲁棒性平均提高了约 50%。
毒性与偏见： 添加毒性发生率较低，且能通过 MinTox 有效缓解。模型提高了对性别变化的鲁棒性，但性别过泛化问题仍需进一步解决。

社会影响与贡献： SEAMLESSM4T 通过提供高性能的多模态多语种翻译能力，有助于降低跨语言交流障碍，增强个体的世界就绪度 (world-readiness)，并特别支持有无障碍需求的用户。研究团队公开了数据工具、代码和模型权重供非商业使用，以促进相关技术的进一步研究和发展。

关键词字典

SEAMLESS Communication Team: 指的是一个团队，他们共同致力于开发和研究SEAMLESSM4T模型，并在论文中署名。这个团队由来自Meta Foundational AI Research（FAIR）以及其他机构的研究人员组成。
SEAMLESSM4T: (Massively Multilingual and Multimodal Machine Translation) 是一个统一的系统，支持语音到语音翻译（S2ST）、语音到文本翻译（S2TT）、文本到语音翻译（T2ST）、文本到文本翻译（T2TT）和自动语音识别（ASR）等多种任务。该模型旨在实现大规模多语言和多模态的机器翻译。
Speech-to-speech translation (S2ST): 指的是将一种语言的语音直接翻译成另一种语言的语音的任务。这是SEAMLESSM4T模型支持的关键功能之一，旨在实现不同语言人群之间的无缝语音交流。
Speech-to-text translation (S2TT): 指的是将一种语言的语音翻译成另一种语言的文本的任务。SEAMLESSM4T模型能够将101种语言的语音翻译成96种语言的文本。
Text-to-speech translation (T2ST): 指的是将一种语言的文本翻译成另一种语言的语音的任务。SEAMLESSM4T模型支持将96种语言的文本翻译成36种语言的语音，无需显式地为此任务进行训练（zero-shot）。
Text-to-text translation (T2TT): 指的是将一种语言的文本翻译成另一种语言的文本的任务。这是机器翻译领域中的传统任务，SEAMLESSM4T模型支持96种语言之间的文本翻译。
Automatic speech recognition (ASR): 指的是将语音转换成文本的任务。SEAMLESSM4T模型具备自动语音识别功能，能够识别96种语言的语音。
Multilingual: 指的是涉及多种语言的能力。SEAMLESSM4T 的一个关键特点是其多语言性，能够处理 100 多种语言的输入和多种语言的输出。
Multimodal: 指的是涉及多种数据模态（例如语音和文本）的能力。SEAMLESSM4T 是多模态的，因为它能够处理和翻译语音和文本。
BLEU: (Bilingual Evaluation Understudy) 是一种用于评估机器翻译质量的常用指标。它通过比较机器翻译的文本与人工翻译的文本之间的n-gram重叠程度来计算得分。
Toxicity: 指的是翻译中出现的恶意、不友善或有害的内容。SEAMLESSM4T 评估了其翻译中添加的毒性，并实施了缓解策略。
Gender bias: 指的是机器翻译中存在的性别偏见，例如在翻译中过度概括为一种性别或在处理性别屈折变化时缺乏稳健性。SEAMLESSM4T 评估并努力减轻其翻译中的性别偏见。
Robustness: 指的是系统在各种条件下的可靠性和性能，例如存在背景噪声或说话人变化。SEAMLESSM4T 已经过测试，以评估其在嘈杂环境中的鲁棒性。
SEAMLESSALIGN: 是一个自动对齐的语音翻译语料库，包含了超过47万小时的语音数据。这个语料库是使用一种新的句子嵌入空间（SONAR）构建的，用于训练SEAMLESSM4T模型。
SONAR: (Sentence-level Multimodal and Language-Agnostic Representations) 是一种句子级别的多模态和语言无关的表示方法，用于创建共享的嵌入空间。SONAR 用于挖掘对齐的语音和文本数据，并评估语音编码器的质量。
Zero-shot: 指的是模型在没有经过特定任务的显式训练的情况下，执行该任务的能力。SEAMLESSM4T 能够在零样本的情况下执行文本到语音的翻译（T2ST）和非英语方向的文本到文本翻译（X–X）。
World-readiness: 指的是一个人在全球化世界中有效沟通和互动的能力。SEAMLESSM4T 旨在通过促进多语言交流来增强用户的“世界准备度”。
Multitask: 指的是模型能够同时执行多个任务的能力。SEAMLESSM4T 是一个多任务模型，可以执行自动语音识别（ASR）、文本到文本翻译（T2TT）、语音到文本翻译（S2TT）、文本到语音翻译（T2ST）和语音到语音翻译（S2ST）等多种任务。