简介:

  1. 🌍 SEAMLESSM4T 是一种单一模型,实现了跨越多达 101 种源语言和多种目标语言的语音到语音、语音到文本、文本到语音和文本到文本翻译及自动语音识别。
  2. 🚀 该模型性能显著超越现有级联系统,特别是在语音到文本和语音到语音翻译任务上展现出更高的 BLEU 分数。
  3. 🛡️ SEAMLESSM4T 还提升了系统对背景噪声和说话者变化的鲁棒性,并通过特定策略缓解了翻译中新增毒性和性别偏见的问题。

摘要:

多模态多语种联合机器翻译 (Joint Multimodal and Multilingual Machine Translation) for Up to 100 Languages: SEAMLESSM4T

研究背景: 现有的 语音到语音翻译 (Speech-to-Speech Translation, S2ST) 系统多采用 级联 (cascaded) 架构,即将任务分解为 自动语音识别 (Automatic Speech Recognition, ASR)、文本到文本翻译 (Text-to-Text Translation, T2TT) 和 文本到语音 (Text-to-Speech, TTS) 等独立阶段。这种方法性能受限于各子系统误差累积,且在覆盖语言数量和对低资源语言 (low-resource languages) 的支持上存在局限。构建高性能、可扩展的统一 S2ST 系统面临音频数据稀缺和建模挑战。

研究目标: 开发一个单一的统一模型,能够处理语音和文本之间的多种翻译任务(ASR, T2TT, 语音到文本翻译 [Speech-to-Text Translation, S2TT], 文本到语音翻译 [Text-to-Speech Translation, T2ST], S2ST),覆盖尽可能多的语言,同时超越现有级联系统的性能和鲁棒性。

核心方法 (Core Methodology):

  1. 数据构建:

    • SEAMLESSALIGN 语料库: 构建了一个包含超过 470,000 小时自动对齐语音翻译数据的大规模 多模态语料库 (multimodal corpus)。
    • SONAR 嵌入空间: 利用 句子级多模态语言无关表示 (Sentence-level Multimodal and Language-Agnostic Representations, SONAR) 嵌入空间进行数据挖掘。SONAR 编码器可以将语音和文本映射到共享的、语言无关的嵌入空间。通过计算嵌入向量的相似度,使用 边缘准则 (margin criterion) 从大规模单语语料中挖掘出对齐数据:
      score ( x , y ) = 1 2 ( ∑ z ∈ N N k ( x ) cos ( y , z ) 2 + ∑ v ∈ N N k ( y ) cos ( x , v ) 2 ) \text{score}(x, y) = \frac{1}{2} \left( \sum_{z \in NN_k(x)} \text{cos}(y, z)^2 + \sum_{v \in NN_k(y)} \text{cos}(x, v)^2 \right) score(x,y)=21 zNNk(x)cos(y,z)2+vNNk(y)cos(x,v)2
      其中 x x x y y y 是源句和目标句, N N k ( x ) NN_k(x) NNk(x) x x x 在另一种语言中最近的 k k k 个邻居。
    • 数据增强: 利用 伪标签 (pseudo-labelling) 技术,使用 T2TT 模型为 ASR 数据生成 S2TT 伪标签,并使用 T2U 模型将文本直接转换为离散单元,用于训练 S2ST 模型。
  2. 模型架构:

    • SEAMLESSM4T (UNITY2): 基于 多任务统一 (multitask UNITY) 架构的改进版本 UNITY2。这是一个 双通路解码 (two-pass decoding) 框架:
      • 第一通路 (X2T): 使用一个 多编码器序列到序列 (multi-encoder sequence-to-sequence) 模型 X2T,包含用于语音输入的 Conformer 编码器和用于文本输入的 Transformer 编码器,共享同一个文本解码器。该模型联合微调 (fine-tune) 以优化 ASR、S2TT 和 T2TT 任务,损失函数包括 S2TT 损失、T2TT 损失和 令牌级知识蒸馏 (token-level Knowledge Distillation, KDL) 损失。语音编码器使用基于 W2V-BERT 2.0 的 无监督语音预训练 (Unsupervised Speech Pretraining) 进行初始化和强化。
      • 第二通路 (NAR T2U): 使用一个 非自回归文本到单元 (Non-Autoregressive Text-to-Unit, NAR T2U) 模型,预测 S2ST 和 T2ST 的目标输出——离散声学单元 (discrete acoustic units)。这些单元是通过对自监督语音表示(如 XLS-R)进行 k-means 聚类获得的。NAR T2U 通过 层级上采样 (hierarchical upsampling) 从 子词 (subword) 级别上采样到 字符 (character) 级别,再到单元级别,利用 单元持续时间预测器 (unit duration predictor) 并在 多语种对齐器 (multilingual aligner) 的监督下进行训练。
  3. 负责任的AI (Responsible AI):

    • 毒性缓解: 评估并缓解翻译过程中可能引入的 添加毒性 (added toxicity)。采用训练时过滤和推理时 波束过滤 (beam filtering) (MinTox) 等策略。
    • 性别偏见评估: 使用 MULTILINGUAL HOLISTICBIAS 数据集及其语音扩展评估模型在处理不同性别信息时的鲁棒性和是否存在 过泛化 (overgeneralization) 现象。

主要成果 (Key Results):

  • 语言覆盖: 支持从 101 种语言到 36 种语言的 S2ST,从 101 种语言到 96 种语言的 S2TT,从 96 种语言到 36 种语言的 T2ST,以及 96 种语言的 T2TT 和 ASR。首次实现了从/到英语的语音和文本翻译的广泛覆盖。
  • 性能提升: 在 S2TT 和 S2ST 任务上,相较于现有最先进级联系统,BLEU 和 ASR-BLEU 分数分别提高了高达 8% 和 23%。对低资源语言的翻译质量有显著提升。
  • 多任务能力: 在 ASR 任务上表现优于 WHISPER-LARGE-V2,WER 降低 56%。在 T2TT 任务上与 NLLB-3.3B 相当。在零样本 T2ST 任务上,性能与级联系统相当或更优。
  • 鲁棒性: 在 S2TT 任务中,对背景噪音和说话人变化的鲁棒性平均提高了约 50%。
  • 毒性与偏见: 添加毒性发生率较低,且能通过 MinTox 有效缓解。模型提高了对性别变化的鲁棒性,但性别过泛化问题仍需进一步解决。

社会影响与贡献: SEAMLESSM4T 通过提供高性能的多模态多语种翻译能力,有助于降低跨语言交流障碍,增强个体的 世界就绪度 (world-readiness),并特别支持有无障碍需求的用户。研究团队公开了数据工具、代码和模型权重供非商业使用,以促进相关技术的进一步研究和发展。

关键词字典

  • SEAMLESS Communication Team: 指的是一个团队,他们共同致力于开发和研究SEAMLESSM4T模型,并在论文中署名。这个团队由来自Meta Foundational AI Research(FAIR)以及其他机构的研究人员组成。
  • SEAMLESSM4T: (Massively Multilingual and Multimodal Machine Translation) 是一个统一的系统,支持语音到语音翻译(S2ST)、语音到文本翻译(S2TT)、文本到语音翻译(T2ST)、文本到文本翻译(T2TT)和自动语音识别(ASR)等多种任务。该模型旨在实现大规模多语言和多模态的机器翻译。
  • Speech-to-speech translation (S2ST): 指的是将一种语言的语音直接翻译成另一种语言的语音的任务。这是SEAMLESSM4T模型支持的关键功能之一,旨在实现不同语言人群之间的无缝语音交流。
  • Speech-to-text translation (S2TT): 指的是将一种语言的语音翻译成另一种语言的文本的任务。SEAMLESSM4T模型能够将101种语言的语音翻译成96种语言的文本。
  • Text-to-speech translation (T2ST): 指的是将一种语言的文本翻译成另一种语言的语音的任务。SEAMLESSM4T模型支持将96种语言的文本翻译成36种语言的语音,无需显式地为此任务进行训练(zero-shot)。
  • Text-to-text translation (T2TT): 指的是将一种语言的文本翻译成另一种语言的文本的任务。这是机器翻译领域中的传统任务,SEAMLESSM4T模型支持96种语言之间的文本翻译。
  • Automatic speech recognition (ASR): 指的是将语音转换成文本的任务。SEAMLESSM4T模型具备自动语音识别功能,能够识别96种语言的语音。
  • Multilingual: 指的是涉及多种语言的能力。SEAMLESSM4T 的一个关键特点是其多语言性,能够处理 100 多种语言的输入和多种语言的输出。
  • Multimodal: 指的是涉及多种数据模态(例如语音和文本)的能力。SEAMLESSM4T 是多模态的,因为它能够处理和翻译语音和文本。
  • BLEU: (Bilingual Evaluation Understudy) 是一种用于评估机器翻译质量的常用指标。它通过比较机器翻译的文本与人工翻译的文本之间的n-gram重叠程度来计算得分。
  • Toxicity: 指的是翻译中出现的恶意、不友善或有害的内容。SEAMLESSM4T 评估了其翻译中添加的毒性,并实施了缓解策略。
  • Gender bias: 指的是机器翻译中存在的性别偏见,例如在翻译中过度概括为一种性别或在处理性别屈折变化时缺乏稳健性。SEAMLESSM4T 评估并努力减轻其翻译中的性别偏见。
  • Robustness: 指的是系统在各种条件下的可靠性和性能,例如存在背景噪声或说话人变化。SEAMLESSM4T 已经过测试,以评估其在嘈杂环境中的鲁棒性。
  • SEAMLESSALIGN: 是一个自动对齐的语音翻译语料库,包含了超过47万小时的语音数据。这个语料库是使用一种新的句子嵌入空间(SONAR)构建的,用于训练SEAMLESSM4T模型。
  • SONAR: (Sentence-level Multimodal and Language-Agnostic Representations) 是一种句子级别的多模态和语言无关的表示方法,用于创建共享的嵌入空间。SONAR 用于挖掘对齐的语音和文本数据,并评估语音编码器的质量。
  • Zero-shot: 指的是模型在没有经过特定任务的显式训练的情况下,执行该任务的能力。SEAMLESSM4T 能够在零样本的情况下执行文本到语音的翻译(T2ST)和非英语方向的文本到文本翻译(X–X)。
  • World-readiness: 指的是一个人在全球化世界中有效沟通和互动的能力。SEAMLESSM4T 旨在通过促进多语言交流来增强用户的“世界准备度”。
  • Multitask: 指的是模型能够同时执行多个任务的能力。SEAMLESSM4T 是一个多任务模型,可以执行自动语音识别(ASR)、文本到文本翻译(T2TT)、语音到文本翻译(S2TT)、文本到语音翻译(T2ST)和语音到语音翻译(S2ST)等多种任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86046.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86046.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/86046.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站公安网安备案查询API集成指南

网站公安网安备案查询API集成指南 引言 随着互联网应用的日益普及,网络安全和个人隐私保护越来越受到重视。公安网安备案作为保障网络安全的重要措施之一,对于确保网站合法合规运营具有重要意义。为了帮助开发者更加便捷地获取网站的公安网安备案信息&a…

如何用远程调试工具排查 WebView 与原生通信问题(iOS或Android)

WebView 在移动端开发中的角色越来越关键,尤其在混合架构(Hybrid)项目中,它作为前端与原生的桥梁,承载了大量交互行为。但这个桥梁并不总是稳固,尤其是在涉及 JSBridge 通信 时,前端调用原生接口…

使用 spark-submit 运行依赖第三方库的 Python 文件

python文件在spark集群运行真的麻烦,烦冗 spark运行分为了三个模式,本地模式/client模式/cluster模式 文章目录 本地模式client模式cluster模式参考 本地模式 现在的spark支持python3了,支持python2的版本已经很落后了,所以需要…

【android bluetooth 协议分析 05】【蓝牙连接详解2】【acl_interface_t介绍】

1. acl_interface_t 介绍 acl_interface_t 结构体及其子结构体,目的是封装处理 Classic、LE、SCO 连接及链路事件的回调函数,用于 HCI 事件与上层蓝牙协议栈的解耦分发。 system/main/shim/acl_legacy_interface.h typedef struct {void (*on_connect…

TouchDIVER Pro触觉手套:虚拟现实中的多模态交互新选择

随着虚拟现实技术的发展,用户对沉浸式体验的需求不断提升。TouchDIVER Pro触觉手套通过力反馈、纹理渲染和温度提示三种核心机制,为用户提供更真实的触觉感知体验。六个驱动点分布于五指与手掌,结合全手追踪与低延迟连接,实现精准…

想考华为HCIA-AI,应该怎么入门?

华为HCIA-AI Solution认证作为华为人工智能认证体系的起点,吸引了许多希望进入AI领域或提升专业技能的学习者。如果你正考虑考取这个认证,这份纯科普向的入门指南希望能够帮你理清学习路径和关键准备点! 第一、明确认证目标与要求 HCIA-AI S…

【Oracle篇】Windows平台单进程多线程架构设计与实现(比对Linux多进程架构)

💫《博主主页》: 🔎 CSDN主页__奈斯DB 🔎 IF Club社区主页__奈斯、 🔥《擅长领域》:擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、N…

在微服务中使用 Sentinel

在微服务中集成 Sentinel 1. 添加依赖 对于 Spring Cloud 项目&#xff0c;首先需要添加 Sentinel 的依赖&#xff1a; <!-- Spring Cloud Alibaba Sentinel --> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-…

中断控制与实现

一、中断基本概念 1、中断 中断是一种异步事件&#xff0c;用于通知处理器某个事件已经发生&#xff0c;需要处理器立即处理。由于I/O操作的不确定因素以及处理器和I/O设备之间的速度不匹配&#xff0c;I/O设备可以通过某种硬件信号异步唤醒对应的处理器的响应&#xff0c;这些…

前端跨域解决方案(7):Node中间件

1 Node 中间件核心 1.1 为什么开发环境需要 Node 代理&#xff1f; 在前端开发中&#xff0c;我们常遇到&#xff1a;前端运行在localhost:3000&#xff0c;后端 API 在localhost:4000&#xff0c;跨域导致请求失败。而传统解决方案有以下局限性&#xff1a; 修改后端 CORS 配…

iwebsec靶场-文件上传漏洞

01-前端JS过滤绕过 1&#xff0c;查看前端代码对文件上传的限制策略 function checkFile() { var file document.getElementsByName(upfile)[0].value; if (file null || file "") { alert("你还没有选择任何文件&a…

GitHub 趋势日报 (2025年06月23日)

&#x1f4ca; 由 TrendForge 系统生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日报中的项目描述已自动翻译为中文 &#x1f4c8; 今日获星趋势图 今日获星趋势图 390 suna 387 system-prompts-and-models-of-ai-tools 383 Web-Dev-For-Beginners…

告别水印烦恼,一键解锁高清无痕图片与视频!

在这个数字化飞速发展的时代&#xff0c;无论是设计小白还是创意达人&#xff0c;都可能遇到这样的困扰&#xff1a;心仪的图片或视频因水印而大打折扣&#xff0c;创意灵感因水印而受限。别急&#xff0c;今天就为大家带来几款神器&#xff0c;让你轻松告别水印烦恼&#xff0…

LangChain4j在Java企业应用中的实战指南:构建RAG系统与智能应用-2

LangChain4j在Java企业应用中的实战指南&#xff1a;构建RAG系统与智能应用-2 开篇&#xff1a;LangChain4j框架及其在Java生态中的定位 随着人工智能技术的快速发展&#xff0c;尤其是大语言模型&#xff08;Large Language Models, LLMs&#xff09;的广泛应用&#xff0c;…

Cola StateMachine 的无状态(Stateless)特性详解

Cola StateMachine 的无状态&#xff08;Stateless&#xff09;特性详解 在现代分布式系统中&#xff0c;无状态设计是构建高可用、可扩展服务的关键原则之一。Cola StateMachine 作为一款轻量级的状态机框架&#xff0c;通过其独特的设计理念实现了良好的无状态特性。本文将深…

使用事件通知来处理页面回退时传递参数和赋值问题

背景。uniapp开发微信小程序。在当前页面需要选择条件&#xff0c;如选择城市。会打开新的页面。此时选择之后需要关闭页面回到当初的页面。但问题出现了。onLoad等事件是不会加载的。相关链接。uniapp页面通讯说明使用事件通知来处理页面回退时传递参数和赋值问题 页面之间的…

腾讯云COS“私有桶”下,App如何安全获得音频调用流程

流程图 #mermaid-svg-Phy4VCltBRZ90UH8 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Phy4VCltBRZ90UH8 .error-icon{fill:#552222;}#mermaid-svg-Phy4VCltBRZ90UH8 .error-text{fill:#552222;stroke:#552222;}#me…

基于深度学习的侧信道分析(DLSCA)Python实现(带测试)

一、DLSCA原理介绍 基于深度学习的侧信道分析(DLSCA)是一种结合深度神经网络与侧信道分析技术的密码分析方法。该方法利用深度学习模型从能量消耗、电磁辐射等侧信道信息中提取与密钥相关的特征模式。相比传统分析方法&#xff0c;DLSCA能够自动学习复杂的特征关系&#xff0c…

云原生 CAD 让制造业设计协同更便捷

随着互联网、云计算技术的突飞猛进&#xff0c;CAD向着网络化、协同化的方向快速发展&#xff0c;云CAD软件逐渐映入人们的眼帘。云原生CAD不仅打破了传统CAD软件对硬件配置的依赖&#xff0c;更以数据驱动的协同创新模式&#xff0c;重塑了制造业的产品研发流程与组织协作形态…

Docker容器核心操作指南:`docker run`参数深度解析

技术聚焦 作为容器化技术的起点&#xff0c;docker run命令承担着90%的容器创建工作。其关键参数-d&#xff08;后台模式&#xff09;与-it&#xff08;交互模式&#xff09;的合理运用&#xff0c;直接影响容器行为模式与运维效率。本文将深度拆解两大模式的应用场景与…