文章目录

  • 模型设计的考虑
    • 量化的方式:
    • 比特率:Fixed vs. Adaptive Bitrate
    • 码本内容设计的考虑
    • Streamability.
  • 模型评估
    • Reconstruction Evaluation and Complexity Analysis.
    • 识别和生成任务(SE, SR)
    • Acoustic Language Modeling.
    • Music Generation
    • General Trend

模型设计的考虑

量化的方式:

  • RVQ
  • GVQ,
  • SVQ-single vq,
  • FSQ,
  • Cross-Scale RVQ (CSRVQ). 跨尺度 RVQ ,
  • Multi-Scale RVQ (MSRVQ).
  • Product Quantization (PQ).

比特率:Fixed vs. Adaptive Bitrate

  • 固定比特率
  • 动态比特率
    • 可扩展比特率(Scalable)
    • 可缩放比特率

码本内容设计的考虑

  • disentanglement:TiCodec / FACodec,将音频分成内容、韵律、音色和声学细节
  • semantic distillation:RVQ 的第一个码本用semantic token,比如MIMI, X-Codec
  • supervised semantic tokenization: 用asr loss 做监督

Streamability.

  • CNN 结构,或者casual-transformer,对是否可以流式

在这里插入图片描述

模型评估

Reconstruction Evaluation and Complexity Analysis.

  • 重建评估:评估重新合成的音频的质量。
  • 复杂度分析:根据模型大小(参数)、帧速率、标记速率和乘法累加运算 (MAC) 评估每个分词器的计算效率。
    在这里插入图片描述
  • 结果分析:
    • 对于 EnCodec 和 DAC,随着比特率从 24k 降低到 6k 和 1.5k,重建质量会持续下降。这一趋势证实,更高的比特率可以更好地保留声学细节,从而提高所有评估指标的重建质量。
    • 对于 SpeechTokenizer(4k 对 1k)和 Mimi(4.4k 对 1.1k),它们都对第一个码本应用了语义蒸馏,所有客观指标都会在比特率较低时下降。然而,WER 并没有急剧下降,这表明即使整体重建质量下降,语义蒸馏也能有效地保留语言内容。
    • 离散 WavLM 表现出显着较低的 SDR、SI-SNR、PESQ、STOI 和 Spk-Sim 分数。由于这些指标依赖于参考真值信号,因此性能不佳表明这些模型没有针对精确的波形重建进行优化。然而,UTMOS、DNSMOS 和 PLCMOS 等指标仍然合理,这表明这些分词器仍然保持语音质量。这种差异表明,离散分词器更关注高级表示,而不是精确的波形重建。
    • SQ-SMA-16 的性能与大比特率编解码器模型(例如 Mimi-S-24 4.4kbps 和 DAC-SMA-24 6kbps)相当,甚至更好。
  • 指标分析
    • SDR 和 SI-SNR 是不太可靠的指标。一个可能的原因是信号被过度压缩,神经编解码器的生成(尤其是在低比特率下),通常在本地样本级信息中一致性较差。这可能是由于非线性偏移或振幅变化造成的。【这两个指标更多反映的是时域的一致性,模型对于频域可感知指标的改善,可能并不意味着时域指标的同步优化。】

识别和生成任务(SE, SR)

重建任务好,不能说明token好,也有可能是decoder的强大,因此直接用token ,训练下游分类任务和生成任务的有效性。

  • 方法:使用轻参数的head,避免隐藏 token 中的缺陷。更多细节的设置,可以看 DASB论文里写。
    在这里插入图片描述
    在这里插入图片描述

语音任务结果分析:

  • 语音识别任务。 (1)ASR 类识别任务,包括情感分类,意图分类,关键词识别,离散 WavLM 都是表现最好的;SpeechTokenizer 排名第二;(2)在说话人识别方面,DAC 取得了最好的结果,semantic token类的结果比较差;
  • 语音生成任务:对于语音分离和增强,WavLM 在低比特率和中等比特率下表现良好,但在说话人相似度指标上显示不佳的结果。此外,重建的 DNSMOS 分数(表示编解码器单独设置的上限,没有任何分离)不会超过使用原始混合物作为估计值获得的分数(即下限),这表明重建质量的限制可能会限制下游性能,特别是对于语音分离等高保真任务。

Audio 和 Music 任务。

  • 对于一般的音频和音乐任务,EnCodec 在所有比特率和域中的性能始终优于其他分词器,而 DAC 则落后。(因为DAC 更着重优化感知域信号,时域保真度比较低,因此分离任务上表现不好)。而且增加比特率,性能更差,这可能是由于音乐固有的复音性质和较少的稀疏性质(与语音和一般音频相比),这导致来源高度重叠,更难从详细但语义纠缠的表示中解出来。

Codebook 大小的影响。

  • 增加码本的数量(例如 2、8、32)可以改善信号重建,但通常会降低下游任务的性能。(更多的码本可以提高保真度,但它们通常会增加输出维度和建模复杂性,从而降低判别任务和生成任务的性能。)
  • 在基于 RVQ 的模型中,早期的码本捕获更多的语音信息,而后来的码本通常会添加冗余,这可能解释了这种权衡。这突出了分词器的一个重要设计原则: 仅针对重建进行优化并不能保证在下游任务上获得更好的性能 。中等比特率设置通常在音频重建质量和任务性能之间提供最佳平衡。

离散token与连续emb。

  • 离散token虽然简单,但是对于比如polyphonic music分离或嘈杂的环境会表现不好。信息含量肯定是连续embedding >>离散token。
  • 数据越多,下游任务性能越好:例如,离散 WavLM 使用 BiLSTM 头在低比特率下在 LibriSpeech(960 小时)上实现了 6.0% 的 WER,在巴斯克语(116 小时)上实现了 22.0% 的 WER,在威尔士语(8 小时)上实现了 58.9%,这表明数据规模与 ASR 准确性之间存在很强的相关性。
  • 较大的下游模型有助于提高收敛性和性能,特别是对于acoustic tokenizers,它们对数据规模和模型容量都更敏感。semantic tokenizers通常在资源匮乏的环境中更鲁棒。data scale & model scale 对于使用离散token提升性能很重要,尤其是acoustic token。

Acoustic Language Modeling.

声学语言建模。我们使用 SALMon 和 Zero-resource 基准分析每个分词器(tokenizer)在训练声学语言模型方面的有效性。
在这里插入图片描述
语义指标

  • sWUGGY指标衡量在一对相似的单词和非单词(例如,brick 和 blick)中,模型是否更倾向于赋予单词更高的概率。
  • sBLIMP 衡量模型认为一个语法正确的句子比一个类似不正确的句子更有可能(the dogs sleep v.s. the dog sleep)
  • sSC:口语故事-完形填空。 模型捕获细粒度因果关系和时间常识关系的能力
  • tSC:主题故事-完形填空 ,反映了模型保持主题连贯性的能力

声学指标(SALMon 评估套件)

  • acoustic consistency:性别, 情绪,说话人,
  • sentiment-acoustic alignment(情感-声学对齐 ):它测试模型是否为声学情绪与口语内容一致的话语分配更高的分数。这个全面的套件使我们能够评估 SLM 的语言和副语言建模能力。

结论:

  • HuBERT 在语义任务上仍然是表现最强的,而 WavLM 在声学一致性方面处于领先地位。
  • 语义蒸馏的分词器,通过优化,通过缩小与 HuBERT 的语义差距
  • 总的来说,目前还没有一个分词器在所有口语和声学任务中都表现出色。

Music Generation

在这里插入图片描述

  • text condition gen: 有文本提示,生成音乐
  • uncondition gen : 给一个2s 的音频片段,续写
  • MusicCaps 和FMA 是两个训练数据集,其中FMA 音质较差,数据量也少一点
  • FAD: 评估语音质量;KLD, 评估语义一致性;CLAP评估和文本prompt的语义一致性;
    结果分析
  • 对于音乐任务,高采样率高码本的结果更好(DAC),更多细粒度的表示(这些表示对于speech是冗余的)
  • 无条件生成始终优于文本条件生成,强调了在音乐生成任务中提供旋律提示的好处。

General Trend

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86557.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86557.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/86557.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计在线教育项目核心数据库表

1 在线教育项目核心数据库表设计-ER图 简介:设计在线教育的核心库表结构 在线教育站点速览 xdclass.net ER图知识回顾: 实体对象:矩形属性:椭圆关系:菱形 核心库表 videochapterepisodeuservideo_ordervideo_banner…

【音视频】Ubuntu下配置ffmpeg库

一、下载预编译的库 在github上可以找到编译好的ffmpeg,多个版本的都有,这里我下载ffmpeg编译好的动态库 仓库链接:(https://github.com/BtbN/FFmpeg-Builds/releases 下载后解压得到 二、配置环境变量 打开.bashrc配置文件,添…

equine在神经网络中建立量化不确定性

​一、软件介绍 文末提供程序和源码下载 众所周知,用于监督标记问题的深度神经网络 (DNN) 可以在各种学习任务中产生准确的结果。但是,当准确性是唯一目标时,DNN 经常会做出过于自信的预测,并且无论测试数…

C++动态链接库之非托管封装Invoke,供C#/C++ 等编程语言使用,小白教程——C++动态链接库(一)

目录: 一、前言及背景1.1需求描述1.2应用背景 二、编程基础知识2.1非托管方式交互逻辑2.2该方式下C 与C# 数据转换对应2.3VS工程下的注意点2.4C封装接口2.4.1 __declspec(dllexport) 方式2.4.2 .def 文件方式2.4.3结合使用(高级) 2.5C# 封装接…

消息队列的网络模型详解:IO多路复用、Reactor模型、零拷贝

文章目录 一、消息队列的网路模型拟解决问题单个请求性能优化1. 编解码速度2. 网络模块处理速度 并发请求性能优化1. 高效的连接管理2. 快速处理高并发请求3. 大流量场景处理 二、一些技术基础知识1. 基于多路复用技术管理 TCP 连接(提高性能)&#xff0…

【生成模型】【模型介绍】(一)视频生成Wan2.1速度质量简单评测

基础模型:FramePack https://github.com/kijai/ComfyUI-FramePackWrapper huggingface-cli download Comfy-Org/HunyuanVideo_repackaged --local-dir Comfy-Org/HunyuanVideo_repackaged --resume-download huggingface-cli download Comfy-Org/sigclip_vision_3…

微信小程序之滑块scroll-view

我们要做的东西&#xff1a; 滑块的视频 我们先做个基本的图片和文字(wxm;)&#xff1a; <scroll-view><view class"scrollItem"><image src"https://bkimg.cdn.bcebos.com/pic/fc1f4134970a304e251fd88e8191b086c9177f3ef634?x-bce-processim…

如何写出优秀的单元测试?

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 写出优秀的单元测试需要考虑以下几个方面&#xff1a; 1. 测试用例设计 测试用例应该覆盖被测试代码的不同场景和边界情况&#xff0c;以尽可能发现潜在的问题。…

Python LangChain 3.0 详解:重构大模型应用开发范式

引言 在人工智能技术日新月异的今天&#xff0c;大模型应用开发框架的迭代速度直接决定了AI落地的效率。LangChain作为这一领域的领军者&#xff0c;于2024年正式发布3.0版本&#xff0c;通过架构重构与功能扩展&#xff0c;为开发者提供了更强大的工具集。本文将深入解析Lang…

Java模板设计模式详解

以下是Java模板设计模式的详细解析&#xff1a; 一、核心定义 模板模式&#xff08;Template Method Pattern&#xff09;是一种‌行为型设计模式‌&#xff0c;通过定义算法骨架并允许子类重写特定步骤&#xff0c;实现代码复用与扩展。其核心在于控制‌流程标准化‌&#x…

Word 中批量转换 LaTeX 公式为标准数学格式的终极方法(附宏设置教程)

在学术写作中&#xff0c;我们常常需要将 LaTeX 格式的公式插入到 Word 文档中。但如果你有一大段公式使用 $...$ 或 LaTeX 命令&#xff0c;手动转换无疑非常耗时。本文将介绍一种“一键转换所有 LaTeX 公式为 Word 数学公式”的方法&#xff0c;只需设置一次宏&#xff0c;后…

linux上查看文件系统类型

假设 有文件系统mount在/data-pool&#xff1a; df -h ./ 文件系统 大小 已用 可用 已用% 挂载点 data-pool 1.5T 345M 1.5T 1% /data-pool如何查看 data-pool 这个文件系统的文件系统类型&#xff08;格式&#xff09;&#xff0c;比如是 ext4、btrfs、z…

Android14-HAL分析

文章目录 一、HAL综述二、Android各版本HAL的演进三、传统HAL(< Android7)四、HIDL HAL(Android8-10)1、参考资料2、概述2、架构3、实现一个HIDL HAL1&#xff09;HIDL的开发流程2&#xff09;HIDL HAL的语法3&#xff09;创建HAL接口&生成impl库4&#xff09;Service实…

【WebSocket】学习总结

是一种协议&#xff1b; 作用与Web应用程序和服务端之间&#xff1b; 实时的、双向的&#xff1b; 通过单一的TCP提供了持久化连接&#xff1b; 优势&#xff1a; 实时、双向、可以减少网络的负载&#xff1b; 劣势&#xff1a; 需要客户端和服务端双方都支持&#xff1b; 连续…

“组件协作”模式之策略模式

目录 策略模式引例动机 Motivation模式定义结构要点总结 策略模式 引例 税务计算系统&#xff0c;根据各个国家的税法&#xff0c;进行税务计算。各个国家税法规定差别很大&#xff0c;需对应进行相应的实现。 常规解耦前写法 使用if-else语句或switch-case语句进行结构化分…

VS Git巨坑 切换分支失败导致原分支被修改

VS2013Git 首先当前分支&#xff08;分支A&#xff09;的变更已经提交&#xff0c;应该可以正常切换分支。 想切换到一个比较老的分支B&#xff08;跟当前分支存在较大差异&#xff0c;增加了很多文件&#xff09;&#xff0c;VS中提示切换失败&#xff0c;当前分支仍然是分支A…

uniapp页面间通信uni.$on与通过uni.navigateTo中eventChannal的方式的区别

背景。无意间开发uniapp程序用到了页面跳转数据传递的两种方式。但各用于什么场景&#xff0c;有什么区别记录一下。大模型给的内容较多&#xff0c;贴出一些结论。eventChannel文档链接uni.$emit文档链接 页面跳转而非全局事件通知&#xff0c;优先选择eventChanel的方式。 首…

理解对话上下文

1、pom依赖 <properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>11</maven.compiler.source><maven.compiler.target>11</maven.compiler.target><langchain4j.version>…

【Java高频面试问题】数据库篇

【Java高频面试问题】数据库篇 为什么MySQL选择B树作为索引一、B 树的优势特性二、与常见数据结构的对比 索引优化一、索引类型及使用场景二、索引优化核心策略1. 避免索引失效场景2. 性能优化实践3. 表结构与架构优化 三、高频面试问题参考答案总结&#xff1a;面试核心要点 数…

《Whisper:开启语音识别新时代的钥匙》

Whisper 模型:技术革新的基石 在当今科技飞速发展的时代,自动语音识别(ASR)技术作为人工智能领域的关键分支,正深刻地改变着人们的生活与工作方式。从智能语音助手到实时字幕生成,从语音交互设备到智能客服系统,ASR 技术无处不在,为人们带来了前所未有的便利与效率提升…