引言:从LLM到深度语义
在大型语言模型(LLM)驱动的语音交互时代,神经语音编解码器 (Neural Speech Codec) 扮演着至关重要的角色。它如同 LLM 的“耳朵”和“嘴巴”,负责将连续的语音波形转换为离散的、可供模型处理的 token,并将模型生成的 token 还原为自然的人声。
一个理想的语音编解码器,需要同时实现两个看似矛盾的目标:
- 高保真重建 (High-fidelity Reconstruction):生成的语音要清晰、自然,尽可能保留原始语音的音质。
- 语义解耦 (Semantic Disentanglement):编码出的 token 需要能够清晰地分离语义信息(说了什么)和副语言信息(怎么说的,如音色、情感、韵律等)。
传统的声学编解码器(如 Encodec, SoundStream),通过多码本的残差向量量化 (RVQ) 实现了极高的重建质量,但其生成的声学 token 耦合了所有信息,直接用于 LLM 建模会非常复杂。
而语义解耦编解码器(如 FACodec, SpeechTokenizer, MimiCodec)虽然尝试分离语义,但大多存在以下问题:
- 解耦不彻底:依赖于从自监督模型(如 HuBERT, WavLM)蒸馏的表示,这些表示本