音视频学习群：https://gjzkeyframe.github.io/posts/wechat-group/

音视频面试题集锦第 32 期：

1、请详细解释 H.264 编码中的熵编码方式（CAVLC 和 CABAC），它们的区别和适用场景是什么？
2、解释 H.264/H.265 中的帧内预测模式，以及它们在编码器优化中的应用？
3、请详细解释 H.265 中的 CTU 和 CU 结构，以及它们对编码效率的影响？
4、在视频编码中，如何实现和优化运动估计算法？
5、请解释音频编码中的心理声学模型，以及它在 AAC 编码中的应用？

图文完整版请阅读：https://gjzkeyframe.github.io/posts/av-interview-qa-20/

想要学习和提升音视频技术的朋友，快来加入我们的【音视频技术社群】，加入后你就能：

1）下载 30+ 个开箱即用的「音视频及渲染 Demo 源代码」
2）下载包含 500+ 知识条目的完整版「音视频知识图谱」
3）下载包含 200+ 题目的完整版「音视频面试题集锦」
4）技术和职业发展咨询 100% 得到回答
5）获得简历优化建议和大厂内推

现在加入，送你一张 20 元优惠券：点击领取优惠券

1、请详细解释 H.264 编码中的熵编码方式（CAVLC 和 CABAC），它们的区别和适用场景是什么？

考察重点：

H.264 编码原理深度理解
熵编码算法掌握
性能和压缩率权衡意识

参考答案：

CAVLC (Context-adaptive variable-length coding) 和 CABAC (Context-adaptive binary arithmetic coding) 是两种熵编码方式：

1、CAVLC 特点：
- 基于变长编码
- 计算复杂度较低
- 压缩效率中等
- 适合 Baseline Profile
2、CABAC 特点：
- 基于算术编码
- 计算复杂度高
- 压缩效率高（比 CAVLC 提升 10-15%）
- 适合 Main/High Profile

核心区别：

// CAVLC 编码示例
struct CAVLC_Context {int maxNumCoeff;int* coeffLevel;int* runBefore;void encode() {// 1. 计算尾零数// 2. 编码总系数和尾零// 3. 编码系数大小// 4. 编码零游程}
};// CABAC 编码示例
struct CABAC_Context {int stateMPS[MAX_CTX]; // MPS概率状态int rangeLPS[MAX_CTX]; // LPS范围void encode() {// 1. 上下文建模// 2. 概率估计// 3. 算术编码// 4. 概率更新}
};

选择建议：

实时场景：优先 CAVLC
存储场景：优先 CABAC
低延迟：CAVLC
高压缩比：CABAC

评分要点：

原理理解深度 (30%)
性能差异认知 (30%)
实际应用经验 (40%)

2、解释 H.264/H.265 中的帧内预测模式，以及它们在编码器优化中的应用？

考察重点：

帧内预测基本原理
预测模式选择策略
编码器优化经验

参考答案：

帧内预测基本原理：

1、H.264 帧内预测：
- 亮度：9种模式（4x4/16x16）
- 色度：4种模式
- 基于相邻已重建像素
2、H.265 帧内预测：
- 35种角度预测模式
- DC模式和Planar模式
- 支持多种块大小（4x4到64x64）

优化策略：

class IntraPrediction {
private:float evaluateMode(int mode, Block* block) {float cost = 0;// RD cost 计算cost = calculateRDCost(mode, block);// 考虑相邻块使用的模式cost += getModePenalty(mode, neighborModes);return cost;}int fastModeDecision(Block* block) {// 快速模式选择算法int bestMode = 0;float minCost = FLT_MAX;// 1. 粗筛选：基于边缘检测vector<int> candidateModes = getEdgeBasedModes(block);// 2. 精筛选：RD cost对比for (int mode : candidateModes) {float cost = evaluateMode(mode, block);if (cost < minCost) {minCost = cost;bestMode = mode;}}return bestMode;}
};

3、优化技巧：
- 基于边缘检测的模式筛选
- RD cost快速计算
- 相邻块模式关联性利用
- SIMD 指令优化预测计算

评分要点：

预测原理理解 (30%)
优化方案设计 (40%)
实践经验分享 (30%)

3、请详细解释 H.265 中的 CTU 和 CU 结构，以及它们对编码效率的影响？

考察重点：

H.265 编码结构理解
块划分策略掌握
性能优化经验

参考答案：

1、基本概念：
- CTU (Coding Tree Unit)：最大 64x64
- CU (Coding Unit)：可递归四叉树分割
- PU (Prediction Unit)：预测单元
- TU (Transform Unit)：变换单元
2、划分策略：

class CodingTreeUnit {void split(CTU* ctu) {if (shouldSplit(ctu)) {// 四叉树分割for (int i = 0; i < 4; i++) {CU* subCU = splitIntoCU(ctu, i);analyzeCU(subCU);}} else {// 作为单个CU编码encodeCU(ctu);}}bool shouldSplit(CTU* ctu) {// 分割决策因素：// 1. 图像复杂度float complexity = calculateComplexity(ctu);// 2. 运动剧烈程度float motion = estimateMotion(ctu);// 3. 码率约束float rateCost = estimateRateCost(ctu);return evaluateSplitDecision(complexity, motion, rateCost);}
};

3、性能影响：
- 灵活的块大小适应
- 更精确的预测单元
- 计算复杂度提升
- 压缩率提升15-30%
4、优化建议：
- 自适应深度控制
- 快速分割决策
- 并行处理优化
- 硬件加速支持

评分要点：

结构原理理解 (30%)
优化策略掌握 (40%)
实践经验分享 (30%)

4、在视频编码中，如何实现和优化运动估计算法？

考察重点：

运动估计算法原理
优化策略设计
实际实现经验

参考答案：

1、基本算法实现：

class MotionEstimation {
private:// 运动搜索范围int searchRange;// 块大小int blockSize;// 三步搜索法MotionVector threeStepSearch(MacroBlock* cur, MacroBlock* ref) {Point center(0, 0);int step = searchRange / 2;while (step >= 1) {Point bestPoint = searchPoints(cur, ref, center, step);center = bestPoint;step /= 2;}return MotionVector(center);}// 钻石搜索MotionVector diamondSearch(MacroBlock* cur, MacroBlock* ref) {// 大钻石模式Point center = largeDiamondSearch(cur, ref);// 小钻石模式return smallDiamondSearch(cur, ref, center);}
};

2、优化策略：
- 早停机制
- 预测器优化
- 搜索模式自适应
- 多分辨率搜索
3、硬件加速：
- SIMD 指令优化
- GPU 并行计算
- 专用硬件加速
4、评价指标：
- SAD/SSD 计算
- 计算复杂度
- 编码效率
- 运动矢量代价

评分要点：

算法理解深度 (30%)
优化方案完整性 (40%)
实现经验 (30%)

5、请解释音频编码中的心理声学模型，以及它在 AAC 编码中的应用？

考察重点：

心理声学原理
AAC 编码器实现
音质优化经验

参考答案：

1、心理声学模型原理：
- 听觉掩蔽效应
- 绝对听阈
- 临界带宽
- 时域掩蔽
2、AAC 实现：

class PsychoacousticModel {struct CriticalBand {float startFreq;float endFreq;float energy;};void calculateMaskingThreshold() {// 1. FFT 分析vector<float> spectrum = performFFT(signal);// 2. 临界带划分vector<CriticalBand> bands = getBands(spectrum);// 3. 掩蔽计算for (auto& band : bands) {// 音调识别bool isTonal = detectTonal(band);// 掩蔽曲线计算float maskingCurve = calculateMasking(band, isTonal);// 全局掩蔽阈值updateGlobalThreshold(maskingCurve);}}
};