一、研究背景与概述

在当今数字化转型加速的背景下，人工智能技术正深刻改变企业协作与沟通方式。作为全球领先的视频会议平台，Zoom 已从单纯的通信工具转型为全面的生产力平台，而其 AI 技术架构是这一转变的核心驱动力。本报告将深入分析 Zoom 的 AI 技术架构，特别是其创新性的联合式 AI 方法、模型组合策略以及多模态集成技术，揭示 Zoom 如何通过技术创新实现高效、安全且经济的 AI 服务。

Zoom 采用联合式 AI 架构，整合了多种大型语言模型 (LLMs) 与其自有的小型语言模型 (SLMs)，这种独特方法使其能够在保持高质量输出的同时显著降低成本。2023 年 11 月，Zoom 的联合式 AI 方法已实现接近 OpenAI GPT-4 的质量水平，而推理成本仅为后者的 6%。到 2025 年，Zoom 进一步优化了其 AI 质量，在最受欢迎的会议功能上，Zoom AI Companion 的相对误差比 GPT-4 降低了 20%(会议摘要 "重述") 和 60%(会议 "下一步行动")。

本研究将从技术架构、模型组合、工作流程、多语言处理、安全隐私保护等多个维度，全面剖析 Zoom 的 AI 技术体系，为理解现代企业级 AI 应用提供深度洞察。

二、联合式 AI 架构核心设计

2.1 联合式架构的基本原理

Zoom 的联合式 AI架构是一种创新的分布式 AI 系统设计，它允许多个不同的 AI 模型协同工作，以实现比单一模型更高的性能和效率。与传统的集中式 AI 架构不同，联合式架构能够动态整合多个模型的优势，同时避免了对单一模型的依赖。

"Zoom 的联合式 AI 方法在用户最需要的地方更有效。"Zoom首席技术官黄学东在 2025 年 2 月的更新中强调，" 通过这种方法，我们可以提供高质量的 AI 体验，特别是在会议摘要和下一步行动等关键功能上。"

联合式架构的核心优势在于：

质量提升：通过模型间的协作，联合式架构能够生成比单一模型更准确、更全面的结果。
成本优化：智能选择最适合特定任务的模型，避免了总是使用最高成本模型的浪费。
灵活性与适应性：能够根据任务需求和环境变化动态调整模型组合。
可靠性增强：多模型的冗余设计提高了系统的容错能力和稳定性。

2.2 联合式架构的实现方式

Zoom 联合式 AI 架构的实现主要通过以下几个关键组件：

模型组合策略：Zoom 整合了多种闭源和开源的高级大型语言模型 (LLMs)，包括其自研的 Zoom LLM 以及第三方模型如 OpenAI 的 GPT-4 和 Anthropic 的 Claude 2。这种组合策略使 Zoom 能够利用不同模型的独特优势，避免了对特定 LLM 的依赖，这与微软 Copilot 依赖 GPT-4、谷歌依赖 Gemini 等竞争对手形成鲜明对比。
Z 评分器 (Z-scorer) 评估机制：Zoom 开发了专有的 Z评分器来评判 AI 生成结果的质量。首先使用适合任务的低成本 LLM 完成任务，然后通过 Z 评分器评估初始任务完成质量。如果需要，系统会使用更高级的 LLM 对初始结果进行增强，类似于一个高效团队协作产生高质量产品的方式。
联合强化学习：为了更好地与人类偏好对齐，Zoom 改进了联合强化学习技术。通过将 Zoom LLM 与一组互补的 LLMs 联合使用，Zoom 的会议摘要功能现在能够提供高质量的结果，根据最近的基准测试，其性能甚至可以超过用于微软 Teams 中 Copilot 的 GPT-4。
多模型委员会机制：为了减少大多数 LLM 中固有的偏见，Zoom 组建了一个由多个 LLM (如 Claude-3、Gemini 和 GPT-4) 组成的委员会，以减少幻觉并改进 Zoom LLM。不同的 LLM 不太可能犯相同的幻觉错误，因此可以得出更一致的响应并减少异常值的影响。

这种联合式架构使 Zoom 能够为客户提供高质量的体验，特别是在其最受欢迎的功能上。根据内部基准测试，Zoom 的 AI Companion 在会议摘要和下一步行动方面的表现已经超越了 GPT-4。

三、模型组合策略：小模型与大模型协同

3.1 Zoom 的混合模型架构

Zoom 采用了一种独特的混合 AI 模型架构，结合了 "云端大模型 + 边缘小模型" 的策略，既兼顾了推理效率又保护了数据隐私。这种架构设计与行业内通常从大模型提取小模型的做法截然不同，Zoom 选择了从零开始构建其 20 亿参数的小型语言模型 (SLM)。

定制化小型语言模型：Zoom 的小型语言模型 (SLM) 是其 AI 架构的核心组件。黄学东指出，定制化的小模型在特定领域中的表现显著优于通用模型，成为开发智能代理工作流程的核心。这种方法使 Zoom 能够针对特定任务优化模型性能，同时降低计算资源需求。

多模型协同工作：Zoom 并没有依赖单一的大语言模型，而是采取了一种联合方法，结合多个通用大语言模型和自己定制的小语言模型。在技术架构方面，Zoom 引入了 20 亿参数的小语言模型，这一举措与行业通常的从大模型提取小模型的做法截然不同。

大模型与小模型的协同机制：当智能代理 AI 处理输入内容时，首先利用自家定制的小型语言模型进行初步分析，然后再将结果传递给更为强大的语言模型，以生成最终输出。这一过程不仅提高了反应速度，也确保了内容的高质量。

3.2 模型组合的优势与创新

Zoom 的模型组合策略带来了多项技术优势：

性能与成本的平衡：通过首先使用适合任务的低成本 LLM 完成任务，Zoom 能够在保持高质量输出的同时显著降低成本。根据内部测试，Zoom 的联合式 AI 方法在 2023 年 11 月就已实现接近 OpenAI GPT-4 的质量水平，而推理成本仅为后者的 6%。到 2025 年，这一优势进一步扩大，特别是在会议摘要的 "下一步行动" 功能上，相对误差降低了 60%。
适应性与灵活性：Zoom 的联合式架构可以整合来自合作伙伴的更新、更先进的 LLM 技术，如 OpenAI 的 GPT-4 Turbo，而无需对整个系统进行大规模重构。这种灵活性使 Zoom 能够快速采用新技术，同时保持系统的稳定性和兼容性。
特定领域性能优化：Zoom 的小型语言模型是针对特定领域任务优化的，如会议摘要、实时转录和智能回复等功能。这种定制化方法使模型在特定任务上的表现显著优于通用大模型，提高了整体系统的效率和准确性。
资源高效利用：通过动态分配不同复杂度的任务给相应的模型，Zoom实现了计算资源的高效利用。简单任务由轻量级模型处理，复杂任务则由更强大的模型处理，这种资源分配策略最大化了系统的吞吐量和响应速度。