编者按： OpenAI 首次发布的开源大模型 gpt-oss 系列为何在基准测试中表现亮眼，却在实际应用后发现不如预期？

我们今天为大家带来的这篇文章，作者推测 OpenAI 的新开源模型本质上就是微软 Phi 模型的翻版，采用了相同的合成数据训练路线。

本文给出了支持这个推测的三个理由：首先，作者通过对比 Phi 模型系列的发展历程，揭示了基于合成数据训练的模型普遍存在“基准测试表现优异但实际应用效果不佳”的现象；其次，文章探讨了 OpenAI 选择这一技术路线的核心动机 —— 安全考量，指出大型组织发布开源模型时面临的声誉风险，以及合成数据在提升模型安全性方面的独特优势；最后，作者结合微软前 GenAI 研究副总裁 Sebastien Bubeck 加入 OpenAI 这一人事变动，推测 gpt-oss 模型的技术基因很可能直接承袭自 Phi 系列。

本文系原作者观点，Baihai IDP 仅进行编译分享

作者 | Sean Goedecke

编译 | 岳扬

OpenAI 不久前发布了其首个开源¹大语言模型，名为 gpt-oss-120b 和 gpt-oss-20b。你可以在这里[1]与它们进行对话。这些模型好吗？嗯，完全取决于你的需求。它们在某些基准测试[2]上表现优异（否则 OpenAI 根本不会发布），但在其他基准测试中却表现得异常糟糕，比如 SimpleQA。

有些人非常喜欢这些模型[3]，而推特上另一些人则完全不买账[4-5]。据我观察，这些模型技术上过硬，但缺乏大量领域外的知识：例如，它们拥有广博的科学常识，却对流行文化知之甚少。这些模型在实际应用中的价值还需六个月方能见分晓，但我预测这些模型最终会归类于“在基准测试中的表现远强于在真实任务中的表现”之列。

01 Phi 模型与在合成数据上训练模型

2024 年，Sebastien Bubeck 领导了微软开源模型系列 Phi 的开发²。这些模型的创新点在于完全采用合成数据进行训练：不同于从书籍或互联网中直接抓取的文本数据，而是使用其他语言模型生成的文本或经过人工精心编写的教材内容。合成数据比常规数据获取成本更高 —— 不是免费下载数 TB 数据就能解决，而是需要付费生成每个 token。这种方法的代价是必须为每个 token 的生成付费，优势则是能完全掌控训练数据的品质。 若完全用高质量的合成数据和人工编写的数据训练模型，结果会如何？

事实证明，这类模型在基准测试中表现会十分出色，但在实际应用中的表现却令人失望。梳理业界对每代 Phi 模型的评价可发现一个相同的模式：惊艳的测试分数[6]，高涨的市场热情，但实际性能却远低于基准测试所显示的水平[7]。

我认为之所以会出现这些惊艳的基准测试结果，是因为模型非常适合针对特定任务进行训练 —— 毕竟大部分训练数据由开发者自主生成。若采用合成数据训练模型却不生成与主流测试场景高度匹配的数据集，那可就太愚蠢了。但这种“应试训练（teaching for the test）”必然导致其表现逊色于基于广泛数据训练的语言模型，并且这些模型也可能只是偶然在基准测试中表现良好。

为什么我要谈论 Phi 模型？2024 年底，Sebastien Bubeck 离开微软[8]加入 OpenAI。虽然 gpt-oss 模型的研发阵容尚未披露，模型卡片（model card）[9]也未详述预训练细节，但我确信 Sebastien Bubeck 参与了这个项目，且这些模型基于经过严格筛选或完全合成的数据集训练而成。

02 合成数据更安全

为何 OpenAI 明知 Phi 式的模型在基准测试的表现优于实际应用中，还坚持要开发？原因很可能与微软持续研发 Phi 系列模型相同：安全。 对大型组织而言，发布开源模型犹如在走钢丝 —— 模型一旦公开，企业声誉便与之永久绑定，成千上万的研究人员会疯狂地尝试对其进行微调以移除安全防护措施（safety guardrails）。

虽然这一点鲜少被公开讨论，但当前微调小型语言模型的主要需求的确是色情角色扮演（erotic role-play），且市场需求旺盛。任何本地部署模型的线上社群中，半数内容涉黄。

若发布一个常规的闭源模型并限制在自有基础设施内运行，用户便无法微调。即使出现一些问题，也能随时更新模型。但开源模型一旦发布便永久失去控制。

使用合成数据（或教科书等高度可控的数据）训练能大幅提升模型的安全性。开发者可以随意生成大量“您要求执行 X 操作，但作为一个负责任的模型，我拒绝执行”的合规响应。只要训练数据不包含颠覆性的或有害的内容，模型就不会习得此类行为（至少目标是如此）。

对 OpenAI 而言，开发一款 Phi 风格的模型用于开源发布想必极具吸引力。他们需要既能超越中国开源模型基准分数，又不会因行为失范而引发新丑闻的产品[10]。不同于 Meta，他们的开源模型无需真正出色，因为其核心业务始终在于闭源模型。

这正是我判断 OpenAI 为新 gpt-oss 模型选择合成数据路线的原因。无论结果如何，它们本质上就是披着 gpt 马甲的 Phi-5 和 Phi-5-mini。

1 实为开放权重（open weight），而非开源，因为其模型权重可自由获取，但训练数据与代码未公开。当然 OpenAI 曾发布 GPT-2 等开放权重模型，但此次才是首批真正意义上的开放权重模型。

2 我在微软旗下 GitHub 从事 AI 研究工作，但对所述内容完全不知道内部情况。本文内容完全凭借公开信息撰写。

END

本期互动内容 🍻

❓如果 GPT-OSS 是在合成数据上训练的，那么它在基准测试和实际应用中表现差异这么大，你觉得是合成数据的局限性，还是测试标准本身有问题？

文中链接

[1]https://gpt-oss.com/