编者按: OpenAI 首次发布的开源大模型 gpt-oss 系列为何在基准测试中表现亮眼,却在实际应用后发现不如预期?

我们今天为大家带来的这篇文章,作者推测 OpenAI 的新开源模型本质上就是微软 Phi 模型的翻版,采用了相同的合成数据训练路线。

本文给出了支持这个推测的三个理由:首先,作者通过对比 Phi 模型系列的发展历程,揭示了基于合成数据训练的模型普遍存在“基准测试表现优异但实际应用效果不佳”的现象;其次,文章探讨了 OpenAI 选择这一技术路线的核心动机 —— 安全考量,指出大型组织发布开源模型时面临的声誉风险,以及合成数据在提升模型安全性方面的独特优势;最后,作者结合微软前 GenAI 研究副总裁 Sebastien Bubeck 加入 OpenAI 这一人事变动,推测 gpt-oss 模型的技术基因很可能直接承袭自 Phi 系列。

本文系原作者观点,Baihai IDP 仅进行编译分享

作者 | Sean Goedecke

编译 | 岳扬

OpenAI 不久前发布了其首个开源¹大语言模型,名为 gpt-oss-120b 和 gpt-oss-20b。你可以在这里[1]与它们进行对话。这些模型好吗?嗯,完全取决于你的需求。它们在某些基准测试[2]上表现优异(否则 OpenAI 根本不会发布),但在其他基准测试中却表现得异常糟糕,比如 SimpleQA。

有些人非常喜欢这些模型[3],而推特上另一些人则完全不买账[4-5]。据我观察,这些模型技术上过硬,但缺乏大量领域外的知识:例如,它们拥有广博的科学常识,却对流行文化知之甚少。这些模型在实际应用中的价值还需六个月方能见分晓,但我预测这些模型最终会归类于“在基准测试中的表现远强于在真实任务中的表现”之列。

01 Phi 模型与在合成数据上训练模型

2024 年,Sebastien Bubeck 领导了微软开源模型系列 Phi 的开发²。这些模型的创新点在于完全采用合成数据进行训练:不同于从书籍或互联网中直接抓取的文本数据,而是使用其他语言模型生成的文本或经过人工精心编写的教材内容。合成数据比常规数据获取成本更高 —— 不是免费下载数 TB 数据就能解决,而是需要付费生成每个 token。这种方法的代价是必须为每个 token 的生成付费,优势则是能完全掌控训练数据的品质。 若完全用高质量的合成数据和人工编写的数据训练模型,结果会如何?

事实证明,这类模型在基准测试中表现会十分出色,但在实际应用中的表现却令人失望。梳理业界对每代 Phi 模型的评价可发现一个相同的模式:惊艳的测试分数[6],高涨的市场热情,但实际性能却远低于基准测试所显示的水平[7]。

我认为之所以会出现这些惊艳的基准测试结果,是因为模型非常适合针对特定任务进行训练 —— 毕竟大部分训练数据由开发者自主生成。若采用合成数据训练模型却不生成与主流测试场景高度匹配的数据集,那可就太愚蠢了。但这种“应试训练(teaching for the test)”必然导致其表现逊色于基于广泛数据训练的语言模型,并且这些模型也可能只是偶然在基准测试中表现良好。

为什么我要谈论 Phi 模型?2024 年底,Sebastien Bubeck 离开微软[8]加入 OpenAI。虽然 gpt-oss 模型的研发阵容尚未披露,模型卡片(model card)[9]也未详述预训练细节,但我确信 Sebastien Bubeck 参与了这个项目,且这些模型基于经过严格筛选或完全合成的数据集训练而成。

02 合成数据更安全

为何 OpenAI 明知 Phi 式的模型在基准测试的表现优于实际应用中,还坚持要开发?原因很可能与微软持续研发 Phi 系列模型相同:安全。 对大型组织而言,发布开源模型犹如在走钢丝 —— 模型一旦公开,企业声誉便与之永久绑定,成千上万的研究人员会疯狂地尝试对其进行微调以移除安全防护措施(safety guardrails)。

虽然这一点鲜少被公开讨论,但当前微调小型语言模型的主要需求的确是色情角色扮演(erotic role-play),且市场需求旺盛。任何本地部署模型的线上社群中,半数内容涉黄。

若发布一个常规的闭源模型并限制在自有基础设施内运行,用户便无法微调。即使出现一些问题,也能随时更新模型。但开源模型一旦发布便永久失去控制。

使用合成数据(或教科书等高度可控的数据)训练能大幅提升模型的安全性。开发者可以随意生成大量“您要求执行 X 操作,但作为一个负责任的模型,我拒绝执行”的合规响应。只要训练数据不包含颠覆性的或有害的内容,模型就不会习得此类行为(至少目标是如此)。

对 OpenAI 而言,开发一款 Phi 风格的模型用于开源发布想必极具吸引力。他们需要既能超越中国开源模型基准分数,又不会因行为失范而引发新丑闻的产品[10]。不同于 Meta,他们的开源模型无需真正出色,因为其核心业务始终在于闭源模型。

这正是我判断 OpenAI 为新 gpt-oss 模型选择合成数据路线的原因。无论结果如何,它们本质上就是披着 gpt 马甲的 Phi-5 和 Phi-5-mini。


1 实为开放权重(open weight),而非开源,因为其模型权重可自由获取,但训练数据与代码未公开。当然 OpenAI 曾发布 GPT-2 等开放权重模型,但此次才是首批真正意义上的开放权重模型。

2 我在微软旗下 GitHub 从事 AI 研究工作,但对所述内容完全不知道内部情况。本文内容完全凭借公开信息撰写。

END

本期互动内容 🍻

❓如果 GPT-OSS 是在合成数据上训练的,那么它在基准测试和实际应用中表现差异这么大,你觉得是合成数据的局限性,还是测试标准本身有问题?

文中链接

[1]https://gpt-oss.com/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://simonwillison.net/2025/Aug/5/gpt-oss/

[4]https://x.com/corbtt/status/1952868822891012241

[5]https://x.com/vikhyatk/status/1952863413845275132

[6]https://arxiv.org/abs/2404.14219

[7]https://news.ycombinator.com/item?id=40128351

[8]https://www.reuters.com/technology/microsofts-vp-genai-research-join-openai-2024-10-14/

[9]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[10]https://www.seangoedecke.com/ai-sycophancy

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

https://www.seangoedecke.com/gpt-oss-is-phi-5/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/94354.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/94354.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/94354.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux / 宝塔面板下 PHP OPcache 完整实践指南

Linux / 宝塔面板下 PHP OPcache 完整实践指南 OPcache 是 PHP 官方提供的字节码缓存扩展,通过缓存 PHP 脚本的编译结果,提高 PHP 执行效率。本文讲解从 检测 → 开启 → 使用 → 清理 → 排查问题 的全流程,同时针对宝塔面板界面不实用或无法…

Linux(从入门到精通)

Linux概述 Linux内核最初只是由芬兰人林纳斯托瓦兹1991年在赫尔辛基大学上学时出于个人爱好而编写的。 Linux特点 首先Linux作为自由软件有两个特点:一是它免费提供源代码,二是爱好者可以根据自己的需要自由修改、复制和发布源码 Linux的各个发行版本 Linux 的发行版说简单…

链表相关题目---19、删除链表的倒数第N个节点

题目链接:删除链表的倒数第N个节点 这道题 很常规的思路就是 先拷贝两次头结点 然后一个先走N步 然后同时开始走,直到先走N步的节点为空后,就停止,此时另一个没提前走的节点的下一个就是要删除的节点。不过需要注意的是&#xff0…

Vue工具类使用指南:实用函数与全局组件安装

概述在Vue项目开发中,我们经常需要一些通用的工具函数来处理路径转换、链接判断、数据格式化等任务。本文将介绍一个实用的Vue工具类,包含多种常用功能,并演示如何在项目中使用它们。工具函数详解1. 路径转驼峰命名import { pathToCamel } fr…

​Visual Studio + UE5 进行游戏开发的常见故障问题解决

从零开始,学习 虚幻引擎5(UE5),开始游戏开发之旅! 本文章仅提供学习,切勿将其用于不法手段! 有些项目在 Visual Studio 的 Unreal Engine 集成配置界面中,涉及 ​Unreal Engine 与 V…

MiniCPM-V4.0开源并上线魔乐社区,多模态能力进化,手机可用,还有最全CookBook!

今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,面壁团队也正式开源了 推理部署工具 Mi…

FCT/ATE/ICT通用测试上位机软件

在当今智能制造与电子产品快速迭代的背景下,功能测试(FCT)已成为确保产品质量的关键环节。然而,传统的测试上位机往往存在扩展困难、功能固化、二次开发成本高等问题。为此,我们提出一款模块化、可扩展、可脚本化的 FC…

IndexTTS介绍与部署(B站开源的工业级语音合成模型)

语音合成效果非常好,可作为自己日常文本转语音使用工具! 软件介绍 IndexTTS 是由哔哩哔哩(B 站)开源的工业级可控高效零样本文本转语音(TTS)系统,基于 XTTS 和 Tortoise 构建,采用 …

uniApp对接实人认证

前端代码部分<template><view class"wrap"><view class"box"><view class"item flex-row align-items-center space-between"><view class"name"><text style"color:#FF4D4D">*</te…

pytest 并发执行用例(基于受限的测试资源)

概要 本文主要介绍了如何在测试资源&#xff08;被测对象&#xff09;受限的情况下&#xff0c;使用 pytest 进行并发测试以减少总体测试时间的方法和过程。 背景 在软件开发过程中&#xff0c;我们通常使用测试用例来持续保证软件的质量&#xff08;例如&#xff0c;确保关…

结构化智能编程:用树形向量存储重构AI代码理解范式

结构化智能编程:用树形向量存储重构AI代码理解范式 告别暴力embedding,通过分层存储策略让AI精准理解百万行代码库 在AI编程助手日益普及的今天,开发者面临一个新的困境:当项目规模达到数万甚至数百万行代码时,传统的暴力向量化方法不仅效率低下,而且往往导致AI理解偏差。…

GPT5 / 深度研究功能 无法触发

具体表现为&#xff1a; 1.没有GPT5标识2.回答是GPT43.无法触发深度研究功能请问如何解决&#xff1f;

一键脚本:自动安装 Nginx + Certbot + HTTPS(Let‘s Encrypt)

创建脚本文件​&#xff1a; vi setup_nginx_https.sh脚本内容&#xff1a; #!/bin/bash# # 一键安装 Nginx Certbot HTTPS (CentOS 7) # 功能&#xff1a;自动安装 Nginx、Certbot&#xff0c;配置 HTTPS&#xff0c;自动续期 # 使用方法&#xff1a;./setup_nginx_https.s…

SpringAI与MCP

MCP是什么&#xff1f;MCP 服务 代理服务&#xff08;Proxy&#xff09; 标准化接口 自动化适配MCP 的目的&#xff0c;就是让 AI 应用不再“为每个工具定制对接 ”&#xff0c;而是像使用 USB-C 一样&#xff0c;“插上即用”任何外部工具。没mcp之前不同的工具入参和出参千…

Coze用户退出登录流程分析-后端源码

前言 本文将深入分析Coze Studio项目的用户退出登录功能后端实现&#xff0c;通过源码解读来理解整个退出登录流程的架构设计和技术实现。退出登录作为用户认证系统的重要组成部分&#xff0c;主要负责清理用户会话状态&#xff0c;确保用户账户安全。 退出登录功能虽然相对简单…

【应急响应工具教程】Unix/Linux 轻量级工具集Busybox

1、工具简介BusyBox 是一个将常用 Unix/Linux 工具打包在单一可执行文件中的轻量级工具集&#xff0c;被称为 “嵌入式 Linux 的瑞士军刀”。 它将多个精简版的命令行工具&#xff08;如 ls、cat、cp、mv、grep 等&#xff09;集成到一个二进制文件中&#xff0c;并通过不同的调…

【React】案例:B站评论

目录 一、核心功能实现 二、id处理和时间处理 三、清空内容并重新聚焦 一、核心功能实现 1.获取评论内容&#xff1a;表单受控绑定 2.点击发布按钮发布评论 二、id处理和时间处理 1.rpid要求一个唯一的随机数id -uuid库 npm install uuid 使用方法&#xff1a;import {v4 as…

sqlite创建数据库,创建表,插入数据,查询数据的C++ demo

sqlite的API可参考&#xff1a;SQLite – C/C | 菜鸟教程 sqlite的官网API可参考&#xff1a;Introduction #include <iostream> #include <sqlite3.h> #include <string>// 回调函数&#xff0c;用于查询结果的输出 static int callback(void* data, int …

部分CSS笔试题讲解

1. box-sizing: border-box 的作用问题&#xff1a; 默认的 CSS 盒模型 (content-box) 中&#xff0c;元素的 width 和 height 属性只指定了内容区域的尺寸。如果你给元素添加了 padding 或 border&#xff0c;这些值会被加在 width/height 之上&#xff0c;导致元素的实际占用…

雅菲奥朗SRE知识墙分享(二):『SRE对智能运维的升级模型』

SRE深度结合AI创新&#xff0c;雅菲奥朗专家刘峰老师总结了近期人工智能运维领域的突破&#xff0c;合计以下15个关键点:一、领域1&#xff1a;Dev&Ops 深度融合• 关键点1. 组织&#xff1a;Google “SREScale” 最新论文提出「单一故障域 单一 SRE 小组」原则&#xff0…