1 引言
2 模型数据与训练
3 观察到的安全挑战与评估
3.1 从强制拒绝到安全完成
3.2 禁⽌内容
3.3 拍⻢屁
3.4 越狱
3.5 指令层级
3.6 幻觉
3.7 欺骗
3.7.1 欺骗思维链监控
3.8 图像输入
3.9 健康
3.10 多语言性能
3.1.1公平性与偏见: BBQ评估
4 红队测试与外部评估
4.1 暴⼒攻击策划的专家红队演练
4.2 专家与⾃动化红队演练针对提⽰注入
5 应急准备框架
5.1 能⼒评估
5.1.1 ⽣物与化学
5.1.1.1 ⻓篇⽣物风险问题
5.1.1.2 多模态病毒学故障排查
5.1.1.3 ProtocolQA 开放式问答
5.1.1.4 隐性知识与故障排除
5.1.1.5 故障排除平台
5.1.1.6 ⽣物能⼒的外部评估与红队演练
5.1.2 网络安全
5.1.2.1 夺旗赛(CTF)挑战
5.1.2.2 网络演练场
5.1.2.3 网络能⼒的外部评估与红队测试
5.1.2.4 SWE-bench 验证
5.1.2.5 OpenAI PRs
5.1.2.6 MLE-Bench
5.1.2.7 SWE-Lancer
5.1.2.8 PaperBench
5.1.2.9 OPQA
5.1.2.10 AI⾃我改进的外部评估与红队测试
5.2 研究类别更新:故意保留实⼒
5.3 高⽣物和化学风险的安全防护措施
5.3.1 威胁模型与⽣物威胁分类
5.3.2 防护设计
5.3.2.1 模型训练
5.3.2.2 系统级保护
5.3.2.3 账户级执⾏
5.3.2.4 API访问
5.3.2.5 可信访问计划
5.3.3 保障测试
5.3.3.1 测试模型安全训练
5.3.3.2 测试系统级防护
5.3.3.3 ⽣物武器化专家红队测试
5.3.3.4 第三方红队测试
5.3.3.5 外部政府红队测试
5.3.4 安全控制
5.3.5 风险缓解措施的充分性
1 引言
GPT-5 是⼀个统⼀系统 ,包含⼀个智能且快速的模型⽤于回答⼤多数问题 ,⼀个⽤ 于解决更复杂问题的深度推理模型 ,以及⼀个实时路由器 ,能够根据对话类型、复 杂度、 ⼯具需求和明确意图(例如提⽰中说“认真思考”)快速决定使⽤哪个模型。
路由器持续基于真实信号训练 ,包括⽤户切换模型的情况、 对回答的偏好率和准确 性评估 ,随着时间不断改进。 ⼀旦达到使⽤限制 ,每个模型的简化版本将处理剩余 查询。未来 ,我们计划将这些能⼒整合到单⼀模型中。
在本系统卡中 ,我们将快速高吞吐量模型标记为gpt-5-main和gpt-5-main-mini , 将思考模型标记为gpt-5-thinking和gpt-5-thinking-mini。在API中 ,我们提供对 思考模型、 其迷你版本以及为开发者设计的更⼩更快的思考模型纳⽶版本(gpt-5- thinking-nano) 的直接访问。在ChatGPT中 ,我们还通过利⽤并⾏测试时计算的 设置提供对gpt-5-thinking的访问;我们称之为gpt-5-thinking-pro。
将GPT-5模型视为前代模型的继任者可能会有所帮助:
前代模型 | GPT-5模型 |
GPT-40 | gpt-5-main |
GPT-4o-mini | gpt-5-main-mini |
OpenAI o3 | gpt-5-thinking |
OpenAI o4-mini | gpt-5-thinking-mini |
GPT-4.1 -nano | gpt-5-thinking-nano |
OpenAI o3 Pro | gpt-5-thinking-pro |
本系统卡主要聚焦于gpt-5-thinking和gpt-5-main ,其他模型的评估见附录。 GPT- 5系统不仅在基准测试中超越了以往模型 ,回答问题更迅速 ,更重要的是在实际查 询中更具实⽤性。我们在减少幻觉、提升指令遵循和降低谄媚⾏为方⾯取得了显著 进展 ,并提升了GPT-5在ChatGPT三⼤常⽤场景——写作、编码和健康——中的表 现。所有GPT-5模型还配备了安全完成功能 ,这是我们最新的安全训练方法 ,⽤以 防⽌不允许内容的⽣成。
与ChatGPT智能体类似 ,我们决定将gpt-5-thinking视为⽣物和化学领域的高能⼒ 智能体 ,依据我们的准备框架启⽤相应的安全措施。 虽然尚无确凿证据表明该模型 能显著帮助新⼿制造严重⽣物危害——这是我们定义的高能⼒阈值——但我们选择 采取预防性措施。
注:参考GPT-5系统系统说明