北京时间 8 月 8 日凌晨,OpenAI 的 GPT-5 在万众期待中登场。距离 GPT-4 发布已过去两年半,然而这场发布会却未重现 ChatGPT 初现时的惊艳,也没有 GPT-4 的跨越式升级,更无 o1 发布时的震撼。1 小时 20 分钟的发布会,充斥着不惊艳的测试数据、与竞品难分高下的用例展示,甚至还出现了被网友抓包的 PPT 错误,种种迹象都在暗示着 AI 大模型的发展或许已进入瓶颈期。
版本与能力:小步提升,优势微弱
GPT-5 共推出 4 个版本,包括 GPT-5、GPT-5 mini、GPT-5 nano 以及仅对企业版和每月 200 美元高级版开放的 GPT-5 Pro 模式。对普通用户而言,默认的统一模型 GPT-5 由多个模型组成,依靠实时路由器针对特定查询选择合适模型。
从各项测试数据来看,GPT-5 在智力水平上虽高于 o3,但整体差距不大。在与 Gemini 2.5 Pro、Grok、Claude 4.1 Opus 等竞品的对比中,大多数 “智力” 能力仅稍胜一筹,部分能力甚至并非最优,只能说以微小幅度领先。根据 Artificial Analysis 的排名,GPT-5 目前位列第一,可综合分仅比 o3 高两分、比 Grok 4 仅高一分。
在号称 AGI 终极测试的 Arc Prize 中,GPT-5 更是远远落后于 Grok 4。不过,GPT-5 在计算效率上有所提高,解决复杂问题时使用的 token 数量减少了 50%-80%,能以更少的 token 消耗获得超过 o3 的效果,效率也领先于 Anthropic 的模型。
编程与工具:优化体验,优势有限
在编程领域,GPT-5 在 thinking(思考)模式下较前代有明显提升,但与 Anthropi