注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

  • GPT多模态大模型与AI Agent智能体系列三十四
    • OpenAI发布ChatGPT Agent,AI智能体迎来关键变革
    • 一、ChatGPT Agent功能展示
      • (一)日常生活任务处理
      • (二)互联网浏览交互
      • (三)办公文档处理与API调用
    • 二、ChatGPT Agent基准测试表现
      • (一)人类最后考试(HLE)
      • (二)FrontierMath基准测试
      • (三)WebArena基准测试
      • (四)BrowserComp基准测试
      • (五)Spreadsheet Bench基准测试
      • (六)Internal Banking Benchmark基准测试
    • 三、ChatGPT Agent安全风险及防范
    • 四、ChatGPT Agent上线计划
      • 更多技术内容
  • 总结

GPT多模态大模型与AI Agent智能体系列三十四

OpenAI发布ChatGPT Agent,AI智能体迎来关键变革

2025年7月18日凌晨1点,OpenAI通过直播发布了最新模型ChatGPT Agent,将DeepResearch和Operator功能融合,打造出可深度研究和浏览使用的AI智能体,标志着AI从单纯的语言交互迈向能执行复杂任务的新阶段。

一、ChatGPT Agent功能展示

(一)日常生活任务处理

以参加朋友婚礼准备为例,研究员向ChatGPT Agent输入详细需求,包括婚礼网站、预订酒店网站,并要求其寻找符合场合着装要求的男士服装(推荐五个方案,包含中等奢华物品且与场地和天气相符)、在booking.com预订提前几天可入住的酒店并查看空房及价格、挑选500美元以下礼物,最后生成报告。收到提示词后,ChatGPT Agent首先设置环境,通常需一两分钟,快时不到5秒(实际演示7秒)。准备好后会向用户确认理解是否准确,得到“continue”指令后开始工作。执行任务时,用户能同步看到其操作计算机屏幕过程及思维链。最终,它根据婚礼信息确定西装推荐及购买渠道、提供房源信息,还给出礼物建议,并附上浏览结果截图。任务完成后,用户可通过视频回顾执行过程。

(二)互联网浏览交互

ChatGPT Agent可使用文本浏览器和可视化浏览器浏览互联网。文本浏览器类似DeepResearch,能高效快速阅读和搜索大量网页;可视化浏览器类似Operator,可与网页UI交互,执行拖动网页、点击光标、打开UI组件、填写表单、输入文本等操作,两种浏览器互补性强。此前,Operator在阅读超长文章时因需滚动而耗时,DeepResearch在与网页交互元素、视觉效果交互方面较弱,而ChatGPT Agent整合二者优势。且用户反馈期待DeepResearch能登录网站访问经过身份验证的来源,这一点Operator可以实现,同时很多Operator提示与DeepResearch提示相似,也促使了二者融合。

(三)办公文档处理与API调用

ChatGPT Agent拥有自己的终端运行代码,可生成和分析PPT、Excel等文件,还能通过终端调用API,包括公共API和访问用户私有数据源的API(如Google Drive、Google Calendar、Github Sharepoint等),甚至调用图像生成API为PPT生成图像。演示中,研究员让ChatGPT Agent从Google Drive提取评估编号并制作幻灯片,模型连接Google Drive API,搜索相关结果,读取内容后编写代码,利用图像生成模型为PPT配图,最终生成可下载并在本地打开的PPT文档。

二、ChatGPT Agent基准测试表现

(一)人类最后考试(HLE)

在该面向人类知识前沿的多模态基准测试中,拥有完全工具使用能力的ChatGPT Agent通过率达42%,性能相比仅有browser use和python代码能力的DeepSesearch、o3几乎翻了一番,而没有工具使用能力的ChatGPT Agent和o3则垫底。这表明ChatGPT Agent在综合知识运用和复杂任务处理上优势明显,其工具使用能力极大提升了应对多模态任务的水平。

(二)FrontierMath基准测试

该测试衡量高级数学推理能力,ChatGPT Agent通过率达27%,超越了拥有Python编码能力的o4 - mini和o3 ,显示出其在数学推理领域较强的实力,能够处理复杂的数学问题并给出准确解答。

(三)WebArena基准测试

ChatGPT Agent表现接近人类且高于o3和4o ,说明在模拟真实网络环境下的任务执行中,ChatGPT Agent能够较好地理解和完成任务,与人类表现差距不断缩小,在实际网络应用场景中具有较高的可用性。

(四)BrowserComp基准测试

该测试衡量Agent搜索和查找信息的能力,ChatGPT Agent显著优于o3和DeepResearch模型,证明其在信息检索和处理方面的高效性,能够快速准确地从互联网海量信息中找到所需内容并进行有效利用。

(五)Spreadsheet Bench基准测试

该测试衡量创建和编辑电子表格的能力,使用LibreOffice和其它工具的ChatGPT Agent可完成30%的任务,当赋予其访问终端中原始Excel文件权限时,性能提升至45% ,体现出其在电子表格处理方面的不断优化和强大潜力,随着权限和工具的完善,能够更好地满足用户在该领域的复杂需求。

(六)Internal Banking Benchmark基准测试

该测试评估模型执行1到3年经验投资银行分析师任务的能力,如为财富500强公司构建三表财务模型,ChatGPT Agent表现显著优于DeepResearch和o3 ,表明其在专业金融领域的任务处理上具备较强优势,能够胜任复杂的金融分析和建模工作。

三、ChatGPT Agent安全风险及防范

OpenAI官方强调,让AI Agent执行网页浏览存在风险。互联网存在各种网络攻击、诈骗和网络钓鱼,试图窃取信息,Agent模型也无法完全避免。例如“prompt injection”攻击,若用户让智能体买书并输入信用卡信息,智能体可能进入恶意网站并按其要求输入信息。为防范风险,OpenAI采取多种措施:训练模型忽略可疑网站上的可疑指令;设置多层监视器监视Agent运行,且可实时更新信息防范新攻击。但OpenAI也指出,不可能阻止所有风险,用户自身需意识到风险,尽量不分享高度敏感信息,合理使用接管模式。

四、ChatGPT Agent上线计划

ChatGPT Agent将为Pro、Plus和Team用户上线。Pro用户每月获400次查询,Plus和Team用户每月获40次查询。Pro版部署预计本月底完成,Plus版随后完成,Team版争取本月底前上线企业版和教育版。OpenAI团队表示,虽然目前处于初期阶段,但会迅速改进,期待看到其后续发展。

更多技术内容

更多技术内容可参见
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍本章配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑,详解 Transformer 架构如何突破传统神经网络局限,实现长距离依赖捕捉与跨模态信息融合。
对比编码预训练(BERT)、解码预训练(GPT 系列)及编解码架构(BART、T5)的技术差异,掌握大模型从 “理解” 到 “生成” 的核心逻辑。
实战驱动,掌握大模型开发全流程
提示学习与指令微调:通过 Zero-shot、Few-shot 等案例,演示如何用提示词激活大模型潜能,结合 LoRA 轻量化微调技术,实现广告生成、文本摘要等场景落地(附 ChatGLM3-6B 微调实战代码)。
人类反馈强化学习(RLHF):拆解 PPO 算法原理,通过智谱 AI 等案例,掌握如何用人类偏好优化模型输出,提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻,抢占技术高地
解析大模型 “智能涌现” 现象(如上下文学习、思维链推理),理解为何参数规模突破阈值后,模型能实现从 “量变” 到 “质变” 的能力跃升。
前瞻通用人工智能(AGI)发展趋势,探讨多模态模型(如 Sora)如何推动 AI 从 “单一任务” 向 “类人智能” 进化,提前布局未来技术赛道。

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/92694.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/92694.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/92694.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业级安全威胁检测与响应(EDR/XDR)架构设计

在这个网络威胁如洪水猛兽的时代,企业的安全防护不能再像守城门的老大爷一样只会喊"什么人?口令!"了。我们需要的是一套像FBI一样具备全方位侦察能力的智能防护系统。 📋 文章目录 1. 什么是EDR/XDR?别被这…

Stream流-Java

Stream流的作用&#xff1a;结合了Lambda表达式&#xff0c;简化集合&#xff0c;数组的操作Stream流的使用步骤&#xff1a;1. 先得到一条Stream流&#xff08;流水线&#xff09;&#xff0c;并把数据放上去获取方式方法名说明单列集合default Stream<E> stream()Colle…

Leetcode 327. 区间和的个数

1.题目基本信息 1.1.题目描述 给你一个整数数组 nums 以及两个整数 lower 和 upper 。求数组中&#xff0c;值位于范围 [lower, upper] &#xff08;包含 lower 和 upper&#xff09;之内的 区间和的个数 。 区间和 S(i, j) 表示在 nums 中&#xff0c;位置从 i 到 j 的元素…

MinIO 版本管理实践指南(附完整 Go 示例)

✨ 前言 在构建企业级对象存储系统时,“对象的版本管理”是一个关键特性。MinIO 作为一款高性能、Kubernetes 原生的 S3 兼容对象存储系统,也支持强大的版本控制功能。 本文将通过 Go 示例代码 + 实操讲解 的形式,手把手带你掌握 MinIO 的版本控制能力,包括开启版本控制、…

数组toString方法及类型检测修复方案

在 JavaScript 中&#xff0c;数组的 toString() 方法被覆盖&#xff08;重写&#xff09;为返回数组元素的逗号分隔字符串&#xff0c;而不是原始的 [object Array] 类型标识。以下是详细解释和修复方案&#xff1a;问题原因Array.prototype.toString 被覆盖数组继承自 Object…

mysql索引底层B+树

B树胜出的关键特性&#xff1a;矮胖树结构&#xff1a;3-4层高度即可存储2000万条记录&#xff08;假设每页存1000条&#xff09; 叶子链表&#xff1a;所有数据存储在叶子节点&#xff0c;并通过双向链表连接 非叶导航&#xff1a;非叶子节点仅存储键值&#xff0c;不保存数据…

AI开放课堂:钉钉MCP开发实战

我们正处在AI技术爆发的时代&#xff0c;也处于企业数字化蓬勃发展的时代。如何利用AI技术&#xff0c;突破模型自身知识的局限&#xff0c;安全、高效地与外部世界连接和交互&#xff0c;是当前所有AI开发者在企业数字化中面临的问题之一。 MCP&#xff08;Model Context Prot…

DigitalOcean 一键模型部署,新增支持百度开源大模型ERNIE 4.5 21B

使用过DigitalOcean GPU Droplet 服务器的用户应该对我们的一键模型部署功能不陌生。DigitalOcean 的一键模型部署 (1-Click Models) 功能是 DO 为开发者和企业提供的一种便捷方式&#xff0c;用于快速部署和运行预训练的生成式 AI 模型&#xff0c;尤其是大型语言模型 (LLM)。…

【嵌入式面试】嵌入式笔试与面试宝典(offer必来)

&#x1f48c; 所属专栏&#xff1a;【嵌入式面试】 &#x1f600; 作  者&#xff1a;兰舟比特 &#x1f43e; &#x1f680; 个人简介&#xff1a;热爱开源系统与嵌入式技术&#xff0c;专注 Linux、网络通信、编程技巧、面试总结与软件工具分享&#xff0c;持续输出实用干…

企业级数据分析创新实战:基于表格交互与智能分析的双引擎架构

引言&#xff1a;数字化转型中数据协同困境与系统融合挑战 在数字化转型实践中&#xff0c;企业普遍面临数据系统与业务运营的协同困境&#xff0c;主要表现为数据处理平台与核心业务流程的架构隔离、分析成果与决策闭环的价值断层、以及双重数据维护带来的资源损耗。这种系统…

openbmc 日志系统继续分析

1.说明 1.1 总体说明 本节是继: https://blog.csdn.net/wit_yuan/article/details/147142407?spm=1011.2415.3001.5331 后的继续分析的文档。 该篇内容主要目的是分析整个openbmc的日志系统。 注意解读文档: https://github.com/openbmc/docs/blob/master/designs/event-l…

【JIRA小白如何使用它进行bug管理】

JIRA小白如何使用它进行bug管理 提示&#xff1a;入职一般来说&#xff0c;公司会提供账号&#xff0c;不需要部署如何提bug&#xff1a; JIRA有两种提交方式 在执行测试用例中在bug管理项目中新建提bug建议或者注意事项&#xff1a; 标题&#xff1a;执行完A之后&#xff0c;发…

陪诊小程序系统开发:开启医疗陪护新时代

在快节奏的现代生活中&#xff0c;人们面临着各种各样的压力&#xff0c;健康问题也日益凸显。当生病就医时&#xff0c;尤其是对于老年人、孕妇、残障人士等特殊群体&#xff0c;独自前往医院往往会遇到诸多困难&#xff0c;如不熟悉医院流程、行动不便、心理上感到孤独无助等…

Leetcode—1035. 不相交的线【中等】

2025每日刷题&#xff08;214&#xff09; Leetcode—1035. 不相交的线最长公共子序列长度&#xff08;Longest Common Subsequence&#xff0c;LCS&#xff09; 给定两个序列&#xff08;如字符串或数组&#xff09;&#xff0c;最长公共子序列&#xff08;LCS&#xff09;是同…

使用 Conda 工具链创建 UV 本地虚拟环境全记录——基于《Python 多版本与开发环境治理架构设计》

Python 多版本环境治理理念驱动的系统架构设计&#xff1a;三维治理、四级隔离、五项自治 原则-CSDN博客 Python 多版本与开发环境治理架构设计-CSDN博客 【终极实战】Conda/Poetry/Virtualenv/Pipenv/Hatch 多工具协同 AnacondaPyCharm&#xff1a;构建 Python 全版本栈隔离…

一文通透mamba2「力证Transformer are SSM」:从SSM、半可分矩阵、SMA、SSD到mamba2

前言 实话说&#xff0c;过去一两月一直忙着我司两大类项目的推进 一类是正在逐一上线基于大模型的论文翻译、论文审稿、论文对话、论文修订/润色、论文idea提炼等等(截止到24年8月底&#xff0c;其中的审稿和翻译已上线七月官网 )一类是正在抓紧做面向一个个工厂的具身智能机…

【Java基础06】ArrayList

文章目录1.ArrayList1.1 集合的基本使用1.2 集合的创建和成员方法1.3 练习一&#xff1a;集合的遍历基本数据类型对应的包装类1.4 练习二&#xff1a;使用集合存储并遍历学生对象1.4 练习三&#xff1a;添加用户对象并判断是否存在写方法要思考的步骤1.5 练习四&#xff1a;添加…

ddos 放在多个云主机,同时运行

1. 起因&#xff0c; 目的: 我打开 grok, 被 cloudflare 拦截&#xff0c;问我是不是机器人。 这个情况&#xff0c;如果是别的小网站也就算了&#xff0c;很正常。 大公司也搞这种东西&#xff0c;要么是偷懒&#xff0c;要么是太小气了。 一气之下&#xff0c;我决定写个 ddo…

lspci/setpci用法小结

目录 1.lspci用法小结 2.lspci -t 3.setpci用法小结 1.lspci用法小结 参考博客&#xff1a;【PCIe】lspci用法小结 - 知乎 lspci是一个用来显示系统中所有PCI总线设备或者连接到该总线上所有设备的工具 man lspci lspci(8) …

光通信从入门到精通:PDH→DWDM→OTN 的超详细演进笔记

光通信从入门到精通&#xff1a;PDH→DWDM→OTN 的超详细演进笔记 作者&#xff1a; 脱脱克克 日期&#xff1a;2025-07-24 关键词&#xff1a;DWDM、OTN、G.709、光纤、带宽、C-band、L-band、DSP、ROADM 摘要 本文用一条“高速公路”的比喻&#xff0c;把 40 年光传输技术演进…