六、deep research

这是 chatgpt 推出的功能,但我这里是免费用户,一个月才有 5 次使用机会,而且使用的是轻量化模型版本,相对体验上比较鸡肋一些。
那这个深度思考研究是个什么东西呢?

根据 openai 对其的解释是,它是一种专业的人工智能能力,利用网络数据进行深入、多步骤的研究。基于 o3 推理模型(免费轻量版本应该是 o4-mini)进行了微调,能够自主搜索并阅读来自不同在线来源的信息。这使得它能够针对复杂主题创建详尽、有据可查且引用清晰的报告。
在场景上,它非常适合从事金融、科学和法律等领域高强度知识工作的人士,以及需要全面、精确和可靠研究的研究人员和精明的购物者。每项输出都完整记录,并清晰标注来源引用,便于验证和参考信息。深度研究尤其擅长发现小众、非直观的信息,这些信息通常需要在多个网站上进行多步骤查找。
所以简单来说,深度研究是网络搜索与深度思考的结合体,经过长期研发才推出——模型会持续运行数十分钟进行深度分析。
例如我们随便问一个,关于高考结束后选专业的一个话题,例如,我们可以问,
作为即将高考结束的学子,在未来选专业上,计算机专业是否还是一个热门专业,就业前景、压力相比之下如何,在 AI 时代,计算机专业和数理统计等专业上应该做如何取舍,如果我考了 600 分,如果今年各高校录取水平与 2024 年差不多的话,给出你的综合性建议及理由。并且作为一个刚走出校园的高中生,如果未来想进入 AI 领域并打算深入下去,请你给出学业或有关 AI 学习的路线图。

它首先会根据你的问题,罗列出一些需要你澄清的问题,就挨个回答一下就好了,然后它就开始进入漫长的搜索与思考过程,如果你点击这个进度条,右侧会给出他当前在搜索什么或者思考什么,大概来说就是根据问题,去搜索,然后思考整理答案,并自行发出新的搜索指令,重新整合,整体上就像我们不断搜索网页内容整理笔记,再搜索再整理的要给过程。
整个过程相对比较耗时,这期间你可以先去干点别的事情,不必在这里一直等待,



最后就会形成这样的一份报告,并支持 pdf 下载,单从报告整体风格上看还是挺不错的,从内容上看很一般,首先我假设的是 600分,给我推荐的都是 600 多的,然后跟我说不可及,难以进入(我用你说),然后专业对比上只有对比,没有结论,学习路线图也很官方,不具有可操作性,整体内容上我其实不太满意。
需要强调的是由于免费版该功能背后使用的模型是轻量化,大概就是 o4-mini 吧,加上我的这些问题可能本身就搜不到太多好的内容或者它引用的网络源质量偏低,大概结果就是这个样子吧。
七、文件上传

需要提醒的是,尽管这些工具在进行研究并整合信息,但并不能保证完全没有幻觉内容。任何时候都可能出现虚假信息。它可能是编造的、虚构的,或者被模型误解的。这就是为什么这些内容中的引用源非常重要。如果当前问题对你比较重要,你需要结合它给出的引用源资料,自行阅读验证一下,你当然也可以关掉该模式,切换到普通对话模型继续就一些问题做出交流。
这里真正有趣的是,我们正在为大型语言模型提供额外的具体文档,这些文档可以在其上下文窗口中被引用。因此,模型不仅仅依赖于其参数中的知识和对世界的模糊理解,即不仅仅依赖于它"大脑"中的知识。我们实际上这些工具是在给它提供具体的文档,就好像我们在回答某个问题时,会参考互联网上的具体文件或类似资料。现在我们可以通过互联网搜索或类似工具来实现这一点。
但我们也可以通过文件上传的方式,直接为这些大语言模型提供具体的文档。我发现这个功能在很多方面都非常实用。

这是 meta 最近刚出的一篇论文,还蛮有意思,我们以 chatgpt 为例,直接将这篇论文扔给它,要求其介绍下这篇论文的研究内容,研究过程,以及他们的一些研究发现和结论内容,并对一些关键术语进行解释说明。

现在,当 chatgpt 收到这份文档时,它们大概就会将 pdf 文件解析为文字,我猜它们可能会丢弃图片等信息,后台的处理方式很可能是将这份 PDF 文件转换成一个文本文件,然后把这个文本文件加载到 token 窗口中。一旦它进入 token 窗口,就会进入工作记忆,我们就可以对其提问,就像图中这个样子,这样一来可以辅助我们阅读论文、读书、读报告等。
例如当你在读一本小说或者学习某个专业领域的书籍,当你具有电子版的时候,你可以将书籍内容直接复制粘贴到对话框中,或者将 pdf 文件或内容截图上传进来,你都可以要求它首先给出概要或者内容梗概、重点知识抽取、人物关系图等,当然,pdf 文件或内容截图受限于文件解析的准确率或 OCR 识别准确率,当你能够复制粘贴原文时,最好的方式是直接复制粘贴过来,这是一种非常高效的阅读体验。虽然某些书籍,可能已经存在于模型的内部知识中,但我们一再说明,这种记忆是模糊的,因此如果你手里有这本书的内容,那还是再给他上传一遍吧。
[!warning]
另外需要注意的是,不要轻易上传自己的个人资料,如果确实需要模型帮你做一些事情,请注意脱敏,不要傻乎乎的什么都上传
八、Python 解释器
这虽然会涉及到编程,但 AI 时代,即便不是程序员,了解一些基础的编程内容也是很有益的,尤其是像 python 这种入门学习门槛很低的编程语言。
Python 解释器,基本上就是让大语言模型能够使用和编写计算机程序。因此,大型语言模型不再直接给出答案,而是具备了编写计算机程序的能力,并能输出特殊 token。这些 token 会被 chatgpt 应用识别为——嘿,这不是给人看的。这实际上是在声明:我在此输出的所有内容都是计算机程序,请去执行它并把运行结果反馈给我。这就是语言模型与 Python 等编程语言的整合过程,这非常强大。
我们随便举几个例子:

当我们直接问 chatgpt,30x9,它可以直接计算出 270,但请注意,这实际上并不是算出来的,而是靠内部记忆记住的东西,所以我们必须让题目难一些,好吧,打眼一瞅,很像正确答案,但实际上是错的,这可以和计算器计算结果对比一下,但很神奇的是,chatgpt 给出的结果虽然不对,但很接近,我猜它可能还是学到了一些数学计算方面的某些知识,例如首位部分是对的,尾数是对的,总位数也是对的。
然后我们再将这个问题拿给 gemini 试一下

好吧,虽然是个 thinking 模型,也不对,但是这个模型也展现出了前面的现象,头尾部分正确,位数正确。

这是 claude-4-sonnet 的结果,它竟然会列竖式,结果也是对的,哇,真的被惊艳到了,我甚至怀疑它内部偷偷使用工具了,为此我们必须再加深难度为难它一步,我让它计算 823485243*43891723=?

OK,这次也罗列了一个较长的算式,但最后结果错了,但依然头尾准确,位数长度准确,我猜这些模型内部一定学到了关于乘法计算头尾数字计算以及总体位数方面的某些技巧,我不确定数学上是否真的存在此类先天性校验技巧,如果没有,这或许是一个值得研究的内容。
好吧,我们不为难这些模型,让我们使用代码工具辅助这些模型完成计算



我们可以让 chatgpt 使用 python 编码的方式进行计算,这里 LLM 将我们的问题抽取出来,并进行编码,将代码文本发送给 python 解释器这个工具,由 python 解释器负责具体的运算过程,并将结果发送给模型,模型再将结果整理输出给我们。
这就是编码工具的使用,强大得令人难以置信。OpenAI 训练了 ChatGPT,让它能大致了解在什么情况下应该借助工具,他们通过示例教会了它这一点。因此,人类标注员会参与整理数据集,通过示例告诉模型在哪些情况下应该使用工具以及如何使用。但基本上,我们也可以明令要求它使用一些工具来进行作答。