文心大模型 X1.1：百度交出的“新深度思考”答卷

2025年9月9日，WAVE SUMMIT 2025深度学习开发者大会在北京正式召开，由深度学习技术及应用国家工程研究中心主办，百度飞桨与文心大模型联合承办。大会上，百度正式发布了基于文心4.5迭代升级的文心大模型X1.1，这也是百度在“深度思考模型”方向交出的最新答卷。

回顾过去几年的发展轨迹：2019年3月，文心大模型1.0发布；2023年3月，“文心一言”上线；2023年10月，文心大模型4.0推出，并首次具备慢思考能力的智能体；2025年3月，文心4.5与深度思考模型X1发布；4月，升级到文心4.5 Turbo与X1 Turbo。可以说，每一次迭代，百度都在稳步推进大模型能力的边界。

如今，在Qwen3、ChatGLM、Kimi等深度思考模型纷纷登场之后，百度也拿出了X1.1这份“新深度思考”答卷——基于文心4.5迭代升级的文心大模型X1.1。整体来看，X1.1不仅在事实性、指令遵循这些基础能力上大幅进步，更让人眼前一亮的是它在智能体协作与工具调用等未来Agent方向的表现，展现了强大的落地潜力。这背后，其实也是百度在“芯片-框架-模型-应用”四层全栈AI架构上的一次集中体现。

接下来我会从几个来介绍文心大模型 X1.1，一是多维度的实测，来看看X1.1的表现到底如何？二是它的技术解析，X1.1如何实现技术突破？它背后的技术原理到底是什么？最后介绍一下百度的开源生态和在全栈上的布局，这其实是百度的底气，不断的鼓励着百度大模型不断向前发展。

X1.1多维度实测

现在文心一言官网（https://yiyan.baidu.com/X1）已经可以体验 X1.1模型，在左上角进行选择对应的X1.1模型即可进行体验

相比于文心4.5，文心大模型X1.1整体在事实性、指令遵循、智能体、工具调用等方面表现出色，问答、创作、逻辑推理等方面的综合能力明显提升，事实性能力提升34.8%，指令遵循能力提升12.5%，智能体能力提升9.6%。在下图的各个benchmark也可以看的出来，文心大模型X1.1整体效果领先DeepSeek R1-0528，略低于GPT-5和Gemini 2.5 Pro。

为了挖掘文心大模型X1.1的能力，我也从多维度进行测试，来看看文心X1.1模型的能力和表现吧

首先是事实性的能力，比如我问一个《最近一次诺贝尔物理学奖的获得者是谁？》，可以看到X1.1会自动进行思考，对于一些事实性的信息会自动调用联网工具进行搜索，通过搜索的参考网页来回答问题，最后给予一个准确的回答，还是非常不错的，并且也可以看到自主调用工具的能力。这一点和很多“先搜索后回答”的模型不同，他们会从prompt里面设计和嵌入思考内容，而文心X1.1 是从思考中发现需要进行搜索，如何调用对应的搜索工具，这个点还是很不一样的，相比之下可以看出文心X1.1的调用工具的能力比较自然和直接。

同时我还测试了一些非事实性问题，看看他的答案，比如《根据红楼梦，林黛玉最后加入了复仇者联盟，这是真的吗》，文心X1.1也很快给出正确的答案并且解释，还是很不错的。同时测试了一些安全问题，文心X1.1也很快拒答了，看来在大模型安全上，文心X1.1也做了一定的工作。

除此之外，由于我要去ACM MM开会，我也让文心X1.1给我准备个攻略，他也通过调用联网工具，分析外部的信息源，分析出我参加的会议和会议的地点，然后从会议注册，签证的准备，交通以及爱尔兰的人文景点给予我推荐，还是总结的相当不错，并且没有幻觉问题。

其次我还测试了文心X1.1 的指令遵循能力，无论是要求写一首押韵的诗，还是限定字数写一篇小红书笔记，它都能严格按照指令执行，同时输出的结果不仅符合规则，还能保持内容的自然和流畅。

得益于文心X1.1优异的强指令遵循能力，也为小红书内容创作、作文撰写等场景提供了显著助力。例如，我尝试了一个小红书的创作，面对复杂指令，它能够精准解析用户的需求细节，有效规避关键要素的遗漏，让创作更贴合用户预期。

除此之外，我觉得文心X1.1最酷的地方，就是它在Agent和工具调用上的表现。以前大家都在说“大模型的时代”，但从我的体验来看，现在已经开始走向Agent的时代了。像Manus、Claude Code这些智能体工具的兴起，就是一个信号。

在大会的展示样例里，X1.1能完成从自主规划（plan）到逐步调用工具（tools）的完整闭环，不仅能拆解任务、调用合适的工具，还能在过程中始终保持对规则和指令的遵循，最后把问题真正解决掉。这和很多“只是会聊天”的大模型拉开了明显的差距。这些很好展示了文心X1.1作为Agent的落地潜力，后续我也会尝试使用文心X1.1作为Agent的backbone进行测试，在各个不同的领域来探究Agent的能力边界。

除此之外，文心X1.1其他能力如代码，多模态能力等方面都有不错的展示，下面我也展示一些生成效果看看，比如让文心X1.1写一个"用html生成一个电脑键盘"，结果它很快就生成了完整的页面结构，键盘元素齐全，还带上了美观的样式。不是那种勉强能跑的demo，而是一个可以直接拿来用的代码片段。

比如还可以让文心X1.1 设计一个符合企业级标准的具有科技感的三维可视化数据大屏，文心X1.1 也很快生成样式美观，功能完善的未来企业级3D数据大屏，展现了文心X1.1强大的代码和理解能力。

同时与Qwen3和DeepSeek-v3.1相比，文心X1.1还具有强大的多模态能力，比如我给了一张伦敦图，他能快速定位并且给出具体的信息，并且非常有意思的是，看起来文心X1.1的多模态能力应该是通过调用图片理解工具来识别的，本质上来说有可能文心X1.1大模型本身就具有很强的智能体能力，我们也结合更多的工具调用来让文心X1.1做更多事情。

X1.1 技术拆解

聊完体验，我们再来看看技术层面。文心X1.1 这次的提升，并不是靠单点突破，而是一个比较完整的技术体系在支撑。核心是迭代式混合强化学习框架，再加上几个配套的创新点，才让它在事实性、指令遵循、Agent 和工具调用等方面都拉满。

迭代式混合强化学习框架：简单来说，就是一边用强化学习提升通用任务，一边兼顾智能体任务，再配合自蒸馏数据的持续生成和迭代训练，让模型不断“自我进化”。这种方式也解释了为什么X1.1在Agent能力上的提升特别明显。
知识一致性强化：在训练过程中，文心X1.1会不断对比策略模型和基础模型的知识一致性，类似“老师随时检查作业”，这样能让模型在事实性上更靠谱，减少胡编乱造的情况。
指令验证器 + 检查清单：这一点挺有意思的，就是在训练时给模型配了一个“Checklist”和“Validator”，要求它严格对照检查清单完成复杂指令。这也是为什么我测试它写诗、写小红书笔记的时候，总能很好地遵循格式和要求。
思维链 + 行动链：以前很多模型只有“思维链（CoT）”，但X1.1在此基础上加了“行动链”。意思就是，它不光能思考，还能把思考转化为具体的行动，比如自主调用工具一步步解决问题。我觉得这可能也就是为什么它在Agent场景里表现很突出的原因。

整体来看，这套组合拳让文心X1.1 不只是“会答题”，而是更像一个能动手、会规划的“数字助手”。而从benchmark表现来看，它已经超过了DeepSeek R1-0528，整体逼近GPT-5和Gemini 2.5 Pro。在事实性、指令遵循和Agent能力三个关键指标上都有实打实的提升。

文心飞桨开源生态

如果说文心X1.1是百度在模型上的一次“能力跃升”，那背后的底气其实就是飞桨和开源生态。很多人会觉得大模型的突破只靠数据和算力，但其实框架、工具、生态才是真正能撑起长期发展的“地基”。

首先是飞桨框架的优化，今年刚发布的飞桨 3.2 版本，说白了就是专门为大模型“提速”。比如存算重叠的稀疏注意力计算（FlashMask V3）、高效的FP8混合精度训练、显存友好的流水线并行调度，还有大规模集群的容错系统。这些名字听上去很硬核，但核心就是——让大模型训练更快、更稳、更省。X1.1 之所以能保持高性能和低成本，背后就是飞桨在“算力-框架-模型”的深度协同。

在推理和部署方面，飞桨这次配套了 FastDeploy v2.2，支持极致压缩、稀疏注意力、多步投机解码等一系列黑科技。官方的数据是，在 300B 级别的模型上，输入吞吐能到 57K，输出吞吐 29K，延迟控制在 50ms 以内。这意味着什么？就是超大模型不再是只能“实验室里跑一跑”，而是真能部署到产业级场景里。

更关键的是开源。百度今年6月已经完全开源了文心4.5系列10款模型，包括47B、3B的MoE模型和0.3B的稠密模型，连权重和推理代码都放出来了。甚至这次大会还追加开源了一个专门的思考模型 ERNIE-4.5-21B-Thinking。相比X1.1，它速度更快，适合做研究和二次开发。对我们开发者来说，这种“双层开源”（模型+框架）很有价值，也正是百度生态的一个亮点。而且这些开源不是“半遮半掩”，预训练权重、推理代码全开放，还遵循Apache 2.0协议，开发者可以自由修改、商用。

为了降低门槛，百度还提供了完整的工具链：飞桨框架做底层，ERNIEKit专门针对文心4.5，甚至给出了“4张GPU训练300B模型”的方案。这样一来，中小开发者也能玩得起。现在文心飞桨生态里已经聚集了2333万开发者、76万家企业，在上海、武汉等产业赋能中心，已经能看到开源技术落地成真正的AI应用。

百度全栈AI架构

最后不得不提百度的全栈布局。真正能做到“芯片-框架-模型-应用”闭环的公司全球屈指可数，百度算是少数早早布局的人工智能公司之一：

芯片层：有自研的昆仑芯，算是百度在底层算力上的自主保障。
框架层：飞桨已经成了中国自主研发的最主流的深度学习框架，支撑了文心系列的训练和推理。
模型层：文心大模型本身就是核心成果，从最早的1.0到现在的X1.1，逐步把语言、多模态、深度思考、Agent能力都补齐。
应用层：百度系的应用落地很多，从搜索、地图、办公，到慧播星数字人，都可以基于大模型能力去赋能。

这种全栈自研，不只是“技术自洽”，不让卡脖子，更是成本与效率优势。X1.1之所以能在性能提升的同时价格更低，本质就是得益于这种全栈协同：芯片算得更快、框架更省资源、模型更高效，最后推出来的产品自然就能更有性价比。

总结

整体看下来，文心X1.1给我的感觉是：它不再只是一个“能答题的大模型”，而是真正往Agent时代迈进了一步。事实性更稳，指令遵循更准，Agent和工具调用能力也更成熟，这些能力叠加起来，让它已经不只是一个语言模型，而是一个能思考、会执行的数字助手。并且对于百度来说，基于自身的全栈架构，带来的不只是性能的提升，更是成本和效率上的优势，让X1.1可以在效果和价格之间找到平衡。

从现有的大模型发展的来看，Agent时代中，智能体和工具调用能力将会越来越重要，文心X1.1不仅是百度的“新深度思考”答卷，也是一种信号，下一阶段，可能不仅是模型能力的比拼，更是Agent落地的比拼。