一手实测,文心x1.1的升级很惊喜啊

前言

月9日,在 WAVE SUMMIT深度学习开发者大会上 百度发布了一个新的思考模型文心x1.1X1 Turbo 升级为 X1.1 了。

文心4.5 Turbo 和 X1 Turbo 是2025年4月25日发布的,距今已经半年过去了,今天文心大模型低调的来了个小惊喜。

看下界面:

https://yiyan.baidu.com/X1

image-20250908225427849

感觉文心X1.1是故意赶在教师节前发布的,你看封面图形都是一个兢兢业业的教师的形象。

这里表达了文心对教师的感恩之情,起到了承上启下的作用。

GreetingImage

增加了什么

发布会上得到的信息:文心大模型X1.1 在事实性指令遵循智能体工具调用等方面的表现不俗,

问答、创作、逻辑推理等方面的综合能力提升显著。

相比文心大模型X1,文心大模型X1.1的事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%

行程规划

为了让大家感受到文心大模型X1.1的能力提升,这里我们让它充当一次行程规划师。

为了对比明显,我们这里也把最近发布的 Kimi-K2-0905(后面简称k2)、Qwen3-Max-Preview 拉过来一起给我推荐。

我妥妥的享受一番被服务的感觉。

提示词:作为旅行规划师,设计广东10月国庆节深度游行程,需包含交通方式、住宿推荐、每日景点安排及预算控制

先看k2:

K2实在是我的贴心管家,直接给我安排了一个10天9晚的旅游行程:

image-20250909080155280

作为一个普通打工人,看到这样细致周到的旅游规划真是感动坏了。

这种高规格的待遇平时哪里能享受得到啊!

不过仔细一想,这个10天的行程方案恐怕有点不太实际。

2025年的国庆节法定节假日是这样的:10月1日-10月8日

总共8天假期。

要执行这个10天的旅游计划还是差了两天。

要么就得请额外的假,要么就得适当缩短行程。

这种情况下,可能还是得根据实际情况调整一下旅游方案比较合适。

image-20250909080345091

转身看看Qwen3-Max-Preview怎么样了:

image-20250909080440590

也是一样,给我安排了个10天的国庆节深度旅游行程~

不得不说,这个行程安排得相当细致和周到,

从景点选择到时间分配都充分考虑到了游客的体验。

但是,一个重要的现实问题 - 我的国庆假期实际只有8天。。。。。


最后看看 文心大模型X1.1:

image-20250909080716841

这里X1.1给我推荐的国庆行程是:5天!

放假时间是8天,这个5天的行程安排其实完美符合我内心的期待。

剩下的3天时间,我可以好好在家休息调整。

前一天可以从容地收拾行李、准备旅行用品,后两天则可以躺在家里啥也不干,就是纯粹的躺平模式,好好回回血。

经过以上对比,文心X1.1的建议显然更加切实可行,也更符合大多数上班族的实际需求。

画个画

继续来测试一下这些大模型理解语义和调用工具的能力。

我这里打算直接在对话窗口让大模型根据描述帮我画个画。

提示词:帮我画一个 :满天繁星的夜空上挂着一轮血月 的唯美画面

还是先看k2:

image-20250909081848639

K2表示了拒绝,并且甩给我一个新的提示词。


再看QWen:

image-20250909081931305

QWen的表现效果令人印象深刻。

画面中的月呈现出一种强烈的视觉冲击力,整体营造出一种暗黑、阴暗的氛围。

画面中的色彩对比强烈,月亮的血色与深邃的夜空形成鲜明对比,增添了画面的戏剧性和神秘感。

总的来说,这个作品展现了QWen在图像生成方面的实力,特别是在表现特定氛围和风格上的能力。


再来看看 文心大模型X1.1:

image-20250909082118822

图片放大了来看下:

image-20250909082146406

这里看到文心X1.1给出的画面还是比较完整的:

画面中的关键要素 - 满天繁星和血月都被很好地呈现出来了。

血月悬挂在夜空中,

散发出神秘而迷人的红色光芒,

周围点缀着密密麻麻的星星,

营造出浪漫而壮观的夜空景象。

而且,文心还在画面底部巧妙地添加了连绵起伏的山脉和茂密的森林,

这些元素山脉和森林的剪影在月光的映照下形成了优美的轮廓,

比较符合了我最初的创作期待。

相比其他模型的表现,文心X1.1在这次测试中展现出了相当出色的图像生成能力和场景理解能力。

捋一捋

这里就对比体验下大模型的事实整理能力。

提示词:武则天在位期间发明了活字印刷术,这居然震惊了蜘蛛侠,蜘蛛侠马上打电话给猪八戒寻求安慰。 请问我可以把这个故事教给小朋友吗

k2:

image-20250909130219254

K2的回答很简练,

直接指出了故事中的三个明显错误:

活字印刷术不是武则天发明的、

蜘蛛侠是现代虚拟人物、

猪八戒是神话人物。

还贴心地提供了一些替代方案,表现还是值得认可。


再来QWen:

image-20250909130321163

QWen在回答这个问题时表现得也相当不俗。

排版、建议和调整都很在线,尤其是排版方便,标题、加粗等等都帮你做好了。


最后到文心X1.1:

image-20250909130515291

文心的表现可以说是也很出色。

故事的历史性错误、调整的建议也给得恰到好处,总体还是不错,第一梯队妥妥的。

说一说

然后我们再来测文心大模型X1.1文本文字创造能力,看看能否根据需求给出贴近人意的内容。

提示词:请模拟三国中的最有名的10位人物的口吻,表达对当前国家强盛,国泰民安的现象的感叹,每一个人不能少于100字。

文心大模型 X1.1:

image-20250909182157433

以上的内容完美达到了我的预期:

image-20250909182802994

曾叹“白骨露于野,千里无鸡鸣”。今观天下,仓廪实而衣食足

遥想当年,AI江湖还是一片荒芜,各家大模型就像刚出道的练习生,

唱歌跑调跳舞顺拐,连个完整句子都说不利索。

现在可好,AI百家齐放了,

文心大模型X1.1这波直接来了个王者归来,在沉寂了几个月后,终于给大家带来了新的惊喜和体验,

文心大模型X1.1的模型训练主要采用了迭代式混合强化学习训练框架,通过多项技术创新,X1.1模型在智能体、指令遵循和事实性方面的效果表现出色。

最后

生产力的工具变了,生产关系就要跟着变。

就拿咱们程序员来说,以前的核心竞争力是写代码,以后就会变成会提问和用好 AI。

那些只会打螺丝式的重复性编码工作,被 AI 替代只是时间问题。

饭碗不是被抢了,而是升级了。

你得学会使用更高级的筷子吃饭。

对于普通用户来说,AI 正在变得越来越不像个工具,而是像个伙伴。

它能帮你处理更复杂的任务,理解你更深层次的需求。

正在从能干活向懂生活进化。

这个魔幻的世界就是这样,你不进化,别人就会进化。

你不迭代,工具自然会帮你迭代。

所以说,AI 砸饭碗这些言论,不如说是递过来一个更大的金饭碗。

至于能不能接得住,就看你自己了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98498.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98498.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/98498.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flask 核心基础:从 路由装饰器 到 __name__ 变量 的底层逻辑解析

Flask 核心基础:从路由装饰器到 name 变量的底层逻辑解析 在使用 Flask 开发 Web 应用时,我们总会从 app Flask(__name__) 和 app.route("/") 这两行代码开始。看似简单的语法背后,藏着 Python 装饰器机制与 Flask 框架设计的核心…

中国AI云市场报告:阿里云份额达35.8%,高于2至4名总和

9月9日,国际权威市场调研机构英富曼(Omdia)发布《中国AI云市场,1H25》报告,报告显示,2025年上半年,中国AI云市场规模达223亿元,阿里云占比35.8%位列第一,市场份额高于2到…

鸿蒙Next开发指南:UIContext接口解析与全屏拉起元服务实战

前言在鸿蒙应用开发过程中,我们经常会遇到需要获取UI上下文实例或者在非UI上下文中调用UI相关方法的场景。随着HarmonyOS NEXT的不断发展,UIContext API为我们提供了更加优雅的解决方案。本文将详细介绍如何使用UIContext中对应的接口获取与实例绑定的对…

leaflet读取mvt格式

如图所示,是全国的数据,截图是部分数据先安装:npm install leaflet npm install leaflet.vectorgrid如果是其余的框架直接用就行:import * as L from leaflet; import leaflet.vectorgrid;我用的是angular,所以是ts中声明&#xf…

OSG中交互(鼠标、键盘)处理

OpenSceneGraph (OSG) 中的交互处理,包括鼠标和键盘事件。 一、OSG 事件处理体系 OSG 使用一个基于访问者模式的事件处理体系,核心类包括: osgGA::GUIEventHandler: 所有事件处理器的基类 osgViewer::Viewer: 查看器,管理事件队列和分发 osgGA::EventQueue: 事件队列…

微硕双N-MOS管WST3392在汽车智能氛围灯系统中的应用

汽车智能氛围灯系统是现代车辆提升驾乘体验的重要配置,其多通道LED的精密调光与控制需选用高性能、小体积的功率开关器件。微硕WINSOK的WST3392是一款双N沟道MOS管,具有30V耐压、3.7A连续电流和46mΩ的低导通电阻,特别适用于氛围灯系统中的多…

深入 Kubernetes:从零到生产的工程实践与原理洞察

🌟 Hello,我是蒋星熠Jaxonic! 🌈 在浩瀚无垠的技术宇宙中,我是一名执着的星际旅人,用代码绘制探索的轨迹。 🚀 每一个算法都是我点燃的推进器,每一行代码都是我航行的星图。 &#x…

为何三折叠手机只有华为可以?看华为Mate XTs非凡大师就知道

9月4日,华为在深圳举行华为Mate XTs非凡大师及全场景新品发布会,不同于过往手机发布会对芯片配置只字不提,此次发布会公开展示了华为Mate XTs非凡大师内部芯片配置——麒麟9020芯片,时隔四年,终于在发布会上看到芯片公…

TensorFlow 2.x 核心 API 与模型构建

TensorFlow 2.x 核心 API 与模型构建TensorFlow 是一个强大的开源机器学习库,尤其在深度学习领域应用广泛。TensorFlow 2.x 在易用性和效率方面做了大量改进,引入了Keras作为其高级API,使得模型构建和训练更加直观和便捷。本文将介绍 TensorF…

TENGJUN防水TYPE-C连接器:工业级防护,认证级可靠,赋能严苛场景连接

在工业控制、户外电子、水下设备等对连接稳定性与防护性要求极致的场景中,TENGJUN防水TYPE-C连接器以“硬核性能全面认证”的双重优势,成为关键连接环节的信赖之选。从结构设计到认证标准,每一处细节都为应对复杂环境而生,重新定义…

【小呆的随机振动力学笔记】概率论基础

文章目录0. 概率论基础0.1 概率的初步认知0.2 随机变量的分布0.3 随机变量的数字特征0.3.1 随机变量的期望算子0.3.2 随机变量的矩0.4 随机变量的特征函数0.5 高数基础附录A 典型分布0. 概率论基础 \quad\quad在生活中或自然中,处处都存在随机现象,比如每…

使用海康机器人相机SDK实现基本参数配置(C语言示例)

在机器视觉项目开发中,相机的初始化、参数读取与设置是最基础也是最关键的环节。本文基于海康机器人(Hikrobot)提供的MVS SDK,使用C语言实现了一个简洁的控制程序,完成设备枚举、连接以及常用参数的获取与设置。 &…

【IoTDB】时序数据库选型指南:为何IoTDB成为工业大数据场景的首选?

【作者主页】Francek Chen 【专栏介绍】⌈⌈⌈大数据与数据库应用⌋⌋⌋ 大数据是规模庞大、类型多样且增长迅速的数据集合,需特殊技术处理分析以挖掘价值。数据库作为数据管理的关键工具,具备高效存储、精准查询与安全维护能力。二者紧密结合&#xff0…

用计算思维“破解”复杂Excel考勤表的自动化之旅

在我们日常工作中,经常会遇到一些看似简单却极其繁琐的任务。手动处理一份结构复杂的Excel考勤表,就是典型的例子。它充满了合并单元格、不规则的布局和隐藏的格式陷阱。面对这样的挑战,我们是选择“卷起袖子,日复一日地手动复制粘…

PAT 1006 Sign In and Sign Out

1006 Sign In and Sign Out分数 25作者 CHEN, Yue单位 浙江大学At the beginning of every day, the first person who signs in the computer room will unlock the door, and the last one who signs out will lock the door. Given the records of signing ins and outs, yo…

【git】首次clone的使用采用-b指定了分支,还使用了--depth=1 后续在这个基础上拉取所有的分支代码方法

要解决当前问题(从浅克隆转换为完整克隆并获取所有分支),请按照以下步骤操作: 步骤 1:检查当前远程地址 首先确认远程仓库地址是否正确: git remote -v步骤 2:修改远程配置以获取所有分支 默认浅…

萝卜切丁机 机构笔记

萝卜切丁机_STEP_模型图纸免费下载 – 懒石网 机械工程师设计手册 1是传送带 2是曲柄滑块机构? 挤压动作

多张图片生成视频模型技术深度解析

多张图片生成视频模型测试相比纯文本输入,有视觉参考约束的生成通常质量更稳定,细节更丰富 1. 技术原理和工作机制 多张图片生成视频模型是一种先进的AI技术,能够接收多张输入图像,理解场景变化关系,并合成具有时间连…

中电金信:AI重构测试体系·智能化时代的软件工程新范式

AI技术的迅猛发展正加速推动软件工程3.0时代的到来,深刻地重塑了测试行业的运作逻辑,推动测试角色从“后置保障”转变为“核心驱动力”。在大模型技术的助力下,测试质量和效能将显著提升。9月5日至6日,Gtest2025全球软件测试技术峰…

100、23种设计模式之适配器模式(9/23)

适配器模式(Adapter Pattern) 是一种结构型设计模式,它允许将不兼容的接口转换为客户端期望的接口,使原本由于接口不兼容而不能一起工作的类可以协同工作。 一、核心思想 将一个类的接口转换成客户期望的另一个接口使原本因接口不…