文章目录

  • 00:00 - Grok-4:以“全球最智能 AI”之名突破性登场
  • 06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑
  • 13:25 - 工具使用能力的革新:从“原始”到深度整合
  • 20:06 - 直面强化学习的挑战与 AI 的终极测试
  • 26:45 - 应用演示:在浏览器中模拟黑洞碰撞
  • 33:29 - 基准测试霸榜:全面超越所有对手
  • 40:16 - 语音交互与 API:更自然、更开放
  • 46:53 - 赋能开发者:从商业策略到游戏创作
  • What is next? - 通往视频生成和通用智能的加速之路
  • 总结


7 月 9 日,xAI 举办了一场定义下一代人工智能的发布会,正式推出其号称“全球最智能 AI”的旗舰模型 Grok-4。发布会通过一系列令人震撼的现场演示和全面的基准测试数据,证明了 Grok-4 在超人级别的推理、复杂的工具使用和长远战略规划方面的卓越能力。从 4 小时制作一款游戏到在模拟商业中收益翻倍,Grok-4 展示的不仅仅是技术的飞跃,更是通往一个由 AI 深度赋能的未来的清晰路线图。

下面我们就按照时间顺序复盘一下Grok-4这48分钟的发布会都有什么亮点。

00:00 - Grok-4:以“全球最智能 AI”之名突破性登场

  • 智能的飞跃:埃隆·马斯克开场便直接宣布 Grok-4 是“世界最智能的 AI”,并强调其学习速度“远超任何人类”。他指出,Grok-4 面对 SAT 考试能次次获得满分,甚至在各学科的研究生入学考试(GRE)中都能取得近乎完美的成绩,其学识水平已达到“所有学科的研究生级别”。
  • 超人级推理:针对“AI 无法推理”的说法,马斯克明确反驳:“不,它可以在超人级别上进行推理 (it can reason at superhuman levels)”。
    请添加图片描述

06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑

  • 指数级增长:Grok-4 的训练计算量是 Grok-2 的整整 100 倍。团队不仅在“预训练”上投入巨大算力,更在“推理强化学习 (RL)”上投入了比任何其他模型多 10 倍的计算资源。
    请添加图片描述* 挑战极限基准:发布会重点介绍了“人类最后的大考 (Humanity’s Last Exam)”这一极难基准,其问题难度均为博士或前沿研究级别。马斯克评价道:“没有任何人类能在这个测试中取得高分”。
    在这里插入图片描述
    在这里插入图片描述
    请添加图片描述
  • “全科博士”:马斯克反复强调一个惊人的事实:“Grok-4 在每个学科上都优于博士水平,无一例外 (Grok is better than PhD level in every subject no exceptions)”。他预测,Grok-4 最快可能在今年晚些时候发现新技术,明年发现新物理。

13:25 - 工具使用能力的革新:从“原始”到深度整合

  • 更原生的工具使用:与 Grok-3 依赖泛化能力不同,Grok-4 在训练中就直接整合了工具使用,使其在调用工具时更加可靠和强大。
    在这里插入图片描述
  • 承认“原始”阶段:马斯克坦言,相较于特斯拉或 SpaceX 使用的“有限元分析”等高级工业工具,Grok-4 目前的工具使用仍处于“相当原始的阶段 (fairly primitive tool use)”。但他承诺,今年晚些时候会为其提供这些强大的公司级工具。

20:06 - 直面强化学习的挑战与 AI 的终极测试

  • 数据瓶颈:xAI 团队坦诚,随着模型越来越智能,为其寻找足够有“挑战性的问题”已成为新的“数据瓶颈”。
  • 现实是终极的试金石:马斯克提出了一个核心观点:“最终的推理测试是现实 (the ultimate reasoning test is reality)”。因为“物理是法则,其他一切都是建议”。AI 是否强大,最终要看它能否创造出有用的新技术、新药物,能否让火箭进入轨道。
    在这里插入图片描述

26:45 - 应用演示:在浏览器中模拟黑洞碰撞

  • 复杂的物理模拟:现场演示了 Grok-4 生成两个黑洞碰撞的可视化过程,完整覆盖了旋近 (inspiral)、合并 (merger) 和衰减 (ringdown) 三个阶段。
    在这里插入图片描述
  • 严谨的科学态度:模型在思考过程中明确指出,为了可视化,它夸大了引力波的尺度,并使用的是“后牛顿近似法 (post-Newtonian approximations)”而非完整的广义相对论计算,同时参考了本科教材和真实世界数据。

33:29 - 基准测试霸榜:全面超越所有对手

  • 商业预测能力:在现场演示中,Grok-4 Heavy 版本花了约 4.5 分钟分析了大量赔率网站和市场数据,计算出洛杉矶道奇队赢得世界大赛的概率为 21.6%
    在这里插入图片描述
  • 全方位领先:在所有关键推理基准上,Grok-4 都大幅领先于 GPT-4o、Gemini 2.5 Pro 和 Claude 3 Opus 等对手。它在 AIME (美国数学邀请赛) 上获得满分,在 GPQA (研究生水平问题解答) 等测试中也遥遥领先
    在这里插入图片描述
  • 未来的测试:马斯克预言,未来 AI 会强大到能指出“问题本身有什么毛病”,届时人类设计的考试将失去意义。

40:16 - 语音交互与 API:更自然、更开放

  • 自然的语音体验:现场演示了全新的语音模式,延迟相比之前降低了一半。新声音“Eve”展现了极其自然流畅的对话、低语乃至歌剧演唱能力。在与竞品的对比测试中,Grok 的对话更平稳、不打断。
    在这里插入图片描述

  • API 全面开放:Grok-4 和 Grok-4 Heavy 版本已通过 API 发布,为开发者提供前所未有的能力。在 ARGI 基准测试中,Grok-4 的准确率达到了 15.8%,是第二名 Claude 3 Opus 的两倍。
    在这里插入图片描述

46:53 - 赋能开发者:从商业策略到游戏创作

  • AI 运营公司:在 AI 商业模拟“Vending Bench”中,Grok-4 制定并执行了长期策略,最终创造的净资产是之前第一名的两倍,证明了其强大的商业规划能力。
    请添加图片描述
  • 4 小时制作 FPS 游戏:游戏设计师 Denny 利用 Grok-4,在 4 小时内就制作了一款第一人称射击游戏。Grok-4 最大的贡献是自动化了“资产获取 (asset sourcing)” 这一游戏开发中最繁琐的环节。
    请添加图片描述

What is next? - 通往视频生成和通用智能的加速之路

发布会最后,xAI 公布了清晰的路线图,展现了其惊人的迭代速度:

  1. 专业编码模型:一个兼具速度与智能的专业编码模型将在几周内发布。
  2. 多模态智能体:正在训练的 Version 7 基础模型将解决目前视觉理解能力偏弱的短板,带来图像、视频和音频理解能力的“阶跃式提升 (step function improvement)”。
  3. 进军视频生成:xAI 计划在未来 3-4 周内,使用超过 10 万块 GB200 芯片开始训练其视频模型。马斯克预计,今年能看到“半小时可观看的 AI 电视节目”,明年能看到“第一部可观看的 AI 电影”。
    请添加图片描述

总结

这次发布会不仅仅是一次产品更新,更是 xAI 对其技术实力和发展速度的一次全面展示。Grok-4 已经证明,AI 正在从一个“聪明的工具”转变为一个能够在各领域进行深度思考、规划和创造的“智能体”。正如马斯克所言,我们正处在“智能大爆炸 (intelligence big bang)”的奇点时刻。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88512.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88512.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88512.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI产品经理面试宝典第1天:机器学习核心算法全景解析

面试官:请解释什么是监督学习?能否用生活案例说明其运作逻辑? 监督学习如同教孩子识字的过程。父母指着"苹果"图片反复说"这是苹果"(带标签的训练数据),孩子逐渐建立"红色圆形水果=苹果"的认知模型(算法生成)。当孩子看到新图片时,模型…

前端开发技术栈概览

前端开发技术栈概览 前端开发是创建Web页面或app等前端界面给用户的过程,从简单的静态页面到复杂的单页应用(SPA),前端技术栈经历了快速的演进。以下是前端开发所需掌握的核心技术分类及相关知识点: 1. 基础层:HTML、CSS、JavaScr…

详解Kafka通过幂等性实现分区消息不重复的机制

一、核心机制:PID与序列号1. Producer ID (PID)唯一标识:每个生产者实例启动时,由Kafka Broker分配一个全局唯一的PID,用于标识消息来源。持久化存储:PID由Broker持久化保存,确保生产者重启后仍能追踪历史状…

压缩包方式在centos7版本上安装mysql8.0

使用tar命令解压 tar -zxvf mysql-8.0.32-el7-x86_64.tar.gz -C /usr/local/到/usr/local/修改解压后的文件名为mysql 创建mysql用户组和用户,自己在mysql下面创建data目录存储信息,把权限交给mysql这个用户 groupadd mysql useradd -r -g mysql mysql c…

使用ansible给被管理节点安装docker

在跳板机上安装ansible,再通过ansible的playbook,给被管理节点安装docker。 跳板机配置 实验环境 华为云上按需开两台2核2G的Ubuntu的ECS;2台公网IP为5Mbit/s,按需按流量;2台服务器在一个子网内;跳板机和被管理节点主机分别挂不通的安全组 在…

《Java EE与中间件》实验三 基于Spring Boot框架的购物车

目 录 一、实验目的和要求 二、实验实现思路及步骤 1、实验思路 2、实验步骤 3、实验方案 三、主要开发工具 四、实验效果及实现代码 1、购物车数据库构建实现 (1)建立javaee-project数据库 (2)建立t_cart数据表 &…

DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 论文精读

题目:DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 题目:DAS3D:用于三维异常检测的双模态异常合成 论文地址:ECCVW 2024 2410 Dual-modality 双模态 Anomaly Synthesis 异常合成 for 3D Anomaly Detection…

EasyCVR视频汇聚平台国标接入设备TCP主动播放失败排查指南

部分客户现场的下级平台通过国标级联接入安防监控系统EasyCVR后,只能通过TCP主动的播放方式进行播放(并不是所有下级平台都支持tcp主动播放,模式需下级平台支持),但是有些平台刚接入的时候发现不能播放。核心原因分析&…

linux打包指令和移动指令

在Linux中,常用的文件夹打包命令是 tar,它可以将文件夹压缩打包成 .tar、.tar.gz、.tar.bz2 等格式的文件。以下是具体用法: 1. 基础打包(不压缩,生成 .tar 文件) 将文件夹 folder 打包为 folder.tar&#…

神经符号AI:结合深度学习和符号逻辑的下一代AI

神经符号AI:结合深度学习和符号逻辑的下一代AI当AI医生解释诊断时,它不仅能指出医学影像中的异常像素模式,还能引用临床指南中的第三条第二款,推演病理发展的逻辑链条——这正是神经符号AI赋予机器的“理性之光”。2025年初&#…

SpringBoot JWT

jsonwebtoken 引依赖 <dependency><groupId>io.jsonwebtoken</groupId><artifactId>jjwt</artifactId><version>0.12.3</version></dependency> 测试一下&#xff0c;jwt是2个带逗号的3段字符串 官网参考&#xff1a;JSON …

读取QPS 10万,写入QPS 1000,如何设计系统架构?

你是否也曾深陷在臃肿的领域模型&#xff08;Domain Model&#xff09;的泥潭&#xff0c;一个 User 或 Order 实体类&#xff0c;既要处理复杂的业务逻辑和数据校验&#xff0c;又要承载各种为前端展示而生的DTO转换&#xff0c;导致模型越来越胖&#xff0c;读写性能相互掣肘…

UE5 Rotate 3 Axis In One Material

首先没有用旋转矩阵&#xff0c;我用过旋转矩阵&#xff0c;传进去的角度旋转的角度和欧拉角传进去角度旋转出来的不一样&#xff0c;就没有用最后用的RotateAboutAxis&#xff0c;这个玩意儿研究老半天&#xff0c;只能转一个轴&#xff0c;角度和欧拉角的一样的最后研究出Rot…

计算机网络实验——访问H3C网络设备

一、实验目的1. 熟悉H3C路由器的开机界面&#xff1b;2. 通过Console端口实现对上电的H3C路由器的第一次本地访问&#xff1b;3. 掌握H3C设备命名等几个常用指令&#xff1b;4. 掌握如何将H3C设备配置为Telnet服务器&#xff1b;5. 掌握如何将H3C设备配置为Telnet客户端并实现访…

【C语言】学习过程教训与经验杂谈:思想准备、知识回顾(四)

&#x1f525;个人主页&#xff1a;艾莉丝努力练剑 ❄专栏传送门&#xff1a;《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题 &#x1f349;学习方向&#xff1a;C/C方向 ⭐️人生格言&#xff1a;为天地立心&#xff0c;为生民立命&#xff0c;为…

Vim 指令

Vim 是一款功能强大但学习曲线陡峭的文本编辑器&#xff0c;核心在于其模式化操作。掌握常用指令能极大提升效率。以下是指令分类整理&#xff1a;一、核心模式切换 (必须掌握&#xff01;)i&#xff1a;在光标前进入 插入模式 (Insert Mode)a&#xff1a;在光标后进入 插入模式…

vue2中使用xgplayer播放流视频

1、官网 2、安装后无法播放时&#xff0c;经测试&#xff0c;需要降低版本 "xgplayer-hls": "2.2.2","xgplayer": "2.31.6"改为以上版本可以正常播放 3、完整使用 &#xff08;1&#xff09;引入 import xgplayer import hlsjsPlayer…

Jmeter进阶篇(35)完美解决Jmeter转换HTML报告报错“Begin size 0 is not equal to fixed size 5”

今天博主在使用Jmeter运行完压测,使用生成的csv文件,运行以下命令: C:\apache-jmeter-5.2.1\bin>jmeter -g C:\res.csv -o C:\report生成HTML报告时,发现报错“Begin size 0 is not equal to fixed size 5”。 问题原因 原因是我:本地用的是JDK17,但Jmeter5.2.1仅支…

linux中tcpdump抓包中有组播数据,应用程序收不到数据问题

问题描述服务器运行正常&#xff0c;维保需要&#xff0c;重启服务器后应用程序无法收到组播的媒体数据。百思不得其解。原因分析最终的定位原因是 linux系统的自我保护机制导致的。rp_filter&#xff08;反向路径过滤&#xff09;是Linux内核的一个安全特性&#xff0c;用于防…

人工智能-基础篇-29-什么是低代码平台?

低代码平台&#xff08;Low-Code Development Platform, LCDP&#xff09;是一种通过可视化界面和少量代码&#xff08;或无需代码&#xff09;快速构建应用程序的开发工具。它的核心目标是通过简化开发流程&#xff0c;降低技术门槛&#xff0c;使企业能够更高效地响应业务需求…