自己的原文哦~ https://blog.51cto.com/whaosoft/14132244

#4DNeX

一张图，开启四维时空：4DNeX让动态世界「活」起来

仅凭一张照片，能否让行人继续行走、汽车继续飞驰、云朵继续流动，并让你从任意视角自由观赏？

南洋理工大学 S-Lab 携手上海人工智能实验室，给出肯定答案 ——4DNeX。作为全球首个仅依赖单张输入即可直接输出 4D 动态场景的前馈（feed-forward）框架，4DNeX 摆脱了游戏引擎与合成数据的束缚，首次大规模利用真实世界动态影像进行训练，实现「时空视频」的高效、多视角、高保真渲染。

在多项基准测试中，4DNeX 以显著优势超越 Free4D、4Real 等当前最佳方法，真正把「一张图生成四维世界」的科幻概念带进了现实。

，时长00:51

论文链接：https://4dnex.github.io/4DNeX.pdf
项目主页：https://4dnex.github.io/

1. 研究背景

世界模型正成为 AI 研究的高频热词。 Google DeepMind 近期迭代的 Genie 3 已能在高质量游戏数据上生成长达数分钟的交互式视频，但目前尚且缺乏在诸多真实场景上的验证。

世界模型发展的一个重要拐点在于：让模型学会刻画我们身处的动态 3D 世界，并服从其物理定律。唯有如此，生成的内容才能既逼真又可导，进而支持「反事实」推演 —— 在虚拟中重放、预测甚至改写现实。这一能力不仅可构成下一代 AR/VR 与xx智能的重要研究基石，更是迈向可信 AGI 的必经之路。

构建 4D 世界模型的关键能力，在于能否持续产出高保真、可扩展的 4D 内容，其主要在于以下三个方面的研究：

数据 – 相较于游戏等引擎合成的数据，真实采集的数据虽能保留物理属性，却难以大量获取，更难标注；
表征 - 如何兼顾不同模态（如材质和几何等）特性，设计选取高效的 3D/4D 表征仍是学界长久未竟的科研命题；
架构 – 当前的不同生成模型架构互有优劣，如何更好地继承现有模型先验，保障高质量仍需探索。

鉴于此，「真实高效」的 4D 世界模型构建非常重要，也充满挑战。

2. 4DNeX-10M Dataset

近千万帧带 4D 标注的视频集

为破解高质量真实 4D 数据稀缺的瓶颈，4DNeX 首度发布 4DNeX-10M—— 近千万帧、多场景、带伪标签的超大规模 4D 视频数据集。其覆盖室内外环境、自然景观与人体运动等多元主题，尤以海量「以人为中心」的 4D 数据为特色，囊括丰富的物理属性、动态细节与交互行为，为 4D 世界模型的构建奠定坚实基础。

图 1 4DNeX-10M Dataset 包含了不同来源且丰富多样的动态数据

为支撑 4DNeX-10M 的构建，研究者们同步设计了一条全自动的数据–标注管线（见下图）。

数据源：单目实拍视频数据，其中动态场景取自 Pexels、Vimeo 等公开视频库；静态场景则整合 RealEstate-10K、DL3DV 等。
首轮清洗：基于光流一致性、亮度统计、运动强度及 OCR 文字检测，剔除低质片段。
标签制作：
内容：LLaVA-Next Video 给视频片段打标。
几何：静态场景使用 Dust3R 三维重建，动态场景使用 Monst3R / MegaSam 四维重建，输出 Semi-Dense 3D/4D 点云图、几何标签。
质量把关：联合置信度（MCV、HCPR 等）与运动平滑度等多重阈值，筛除几何漂移或动态异常序列。

最终打标完成的 4DNeX-10M 数据集构成如图右下角统计所示。

图 2 4DNeX-10M 构建管线以及数据统计情况

3. 4DNeX 方法架构

表征选取

在 4D 内容生成中，传统「4D」指 3D 空间几何外加时间轴；而在世界模型的语境下，RGB 视频携带的材质、光照与语义信息同样关键。4DNeX 因而提出 6D 统一表征：以 RGB 序列刻画外观（3 维）并以 XYZ 序列编码几何（3 维）。该设计无需显式相机控制，即可同步生成多模态内容，兼顾真实感与物理一致性。

图 3 不同的 RGB 和 XYZ 模态融合策略

算法框架

4DNeX 框架的技术突破在于「宽度融合」这一关键策略：系统比较五种方案后，研究者们发现将 RGB 与 XYZ 在 token 宽度维度直接拼接，可将跨模态距离压到最低。相比之下，通道融合会扰乱预训练分布，批处理融合又无法保证对齐。

图 4 不同的空间融合策略对比

网络骨架沿用 Wan2.1 视频扩散模型，通过轻量级 LoRA 微调完成适配，主要的策略包括有：

输入端以斜坡深度初始化，先验地逼近自然场景的深度梯度；
XYZ 坐标经归一化校正，彻底消除 VAE 潜在空间的分布错位；
软掩码机制在扩散过程中动态约束几何细节，引导结构收敛；
旋转位置编码维持像素级 RGB-XYZ 对齐。

最后，仅需一次轻量重投影即可反算出相机参数，确保输出在物理层面严密自洽。

图 5 4DNeX 框架总览

4. 实验结果

实验验证显示 4DNeX 在效率与质量上实现双重突破：VBench 测试中，其动态幅度达 100%（超越 Free4D 的 40.1%），时空一致性 96.8% 领先业界。用户研究（23 人评估）更显示 85% 用户偏好其生成效果，尤其在运动幅度与真实感方面优势显著。

生成效果可视化证明模型能力 —— 单图输入可输出连贯动态点云序列（图 5），新视角合成在真实场景（in-the-wild）中保持几何一致性（下图 6）；与 Animate124、4Real 等基线对比（下图 7），4DNeX 在树叶摇曳幅度、人体动作自然度等细节表现更优。

，时长00:05

图 6 4DNeX 生成的视频效果（RGB & Point Map）

，时长00:05

图 7 4DNeX 生成未经训练真实世界视频的新视角视频

图 8 4DNeX 对比其他方法的生成效果

User Study 用户调研结果显示 4DNeX 生成的效果优于 Free4D、4Real、Animate124、GenXD 方法。

表格 1 User Study 结果对比

消融实验

研究者们还对比了五种融合 RGB 以及 XYZ 的策略，以发现最佳的多模态融合策略。实验一步证实宽度融合策略的关键作用，消除其他方案（如通道融合）的噪声或对齐失败问题。

图 9 不同融合策略的结果可视化展示

#Discrete-Diffusion-Forcing

开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍

视频 1：D2F dLLMs 与同尺寸 AR LLMs 的推理过程对比示意

在大语言模型（LLMs）领域，自回归（AR）范式长期占据主导地位，但其逐 token 生成也带来了固有的推理效率瓶颈。此前，谷歌的 Gemini Diffusion 和字节的 Seed Diffusion 以每秒千余 Tokens 的惊人吞吐量，向业界展现了扩散大语言模型（dLLMs）在推理速度上的巨大潜力。然而，当前的开源 dLLMs 却因一定的技术挑战 —— 例如缺少完善的 KV 缓存机制，以及未充分释放并行潜力 —— 推理速度远慢于同规模的 AR 模型。

近期的一篇工作彻底扭转了这个局面。上海交通大学 DENG Lab 联合加州大学圣地亚哥分校（UCSD）推出 Discrete Diffusion Forcing（D2F），首次使开源 dLLMs 的生成速度显著超过同等规模的 AR 模型。实验显示，D2F 模型在 GSM8K 等基准上，实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升，同时相比于原始的 dLLMs 模型实现了最高达 50 倍的加速。

本文作者团队来自上海交通大学 DENG Lab 与加州大学圣地亚哥分校（UCSD）。该研究由硕士生王旭、准硕士生徐晨开、本科生金义杰以及博士生金佳纯共同完成，指导教师为邓志杰与张浩老师。DENG Lab 隶属上海交通大学，致力于高效、跨模态生成模型的研究。

论文地址：https://arxiv.org/abs/2508.09192

代码地址：https://github.com/zhijie-group/Discrete-Diffusion-Forcing

项目主页：https://zhijie-group.github.io/Discrete-Diffusion-Forcing/

模型仓库：https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_Base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_Lora

Demo 地址：https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B

图 1：D2F dLLMs 实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升

简单来说，D2F 赋予了 dLLMs 几种关键特性：

1. 自回归 - 扩散混合架构：引入块级自回归生成，块间保持因果性，让模型能够有效利用 KV 缓存。

2. 块内 + 块间双尺度并行：引入了块内 token 间并行解码和块间并行解码，最大化并行生成潜力

3. 双状态解码：通过设计双状态的块解码流水线，最大化吞吐量。

4. 更优的 tradeoff：相比原始 dLLMs，具有显著更优的性能 - 效率权衡

5. vLLM 集成：已将 vLLM 集成到 D2F 中，让推理速度更进一步

问题的根源：dLLMs 理论优势与现实瓶颈

扩散大语言模型（dLLMs）理论上具有并行生成 token 的能力，不必像 AR 模型一样逐个生成，从而在推理效率上具备巨大潜力。然而，在实践中，现有的开源 dLLMs 并未充分展现这一优势，其推理速度往往落后于 AR 模型，这个瓶颈主要源于两个基础性问题：

KV Cache 的不兼容性：标准 dLLM 依赖双向注意力机制来获取全局上下文，导致 AR 模型中常见的 KV 缓存加速技术无法直接应用于 dLLMs。在每次去噪迭代中，模型都需要重新计算所有 token 的 K、V 矩阵，造成了巨大的计算冗余。

块间解码的串行限制：为了引入缓存机制，一些工作尝试将生成过程分块（block-wise）。但这些方法通常要求严格的块间顺序，即只有前一个块必须被完全解码后，才能开始处理下一个块。这种严格的依赖使得并行生成仅限于块内而无法应用于块之间，极大地限制了整体的并行潜力。

因此，想要释放 dLLMs 的潜力，就必须同时解决 KV Cache 的兼容性与块间的并行解码问题。

D2F 的核心设计：一种自回归 - 扩散混合范式

面对上述瓶颈，D2F 的核心思想是构建一个融合自回归和扩散思想的混合范式，协同设计高效的模型架构，训练方法以及推理策略。

架构：块级因果注意力，兼容 KV Cache

为了让 dLLMs 能真正兼容 KV 缓存，D2F 将 dLLMs 中标准的双向注意力机制重塑为了块级因果注意力。具体来说：

块内（Intra-block）：保持标准的双向注意力，以充分利用块内的上下文信息。
块间（Inter-block）：使用因果注意力，即任意一个块只能关注其自身及所有在它之前的块。

这种设计在块的层面上建立了自回归的顺序。每个生成完成的块的 KV 状态被缓存并在后续复用，从而根本上解决了 KV Cache 的兼容性问题，大幅减少了冗余计算。

训练：非对称蒸馏与结构化噪声

图 2：D2F dLLMs 基于非对称蒸馏实现训练

为了避免从头训练 dLLMs 的高昂成本。D2F 使用了非对称蒸馏策略，将一个预训练好的 dLLMs 教师模型的能力，高效地蒸馏到 D2F 学生模型上。两者区别在于教师模型使用双向全注意力而学生模型使用块级因果注意力。

为了进一步解锁学生的块间并行能力，D2F 引入了单调递增的结构化噪声调度。具体而言，训练数据前向加噪过程中，序列靠前的块被施加较小的噪声而靠后的块被施加更大的噪声。这种结构化的噪声训练，其目的是为了教会学生模型如何依据部分去噪、尚不清晰的前文来预测后文。

推理：流水线并行解码

图 3：D2F dLLMs 的推理流程示意

在上述训练范式的基础上，D2F 设计了一套创新的并行解码算法：Pipelined Parallel Decoding。

该算法维护一个动态的待解码窗口，其中包括若干 tokens 块。在必要时，新块以半激活的状态进入窗口，并在前缀去噪到一定比例后转为全激活状态。这种动态添加和双状态解码的机制，确保了流水线的高效和质量。

两种状态的区别主要在于解码策略的激进程度：

半激活状态（Semi-activated）：只接受那些预测置信度超过某一阈值 τ_conf 的 token。
全激活状态（Fully-activated）：如果没有 token 超过置信度阈值，也会选择置信度最高的一个 token 进行解码。

，时长00:25

视频 2：D2F dLLMs 推理过程中显式地对多个块进行并行解码

实验结果

速度提升，性能不降

D2F 给原始 dLLM 带来了最高可达 50 倍的加速，同时平均性能不下降。

图 4：D2F-LLaDA 与基线方法的对比

图 5：D2F-Dream 与基线方法的对比

优异的性能 - 效率权衡曲线

D2F 提供了一条远优于现有模型的性能 - 效率权衡曲线。通过调整解码参数，D2F 可以适应各种场景，在性能和速度之间做出灵活的选择。例如，在 MBPP 任务上，通过稍微牺牲性能，吞吐量可达 AR 模型的 4 倍以上。

图 6：D2F dLLMs 实现更优异的优异的性能 - 效率权衡

总结与思考

D2F 的出现为开源 dLLMs 社区注入了新的活力，展现了 dLLMs 推理速度上的巨大潜力。通过开源代码和模型，团队希望能够激励社区投入更多的研究资源，共同推动并行解码技术走向成熟，进入更广泛的实际应用。

此外，D2F 的成功证明了 AR 和 Diffusion 并非是两种完全对立的范式。通过巧妙的混合框架设计，可以融合 AR 模型的缓存优势和 dLLMs 的并行优势，这为大模型推理优化开辟了新的道路。

未来工作：目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待实现，欢迎感兴趣的同学跟我们联系。

#UoMo

UoMo来了，首个无线网络流量预测模型，一个框架搞定三类任务

你有没有想过，未来的移动网络能像 “预知未来” 一样提前感知用户需求？在今年的 ACM KDD 2025 大会上，清华大学电子系团队联合中国移动发布了 UoMo，全球首个面向移动网络的通用流量预测模型。UoMo 能同时胜任短期预测、长期预测，甚至在没有历史数据的情况下生成全新区域的流量分布。它结合了前沿的扩散模型与 Transformer 结构，还能理解城市中的地理信息与人流变化，把网络规划和优化做得更聪明、更精准。

标题：UoMo: A Universal Model of Mobile Traffic Forecasting for Wireless Network Optimization

作者：Haoye Chai（柴浩野）， Shiyuan Zhang（张诗源），Xiaoqian Qi（齐效乾），Baohua Qiu（邱宝华），Yong Li（李勇）

机构：清华大学，中国移动

论文链接：https://dl.acm.org/doi/10.1145/3711896.3737272

数据及代码链接：https://github.com/tsinghua-fib-lab/UoMo

为什么要做 UoMo

在大规模移动网络中，流量预测是实现智能化网络运营与优化的核心能力。它让运营商能够在复杂网络环境中，提前感知流量变化，从而主动执行一系列网规网优操作（如调度资源、部署基站、降低能耗）。然而，现有方法往往针对单一任务，缺乏跨区域、跨任务的统一预测能力，难以支撑智能化网络在多样化场景下的长期稳定运行：

泛化能力不足

不同城市在人口分布、城市布局和地理环境上差异极大，导致流量模式也随之变化，现有专用模型难以捕捉多样化时空特征，更难迁移到新场景。

任务适应性受限

短期 / 长期预测对数据特征的关注点不同，传统做法往往为每个任务单独设计模型，导致部署复杂、维护成本高。

UoMo 目标：在统一框架下同时支持短期预测、长期预测、生成三类任务。

移动网络流量预测任务是什么

论文把移动网络的流量预测归纳为三类

短期预测：用较长历史
预测近未来
，强调短时波动，典型的网规网优任务包括资源分配、用户接入控制等。
长期预测：用较短历史
预测较长未来
，强调周期与规律，典型的网规网优任务包括基站休眠节能、网络容量扩展等。
生成（无历史）：仅用区域环境特征直接生成
，用于新区域的潜在需求评估，典型网规网优任务包含频段规划、小区选址等。

UoMo 的统一架构

数据词元化→ 模型预训练 → 模型微调

(一) 数据词元化：异构时空流量变成统一 “token”

将城市区域

、时间

的张量

切分基础单元

获得 token 序列

，并通过嵌入层

转换为低维表征，以此将不同时空粒度（小区 / 栅格，1 小时 / 15 分钟）投影到相同低维空间。

(二) 基于扩散模型预训练

UoMo 骨干网络结合扩散模型 + Transformer，采用扩散模型建模大规模移动数据的复杂时空分布，采用 Transformer 学习流量数据序列相关性。同时，UoMo 采用掩码 - 复原的自监督训练范式，定义如下四种掩码策略：

短期掩码：遮掩未来短时间内，对应短期预测任务；
长期掩码：遮住更长时间段，对应长期预测任务；
生成掩码：将目标时空区域全部数据进行遮掩，用周围区域 + 环境上下文完成生成任务；
随机掩码：随机遮掩时空点，帮助模型学习数据普适时空规律。

训练目标：定义前向过程加噪后数据表示为e，可观测部分数据为o，掩码策略为m，可以表示如下：

去噪网络用于还原原始添加噪声，最小化掩码部分的 MSE 损失：

(三) 城市环境微调：把人和城市注入模型

城市环境两大来源：（1）移动网络用户数：与网络流量格式相同的时空序列，表征不同时空地点人类移动规律；（2）POI 分布：表示某一时空区域的 POI 数量，通过与时间戳进行组合映射，能够获得具备时间属性的 POI 分布。
基于对比学习的环境对齐：相同时空区域内的流量与环境信息作为正样本，文章中通过理论分析，指出扩散模型中训练目标实际上等价于对比学习中优化 InfoNCE 目标，可以表示：

实验与结论

作者从真实世界 9 座规模不同的城市中采集下行移动流量数据，时间粒度为 15 分钟至 1 小时。在每个数据集中，城市环境环境数据通过公开地图服务抓取各城市的 POI 信息，覆盖居住、娱乐等 15 个相关类别。

实验结果表明，无论是短期预测、长期预测、生成任务，UoMo 相比于现有 baseline 算法，均体现卓越的预测能力，充分说明 UoMo “一模多用” 的能力，具备良好的通用性。

本文还对数据预测效果进行了可视化展示，充分说明 UoMo 所预测数据不仅仅是 “数值指标最优”，能够很好地还原真实流量数据的波动模式，这也为移动网络规划与优化提供重要实用基础。

对于 UoMo 零样本 / 小样本的学习能力， UoMo 相比于其他算法同样能够展示强大的泛化迁移能力，尤其是在小样本数据（如 5%/10% 数据）训练之后，能够进一步拉近与真实的误差。

部署与应用

基于 UoMo 预测的移动网络流量，文章测试了三类典型的应用场景（基站选址规划、无线资源分配、基站休眠控制），验证移动流量预测能力以及对网规网优的能力支撑。部署过程遵循三步闭环范式：

UoMo 流量预测：基于城市多源数据（历史流量、用户数、POI 等），UoMo 执行相应流量预测任务（长期 / 短期 / 生成），产生可用于后续优化的预测流量。
基于生成数据的优化策略求解：在获得预测流量后，将其输入到网络优化求解器中（站点选址、容量规划、节能优化、QoS 优化等），获得网规网优策略。
基于真实数据的策略验证与评估：应用平台按照真实网络数据验证网规网优策略，从覆盖、吞吐、时延等指标对优化策略进行量化评估，当最终系统性能越高，则说明基于 UoMo 预测流量所制定的规划优化策略效果越好。

总结

UoMo 是一种结合扩散模型的移动流量预测通用模型，该模型能够同时支持多种预测任务（短期 / 长期预测与生成）。通过建模移动流量在时间、空间、城市环境之间的联合分布，UoMo 在多城市的预测任务中具备优越的性能表现，并且具备较好的零样本 / 小样本学习能力，体现出卓越的通用性与泛化能力。

#NextStep-1

一次在图像生成上自回归范式的探索

自回归模型，是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界，从经典的离散序列生成，到结合强大扩散模型的混合范式，每一步都凝聚了社区的智慧。

这些工作，比如 MAR、Fluid、LatentLM 等，为我们带来了巨大的启发，也让我们看到了进一步优化的空间：比如，如何避免离散化带来的信息损失？如何让模型的架构更轻盈、更强大？

带着这些问题，阶跃星辰团队进行了新的尝试，并分享了阶段性成果：NextStep-1。

阶跃星辰的初衷是探索一条新的自回归图像生成的路径。NextStep-1 的核心思想是直接在连续的视觉空间中，以自回归方式进行生成。

为实现这一点，团队采用了一个轻量的「流匹配头」（Flow Matching Head）。它让模型能够：

学会在连续的视觉空间中直接生成单个图像 Patch，从根本上绕开了作为信息瓶颈的离散化步骤。
模型以自回归的方式，逐一生成所有 patches，最终完成一幅完整的图像。

这一设计带来了另一个显著优势：架构的简洁与纯粹。由于不再需要外部大型扩散模型的「辅助」，NextStep-1 的整体架构变得高度统一，实现了真正意义上的端到端训练。

阶跃星辰团队认为，NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下，构建一个简洁、高效的自回归模型是完全可行的。

这只是探索的第一步。阶跃星辰选择将 NextStep-1 开源，衷心期待它能引发更多有价值的讨论，并希望能与社区的研究者一起，继续推动生成技术的演进。

论文链接：https://arxiv.org/abs/2508.10711
GitHub 链接：https://github.com/stepfun-ai/NextStep-1
Hugging Face 模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

动因探究：背后的技术支撑

整体架构

NextStep-1 的架构如图 1 所示，其核心是一个强大的 Transformer 骨干网络（14B 参数），辅以一个轻量级的流匹配头（Flow Matching Head，157M 参数），用于直接生成连续的图像 Patch。

图 1 NextStep-1 的架构图

这一结构极其简洁、纯粹，它带来了两大解放：

解放了对离散化的依赖：不再需要图像 Tokenizer 进行离散化，直接在连续空间操作。
解放了对外部扩散模型的依赖：不再需要外接大型扩散模型作为「解码器」，实现了端到端的自回归训练。

核心发现

在探索 NextStep-1 的过程中，阶跃星辰团队获得了两个关键发现，它们不仅解释了模型为何高效，也为未来的研究提供了新的思路。

发现一：真正的「艺术家」是 Transformer

在阶跃星辰的框架中，Transformer 是「主创」，流匹配头更像是「画笔」。团队通过实验发现，流匹配头的尺寸大小（ 157M -> 528M），对最终图像质量影响很小。这有力地证明了，核心的生成建模与逻辑推理等「重活」，完全由 Transformer 承担。流匹配头则作为一个高效轻量的采样器，忠实地将 Transformer 的潜在预测「翻译」成图像 Patch。

发现二：Tokenizer 的「炼金术」—— 稳定与质量的关键

在连续视觉 Token 上的操作带来了独特的稳定性挑战，团队发现两个关键「炼金术」：

通道归一化（Channel-Wise Normalization）是稳定性的「压舱石」：通过引入简单的通道归一化，极其有效地稳定了 Token 的统计特性，即使在高 CFG 指导强度下，也能确保生成清晰、无伪影的图像。
「更多噪声」竟能带来「更好质量」：一个反直觉的发现是，训练 Tokenizer 时加入更多噪声正则化，反而能显著提升最终生成图像的质量。阶跃星辰团队推断，这有助于塑造一个更鲁棒、分布更均匀的潜在空间，为自回归主模型提供更理想的工作平台。

眼见为实：高保真的视觉生成和编辑能力

NextStep-1 实现了高保真的文生图的生成，同时具有强大的图像编辑能力，覆盖多种编辑操作（如物体增删、背景修改、动作修改、风格迁移等），并能理解用户的日常语言指令，实现形式自由的图像编辑。

图 2 展示 NextStep-1 全面的图像生成和编辑能力

硬核实力：权威 Benchmark 下的表现

除了直观的视觉效果，阶跃星辰团队也在多个行业公认的 Benchmark 上对 NextStep-1 进行了严格的评估。结果表明，

综合性能在自回归模型中达到了新的 SOTA（State-of-the-Art）水平
在多个 benchmark 上已能与顶尖的扩散模型（Diffusion Models）直接竞争

表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能

表 2 NextStep-1 在 OneIG 上的性能

表 3 NextStep-1 在 WISE 上的性能

表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性与未来展望

NextStep-1 是阶跃星辰团队对构建简洁的高保真生成模型的一次真诚探索。它证明了，在不牺牲连续性的前提下，构建一个纯粹的端到端自回归模型是完全可行的。阶跃星辰相信，这条「简洁」的道路，为多模态生成领域提供了有价值的新视角。

阶跃星辰团队深知这只是探索的开始，前路依然广阔。作为一个对新范式的初步探索，NextStep-1 在展现出巨大潜力的同时，也让团队识别出了一些亟待解决的挑战。我们在此坦诚地列出这些观察，并视其为未来工作的重要方向。

生成过程中不稳定

NextStep-1 成功证明了自回归模型可以在高维连续潜在空间中运行，并达到媲美扩散模型的生成质量，但这条路径也带来了独特的稳定性挑战。观察到，当模型的潜在空间从低维（如 4 通道）扩展到更高维（如 16 通道）时，尽管后者能表达更丰富的细节，但也偶发性地出现了一些生成「翻车」的情况（如图 3 所示）。

图 3 失败的例子，展示图像生成过程中一些暴露出的问题

虽然其根本原因仍有待进一步探究，但团队推测可能存在以下因素：

局部噪声 / 块状伪影：可能源于生成后期出现的数值不稳定性。
全局噪声：可能反映了模型尚未完全收敛，需要更多的训练来优化。
网格状伪影：可能揭示了当前一维位置编码在精确捕捉二维空间关系上的局限性。

顺序解码带来的推理延迟

自回归模型的顺序解码特性，是其推理速度的主要瓶颈。研究团队对单个 Token 在 H100 GPU 上的延迟进行了理论分析（如表 5 所示），结果表明：

主要瓶颈在于大模型（LLM）骨干网络的顺序解码
流匹配头（Flow Matching Head）的多步采样过程也构成了不可忽视的开销

表 5 H100 上生成每个 token 的理论延迟速度 ( batch size 为 1 )

这一观察指明了两个明确的加速方向：

优化流匹配头：通过减小其参数量、应用模型蒸馏以实现少步生成，或采用更先进的少步采样器。
加速自回归主干：借鉴大语言模型领域的最新进展，如将多 Token 预测等技术，适配到图像 Token 的生成中。

高分辨率生成的挑战

在扩展到高分辨率图像生成方面，与技术生态已相当成熟的扩散模型相比，阶跃星辰团队的框架面临两大挑战：

收敛效率：自回归模型的严格顺序生成特性，在更高分辨率下需要更多的训练步数才能收敛。相比之下，扩散模型在每次迭代中并行地优化整张图像，能更直接地利用二维空间归纳偏置。
技术迁移难度：为高分辨率扩散模型开发的先进技术（如 timestep shift）难以直接迁移。其根本原因在于，流匹配头主要扮演一个轻量级采样器的角色，而核心的生成建模由 Transformer 骨干网络完成，因此单纯修改采样过程对最终输出的影响有限。

因此，基于 patch-wise 的图像自回归模型的高分辨率生成是一个重要探索方向。

监督微调（SFT）的独特挑战

团队观察到，当使用小规模、高质量的数据集进行微调时，训练动态会变得极不稳定。

扩散模型通常仅需数千个样本，就能稳定地适应目标数据分布，同时保持良好的泛化生成能力。相比之下，阶跃星辰的 SFT 过程：

依赖大规模数据：只有在百万样本规模的数据集上训练时，才能观察到显著且稳定的提升。
在小数据集上表现脆弱：当使用小规模数据集时，模型会陷入一种「岌岌可危」的平衡状态。它要么收效甚微，几乎没有变化；要么突然「崩溃」，完全过拟合到目标数据分布上，丧失了原有的泛化能力。

因此，如何在一个小规模数据集上，找到一个既能对齐目标风格、又能保留通用生成能力的「甜蜜点」（sweet spot）检查点，对阶跃星辰团队而言仍然是一个重大的挑战。

#一句话，性能暴涨49%！

马里兰MIT等力作：Prompt才是大模型终极武器

提示词才是AI隐藏的王牌！马里兰MIT等顶尖机构研究证明，一半提示词，是让AI性能飙升49%的关键。

AI性能的提升，一半靠模型，一半靠提示词。

最近，来自马里兰大学、MIT、斯坦福等机构联手验证，模型升级带来的性能提升仅占50%，而另外一半的提升，在于用户提示词的优化。

他们将其称之为「提示词适应」（prompt adaptation）。

论文地址：https://arxiv.org/pdf/2407.14333v5

为此，他们让DALL-E 2和DALL-E 3来了一场PK，1,893名「选手」在10次尝试中，用随机分配三种模型之一复现目标图像。

令人惊讶的是，DALL-E 3图像相似度显著优于DALL-E 2。

其中，模型升级本身仅贡献了51%的性能，剩余的49%全靠受试者优化的提示词。

关键是，那些没有技术背景的人，也能通过提示词，让DALL-E 3模型生成更好的图片。

OpenAI总裁Greg Brockman也同样认为，「要充分发挥模型的潜力，确实需要一些特殊的技巧」。

他建议开发者们去做「Prompt库」管理，不断探索模型的边界。

换言之，你的提示词水平，决定了AI能不能从「青铜」变成「王者」。

别等GPT-6了！

不如「调教」提示词

GenAI的有效性不仅取决于技术本身，更取决于能否设计出高质量的输入指令。

2023年，ChatGPT爆红之后，全世界曾掀起一股「提示词工程」的热潮。

尽管全新的「上下文工程」成为今年的热点，但「提示词工程」至今依旧炙手可热。

然而共识之下，提示词设计作为一种动态实践仍缺乏深入研究。

多数提示词库和教程，将有效提示视为「可复用成品」，但却用到新模板中可能会失效。

这就带来了一些现实的问题：提示策略能否跨模型版本迁移？还是必须持续调整以适应模型行为变化？

为此，研究团队提出了「提示词适应」这一可测量的行为机制，用以解释用户输入如何随技术进步而演进。

他们将其概念化为一种「动态互补能力」，并认为这种能力对充分释放大模型的经济价值至关重要。

为评估提示词适应对模型性能的影响，团队采用了Prolific平台一项预注册在线实验数据，共邀请了1,893名参与者。

每位受试者被随机分配三种不同性能的模型：DALL-E 2、DALL-E 3，或自动提示优化的DALL-E 3。

除模型分配外，每位参与者还独立分配到15张目标图像中的一张。这些图像选自商业营销、平面设计和建筑摄影三大类别。

实验明确告知参与者模型无记忆功能——每个新提示词均独立处理，不继承先前尝试的信息。

每人需要提交至少10条提示词，需通过模型尽可能复现目标图像，最优表现者将获得高额奖金。

任务结束后参与者需填写涵盖年龄、性别、教育程度、职业及创意写作/编程/生成式AI自评能力的人口统计调查。

随机分配，10次生成

实验的核心结果指标，是参与者生成的每张图像与指定目标图像之间的相似度。

这项指标通过CLIP嵌入向量的余弦相似度进行量化。

由于生成模型的输出具有随机性，同一提示词在不同尝试中可能产生不同的图像。

为控制这种变异性，研究人员为每个提示词生成10张图像，并分别计算它们与目标图像的余弦相似度，随后取这10个相似度得分的平均值作为该提示词的预期质量分数。

回放分析：是模型，还是提示词？

实验的另一个核心目标在于，厘清图像复现性能的提升中，有多少源于更强大的模型，又有多少来自提示词的优化？

根据概念框架的表述，当模型从能力水平θ1升级至更高水平θ2时，其输出质量的总改进可表示为：

研究人员将这一变化分解为两部分：

1. 模型效应：将相同提示词应用于更优模型时，获得的性能提升；

2. 提示词效应：通过调整提示词以充分发挥更强大模型优势所带来的额外改进。

为实证评估这两个组成部分，研究人员对DALL-E 2和DALL-E 3（原词版）实验组参与者的提示词进行了额外分析。

具体方法是将实验过程中参与者提交的原始提示词，重新提交至其原分配模型和另一模型，并分别生成新图像。

· 分离模型效应

针对DALL-E 2参与者编写的提示词（x*(θ1,s)），团队同时在DALL-E 2和DALL-E 3模型上进行评估，分别获得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的实测值。

这一对比可分离出模型效应：即在固定提示词情况下，仅通过升级模型获得的输出质量提升。

· 比较提示效应

为了评估提示词效应，作者还比较了以下两组数据：

1. 在DALL-E 3上回放DALL-E 2提示词的质量（即Q[θ2,s,x*(θ1,s)]估计值）

2. DALL-E 3的参与者专门为模型编写的提示词在相同模型上的质量（即Q[θ2,s,x*(θ2,s)]估计值）

这一差异恰恰能反映，用户通过调整提示词，模型本身得到的额外改进。

那么，这项实验的具体结果如何？

DALL-E 3强大的生图能力

提示词解锁了一半

实验中，研究团队主要探讨了三大问题：

(i) 接入更强大的模型（DALL-E 3）是否能提升用户表现；

(ii) 用户在使用更强模型时如何改写或优化他们的提示词；

(iii) 整体性能提升中有多少应归因于模型改进，多少应归因于提示词的适应性调整。

模型升级，是核心

首先，团队验证了使用DALL-E 3的参与者，是否比使用DALL-E 2的参与者表现更优？

如下图1所示，汇总了所有发现。

A展示了三组代表性目标图像，每组都包含了从两种模型中抽取的三张图像。

中间行是，目标图像余弦相似度最接近全体参与者平均值的生成结果，上行（下行）则呈现比均值相似度高（低）约一个平均处理效应（ATE）的图像。

在10次必要提示尝试中，使用DALL-E 3的参与者生成图像与目标图像的余弦相似度平均高出0.0164。

这个提升相当于0.19个标准差，如下图1 B所示。

而且，这种优势在10次尝试中持续存在，因此不可否认，模型升级一定会比前代有着显著的性能提升。

而且，参与者的动态提示行为在两种模型间也存在显著差异：

图C表明，DALL-E 3使用者的提示文本平均比DALL-E 2组长24%，且该差距随尝试次数逐渐扩大。

他们更倾向于复用或优化先前提示，这表明当发现模型能处理复杂指令后，他们会采取更具开发性的策略。

此外词性分析证实，增加的词汇量提供的是实质性描述信息而非冗余内容：

名词和形容词（最具描述性的两类词性）占比在两种模型间基本一致（DALL-E 3组48% vs DALL-E 2组49%，p = 0.215）。

这说明了，提示文本的延长反映的是——语义信息的丰富化，而非无意义的冗长。

模型51%，提示词49%

研究人员观察到提示行为的差异表明，用户会主动适应所分配模型的能力。

DALL-E 3使用者的整体性能提升中，有多少源自模型技术能力的增强，又有多少归因于用户针对该能力重写提示？

为解答这一问题，研究人员采用前文所述的回放（replay）分析法，以实证分离这两种效应。

模型效应

将DALL-E 2参与者编写的原始提示，分别在DALL-E 2和DALL-E 3上评估性能。

结果显示，相同提示在DALL-E 3上运行时余弦相似度提升0.0084（p<10^-8），占两组总性能差异的51%。

提示效应

将DALL-E 2参与者的原始提示与DALL-E 3参与者编写的提示（均在DALL-E 3上评估）进行对比。

结果显示，该效应贡献了剩余48%的改进，对应余弦相似度提升0.0079（p=0.024）。

总处理效应

总处理效应为0.0164，关键的是，当DALL-E 3用户编写的提示应用于DALL-E 2时，性能较原始DALL-E 2提示无显著提升（Δ=0.0020；p=0.56）。

这种不对称性，印证了提示优化的效果依赖于模型执行复杂指令的能力边界。

图2 B通过单一目标图像直观呈现这些效应：

上行展示DALL-E 2参与者的原始提示，在DALL-E 3上生成更高保真度的图像，证明固定提示下模型升级的效果；
下行显示DALL-E 3参与者的提示在DALL-E 2上输出质量显著下降，凸显当模型能力不足时，提示优化的效果存在天花板。

这些发现研究人员的理论主张，提供了实证支持：

提示优化是一种动态互补策略——用户根据模型能力提升而主动调整行为，且这种调整对实际性能增益的贡献不可忽视。

技能异质性

如下表1呈现了「回归分析结果」，测试了模型效应、提示词效应以及总效应是否会在不同技能水平的参与者之间系统性地变化。

主要发现如下：

1. 总效应与表现十分位数的交互项呈负相关且统计显著（−0.000115，p = 0.0152）。

这表明模型改进缩小了高、低绩效用户之间的整体差距，这与概念框架中的命题1一致。

2. 模型效应与表现十分位数的交互项，同样呈负相关且统计显著（−0.000059，p=0.0210）。

这说明模型升级主要惠及低技能用户。这与命题2的理论预测相符，因为接近性能上限的高技能用户存在收益递减效应。

3. 并没有发现提示词适应的效益，在技能分布上存在显著差异（−0.000056，p=0.2444）。

此外，研究团队还评估了自动化提示词的效果。

结果发现，GPT-4经常添加无关细节或微妙改变参与者的原意，导致模型输出质量下降58%。

用简单的话来说，AI写的提示词曲解了意图，不如用户精心编制的提示词。

对此，Outbox.ai的创始人Connor Davis给出了建议，不要去过度自动化提示词，人还应该在其中发挥主动性。

作者介绍

Eaman Jahani

Eaman Jahani是马里兰大学商学院信息系统专业的助理教授。

他曾在UC伯克利统计系担任博士后研究员，还获得了MIT的社会工程系统与统计学双博士学位。

Benjamin S. Manning

Benjamin S. Manning目前是MIT斯隆管理学院IT组的四年级博士生。他曾获得MIT硕士学位和华盛顿大学学士学位。

他的研究围绕两个相辅相成的方向：(1) 利用AI系统进行社会科学发现；(2) 探索AI系统如何代表人类并按照人类指令行事。

Joe Zhang

Joe Zhang目前是斯坦福大学博士生，此前，曾获得了普林斯顿大学的学士学位。

个人的研究喜欢从人机交互到社会科学等多个学术领域汲取灵感，试图理解新兴的人机协作系统及其对商业和社会的影响。

参考资料：

https://arxiv.org/abs/2407.14333v5

https://x.com/connordavis_ai/status/1957057335152836737

#4DNeX

#Discrete-Diffusion-Forcing

#UoMo

#NextStep-1

#一句话，性能暴涨49%！

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

相关文章

深入剖析以太坊虚拟机（EVM）：区块链世界的计算引擎

深入分析 Linux PCI Express 子系统

MySQL 运算符详解：逻辑、位运算与正则表达式应用

＜数据集＞遥感飞机识别数据集＜目标检测＞

Windows从零到一安装KingbaseES数据库及使用ksql工具连接全指南

Git+Jenkins 基本使用

Linux第十三讲：线程同步和互斥

SAP 简单的AMDP demo 练习使用

Maven JAR Plugin 插件使用说明

QT+Yolov8 推理部署，ONNX模型，实例分割+目标检测

【java实现一个接口多个实现类通用策略模式】

leetcode-139. 单词拆分-C

《彩色终端》诗解——ANSI 艺术解码(DeepSeek)

抓包工具tcpdump详细指南

三高架构杂谈

后端通用基础代码

基于51单片机WIFI心率计脉搏体温测量仪APP设计

从零到一构建企业级GraphRAG系统：GraphRag.Net深度技术解析

前端Element-plus的选择器 el-select 清空内容时，后端对应的更新方式，支持更新为null

【笔记】和各大AI大语言模型合作写项目—slirp.go