本文介绍帝国理工学院等机构在 ICML 2025 发表的最新研究成果。该研究并未提出新模型,而是对现有时间序列 Transformer 模型进行了一次深刻的拷问——为何结构更简单的 Transformer( PatchTST, iTransformer)在各大基准测试中,反而能优于设计更复杂的模型?

研究发现,当前主流基准数据集的性能主要由单变量内部的依赖关系主导,而跨变量间的影响较小。因此,模型的成功更多地得归功于Z-score 归一化和Skip connections等组件,它们极大地增强了模型捕捉单变量趋势的能力。本文通过引入互信息分析和可控的合成数据集,系统性地揭示了现有 Transformer 模型的真实能力和局限性,为未来设计更适用于真实、复杂场景的模型提供了重要见解。

另外,我整理了ICML 2025时间序列相关论文合集,感兴趣的dd我~

论文这里~
在这里插入图片描述

【论文标题】A Closer Look at Transformers for Time Series Forecasting: Understanding Why They Work and Where They Struggle

【论文链接】https://papers.cool/venue/kHEVCfES4Q@OpenReview

研究背景

Transformer 在时间序列预测领域取得了巨大成功。研究者们提出了多种 Token 化策略,Point-wise、Patch-wise和Variate-wise,以捕捉不同维度的数据依赖。虽然模型架构日益复杂,但是一些设计相对简单的模型,如仅关注单变量内部模式的 PatchTST 和专注于跨变量关系的 iTransformer,却在性能测试中稳定名列前茅。
这种现象引出了一系列关键问题:
为什么以时间点为单位进行建模的 Point-wise Transformer 效果普遍较差?
为什么关注单变量的 Intra-variate attention 和关注多变量的 Inter-variate attention 会取得相似的性能?
那些成功的简单 Transformer 模型,获得其卓越性能的真正原因是什么?
针对这些问题,此论文摒弃了提出新模型的思路,转而设计了一套系统的分析框架,目的是深入理解现有模型的工作机制和真正的优势所在。

核心贡献

本研究贡献可总结如下:

  • 通过实验证明,在大多数标准基准上,模型的预测性能主要由捕捉单变量内部依赖的能力决定,而跨变量依赖的影响则小得多。这解释了为何不同注意力机制的模型能取得相似结果。
  • 设计了一套基于Mutual Information的评估指标,用于量化模型对不同维度依赖的捕捉能力。同时,创建了可控的合成数据集,能够系统性地评估模型在不同依赖结构下的表现。
  • 得出了时序模型的核心组件:研究发现,Z-score 实例归一化和编码器中的跳跃连接是推动模型成功的关键技术组件,而非复杂的注意力设计本身。
  • 在真实的医疗健康数据集上验证了研究发现,指出基准数据集的自依赖和平稳特性是影响模型评估结果的重要因素,并为设计面向更复杂应用的 Transformer 提供了实践指导。
    在这里插入图片描述

方法解析

本文的核心并非一个新模型,而是一套创新的分析框架。该框架旨在客观、定量地评估不同 TransformerTransformerTransformer 模型捕捉时间序列依赖关系的能力。
在这里插入图片描述

111. 互信息评估指标

为了衡量模型预测对输入各变量的依赖程度,作者提出了一种互信息分数 σij\sigma_{ij}σij。它通过计算在固定其他变量时,输入变量 iii 的变化对输出变量 jjj 预测值方差的影响来估计。

  • Intra−MIIntra-MIIntraMI ScoreScoreScore (σii\sigma_{ii}σii): 当 i=ji=ji=j 时,表示模型捕捉单变量自身依赖的能力。
  • Inter−MIInter-MIInterMI ScoreScoreScore (σij\sigma_{ij}σij, i≠ji \neq ji=j): 当 i≠ji \neq ji=j 时,表示模型捕捉跨变量依赖的能力。

这些指标与模型无关,可以公平地比较不同架构的 TransformerTransformerTransformer

222. 可控合成数据集

为了摆脱基准数据集固有特性的限制,作者设计了可以精确控制依赖结构的合成数据集。如图 222 所示,数据集生成过程包含两个关键参数:

  • 自相关强度 γ\gammaγ: 控制单个变量时间序列的平滑度和历史依赖性。
  • 跨变量依赖强度 α\alphaα: 控制变量之间相互影响的程度。

通过调整这两个参数,可以模拟从完全独立到强耦合的各种多变量时间序列场景,从而系统性地测试模型的“长板”和“短板”。
在这里插入图片描述

333. 模型消融实验

作者对 iTransformer 等模型进行了深入的消融研究,例如:

  • 移除编码器中的跳跃连接(w/ow/ow/o SCSCSC)。
  • 将与变量无关的解码器替换为与变量相关的解码器(VD−DeVD-DeVDDe)。
  • 测试 Z−scoreZ-scoreZscore 归一化的有无。

实验验证

在这里插入图片描述

在 ETTh1、Traffic等多个基准数据集上:

  • Point-wise模型,Transformer, Autoformer的Intra-MI分数最低,其预测误差也最高。这表明它们难以有效捕捉单变量的时间模式。
  • Patch-wise 和 Variate-wise模型,PatchTST, iTransformer, TimeXer具有非常高的Intra-MI分数和优越的性能。尽管 iTransformer设计用于捕捉跨变量关系,但其 Inter-MI 分数在这些数据集上并不突出,其成功仍然主要依赖于对单变量模式的建模。

这一结果有力地支持了“基准数据集由单变量依赖主导”的结论。

在这里插入图片描述

合成数据集上的实验进一步证实了这一点。当跨变量依赖很弱时,α≤0.4\alpha \le 0.4α0.4,各模型性能相近。但当跨变量依赖性显著增强时,α=0.8\alpha=0.8α=0.8,专门为跨维度交互设计的Crossformer开始展现出明显的优势,而PatchTST和iTransformer则表现不佳。

此外,消融实验表明,移除跳跃连接会导致性能在基准上急剧下降,而在 Z-score归一化上的测试则发现,该技术对平稳的基准数据集至关重要,但可能会损害模型在非平稳数据上的表现。

总结

本文通过一套严谨的分析框架,揭示了当前时间序列 Transformer研究中的一个重要“盲点”:模型的成功在很大程度上被基准数据集的内在特性以及简单而有效的技术组件,Z-score归一化、跳跃连接所驱动,而非表面上宣传的复杂注意力机制。这提醒研究者们需要重新审视模型的评估方式,并开发更多样化、更接近现实世界的基准,以推动领域向解决真正复杂问题迈进。

一言概括之,时序Transformer的成功秘诀,可能不在于花哨的注意力,而在于对单变量趋势的精准捕捉和数据归一化的巧妙运用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91524.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91524.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/91524.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIBOX内置5G天线设计

AIBOX内置5G天线设计AIBOX的天线种类天线种类及数量:运营商5G天线*4,1.4G天线*2、wifi天线*1天线形式:内置PCB天线。天线安装方式:卡扣固定,安装至设备外壳内壁。RG-178同轴线或UFL1.37mm同轴线连接至主板,…

低通滤波器的原理以及作用

低通滤波器(Low-Pass Filter, LPF)是一种允许低频信号通过,同时衰减或阻止高频信号的电子电路或数字信号处理算法。其核心原理和作用如下:一、工作原理 1. 频率选择性- 低通滤波器基于频率对信号进行筛选,其传递函数在…

[AI Coding] 一.腾讯CodeBuddy IDE内测、安装及基本用法(国产AI IDE启航)

在人工智能迅猛发展的今天,AI Coding 正逐步改变传统编程范式。广义上,AI Coding 是指以大语言模型(LLMs)为核心驱动,借助自然语言理解能力,自动生成、补全、调试与解释代码的智能编程方式。它不仅显著降低…

《网安处罚裁量基准》码农合规指北 v1.0——if (违规) { 罚金++ } else { 合规运行 }

尊敬的审核: 本人文章《〈网安处罚裁量基准〉码农合规指北 v1.0——if (违规) { 罚金 } else { 合规运行 }》 1. 纯属技术交流,无任何违法内容 2. 所有法律引用均来自公开条文 3. 请依据《网络安全法》第12条“不得无故删除合法内容”处理 附&#xff1a…

机器学习——逻辑回归(LogisticRegression)实战案例:信用卡欺诈检测数据集

使用逻辑回归识别 信用卡欺诈行为:基于creditcard.csv的实战与评估分析 项目背景 在金融行业中,信用卡欺诈检测是一项关键任务。欺诈交易在整个交易中占比极低,导致数据极度不平衡。本案例通过经典数据集 creditcard.csv,构建逻辑…

Helm在Kubernetes中的应用部署指南与案例解析

在上一章节中,我们已经介绍了Helm的部署和基本使用方法。本章将通过实际案例,详细演示如何使用Helm在Kubernetes集群中部署应用。一、Helm 核心价值解析优势解决的问题类比传统方式应用模板化重复编写 YAML 文件手动编写 20 资源清单文件版本控制缺乏部署…

如何最简单、通俗地理解线性回归算法? 线性回归模型在非线性数据上拟合效果不佳,如何在保持模型简单性的同时改进拟合能力?

线性回归作为统计学与机器学习领域中最基础且最重要的算法之一,其应用广泛且深远。它不仅是回归分析的入门方法,更是后续复杂模型构建的重要理论基础。理解线性回归算法的本质,既有助于提升数据分析的能力,也能为掌握更复杂的机器…

蓝桥杯----超声波

(一)、超声波1、原理(图 一)发送信号阶段:单片机通过翻转发送的引脚P1^0,发送8个40MHZ的方波,此时开始计时。等待接收信号:通过单片机的接收引脚P1^1检测,未接收到信号时…

Java学习-运算符

1.在代码中,如果有小数参与计算,结果有可能不精确。2.整数参与计算,结果只能是整数。3.数字进行运算时,数据类型不一样不能运算,需要转成一样的,才能运算。(1)隐式转换(自…

一句话指令实现“2D转3D”、“图片提取线稿”

你是否曾为一张2D图片无法完美展示3D效果而遗憾?是否曾因需要将手绘草图转为清晰线稿而耗时费力?这些曾让设计师、电商卖家、内容创作者头疼的难题,如今只需一句话指令,即可迎刃而解。一、案例一:2D图片→3D模型痛点场…

层次聚类:无需“猜”K值,如何让数据自己画出“家族图谱”?

层次聚类:无需“猜”K值,如何让数据自己画出“家族图谱”?👋 大家好,我是小瑞瑞!欢迎回到我的专栏! 在上一期,我们学会了强大的K-Means算法,但它也给我们留下了一个“灵魂…

数据结构:链表(Linked List)

目录 结构推导 回到最原始的问题 —— 我们如何存数据? 第二步:我们来看看数组的限制 第三步:那我们该怎么做呢? 第四步:我们推导链表的数据结构 结构讲解 什么是链表? 什么是节点? …

[RK3566-Android11] U盘频繁快速插拔识别问题

问题描述 做老化测试时,在使用U盘频繁快速插拔的情况下,SDCard目录会突然被Kill掉,然后又重新挂载上,这会导致系统及APP的数据因为读写异常,从而界面卡死正常U盘插拔不应该导致内部存储卸载解决方案: SDK根…

【Golang】Go语言Map数据类型

Go语言Map数据类型 文章目录Go语言Map数据类型一、Map1.1.1、map定义1.1.2、map的基本使用1.1.3、判断某个键是否存在1.1.4、map的遍历1.1.5、使用delete()函数删除键值对1.1.6、按照指定顺序遍历map1.1.7、元素为map类型的切片1.1.8、值为切片类型的map一、Map map是一种无序…

Orange的运维学习日记--23.Linux计划任务详解

Orange的运维学习日记–23.Linux计划任务详解 文章目录Orange的运维学习日记--23.Linux计划任务详解一次性计划任务atd 服务at 命令基本语法交互式示例脚本文件示例timespec 格式示例查看与管理任务查看当前队列查看任务详细内容删除任务用户权限控制用户周期性计划任务查看任务…

Ubuntu 24.04.2 LTS 安装mysql8.0.36保姆级教程(从安装到远程连接)

目录 前言 一、系统准备 二、安装 MySQL 8.0.36 1. 查看可用版本 2.如果没有对应版本则需要手动下载mysql-apt-config(有则跳过) 2.1下图是mysql-apt-config各版本对应的mysql版本 2.2下载mysql apt repository 2.3安装 MySQL APT Repository 包 …

【LLM】讲清楚MLA原理

需要你对MHA、MQA、GQA有足够了解,相信本文能帮助你对MLA有新的认识。 本文内容都来自https://www.youtube.com/watch?v0VLAoVGf_74,如果阅读本文出现问题,建议直接去看一遍。 按照Deepseek设定一些参数值:输入token长度n10&…

谷歌采用 Ligero 构建其 ZK 技术栈

1. 引言 前序博客有: Ligero 和 Ligetron 中的 MPC 和 ZKLigetron:Nim Network开发的针对AI的zkVMLigetron:基于MPC-In-The-Head范式的zkVM简介 在隐私保护身份验证领域迈出重要一步,谷歌最近宣布 将零知识证明(ZKP…

Flutter渲染引擎:Impeller和Skia

一、Impeller 渲染引擎的发布时间Impeller 是 Flutter 团队为解决 Skia 引擎在移动端(尤其是 iOS 平台)的性能问题而开发的全新渲染引擎,其发展历程如下:首次公开:2021 年 Google I/O 大会上首次提及,作为 …

网络编程-加密算法

目录 一.网络编程基础 1. 概述 2. IP地址 3. 域名 4. 网络模型 5. 常用协议 6. 小结 二.TCP编程 1. 什么是Socket? 2. 服务器端 3. 客户端 4. Socket流 5. 小结 三.UDP编程 1. 概述 2. 服务器端 3. 客户端 4. 小结 案例: 四.加密算法 …