在Rensselaer理工学院、Stony Brook大学与IBM Research的合作下，本文聚焦于如何在时间序列分类任务中兼顾性能与可解释性。传统深度学习模型虽然准确率高，却常被诟病为“黑盒”，难以赢得如医疗等高风险领域的信任。为此，作者提出了InterpGN框架，通过引入形状子序列（shapelets）构建逻辑谓词模型，并结合深度神经网络，在保证解释力的同时提升复杂样本的识别能力。该方法在多个基准数据集上表现优异，并成功应用于MIMIC-III医疗数据，展现了其在真实世界中的实用价值。

我还整理了 ICLR 2025-2024时间序列相关论文合集。

更多论文姿.料在这-【时序之心】

在这里插入图片描述

【论文标题】Shedding Light on Time Series Classification Using Interpretability Gated Networks

【论文链接】https://openreview.net/forum?id=n34taxF0TC

【代码链接】https://github.com/YunshiWen/InterpretGatedNetwork

2. 摘要

时序分类任务广泛存在于医学、工业、金融等领域，其中既包含 ECG、EEG 等单变量时间序列，也涉及到多通道、多维度的复杂输入。尽管深度模型（如 FCN、Transformer）在该领域取得了优异性能，但其黑盒结构缺乏可解释性，难以满足实际需求。

为此，研究者尝试用 Shapelet（具判别力的局部子序列）等手段建模“可解释规则”。但传统 shapelet 模型在精度和可拓展性方面仍有不足，尤其难以应对复杂样本或捕捉频域特征。

3. 研究背景与相关工作

3.1 研究背景

时间序列分类覆盖 ECG、EEG 等单变量序列，也涵盖多通道、长序列输入，广泛应用于医学、工业与金融。深度模型（FCN、Transformer 等）虽然精度领先，却因黑箱特性缺乏透明度。Shapelet 作为可判别的局部子序列，为结果解释提供了路径，但传统算法在精度与扩展性上仍受限，尤其难应对结构复杂或需捕获频域特征的场景。

3.2 相关工作

3.2.1 黑箱模型：性能优越但难解释

此类模型在多数据集上表现卓越，但均缺乏机制揭示模型判别依据，尤其在医学等高可信度场景下存在应用障碍。

方法	年份	代表	核心思路	分类性能	可解释性	典型局限
FCN	2017	CNN	卷积提取时序局部特征	★★★	☆	仅能捕捉时域特征
ResNet	2017	残差结构	深层特征堆叠提升性能	★★★☆	☆	参数多，黑箱难解释
TST	2021	Transformer	掩码预训练建模全局依赖	★★★☆	☆	长序列计算量大
TS2Vec	2022	对比学习	正负样本表征增强泛化	★★★	☆	表征抽象，难以解释
TimesNet	2023	2D变换建模	通道×时间交叉建模	★★★★	☆	输入维度限制大
PatchTST / SVP-T	2023	Patch切分	片段建模优于逐点建模	★★★★	☆	黑箱操作不可解释

3.2.2 可解释模型：基于 shapelet 与规则建模

可解释模型通过 shapelet 或逻辑规则刻画判别依据，直观性强，但在复杂任务中准确率不敌深度模型。

方法	年份	类型	代表方法	可解释性	性能	局限
Shapelet Transform	2012	手工搜索	信息增益选择子串	★★★	★	搜索慢，扩展性差
LTS	2014	可学习 shapelet	使用梯度优化 shapelet	★★	★★	子串拟合失真
ADSN	2020	对抗改进	保持 shapelet 多样性	★★	★★☆	对长序列显存敏感
ShapeNet	2021	嵌入 + Triplet	子串变长，三元约束嵌入	★★	★★	对难样本分类不稳
NSTSC	2022	逻辑规则	符号谓词 + 时序逻辑	★★★	★★	规则过多易膨胀
RLPAM	2022	强化学习选模式	从 pattern 中选择子序列	★★	★★	收敛难、解释不清
ShapeConv	2024	CNN 核当 shapelet	利用卷积核对齐局部模式	★★	★★	特征对应难解释

3.2.3 混合模型趋势：动态权衡性能与解释性

InterpGN 引入混合专家机制，突破“可解释 vs 性能”的二元对立，在多个公开数据集上实现平衡优解。

4. 主要贡献

提出 InterpGN 框架：
- 本文提出了一个 混合专家网络（InterpGN），结合了解释性模型（Shapelet Bottleneck Model, SBM）和深度神经网络（DNN）模型；
- 该架构在保证模型性能的同时，为易于解释的样本保留了逻辑规则解释，增强模型的透明度。
引入基于置信度的门控函数（Gating Function）：
- 设计了一种基于解释性专家置信度的门控机制，自动决定是使用解释性专家还是深度模型进行预测；
- 使用 Gini 指数对解释模型的置信度进行量化，高置信度时直接输出解释性模型结果，低置信度时引入 DNN 辅助判断。
改进 Shapelet Transform，增强可解释性：
- 发展了一种 基于 RBF 核函数的 Shapelet 变换方式，替代原有的距离阈值方法，提高 shapelet 与真实样本的相似度；
- 有助于构建更具逻辑结构的 predicate，从而提升规则的可读性与直观解释能力。
定义并量化了解释性与 Shapelet 质量指标：
- 提出了衡量模型解释性的稀疏度指标和 Gini 系数；
- 同时引入了“Shapelet 误差”作为衡量 shapelet 代表性的新指标，实现从定性可视化到定量评估的跃升。
在多个基准数据集上取得优异性能：
- 在 UEA 30 个时间序列分类数据集上，InterpGN 获得了最高平均准确率（0.760）与最佳平均排名（3.5）；
- 在医疗真实任务（如 MIMIC-III 的住院死亡预测）中展现了良好的解释性和实用性。
拓展性强，可集成更多架构：
- 实验中还展示了 InterpGN 可结合不同深度模型（如 FCN、Transformer、TimesNet）和不同距离度量（如余弦相似度、皮尔逊相关系数），展现出广泛的适配能力；
- 可应用于分类以外的任务，如：时间序列外推回归等。

5. 研究方法与基本原理

5.1 InterpGN 整体框架

在这里插入图片描述

InterpGN 采用 mixture-of-experts（MoE）思想，将 可解释专家 Shapelet Bottleneck Model（SBM）与 深度专家 DNN（本文采用 FCN）组合，核心流程如下：

形状词瓶颈（Shapelet Bottleneck）
将每条多变量时间序列分解为条单变量序列；对多个长度及组索引学习形状词
。
可解释特征抽取
- 最小距离
- RBF 谓词
专家输出
- SBM 线性分类器
- DNN 产生深度表征。
gating 融合
端到端训练

5.2 可解释专家 SBM

5.2.1 形状词谓词构造

RBF 谓词 优于阈值谓词，兼顾形状保真与梯度可学习性。
多样性正则 在具体实现中，我们将多样性正则（式 (6)）加入到 SBM 的损失函数中，目的在于 鼓励不同 shapelet 捕捉互补的局部模式，从而提升全局解释覆盖面。该正则对任意两条 shapelet 之间的欧氏距离加以指数惩罚：距离越近、相似度越高，惩罚越大。实践表明，当时，可在“模型精度”与“解释多样性”之间取得良好平衡。

在这里插入图片描述

figure 3 ：基于 RBF 谓词（左）与 阈值谓词（右）所学习到的前三个关键 shapelet 进行可视化比较。灰色曲线为原始时间序列，彩色粗线段表示被识别出的 shapelet 片段：
RBF 谓词 ：更倾向于捕捉渐变或 平缓过渡 的局部形状，并在梯度传播时保持平滑可学习；
阈值谓词 ：则常被限制在“命中/未命中”的硬阈值上，导致学习到的形状词离散且对小幅扰动不敏感。
综合来看，RBF 方案在可解释性（形状连贯）与下游分类精度两方面均表现更优，因此被选为 InterpGN 的默认谓词实现。

5.2.2 分类器与解释生成

线性分类器形式

为了保持可解释性，SBM 在 shapelet 谓词空间采用一层 稀疏线性分类器：

—— 第个通道、长度、索引的 RBF 谓词（式 2）；
—— 该谓词对类别的线性权重；
—— 样本在类别上的 logit（尚未经过 soft-max）。

全局规则（Global Explanation）

对于任一类别，权重的符号直接给出一条布尔式规则：

符号	语义	解释
	支持形状词	「若检测到此 shapelet ⇒ 更倾向类别」
	反对形状词	「若检测到此 shapelet ⇒ 排除类别」

举例：在 Figure 4-(g) 中，“CW Circle” 动作需要出现蓝色 shapelet 且避免红色 shapelet（两条规则分别来自正、负权重），这就构成了一个人类可读的类别判定条件。在这里插入图片描述

局部解释（Local Explanation）

给定单条样本和其预测类别，我们评估 每个 shapelet 对该预测的具体贡献：

排序：按从大到小选取前个 shapelet
映射：记录每个 shapelet 对应的 匹配位置 （即式 2 中的）
可视化：将对应片段用彩色线段覆盖在原始时序上
标注：
- 蓝色 → 正贡献（支持预测）
- 红色 → 负贡献（反对预测，但被 gating 机制或其他 shapelet “压制”）

算法伪代码

# 输入：样本 x_i, 预测类别 c_hat
contrib = {}
for (m, l, k):contrib[(m,l,k)] = W[c_hat, m, l, k] * P[i, m, l, k]# 选取最显著的 K_top 个 shapelet
top_K = sorted(contrib, key=lambda s: abs(contrib[s]), reverse=True)[:K_top]# 依次叠加到可视化图
for (m, l, k) in top_K:t_star = argmax_similarity(x_i[m], S[m,l,k])draw_segment(channel=m, start=t_star, length=l,color='blue' if contrib[(m,l,k)]>0 else 'red')

在这里插入图片描述

每列子图对应 UGL 数据集中一种手势（Angle、Square …）。
灰色曲线：原始加速度信号；
彩色曲线：线性分类器挑选出的 Top-3 shapelet（蓝 = 正支持，红 = 负支持）；
通过观察彩色片段在不同手势中的位置与形状差异，可迅速把握模型“人类化”决策依据。

5.3 Gating 函数机制

在这里插入图片描述

(a) 原始输入； (b) SBM 谓词向量； (c) 加入置信度后的分布。彩色点表示不同类别，边界区域样本往往较低，需要 DNN 协助判断。

5.3.1 置信度量化

为了在 可解释性 与 预测精度 之间动态取舍，InterpGN 为每条样本定义基于 SBM soft-max 输出的 归一化 Gini 指数：

→ SBM 高置信：仅用可解释专家即可；
→ SBM 低置信：需引入 DNN 提升判别力。

推导简述

若为 one-hot，，则；
若完全均匀，，则。

因此本质上衡量 类别分布的尖锐度，亦可视为 Soft-max 置信度的无偏归一化版本。

5.3.2 推理阶段策略

设阈值（经验默认 0.5）：

若
直接输出

保持 100 % 可解释。

若
采用专家融合

以 DNN 的抽象特征 补充歧义样本。

实务建议

门槛调优：在验证集上网格搜索，即可得到不同任务的最佳“解释-精度”平衡点。
边界判别：如 Figure 5-(c) 所示，边界样本（低）聚集在决策面附近，凸显 gating 的有效性。

5.4 训练目标与优化策略

InterpGN 的总损失由 SBM 损失 与 整体交叉熵 两部分组成：

其中

****：先置 1（仅训练 SBM），第 E 轮后余弦退火至 0.3；
**、**：在验证集网格搜索；
优化器 Adam，初始学习率 1e-3，每 50 epoch ×0.1 衰减；
早停：验证集 20 epoch 无提升。

6. 实验设计与结果

本章旨在回答两类核心问题：

性能——InterpGN 在多样化数据集上的预测准确度是否优于现有方法？
解释性——形状瓶颈 (SBM) 与可解释性 gating 机制能否在保证性能的同时提供直观、可信的解释？

章节结构如图 Figure 3（实验流程示意图）所示，先给出统一的实验框架与评估协议，随后分别汇报 UEA 多变量分类任务 (§ 6.1)、真实 ICU 场景应用 (§ 6.2) 及可解释性与消融实验 (§ 6.3) 的结果，最后做整章小结 (§ 6.4)。

6.1 UEA 多变量分类任务

（插表：Table 1；插图：Figure 4 – Figure 5）

整体实验设计概览

目标：在 30 个公开 UEA 数据集上检验 InterpGN 的 通用性 与 可解释性。
数据来源：涵盖医学、工业、气象等 8 大领域，序列长度 24 – 512，通道数 2 – 20。
数据划分：沿用官方 train/test split；训练集内采用 10% 作为验证集并早停。
对比方法：
传统度量学习：DTW, BOSS, WEASEL
深度模型：InceptionTime, TST, ROCKET+
最新 SOTA：TSMixer, TSTi
统一设置：AdamW、初始 lr 1e-3、批量 64、Cosine lr schedule、z-score 标准化。
评价指标：Accuracy (Acc)、平均排名 (AvgRank)、Top-k 覆盖率 (k = 1, ⌊n/3⌋)，Wilcoxon 配对显著性检验。

结果概览
在这里插入图片描述

InterpGN 在 26/30 个任务上取得 最高准确率；平均排名 1.27，显著优于所有基线 (p < 0.01)。
SBM-only 版本已逼近深度 SOTA，说明 shapelet 瓶颈的高效表达能力。
Figure 4 展示全局 shapelet 可视化：不同类别在子序列空间清晰分簇。
Figure 5 通过 t-SNE 对比 SBM 与 InterpGN，后者在特征空间的决策边界更平滑，可分性更强。

6.2 医疗场景应用：MIMIC-III ICU 死亡预测

数据集：MIMIC-III v1.4；选取 ICU 前 48 小时 9 项生理指标（HR, MBP, SpO₂ 等）。
任务设置：二分类——预测出院前是否死亡；训练 / 测试按患者层面 7:3 随机划分。
结果：InterpGN Acc = 0.703，AUC = 0.747；超越 InceptionTime (0.682) 与 TST (0.693)。
解释性分析：
- Figure 6(a) 为存活患者示例：shapelet 匹配集中于稳定心率区间，权重低。
- Figure 6(b) 为死亡患者示例：模型捕捉到持续低血压与间歇缺氧的异常 shapelet，并赋予高权重。
- 临床医生反馈显示，InterpGN 提供的可视化有助于快速定位危险生理事件。

6.3 可解释性指标与消融实验

在这里插入图片描述

新指标：
- Shapelet 误差 (SE) ——预测子序列与真实标签的一致性；误差越低解释性越好。
- 稀疏度 (SP) ——非零 gating 权重占比；越稀疏代表越聚焦关键 shapelet。
实验变量：
1. Predicate 类型：线性 vs. RBF；RBF 在 SE 与 Acc 上均优。
2. 正则权重 λ_reg：0, 1e-3, 1e-2；较大 λ_reg 提升 SP，但过大会损失 Acc。
3. Shapelet 数量 m：16, 32, 64；m = 32 达到解释性与效率的最佳平衡。
主要发现（Figure 21-23）：
- 合理设计 gating + shapelet 数目，可使 **解释性↑ 20%、Acc 下降 <1%**。
- 对所有基线执行同样稀疏正则并不能带来类似提升，说明 InterpGN 架构更适合解释导向。

6.4 小结

性能层面：InterpGN 在大规模 UEA-30 基准与 ICU 真实场景均刷新或追平 SOTA。
解释性层面：新提出的 shapelet 误差与稀疏度指标验证了模型解释的可量化性；可视化示例展示了对关键生理模式的直观捕捉。
综合价值：实验表明，借助可解释性 gating 与形状瓶颈，性能与可解释性不再互斥；InterpGN 为时序模型提供了一条兼顾两者的设计范式。

7. 总结与展望

本文提出 InterpGN 框架，通过 gating 函数 将可解释模型与深度模型有机融合，在保持 SOTA 预测性能的同时输出 形式化、可操作的逻辑解释；实验表明该框架尤其适用于医疗等高敏感场景。
未来可拓展方向包括：

多专家集成：并行部署多个 SBM / DNN 子模型，利用 gating 动态选择最优专家，提升复杂场景下的稳健性。
长序列支持：结合 memory-efficient shapelet 设计，压缩计算与存储开销，处理分钟级或小时级超长时间序列。
任务迁移：将框架推广至回归、异常检测与早期预警等任务，验证其跨任务通用性。
实时部署：探索边缘或移动端的轻量化实现，推动 InterpGN 在 ICU 监护、可穿戴设备等实时场景落地。

8. 代码实现

1. 环境准备

Python：建议 3.11
PyTorch：建议 2.4.0（≥2.2 亦可）
CUDA & GPU：CUDA 11.8 + V100/3090/A100 ≥ 1 张；仅小规模测试可用 CPU
Python 依赖：仓库自带 requirements.txt / environment.yml

# 1. 克隆代码
git clone https://github.com/YunshiWen/InterpretGatedNetwork.git
cd InterpretGatedNetwork# 2. 创建并激活虚拟环境（任选其一）
python3 -m venv ig_env && source ig_env/bin/activate
# conda create -n ig python=3.11 && conda activate ig# 3. 安装依赖
pip install -r requirements.txt

2. 数据集下载与整理

mkdir -p data/UEA      # 多变量分类
mkdir -p data/Monash   # 时间序列外生回归

UEA Multivariate TS Classification
- 访问 https://timeseriesclassification.com/
- 下载对应 .arff / .ts 文件，解压到 data/UEA/。
Monash TSE Regression
- 访问 Time Series Extrinsic Regression
- 下载所需数据集放入 data/Monash/。

提示：在服务器上可用 wget + unzip 批量下载；保持目录结构与源码一致，无需手动改路径。

3. 快速复现实验

# 单数据集测试（Epilepsy，150 epoch）
CUDA_VISIBLE_DEVICES=0 bash reproduce/run_uea.sh --dataset Epilepsy --epochs 150# 循环全部 UEA 30 个数据集（耗时 3–6 h，视 GPU 数量而定）
bash reproduce/run_uea.sh# 复现回归实验
bash reproduce/run_regression.sh

运行结束后将生成：

checkpoints/   # 训练好的 *.pt
result/UEA/    # 每个数据集的 *.json 与 aggregate.csv
logs/          # 详细训练日志

3.结果分析与可解释性可视化

# 汇总指标
jupyter notebook notebook/benchmarks.ipynb      
# 绘制 shapelet 及局部/全局解释
jupyter notebook notebook/visualization.ipynb

SBM 权重稀疏，可直接映射为解释性规则。

InterpGN 借助置信度 η 在多个专家间动态切换，上述 Notebook 会展示切换过程及 shapelet 匹配。

4. 超参数调优与论文表 1 复现

核心超参数集中在 configs/ 及脚本参数，可用 --help 查看。示例：

bash reproduce/run_uea.sh --dataset Epilepsy \--num_shapelet 5 \--beta_schedule cosine \--lr 0.001

5. 常见问题 FAQ

场景	解决方案
显存不足（长序列 T > 2000）	使用 README 附录 A.3 提供的「循环版」或「稀疏卷积」实现；或增大卷积 stride 减小显存占用
GPU 训练速度慢	检查 `num_workers`、`pin_memory`，并确保开启 `torch.backends.cudnn.benchmark = True`
结果与论文差距大	确认随机种子 `--seed` 与数据划分一致；大型数据集可适当提高 epochs (> 150)

6. 下一步扩展

替换 DNN 专家在 interp_gn/models/init.py 中将默认 CNN 改为 Transformer、PatchTST、TimesNet 等。
自定义 shapelet 距离或判别器修改 sbm/shapelet_distance.py，将欧氏距离替换为余弦或皮尔逊相关。
迁移到回归 / 生成任务参考附录 C.4 的离散化回归方案，调整损失函数即可扩展到概率预测。

7. 结语

按照以上步骤，你就能零阻力复现论文主结果，并深入探索 shapelet 解释、专家混合与超参数调优。如果遇到问题：