论文链接:https://arxiv.org/pdf/2303.17472

源码链接:https://github.com/QitaoZhao/PoseFormerV2

Abstract

本文提出了 PoseFormerV2,通过探索频率域来提高 3D 人体姿态估计的效率和鲁棒性。PoseFormerV2 利用离散余弦变换(DCT)将骨骼序列转换为低频系数,显著减少了计算量并提高了对噪声的抵抗力。实验表明,PoseFormerV2 在速度-精度权衡和鲁棒性方面显著优于 PoseFormer 和其他 Transformer 方法。

Introduction

  • 目标:3D 人体姿态估计(HPE)旨在通过单目视频或 2D 关节序列估计人体关节的三维位置。

  • 主流方法:随着 2D 姿态检测器的普及和 2D 表示的轻量性,2D-to-3D lifting 方法成为主流。

  • Transformer 的优势:Transformer 方法因其在建模离散关节和长时序依赖方面的优势,成为 3D 姿态估计的首选。

  • 现有问题

    • 处理长序列时计算负担重。

    • 对噪声 2D 检测缺乏鲁棒性。

  • 具体问题示例:PoseFormer 在 Human3.6M 数据集上使用真实 2D 检测时 MPJPE 为 31.3 mm,而使用 CPN 检测时性能下降至 44.3 mm。

  • 解决方案:PoseFormerV2 引入频率域表示,通过离散余弦变换(DCT)将长序列压缩为低频系数,显著减少计算量并增强鲁棒性。

  • 实验结果:PoseFormerV2 在速度和精度上优于其他方法,包括原始 PoseFormer 和其他 Transformer 变体。

Related Work

Transformer-based 3D Human Pose Estimation

  • oseFormer:首个将 Transformer 应用于 3D 人体姿态估计的方法,通过时空编码器提取特征,显著优于传统卷积方法。

  • 效率问题:PoseFormer 在处理长序列时效率低下,计算负担随帧数增加而显著增加。

  • 鲁棒性问题:PoseFormer 对噪声 2D 关节检测敏感,性能受 2D 检测质量影响较大。

  • 后续改进

    • MHFormer:引入多假设生成技术,模拟身体部位的深度模糊和 2D 检测器的不确定性,提升鲁棒性。

    • P-STMO:采用掩码关节建模技术,通过自监督学习提高性能。

    • StridedTransformer:通过步进卷积减少计算量,但牺牲了部分性能。

    • Einfalt et al.:通过下采样输入视频帧减少计算量,但可能影响精度。

  • 现存问题:尽管有改进,但现有方法仍未同时解决效率和鲁棒性问题。

Frequency Representation in Vision

  • 频率域表示:在计算机视觉中已有广泛应用,如 JPEG 图像压缩和基于 DCT 的特征提取。

  • 低频系数的作用

    • 捕捉输入序列的主要特征。

    • 过滤高频噪声,提升模型对噪声的抵抗力。

  • PoseFormerV2 的创新

    • 将频率域表示应用于 3D 人体姿态估计。

    • 通过离散余弦变换(DCT)将骨骼序列转换为低频系数,显著减少计算量。

    • 提出时间-频率特征融合模块,结合时间域和频率域特征,提升模型性能。

Method

Preliminaries of PoseFormerV1

  • 特征提取分阶段:PoseFormerV1 将 2D 关节序列的特征提取分为两个阶段:

    • 空间编码器:用于建模单帧内关节关系,捕捉帧内关节的相互依赖。

    • 时间编码器:用于建模跨帧人体运动,捕捉帧间的时间依赖。

  • 计算复杂度:PoseFormerV1 在处理长序列时计算复杂度高,因为自注意力机制对所有帧进行密集建模。

  • 对噪声敏感:PoseFormerV1 对 2D 关节检测噪声敏感,性能受输入质量影响较大。

PoseFormerV2

Frequency Representation of Skeleton Sequence

  • 离散余弦变换(DCT):PoseFormerV2 通过 DCT 将骨骼序列转换为低频系数,利用少量低频系数表示整个序列。

  • 减少输入长度:低频系数显著减少了输入长度,降低了计算复杂度。

  • 过滤高频噪声:低频系数过滤了高频噪声,增强了模型对噪声的抵抗力。

  • 实验验证:实验表明,仅需少量低频系数即可捕捉序列的主要特征,同时保持较高的精度。

Architecture

  • 空间 Transformer 编码器

    • 仅处理少量中心帧,减少计算量。

    • 提取帧内关节的高维特征。

  • 时间-频率特征融合模块

    • 结合时间域和频率域特征,增强模型对长序列的处理能力。

    • 使用 FreqMLP 调整频率特征权重,补充时间域特征的细节信息。

  • 回归头

    • 通过 1D 卷积层聚集时间信息。

    • 输出中心帧的 3D 姿态。

  • 整体优势:PoseFormerV2 在时间域和频率域之间进行有效的特征融合,显著减少了计算量,同时保持了更好的速度-精度权衡。

Experiments

Datasets and Evaluation Metrics

数据集

Human3.6M:最常用的室内 3D 姿态估计数据集,包含 11 名演员的 15 种动作,从 4 个不同视角拍摄,共 360 万帧。

MPI-INF-3DHP:更具挑战性的室内外场景数据集,包含复杂背景和多种动作,提供 6 个不同场景的测试集。

评价指标

MPJPE(Mean Per Joint Position Error):预测的 3D 姿态与真实值之间的平均欧几里得距离。

P-MPJPE(Procrustes Mean Per Joint Position Error):对预测的 3D 姿态进行刚性对齐后的 MPJPE。

PCK(Percentage of Correct Keypoints):在 150mm 范围内的正确关节点的百分比。

AUC(Area Under Curve):曲线下面积。

Implementation Details and Analysis

实现框架

基于 PyTorch,使用 AdamW 优化器,学习率设置为 8e-4,并采用指数衰减策略。

超参数调整

输入帧数(f)和 DCT 系数数量(n)是关键超参数,实验中通过调整这些参数展示了模型在速度和精度之间的灵活权衡。

例如,当 f = 3、n = 3 时,模型在 Human3.6M 数据集上达到了 47.9 mm 的 MPJPE,计算量为 117.3 MFLOPs。

硬件配置

实验在单个 NVIDIA RTX 3090 GPU 上进行,支持高效的训练和推理。

Comparisons with State-of-the-art Methods

Human3.6M 数据集

PoseFormerV2

81 帧输入,77.2 MFLOPs,MPJPE 为 47.6 mm。

243 帧输入,1054.8 MFLOPs,MPJPE 为 45.2 mm。

其他方法

PoseFormerV1:81 帧输入,1.36 GFLOPs,MPJPE 为 47.0 mm。

MHFormer:81 帧输入,342.9 MFLOPs,MPJPE 为 47.8 mm。

P-STMO:243 帧输入,493 MFLOPs,MPJPE 为 45.6 mm。

结论

PoseFormerV2 在速度和精度之间取得了更好的权衡,尤其是在处理长序列时表现出更高的效率。

MPI-INF-3DHP 数据集

PoseFormerV2

PCK 为 97.9%,AUC 为 78.8%,MPJPE 为 27.8 mm。

其他方法

PoseFormerV1:PCK 为 95.4%,AUC 为 63.2%,MPJPE 为 57.7 mm。

P-STMO:PCK 为 97.9%,AUC 为 75.8%,MPJPE 为 32.2 mm。

结论

PoseFormerV2 在 MPI-INF-3DHP 数据集上也取得了最佳性能,验证了其在复杂场景下的鲁棒性和准确性。

Ablation Study

逐步改进

原始 PoseFormerV1:9 帧输入,MPJPE 为 49.9 mm。

引入低频 DCT 系数:81 帧输入,MPJPE 降低到 47.1 mm。

引入 FreqMLP:MPJPE 进一步降低到 46.0 mm。

输入帧数和 DCT 系数数量的影响

实验证明,增加输入帧数和 DCT 系数数量可以显著提高精度。例如,使用 3 个中心帧和 9 个 DCT 系数时,MPJPE 为 47.9 mm,计算量为 117.3 MFLOPs。

结论

仅需少量中心帧和低频系数即可显著提高精度和鲁棒性,同时保持较低的计算量。

Generalization Ability

推广到其他方法

MixSTE:引入低频 DCT 系数后,MPJPE 从 46.2 mm 降低到 45.3 mm,计算量从 30.8 GFLOPs 降低到 15.4 GFLOPs。

MHFormer:引入低频 DCT 系数后,鲁棒性显著提升,计算量减少。

结论

PoseFormerV2 的频率域表示方法可以推广到其他 Transformer 基方法,显著提升效率和鲁棒性。

Conclusion

PoseFormerV2 通过引入频率域表示,显著提高了 3D 人体姿态估计的效率和鲁棒性。具体贡献如下:

效率提升:PoseFormerV2 利用离散余弦变换(DCT)将长骨骼序列压缩为低频系数,显著减少了输入长度和计算量。实验表明,PoseFormerV2 在处理长序列时的计算效率远高于其他方法,例如在 81 帧输入下仅需 77.2 MFLOPs,而 MHFormer 需要 342.9 MFLOPs。

鲁棒性增强:低频系数过滤了高频噪声,增强了模型对噪声 2D 关节检测的抵抗力。实验表明,PoseFormerV2 在噪声环境下仍能保持较高的估计精度。

性能提升:在 Human3.6M 和 MPI-INF-3DHP 两个基准数据集上,PoseFormerV2 均取得了优于其他 Transformer 基方法的性能,验证了其在速度和精度之间的良好权衡。

通用性:PoseFormerV2 的方法可以推广到其他 Transformer 基方法,如 MixSTE 和 MHFormer,通过引入低频 DCT 系数,这些方法在效率和鲁棒性方面也得到了提升。

Future Work

自动优化超参数:目前,PoseFormerV2 的超参数(如输入帧数和 DCT 系数数量)是基于实验结果手动调整的。未来工作将探索如何将这些参数设置为可学习的,从而自动优化模型性能。

扩展到其他任务:PoseFormerV2 的频率域表示方法不仅适用于 3D 人体姿态估计,还可以推广到其他需要处理长序列的任务,如动作识别和行为分析。

理论分析:进一步理论分析频率域表示在 3D 姿态估计中的优势,为未来的研究提供更深入的理论支持。

PoseFormerV2 为 3D 人体姿态估计领域提供了新的视角,通过频率域表示解决了效率和鲁棒性问题,为实际应用提供了更强大的工具。

硬性的标准其实限制不了无限可能的我们,所以啊!少年们加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/83292.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/83292.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/83292.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DRW - 加密市场预测

1.数据集描述 在本次比赛中,数据集包含加密市场的分钟级历史数据。您的挑战是预测未来的加密货币市场价格走势。这是一项kaggle社区预测竞赛,您可以以 CSV 文件的形式或通过 Kaggle Notebooks 提交您的预测。有关使用 Kaggle Notebooks 的更多详细信息&a…

嵌入式Linux系统中的启动分区架构

在嵌入式Linux系统架构中,Linux内核、设备树(Device Tree)与引导配置文件构成了系统启动的基础核心。如何安全、高效地管理这些关键文件,直接影响到系统的稳定性与可维护性。近年来,越来越多的嵌入式Linux开发者选择将启动相关文件从传统的“混合存放”方式,转向采用独立…

用户资产化视角下开源AI智能名片链动2+1模式S2B2C商城小程序的应用研究

摘要:在数字化时代,平台流量用户尚未完全转化为企业的数字资产,唯有将其沉淀至私域流量池并实现可控、随时触达,方能成为企业重要的数字资产。本文从用户资产化视角出发,探讨开源AI智能名片链动21模式S2B2C商城小程序在…

Spring是如何实现属性占位符解析

Spring属性占位符解析 核心实现思路1️⃣ 定义占位符处理器类2️⃣ 处理 BeanDefinition 中的属性3️⃣ 替换具体的占位符4️⃣ 加载配置文件5️⃣ Getter / Setter 方法 源码见:mini-spring 在使用 Spring 框架开发过程中,为了实现配置的灵活性&#xf…

【大模型面试每日一题】Day 31:LoRA微调方法中低秩矩阵的秩r如何选取?

【大模型面试每日一题】Day 31:LoRA微调方法中低秩矩阵的秩r如何选取? 📌 题目重现 🌟🌟 面试官:LoRA微调方法中低秩矩阵的秩r如何选取?: #mermaid-svg-g5hxSxV8epzWyP98 {font-family:"…

字节golang后端二面

前端接口使用restful格式,post与get的区别是什么? HTTP网络返回的状态码有哪些? go语言切片与数组的区别是什么? MySQL实现并发安全避免两个事务同时对一个记录写操作的手段有哪些? 如何实现业务的幂等性(在…

Spring Security安全实践指南

安全性的核心价值 用户视角的数据敏感性认知 从终端用户角度出发,每个应用程序都涉及不同级别的数据敏感度。以电子邮件服务与网上银行为例:前者内容泄露可能仅造成隐私困扰,而后者账户若被操控将直接导致财产损失。这种差异体现了安全防护需要分级实施的基本原则: // 伪…

Leetcode第451场周赛分析总结

题目链接 竞赛 - 力扣&#xff08;LeetCode&#xff09;全球极客挚爱的技术成长平台 题目解析 A. 3560. 木材运输的最小成本 AC代码 class Solution { public:long long minCuttingCost(int n, int m, int k) {if (n > m) swap(n, m); // n < m;using ll long lon…

Linux中的shell脚本

什么是shell脚本 shell脚本是文本的一种shell脚本是可以运行的文本shell脚本的内容是由逻辑和数据组成shell脚本是解释型语言 用file命令可以查看文件是否是一个脚本文件 file filename 脚本书写规范 注释 单行注释 使用#号来进行单行注释 多行注释 使用 : " 注释内容…

PHP与MYSQL结合中中的一些常用函数,HTTP协议定义,PHP进行文件编程,会话技术

MYSQL&#xff1a; 查询函数: 执行查询语句: 1.mysql_query("SQL语法"); 凡是执行操作希望拿到数据库返回的数据进行展示的(结果返回: 数据结果); 2.执行结果的处理:成功为结果集&#xff0c;失败为false; 成功返回结果:SQL指令没有错误&#xff0c;但是查询结果…

数学分析——一致性(均匀性)和收敛

目录 1. 连续函数 1.1 连续函数的定义 1.2 连续函数的性质 1.2.1 性质一 1.2.2 性质二 1.2.3 性质三 1.2.4 性质四 2. 一致连续函数 2.1 一致连续函数的定义 2.2 一致连续性定理(小间距定理)(一致连续函数的另一种定义) 2.3 一致连续性判定法 2.4 连…

湖北理元理律师事务所:企业债务优化的科学路径与人文关怀

湖北理元理律师事务所&#xff1a;企业债务优化的科学路径与人文关怀 在中小企业经营压力增大的背景下&#xff0c;如何平衡债务清偿与员工生计成为关键课题。湖北理元理律师事务所联合计划集团公司&#xff0c;为服务企业设计了一套兼顾法律合规性与民生保障的债务解决方案&a…

树莓派安装openwrt搭建软路由(ImmortalWrt固件方案)

&#x1f923;&#x1f449;我这里准备了两个版本的openwrt安装方案给大家参考使用&#xff0c;分别是原版的OpenWrt固件以及在原版基础上进行改进的ImmortalWrt固件。推荐使用ImmortalWrt固件&#xff0c;当然如果想直接在原版上进行开发也可以&#xff0c;看个人选择。 &…

一键净化Excel数据:高性能Python脚本实现多核并行清理

摘要 本文分享两个基于Python的Excel数据净化脚本&#xff0c;通过多进程并行技术清除工作表内不可见字符、批注、单元格样式等冗余内容&#xff0c;利用OpenPyXL实现底层操作&#xff0c;结合tqdm进度条和进程级任务分配&#xff0c;可快速处理百万级单元格数据。适用于数据分…

【Netty】EventLoopGroup

在Netty的ServerBootstrap中设置两个EventLoopGroup的作用是将网络操作的两个关键阶段分离到不同的线程组中处理&#xff0c;从而优化性能并简化并发控制。具体来说&#xff1a; 1. 两个EventLoopGroup的角色 第一个EventLoopGroup&#xff08;通常称为bossGroup&#xff09;&…

【前端】Vue中使用CKeditor作为富文本编辑器

官网https://ckeditor.com/ 此处记录一下我在使用的时候具体初始化的代码。 <template><div><textarea :id"id"></textarea></div> </template><script> export default {name: CkEditor,data: function () {return {id:…

前端面经 websocket

应用层协议&#xff0c;实现一个TCP连接上的全双工通信&#xff0c;实时通讯 之前的实时WEB 实现轮询 增加轮询频率 ws wss 明文版本 和 密文版本 特点 # 1 头部小 2 更注重实时性

【笔记】suna部署之获取 Supabase API key 和 project URL

#工作记录 Supabase | The Open Source Firebase Alternative 一、注册与登录 方式一&#xff1a;GitHub 授权登录 在登录页面选择 “继续使用 GitHub” &#xff0c;跳转到 GitHub 授权页面&#xff08;如图 5 所示&#xff09;。确认 “Supabase 的想要访问您的 [账户名] 帐…

爬虫工具链的详细分类解析

以下是针对爬虫工具链的详细分类解析&#xff0c;涵盖静态页面、动态渲染和框架开发三大场景的技术选型与核心特性&#xff1a; &#x1f9e9; 一、静态页面抓取&#xff08;HTML结构固定&#xff09; 工具组合&#xff1a;Requests BeautifulSoup 适用场景&#xff1a;目标数…

STM32F407寄存器操作(ADC非连续扫描模式)

1.前言 书接上回&#xff0c;在看手册的时候我突然发现手册上还描述了另一种ADC扫描模式&#xff0c;即非连续扫描模式&#xff0c;想着连续扫描模式都已经探索过了&#xff0c;那就顺手把非非连续模式研究一下吧。 2.理论 我们先看看手册&#xff0c;这里我就以规则通道举例…