前言

近期在抠lerobot源码时,看到其封装了ALOHA ACT、diffusion policy、π0时,我就在想,lerobot其实可以再封装下idp3

  1. 我甚至考虑是否从我联合带的那十几个具身研究生中选几个同学做下这事,对他们也是很好的历练
  2. 然当25年3.18日晚上,我把lerobot抠的差不多了「比如此文《LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0》
    却发现傅利叶fork了lerobot,并在fork的fourier-lerobot中,把idp3封装了进去,实在是卷啊..

再加之工厂机械臂开发订单之外,我司「七月在线」近期接到的B端人形开发订单越来越多了(且还有多个人形开发需求正在并行推进中)

  1. 对于其中一个人形开发订单,我(们)准备把ipd3作为备选,既然fourier把ipd3封装进了lerobot,那这个fourier-lerobot便是我们在落地中会尝试的库之一
  2. 当然了,idp3外,像vla π0 我们也会考虑并行尝试,而π0此前已经封装进了lerobot,故π0官方库、lerobot库都是可以选择的 

我们非常缺人,如果有志于做具身智能或人形研发的,欢迎私我,我还顺带在微博上感慨

而FFTAI/fourier-lerobot对huggingface/lerobot的主要扩展集中在以下几个方面:

  1. 数据集支持:添加了对Fourier ActionNet数据集的全面支持,包括转换工具和可视化工具
  2. 训练管道:扩展了IDP3训练管道,针对人形机器人优化
  3. 工具扩展:提供了特定于Fourier数据集的工具链

这些修改使FFTAI/fourier-lerobot成为一个专为人形机器人开发优化的版本,而保持了与原始huggingface/lerobot项目的核心框架兼容性

第一部分 fourier-lerobot新增的独立scripts

FFTAI/fourier-lerobot添加了一个完全独立的scripts目录(与lerobot/scripts不同),包含:

  • convert_to_lerobot_v2.py:这是一个专门为Fourier数据集开发的转换工具,用于将Fourier ActionNet数据集转换为LeRobotDatasetV2格式
    该脚本处理了:
    HDF5格式的机器人状态和动作数据
    摄像机RGB和深度视频数据
    点云数据生成和处理
    时间戳对齐
    特定于人形机器人的关节数据处理
  • `fourier_viz.py`:用于可视化Fourier数据集的专用工具
  • `requirements.txt`:Fourier数据集处理工具的依赖项

1.1 convert_to_lerobot_v2.py

1.2 fourier_viz.py

第二部分 全新的`idp3`训练管道实现

即在新增的lerobot/common/policies/idp3目录之下,包含以下文件:
- `configuration_idp3.py`
- `modeling_idp3.py` 
- `pointnet_extractor.py`

这是一个重要的扩展,因为原始huggingface/lerobot项目中不包含IDP3训练管道

// 待更

第三部分 Fourier数据集的可视化和处理与文档扩展

3.1 pyproject.toml中的修改:以支持Fourier数据集的可视化和处理

添加了`fourier_viz`可选依赖组,包含以下软件包:

fourier_viz = ["opencv-python>=4.10.0.84","rerun-sdk==0.22.0","h5py>=3.12.1","tqdm>=4.67.1","loguru","numpy","rich",
]

这些依赖项专门用于支持Fourier数据集的可视化和处理

3.2 文档扩展

- 添加了完整的`DATASET.md`文件,详细说明了Fourier ActionNet数据集的结构和使用方法
- 修改了`README.md`,添加了关于Fourier-Lerobot的介绍段落和功能说明

第四部分 傅利叶开源人形机器人数据集Fourier ActionNet

// 待更

第五部分 我司七月人形研发落地实践

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/898666.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/898666.shtml
英文地址,请注明出处:http://en.pswp.cn/news/898666.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL拒绝访问

1. 问题 使用图形界面工具连接MySQL数据库,拒绝访问! 2. 解决方法 以管理员的身份打开cmd,输入命令,启动MySQL net start mysql版本号 3. 参考 暂无

多模态SVG生成新标杆:StarVector从图像文本生成高精度SVG的AI模型

一、引言:矢量图形的崛起与挑战 在现代数字世界中,图像扮演着至关重要的角色,而可伸缩矢量图形(SVG)正因其独特的优势,在网页设计、图形设计等领域占据着越来越重要的地位。与传统的基于像素的栅格图像不同…

Netty——BIO、NIO 与 Netty

文章目录 1. 介绍1.1 BIO1.1.1 概念1.1.2 工作原理1.1.3 优缺点 1.2 NIO1.2.1 概念1.2.2 工作原理1.2.3 优缺点 1.3 Netty1.3.1 概念1.3.2 工作原理1.3.3 优点 2. Netty 与 Java NIO 的区别2.1 抽象层次2.2 API 易用性2.3 性能优化2.4 功能扩展性2.5 线程模型2.6 适用场景 3. 总…

游戏引擎学习第175天

回顾和今天的计划 今天的主要任务是完成稀疏 Unicode 支持。之前我们已经完成了所有的思考和设计工作,但代码部分尚未完成,因为有许多内容需要调整和重构。因此,今天的目标就是把这些内容全部整理好并最终实现。 回顾当前测试资源构建器的状…

零基础上手Python数据分析 (7):Python 面向对象编程初步

写在前面 回顾一下,我们已经学习了 Python 的基本语法、数据类型、常用数据结构和文件操作、异常处理等。 到目前为止,我们主要采用的是 面向过程 (Procedural Programming) 的编程方式,即按照步骤一步一步地编写代码,解决问题。 这种方式对于简单的任务已经足够,但当程序…

CNN的空间归纳偏置(Inductive Bias):深入解析其本质与影响(与transformer的比较)

CNN的空间归纳偏置(Inductive Bias):深入解析其本质与影响 在深度学习领域,卷积神经网络(Convolutional Neural Networks, CNN)和Transformer代表了两种截然不同的设计哲学。CNN凭借其卓越的性能长期主导计…

1-4 麻雀优化深度核极限学习机超参数

本博客来源于CSDN机器鱼,未同意任何人转载。 更多内容,欢迎点击本专栏目录,查看更多内容。 目录 0.引言 1.原理 2.具体实现 3.结语 0.引言 在博客【深度核极限学习机】里我们讲述了深度核极限学习机原理,今天我们对其继续进…

miniconda安装保姆级教程|win11|深度学习环境配置

一、官网安装miniconda miniconda官网:Miniconda - Anaconda 点击Download按钮 在红框位置输入邮箱并点击submit,下载链接将会发到邮箱中 邮箱中将会收到如图所示邮件,点击下载 选择windows对应的miniconda安装包 miniconda安装包安装完成如…

AI安全、大模型安全研究(DeepSeek)

DeepSeek 点燃AI应用革命之火,但安全 “灰犀牛” 正在逼近 DeepSeek-R1国产大模型的发布,以技术创新惊艳了全球,更是极致的性价比推动国内千行百业接入 AI,政府、企业竞速开发智能业务处理、智能客服、代码生成、营销文案等应用,“落地效率” 成为第一关键词。然而与此相…

机器学习——Numpy的神奇索引与布尔索引

在 NumPy 中,神奇索引(Fancy Indexing) 和 布尔索引(Boolean Indexing) 是两种强大的索引方式,用于从数组中提取特定元素或子集。以下是它们的详细说明和示例: 1. 神奇索引(Fancy In…

Android Studio最后一个绑定JDK8的版本,但是官方下载是最新的,怎么下载Android Studio历史版本包,这篇文章帮你解决。

最近需要安装Android Studio 编辑器 发现官网最新的编辑器已经不支持 jdk8了 经过查阅资料: Android Studio最后一个绑定JDK8的版本:4.1.3 下载地址:https://developer.android.google.cn/studio/archive 如果你打开是这样的 下载页 这是因为你用的中…

Next-Auth 认证系统:用户与管理员双角色登录配置

概述 本文档介绍了如何使用 Next-Auth 配置一个同时支持普通用户和管理员用户登录的认证系统。 基本配置 首先,我们需要设置 Next-Auth 的基本配置,包括提供者、回调函数和页面路由。 import type { NextAuthConfig } from next-auth import type { …

CentOS配置永久静态IP

在 CentOS 6 中,配置永久 IP 地址需要修改网络配置文件。以下是详细步骤: 1. 找到网卡名称 首先,确定你需要配置 IP 的网卡名称,通常是 eth0 或类似的名称。 运行以下命令查看网卡信息: bash ifconfig或者&#xf…

springboot Actuator 指标分析

http.server.requests HTTP 接口性能瓶颈 http.server.requests.max system.cpu.usage 代码热点分析或横向扩容 核心接口性能指标,包含以下维度: count:请求总数 max/sum:最大及总响应时间 status:HTTP 状态码分布&a…

在K8S中挂载 Secret 到 Pod

在 Kubernetes 里,把 Secret 挂载到 Pod 中有两种主要方式:作为卷挂载和作为环境变量挂载。下面为你提供相应的代码示例。 作为卷挂载 Secret 将 Secret 作为卷挂载到 Pod 时,Secret 的每个键会成为挂载目录下的一个文件,文件内…

mac npm run dev报错 error:0308010C:digital envelope routines::unsupported

并且提示 Unsupported engine { npm WARN EBADENGINE package: achrinza/node-ipc9.2.2, npm WARN EBADENGINE required: { node: 8 || 10 || 12 || 14 || 16 || 17 }, npm WARN EBADENGINE current: { node: v18.18.0, npm: 9.8.1 } npm WARN EBADENGINE } package.jso…

「宇树科技」13家核心零部件供应商梳理!

2025年2月6日,摩根士丹利(Morgan Stanley)发布最新人形机器人研报:Humanoid 100: Mapping the Humanoid Robot Value Chain(人形机器人100:全球人形机器人产业链梳理)。 2025年2月20日&#xf…

MySQL 性能优化方向

MySQL 性能优化是一个系统性的工作,涉及数据库设计、查询优化、索引优化、硬件配置等多个方面。以下是 MySQL 性能优化的主要方向和具体优化方案: 一、数据库设计优化 1. 合理设计表结构 规范化设计:避免数据冗余,确保数据一致性。适度反规范化:在查询频繁的场景下,适当…

MyBatis plus详解

核心功能 代码生成器 它能够依据数据库表结构,自动生成涵盖实体类、Mapper 接口、Mapper XML 文件、Service 接口与实现类等在内的基础代码。开发人员只需简单配置数据库连接信息、表名以及生成代码的相关参数,即可快速生成符合项目规范的基础代码&…

背包问题——多重背包(C语言)

代码如下&#xff1a; #include<stdio.h>int knapsack(int weight[], int value[], int count[], int n, int capacity) {int* dp (int*)malloc(sizeof(int) * (capacity 1));for (int i 0; i < capacity; i){dp[i] 0;}for (int i 0; i < n; i)//核心代码{fo…