关注gongzhonghao【CVPR顶会精选】
众所周知,机器人因复杂环境适应性差、硬件部署成本高,对高效泛化一直需求迫切。再加上多传感器协同难题、真实场景数据获取不易,当下对迁移学习 + 机器人智能融合的研究也就更热烈了。不过显然,这方向的创新也基本围绕以上问题展开,比如环境鲁棒迁移、软硬协同优化、跨场景知识适配、人机交互动态适配等等。如果想发论文,建议先从这些切入点着手。
今天小图给大家精选3篇CVPR有机器人方向的论文,请注意查收!
论文一:Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation
方法:
文章首先将操作策略分解为分层结构,包括用于预测下一个最佳末端执行器姿态的高层任务规划代理和用于生成最优运动轨迹的低层目标条件扩散策略。接着,通过可微运动学将准确但缺乏运动学感知的末端执行器姿态轨迹提炼为运动学感知的关节位置轨迹,避免了逆运动学求解器常见的问题。最后,在多个挑战性的操作任务中进行了实验验证,证明了所提方法在模拟和现实世界中的优越性能。
创新点:
提出了分层策略,使机器人能够同时处理长时域任务规划和精细的低层次动作。
引入了机器人运动学扩散器,通过可微运动学将末端执行器姿态轨迹转换为关节位置轨迹,确保运动学约束。
在广泛的模拟和现实世界任务中展示了显著高于现有方法的成功率,证明了其在复杂操作任务中的有效性和泛化能力。
论文链接:
https://arxiv.org/abs/2403.03890
图灵学术论文辅导
论文二:ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation
方法:
文章首先采用注入适配器的方式对MLLM进行微调,通过设计包括物体类别识别、操作先验推理和操作感知姿态预测等任务,逐步引导模型学习物体的操作知识。在推理阶段,利用链式思考策略,使模型按照训练时的逻辑逐步生成末端执行器的初始姿态,并通过深度信息将其投影到三维空间。此外,为了适应现实世界的复杂情况,还设计了主动阻抗适应策略,通过力反馈调整运动方向,确保操作的平滑性和适应性。
创新点:
提出了一种新颖的训练范式,保留了MLLM的常识和推理能力,同时赋予其操作能力。
设计了链式思考推理策略,增强了模型的泛化能力和稳定性。
引入了主动阻抗适应策略,确保操作的平滑性和适应性,进一步提升了模型在复杂环境中的表现。
论文链接:
https://arxiv.org/abs/2312.16217
图灵学术论文辅导
论文三:JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments
方法:
文章首先构建了一个包含20,000张图像的数据集,这些图像从54个视频中以1Hz的频率采样,并提供了428K全景分割和27K跟踪注释。其次,引入了OSPA评估指标,用于更准确地评估多标签场景下的分割和跟踪性能。最后,基于该数据集,提出了闭世界和开放世界的全景分割与跟踪基准测试,并对现有的先进方法进行了广泛的评估,结果表明该数据集具有独特的挑战性,强调了开发更鲁棒方法的必要性。
创新点:
提供了涵盖室内外拥挤场景的多样化数据,包括2D和3D同步数据模态,支持视觉和机器人应用。
提出了基于最优子模式匹配的评估指标,解决了现有评估方法的局限性。
设计了闭世界和开放世界的基准测试,包含多类别注释和OSPA基础评估指标,以促进泛化能力的研究。
论文链接:
https://arxiv.org/abs/2404.0168
本文选自gongzhonghao【CVPR顶会精选】