具身智能(Embodied AI)的认识,进展,以及为何难以实现

在讲具身智能之前,我们不得不先行介绍一下离身智能与离身认识系统这两个极其相关且更加常见的概念

离身认识系统

其实目前绝大多数的AI,例如DeepSeek,目前是一个纯软件层面的大型语言模型,都是离身认识系统。

它们的特点
  • 无物理身体​:它没有眼睛、手臂,无法直接感知物理世界。它的“感知”完全来自于它被训练时所用的海量文本和代码数据。

  • 在符号世界中运作​:它的整个世界就是字符、单词、语法和逻辑关系。它通过分析这些符号之间的统计规律和模式来生成内容。

  • 强大的抽象推理能力​:它能在数学、编程、文学创作等高度抽象的领域表现出惊人的能力,这些领域本身就更接近“离身”的符号世界。

从这些角度看,它可以在没有物理体验的情况下,进行复杂的知识处理和逻辑推理。这就是离身认识系统的特点。

那为什么不能将其称之为离身智能呢?
  • ​缺乏物理世界的“ grounding ”​​:智能需要理解物理世界的常识,比如“水是湿的”、“玻璃杯摔在地上会碎”。人类通过亲身经历获得这些知识,而DeepSeek只能从文本描述中学习。这可能导致它虽然能流畅地谈论这些概念,但缺乏最根本、最直觉的理解。这被称为“符号接地问题”。

  • ​智能与体验的关联​:许多哲学家和科学家认为,真正的智能无法与体验完全分离。理解“红色”不仅仅知道它的波长是620-750纳米,还包含着“看到红色”的主观体验。DeepSeek没有这种体验。

  • 依赖人类的“具身”数据​:DeepSeek的所有知识都来源于人类创造的数据。而人类的知识和语言本身是高度“具身”的,是千万年来与物理世界互动的结果。所以DeepSeek在某种意义上,是建立在人类集体具身经验之上的一个离身系统。

离身智能(Disembodied Intelligence)

离身智能指的是独立于物理身体而存在的智能。这个概念通常与“具身智能”相对。

离身智能指的是不依赖于物理实体或身体的智能形态。它的核心特点是“心灵与身体的分离”。

这种智能的运作、学习、推理和交互完全发生在抽象的、符号化的或数字化的领域内,无需通过物理传感器(如摄像头、麦克风)或执行器(如机械臂、轮子)来感知世界或施加影响。

离身智能就像一个“纯粹的大脑”或一个“悬浮在空中的心智”,它通过纯数据、符号和逻辑来理解和处理世界。

离身智能是学习是来自于体验数据,而认识系统来自于大量文本数据

具身智能

简单来说,​具身智能的核心思想是:​智能的产生离不开与物理环境进行实时交互的身体。​

这与传统AI(如大型语言模型)形成鲜明对比。传统AI处理的是抽象的、符号化的信息(文本、图像),而具身智能体则通过传感器(如摄像头、麦克风、触觉传感器)感知世界,并通过执行器(如轮子、机械臂)在世界中行动,并从行动的后果中学习。

其哲学基础可以追溯到“具身认知”(Embodied Cognition)理论,即认为认知、思维、记忆等高级功能是由身体及其与环境的互动方式所塑造的。

当前主要研究进展与方向

目前的研究可以大致分为两条主线:​1. 在物理世界中的机器人(Physical Embodiment)​​ 和 ​2. 在模拟环境中的智能体(Virtual Embodiment)​。两者相辅相成,模拟环境为研究提供了快速、廉价且可扩展的试验场。

机器人学(物理实体)的进展

这是最具挑战性但也最直观的方向。进展主要体现在:

  • 从“程式化”到“学习化”的转变​:

  • 传统方法​:机器人执行的任务(如抓取、行走)依赖于工程师精心编写和调试的代码与控制规则。它很稳定,但缺乏灵活性和泛化能力。

  • ​新范式​:​机器人学习(Robot Learning)​,尤其是模仿学习(Imitation Learning)​​ 和强化学习(Reinforcement Learning, RL)​。研究人员通过人类演示(VR、动作捕捉)让机器人学习技能,或者让机器人在模拟或真实环境中通过“试错”来自主学习。

​典型案例​:

  • DeepMind的RT(Robotic Transformer)系列模型​:将机器人控制视为一种“序列建模”问题,就像LLM预测下一个词一样,RT模型根据当前的图像和指令,预测下一个动作。RT-2展示了从互联网规模的视觉-语言数据中学习,并零样本(Zero-shot)迁移到机器人操作任务的能力。

  • ​OpenAI​(虽已退出但早期工作影响深远)和UC Berkeley等机构通过Sim-to-Real​(从模拟到现实)转移,先在模拟环境中用RL训练,再将策略迁移到真实机器人上,成功让机器人学会复杂的操作技能。

  • 多模态感知融合​:

  • 机器人不再只依赖视觉。​触觉(Tactile Sensing)​​ 变得至关重要,例如用于灵巧操作(Dexterous Manipulation),像拧瓶盖、折叠衣服等任务,没有触觉反馈几乎不可能完成。

  • 听觉也被用于更自然的人机交互和理解环境。

  • ​人形机器人(Humanoid Robots)的复苏​:

  • 受特斯拉Optimus、Figure AI、波士顿动力 Atlas​ 等项目的推动,全尺寸人形机器人成为热点。其核心假设是:为人类设计的世界(环境、工具)最适合人形身体来互动。这里的挑战是极致的全身平衡与控制。

模拟环境(虚拟实体)的进展

由于在物理机器人上做实验成本高昂且缓慢,高保真的模拟环境(如NVIDIA Isaac Sim、Meta的Habitat、Allen Institute的AI2-THOR)成为了主要的研究平台。

​具身智能智能体(Embodied AI Agents)​​:

  • 在这些3D环境中,智能体被赋予具体任务(如“去厨房把苹果拿来”),它们必须学会导航(Navigation)、探索、操作物体、甚至与其它智能体协作。

  • 这极大地推动了视觉语言导航(VLN)​、具身问答(Embodied QA)​​ 等任务的发展。

  • 大规模预训练与涌现能力​:

  • 正如LLM从海量文本中预训练一样,具身智能体也开始在大量的模拟交互数据中进行预训练。

  • 研究发现,在这些预训练模型中出现了空间理解、常识推理、任务规划、甚至简单的工具使用等涌现能力。它们学会的不只是单一技能,而是一种通用的“在世界中生存”的能力。

  • LLM作为“大脑”​​:

  • 这是当前最火爆的方向。​大型语言模型(LLM)或多模态大模型(LMM)被用作智能体的“决策核心”​。

  • 工作原理​:LLM接收来自智能体传感器(如场景描述、物体列表、自身状态)的输入,利用其强大的常识和推理能力,生成一个高级的行动计划(Plan)​,例如“首先走向桌子,然后找到水杯,最后拿起它”。这个计划再由底层的、训练好的技能模型(如导航、抓取)来执行。

  • 典型案例​:​​“SayCan”​项目(Google)是早期成功演示,将LLM的推理与机器人的技能库结合起来。现在,​VLA(Vision-Language-Action)模型正在成为新趋势,它将感知、推理和动作生成端到端地统一在一个模型中。

面临的主要挑战

1.​数据稀缺(The Data Problem)​​:与互联网上无穷尽的文本和图像数据不同,真实世界的机器人交互数据非常稀少、昂贵且难以规模化。这是阻碍发展的最大瓶颈。

2.Sim-to-Real Gap(模拟到现实的鸿沟)​​:在模拟中学得再好,迁移到物理世界总会因动力学、摩擦、光线等差异而性能下降。域适应(Domain Adaptation)技术是关键。

3.安全性与可靠性​:让一个在试错中学习的AI实体在现实世界中活动是危险的。如何确保其行为安全、可靠、符合人类价值观是必须解决的问题。

4.计算成本​:训练具身智能体,尤其是在模拟中,需要巨大的算力支持。

5.长 horizon 任务规划​:完成一个复杂的多步骤任务(如“做一顿早餐”),需要长程的规划和在失败时重新规划的能力,这对当前的模型仍是巨大挑战。

未来展望
  • 更多、更好的数据​:通过自动化、众包等方式构建大规模机器人交互数据集(如RT-X项目)。

  • ​更强大的基础模型​:​​“具身智能的GPT-3时刻”即将到来,即出现一个通用的、通过海量模拟和真实数据预训练而成的“具身基础模型”,可以轻松适应各种不同的机器人和任务。

  • 世界模型(World Models)​​:让智能体在内部构建一个对物理世界的预测模型,从而能够进行“想象”和推理,减少真实环境中的试错次数。

  • 与脑科学和认知科学的融合​:从生物学中汲取灵感,研究如何实现记忆、注意力和认知地图等功能。

​总结来说,具身智能正处于一个从理论走向实践、从单一技能走向通用能力的关键爆发前夜。LLM等AI技术的突破为其注入了强大的“推理大脑”,而机器人硬件和模拟技术的进步则为其提供了越来越成熟的“身体”。两者的结合,正在一步步地将曾经只存在于科幻中的通用机器人变为现实。​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/96286.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/96286.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/96286.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用electron将vue3网页项目包装成pc客户端

一、准备前工作在项目的根目录 打开命令行工具 安装四个依赖库安装报错的话二、准备工作完成之后,在项目根目录需要有俩个文件在项目根目录创建electron文件夹在vite.config.js中添加配置项在package.json中添加配置项运行命令 npm run electron:build 打包关于mac&…

基于安全抽象模型(SAM)的汽车网络安全防御与攻击分析

摘要自动驾驶汽车比以往任何一种个人出行交通工具都具有更大的受攻击可能性。这主要是因为这类汽车对通信有极高的需求,一方面是出于功能和安全方面的考虑,另一方面则是为了满足舒适性需求。无人驾驶汽车需要与周围环境进行通信的接口、直接连接&#xf…

线扫相机不出图原因总结

1、帧触发信号有问题 线扫相机出图由帧信号决定开始采集,如果没有帧信号线扫相机无法识别开始信号,所以不出图 1)没有给相机帧信号 帧信号是一个短暂的脉冲信号,持续时间不要太长,相机能识别就可以,一般由plc或者控制卡的数字量输出口触发,可以通过监测数字量输出口来确…

开发避坑指南(46):Java Stream 对List的BigDecimal字段进行求和

需求 对int,long类型的数据求和直接用stream().mapToInt()、stream().mapToDouble(),可是没有stream().mapToBigDecimal()这样的方法,那么如何用stream对List的BigDecimal字段进行求和? 代码实现 直接上代码 public class OrderIn…

pycharm如何处理python项目间引用

1. 如何在pycharm中将其它项目添加到打开的项目中 如图所示:文件->打开->附加(Attach)即可2.如何引用:直接作为一个普通package引用即可 from attack_projectxxx.modulexxx import xxx3.pyinstaller如何编译这种引用其它项目的可执行文…

家庭劳务机器人发展阶段与时间预测

家庭劳务机器人大规模进入家庭不会是一个单一的时间点,而是一个分阶段、渐进式的过程。我们可以将这个进程分为以下几个阶段,并对每个阶段的时间线进行预测:第一阶段:单一功能机器人普及(现在 - 2025年)这个…

Zynq开发实践(FPGA之spi实现)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】虽然串口用的地方比较多,实现起来也比较简单。但是串口本身速度比较慢,不利于高速数据通信。而且单个串口没有办法和很多芯片…

指甲打磨机/磨甲器MCU控制方案开发,轻松解决磨甲问题

美甲打磨机/指甲打磨机核心功能需求 1. 基础功能 无级调速(5,000-30,000 RPM,PWM控制) 正反转切换(可选,用于抛光/去角质) 按键锁/防误触(长按3秒解锁) 锂电池管理(3.7V单节,带充电指…

临床数据挖掘与分析:利用GPU加速Pandas和Scikit-learn处理大规模数据集

点击 “AladdinEdu,同学们用得起的【H卡】算力平台”,注册即送-H卡级别算力,80G大显存,按量计费,灵活弹性,顶级配置,学生更享专属优惠。 摘要 随着电子健康记录(EHR)的普…

二进制安装MySQL 8.0指南:跨平台、自定义数据路径、安全远程访问配置

二进制安装 MySQL 8.0 在生产或测试环境中,我们常常希望避免包管理器带来的依赖和交互问题,尤其是当系统自带版本过旧或安装过程频繁弹窗时。此时,使用 MySQL 官方提供的二进制压缩包(Generic Linux Binary) 进行安装…

Z检验与T检验的区别与联系:原理、公式和案例全解

Z检验与T检验全解析:原理、区别与实际案例 统计学的核心任务之一,就是通过有限的样本数据去推断总体特征。在这一过程中,假设检验成为了最常见的工具。而在众多检验方法中,Z检验与T检验几乎是入门必学,也是应用最广泛的…

SpringBoot之缓存(最详细)

文章目录项目准备新建项目并选择模块安装添加依赖添加application.yml删除demos.web包编写pojo层userdto/ResultJson编写mapper层UserMapper编写service层UserService编写controller层编写配置类MybatisPlusConfig编写测试类1 缓存分类1.1 MyBatis一级缓存1.2 MyBatis二级缓存1…

B站 韩顺平 笔记 (Day 29)

目录 1(集合的框架体系) 2(Collection接口和常用方法) 2.1(Collection接口实现类特点) 2.2(常用方法) 2.3(遍历元素方式1:迭代器) 1&#x…

axios报错解决:unsupported BodyInit type

目录 问题 原因 解决方法 问题 Got ‘unsupported BodyInit type’ bug on iPhone 14(IOS 17.5) Issue #6444 axios/axios 我这里是iPhone 6plus打开会报错白屏 好多人遇到了相同的问题 当我在 iPhone 14 上浏览页面时,我收到一条错误消息:错误:不支持的 BodyInit 类型,…

iperf3网络性能测试工具

iperf3 是一个功能非常强大的网络性能测试工具,用于测量两个网络节点之间的最大TCP、UDP带宽和性能。它通过创建数据流并测量其吞吐量来工作。 下面我将为您详细介绍其核心用法、常用命令和参数。 核心概念:客户端/服务器模式 iperf3 测试需要两台机器:一台作为服务器端(…

【C#】 资源共享和实例管理:静态类,Lazy<T>单例模式,IOC容器Singleton我们该如何选

文章目录前言一、静态类1.1 静态类的特点1.2 静态类的使用1.3 静态类的缺点二、单例模式2.1 Lazy延迟初始化2.2 Lazy< T>单例模式的使用2.3 单例模式的特点三、IOC的Singleton总结前言 编写程序的时候&#xff0c;常常能碰到当某些数据或方法需要被整个程序共享&#xf…

MySQL——存储引擎、索引

一、存储引擎1.MySQL体系结构2.存储引擎简介存储引擎就是储存数据、建立索引、更新/查询数据等技术的实现方式。储存引擎是基于表的&#xff0c;而不是基于库的&#xff0c;所以存储引擎也可被称为表类型建表语句&#xff1a;查询数据库支持的储存引擎&#xff1a;show engines…

机器学习01——机器学习概述

上一章&#xff1a;机器学习核心知识点目录 下一章&#xff1a;机器学习02——模型评估与选择 机器学习实战项目&#xff1a;【从 0 到 1 落地】机器学习实操项目目录&#xff1a;覆盖入门到进阶&#xff0c;大学生就业 / 竞赛必备 文章目录一、参考书推荐二、机器学习的基本概…

Shell编程:检测主机ip所在网段内其他在线ip

一、逻辑设计获取本机 ip 及 网段循环检测网段内所有 ip判断 ping 结果&#xff0c;符合条件的输出相关信息二、代码展示#!/bin/bash#获取本机ip local_iphostname -I #local_ipip addr| grep "inet "|grep -v 127.0.0.1| awk {print $2}#获取本机网段 networkecho $…

Windows安装Chroma DB

安装步骤 安装python 3.8或以上的版本创建虚拟环境&#xff1a;python -m venv chroma_env激活虚拟环境&#xff1a;.\chroma_env\Scripts\activate安装Chroma DB&#xff1a;pip install chromadb(可选)安装扩展功能&#xff1a;pip install sentence-transformers pypdf tikt…