• 作者:Tengchao Zhang 1 ^{1} 1 , Yonglin Tian 2 ^{2} 2 , Fei Lin 1 ^{1} 1, Jun Huang 1 ^{1} 1, Patrik P. Süli 3 ^{3} 3, Rui Qin 2 , 4 ^{2,4} 2,4, and Fei-Yue Wang 5 , 1 ^{5,1} 5,1
  • 单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所多模态人工智能系统国家重点实验室, 3 ^{3} 3匈牙利Óbuda大学, 4 ^{4} 4天津大学复杂管理系统计算与分析实验室, 5 ^{5} 5中国科学院大学中国经济社会研究中心
  • 论文标题:CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios
  • 论文链接:https://arxiv.org/pdf/2505.00091

主要贡献

  • 提出了 CoordField,这是一种基于协调场的无人机群任务分配方法,通过不断更新的势场来表示城市环境中任务的紧急程度和无人机的影响,增强了实时响应能力。
  • 提出了一种无人机群的代理系统,能够从自然语言描述中进行高精度的任务理解,并通过具有不同角色的专门协作代理支持动态规划和部署。
  • 在相同任务场景下,将该系统与多个基线模型进行对比评估,验证了其在城市环境中卓越的协调性能。

研究背景

  • 随着无人机群在城市环境中执行行人检测、车辆跟踪和交通信号监控等复杂任务的需求不断增加,多无人机系统相较于单无人机在覆盖范围、系统冗余和运行效率方面具有显著优势。
  • 然而,任务复杂性的增加和城市环境的高度动态性也带来了巨大挑战。有效的任务分配需要系统能够持续重新分配无人机到新任务,适应无人机故障和任务优先级的变化,并在没有集中控制的情况下实现去中心化的智能协调。
  • 现有的优化算法(如灰狼优化算法和鲸鱼优化算法)通常针对特定类型的任务,难以适应在高度动态环境中运行的异构无人机集群。随着大语言模型(LLM)的发展,其强大的语义理解和工具调用能力为解决此类问题提供了新的思路。
  • 然而,现有基于LLM的方法在处理复杂、快速变化环境中的多任务时仍存在显著局限性。
  • 代理人工智能(Agentic AI)作为一种新兴的灵活且统一的方法,能够更好地应对这些挑战。

基础知识

智能体系统

  • 定义与特点:代理人工智能(Agentic AI)是一种新型智能范式,强调自主感知、目标驱动的规划和自适应决策。与传统被动方法不同,Agentic AI注重代理的持续目标追求、上下文记忆、自适应工具使用和自我反思能力。这些能力使代理能够在动态环境中更自主地协调行动。
  • 应用场景:在复杂的城市任务场景中,Agentic AI能够帮助无人机理解高级指令,有效分配子任务,并在任务变化或代理故障时快速重新配置协调策略,实现真正的自主协作。
  • 理论基础:基于LLM的代理系统在复杂任务分解和顺序执行方面表现出强大的推理和规划能力,为构建自主多无人机系统提供了理论和方法基础。

大语言模型用于自然语言任务解析

  • LLM的优势:大语言模型(LLM)在自然语言理解和通用推理方面取得了快速进展,能够处理模糊语义、条件逻辑和空间语言,表现出比传统基于规则的解析器更强的泛化能力。
  • 任务生成框架:研究人员开发了多种框架,如Code-as-Policies和Prompt2Action,使LLM能够将自然语言指令映射为可执行的任务代码。这些方法通常结合少样本提示和约束提示,以提高生成输出的有效性和安全性。
  • GSCE框架:GSCE框架通过提供指南、技能API、约束和示例,指导LLM生成符合物理约束和操作约束的控制程序,展示了提示工程在无人机任务规划中的实际价值。

基于场的协调与分配

  • 场驱动方法:场驱动方法,尤其是人工势场(APF)方法,已被广泛应用于移动机器人领域。该方法将目标点建模为吸引源,障碍物建模为排斥源,机器人通过沿着势场梯度下降来导航,从而实现路径规划和实时避障。
  • 交通流建模应用:在交通流建模中,场驱动方法用于模拟交通动态的演变,将车辆建模为受交通密度场、速度场等因素影响的粒子,能够更有效地捕捉宏观和微观变化。
  • 研究思路:受此启发,本研究采用类似策略,将任务需求和无人机工作负载建模为连续空间场,通过动态演化的势场引导无人机运动和分配任务。该方法具有去中心化结构、强实时适应性和高响应性,特别适合任务分布不均匀且动态变化的城市场景。

研究方法

语义理解模块

  • 功能:该模块负责解释用户提供的自然语言输入,并将其转换为适合下游规划和执行的结构化任务表示。它作为人机交互界面,通过语言命令实现与无人机群的直观交互。
  • 任务翻译过程:LLM将模糊或抽象的自然语言指令映射为形式化的约束,提取关键元素(如目标位置、任务类型和优先级),并生成结构化任务元组:
    Task j = ( x j , y j , w j , type j ) \text{Task}_j = (x_j, y_j, w_j, \text{type}_j) Taskj=(xj,yj,wj,typej)
    其中, ( x j , y j ) (x_j, y_j) (xj,yj) 表示目标的空间坐标, w j w_j wj 表示任务权重或优先级, type j \text{type}_j typej 表示任务的语义类别(如巡逻、跟踪、检查)。

规划模块和协调场

  • 规划模块功能:将语义解析得到的任务元组转换为动态的无人机协调策略。规划代理将任务元组和无人机状态数据输入协调场,协调场通过感知映射、任务分解和任务分配三个子模块,以闭环方式适应任务需求和空间分布模式的变化。
  • 感知映射
    • 构建时间变化的势场 ϕ ( x , y , t ) \phi(x, y, t) ϕ(x,y,t) 来表示高优先级任务区域的空间强度和分布。该标量场由加权高斯函数的和组成:
      ϕ ( x , y , t ) = ∑ j = 1 M w j ( t ) ⋅ exp ⁡ ( − ∥ ( x , y ) − ( x j ( t ) , y j ( t ) ) ∥ 2 2 σ j 2 ) \phi(x, y, t) = \sum_{j=1}^{M} w_j(t) \cdot \exp\left(-\frac{\|(x, y) - (x_j(t), y_j(t))\|^2}{2\sigma_j^2}\right) ϕ(x,y,t)=j=1Mwj(t)exp(2σj2(x,y)(xj(t),yj(t))2)
      其中, σ j \sigma_j σj 表示任务 j j j 的空间影响半径。
    • 势场在建筑物等障碍物区域内被显式设置为零。
  • 任务分解
    • 构建时间变化的矢量场 v ( x , y , t ) v(x, y, t) v(x,y,t),表示无人机群的运动速度场。基于流体力学的纳维-斯托克斯方程定义运动方程:
      d v d t = − 1 ρ ∇ p + ν ∇ 2 v + F task ( ϕ ) \frac{dv}{dt} = -\frac{1}{\rho}\nabla p + \nu \nabla^2 v + F_{\text{task}}(\phi) dtdv=ρ1p+ν2v+Ftask(ϕ)
      其中, v ( x , y , t ) = ( v x , v y ) v(x, y, t) = (v_x, v_y) v(x,y,t)=(vx,vy) 表示2D空间中每一点的速度向量, ν \nu ν 表示流体粘度, F task = k ∇ ϕ F_{\text{task}} = k \nabla \phi Ftask=kϕ 是用于引导无人机向高势场值区域移动的外力项。
    • 扩散项 ν ∇ 2 v \nu \nabla^2 v ν2v 有助于防止无人机过度集中在单个区域,增强空间分布和系统鲁棒性。
  • 任务分配
    • 引入局部涡旋机制,为每个无人机生成一个旋转场,作为动态排斥控制策略。每个无人机 i i i 在当前位置 ( x i , y i ) (x_i, y_i) (xi,yi) 生成一个旋转场:
      ω i ( r ) = Γ i 2 π r exp ⁡ ( − ( r r 0 ) 2 ) \omega_i(r) = \frac{\Gamma_i}{2\pi r} \exp\left(-\left(\frac{r}{r_0}\right)^2\right) ωi(r)=2πrΓiexp((r0r)2)
      其中, r r r 是从无人机 i i i 的径向距离, r 0 r_0 r0 是场的影响半径, Γ i \Gamma_i Γi 是由无人机的能力分数 c i ( t ) c_i(t) ci(t) 和局部势场值 ϕ ( x i , y i , t ) \phi(x_i, y_i, t) ϕ(xi,yi,t) 决定的循环强度:
      Γ i ( t ) = c i ( t ) ⋅ ϕ ( x i ( t ) , y i ( t ) , t ) ∑ j = 1 N c j ( t ) \Gamma_i(t) = \frac{c_i(t) \cdot \phi(x_i(t), y_i(t), t)}{\sum_{j=1}^{N} c_j(t)} Γi(t)=j=1Ncj(t)ci(t)ϕ(xi(t),yi(t),t)
    • 基于该场,系统计算每个无人机的切向速度分量 v θ , i ( r ) v_{\theta,i}(r) vθ,i(r),形成围绕每个无人机的排斥速度,模拟代理间的避碰动态:
      v θ , i ( r ) = Γ i 2 π r ( 1 − exp ⁡ ( − ( r r 0 ) 2 ) ) v_{\theta,i}(r) = \frac{\Gamma_i}{2\pi r} \left(1 - \exp\left(-\left(\frac{r}{r_0}\right)^2\right)\right) vθ,i(r)=2πrΓi(1exp((r0r)2))
    • 最终,每个无人机的控制速度向量通过将全局引导速度场 v ( x , y , t ) v(x, y, t) v(x,y,t) 与所有无人机生成的切向排斥速度叠加得到:
      v new ( x , y , t ) = v ( x , y , t ) + ∑ i = 1 n v θ , i ( x , y , t ) v_{\text{new}}(x, y, t) = v(x, y, t) + \sum_{i=1}^{n} v_{\theta,i}(x, y, t) vnew(x,y,t)=v(x,y,t)+i=1nvθ,i(x,y,t)
      该机制确保无人机不仅被引导到高优先级任务区域,还通过局部涡旋效应相互排斥,从而在完全去中心化的设置中实现动态稳定的任务分配和协调行为。

执行模块

  • 核心任务:将规划模块的输出(包括流场矢量 v new ( x , y , t ) v_{\text{new}}(x, y, t) vnew(x,y,t) 和无人机任务分配信息)转换为物理或模拟无人机可执行的实时控制命令。
  • 执行过程
    • 执行代理通过标准化API接口(如MAVSDK、ROS2或AirSim)与底层控制系统通信。
    • 在任务执行阶段,每架无人机根据当前位置 ( x , y , t ) (x, y, t) (x,y,t) 从预计算的控制场 v new ( x , y , t ) v_{\text{new}}(x, y, t) vnew(x,y,t) 中采样局部速度向量,并将其用作下一个导航方向。
    • 执行代理根据任务类型生成飞行控制命令,并将其发送到无人机平台。
    • 无人机在动态环境中持续报告其状态(包括位置、速度和执行状态),用于实时刷新任务势场 ϕ ( x , y , t ) \phi(x, y, t) ϕ(x,y,t) 和流场矢量 v ( x , y , t ) v(x, y, t) v(x,y,t)
    • 当环境发生变化(如出现新任务目标、完成当前任务或引入障碍物)时,系统重新计算相关场,并通过执行代理提供更新的控制指令。
  • 闭环机制:感知-规划-执行循环以高频率运行,确保系统表现出强大的响应能力和去中心化的动态协调能力。无人机能够在复杂多变的环境中重新规划、协同避障和目标适应,实现真正的自适应智能行为。

实验

环境和无人机配置

  • 模拟环境:实验在一个定制的二维城市模拟环境中进行,覆盖1000×1000网格空间,包含城市道路网络、建筑物、交通信号灯、行人和车辆。
  • 无人机配置:共部署20架无人机,分为巡逻无人机和跟踪无人机两种类型,每种10架。两种类型的无人机具有相同的飞行性能,但在感知和识别能力上有所不同。
  • 任务指令:任务指令通过自然语言输入,例如“请检查人群和车辆”,通过DeepSeek API解析为结构化任务信息。

实验结果与分析

  • 任务密度分布:通过热力图展示了城市环境中任务密度的分布情况,红色和黄色区域表示任务热点区域,系统能够动态地重新分配无人机资源以应对这些高需求区域。
  • 无人机轨迹优化:展示了优化后的无人机轨迹,每条蓝色轨迹连接起点(绿色三角形)和任务目标(红色圆圈),表明系统能够基于最小旅行距离进行全局路径优化,同时避免拥堵和冲突。

  • 性能评估指标
    • 任务解析准确率(TPA):衡量自然语言指令正确解析为结构化任务表示的比例。该系统达到了96%的最高TPA,显著优于其他基线模型。
    • 覆盖效率(CE):量化无人机有效覆盖任务定义区域的程度。该系统平均覆盖效率为95%,在任务突发场景下仍能保持超过80%的有效覆盖。
    • 任务负载平衡(TLB):评估任务负载在所有无人机之间的分布均匀性。该系统展示了最低的任务分配密度梯度范数,仅为0.8,显著降低了资源聚集,增强了空间协调性。
    • 无人机利用率(UUR):表示参与任务执行的无人机比例。该系统达到了97%的最高利用率,表明大多数无人机始终保持活跃状态。
  • 对比结果:如下表所示,该系统在多个关键性能指标上均优于Deepseek-v3、GPT-4o、Claude-3-7-Sonnet、LLaMA-4-Scout和Gemini-2.5-Pro等基线模型。
模型TPACETLBUUR
Our method96%95%0.897%
Deepseek-v370%78%2.185%
GPT-4o74%85%1.582%
Claude-3-7-Sonnet76%80%1.684%
LLaMA-4-Scout72%79%1.983%
Gemini-2.5-Pro73%81%1.784%

结论与未来工作

  • 结论
    • 该论文提出的协调场代理系统在复杂动态的城市环境中展示了高效率、稳定性和适应性,能够实时解析自然语言指令并通过协调场引导实现高效的任务分配。实验结果验证了其优越性能。
  • 未来工作
    • 未来的工作计划将系统扩展到三维场景和真实世界的无人机群中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/908161.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/908161.shtml
英文地址,请注明出处:http://en.pswp.cn/news/908161.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决Java项目NoProviderFoundException报错

前言 在Java开发中,jakarta.validation.NoProviderFoundException 是一个令人困惑的运行时错误,常因校验框架依赖缺失或版本冲突导致。 问题复现:用户注册校验失败 业务场景 开发一个用户注册功能,要求: 校验邮箱…

重构跨境收益互换价值链:新一代TRS平台的破局之道

当香港券商面对内地汹涌的结构化产品需求,一套智能化的TRS系统正成为打开万亿市场的金钥匙 在跨境金融的暗流涌动中,一家中资背景的香港券商正面临甜蜜的烦恼:内地高净值客户对港股、美股的杠杆交易需求激增,但传统TRS业务深陷操作…

实验设计如何拯救我的 CEI VSR 28G 设计

为了确定总体设计裕量,CEI 28G VSR/100 Gb 以太网设计需要分析 500 万种通道变化、收发器工艺和均衡设置的组合。蛮力模拟需要 278 天,这显然超出了可用的时间表。 相反,我们使用实验设计 (DOE) 和响应面建模 &#x…

【仿生机器人】刀剑神域——爱丽丝苏醒计划,需求文档

仿生机器人"爱丽丝"系统架构设计需求文档 一、硬件基础 已完成头部和颈部硬件搭建 25个舵机驱动表情系统 颈部旋转功能 眼部摄像头(视觉输入) 麦克风阵列(听觉输入) 颈部发声装置(语音输出&#xff09…

【Day44】

DAY 44 预训练模型 知识点回顾: 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战:resnet18 作业: 尝试在cifar10对比如下其他的预训练模型,观察差异,尽可能和他人选择的不同尝试通…

python打卡训练营打卡记录day44

知识点回顾: 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战:resnet18 作业: 尝试在cifar10对比如下其他的预训练模型,观察差异,尽可能和他人选择的不同尝试通过ctrl进入resnet的…

Vue跨层级通信

下面,我们来系统的梳理关于 Vue跨层级通信 的基本知识点: 一、跨层级通信核心概念 1.1 什么是跨层级通信 跨层级通信是指在组件树中,祖先组件与后代组件(非直接父子关系)之间的数据传递和交互方式。这种通信模式避免了通过中间组件层层传递 props 的繁琐过程。 1.2 适用…

webPack基本使用步骤

webPack基本使用步骤 关于webPackwebPack配置的几个概念entry(入口)output(输出)loader(输出)plugin(插件)mode(模式) 基本使用过程示例1.创建测试目录和代码…

龙虎榜——20250604

上证指数缩量收阳线,量能依然在5天线上,股价也在5天线上。 深证指数放量收阳线,量能站上5天均线,但仍受中期60天均线压制。 2025年6月4日龙虎榜行业方向分析 1. 黄金 代表标的:曼卡龙、菜百股份。 驱动逻辑&#…

Viggle:开启视频人物替换新纪元

Viggle 的出现,为视频人物替换带来了前所未有的变革,为创作者和爱好者们打开了一扇通往无限可能的大门。 一、Viggle 技术原理剖析 Viggle 是一款基于先进人工智能技术的创新平台,其核心在于能够精准实现静态图片与动态视频的融合转化。它…

【BUG解决】关于BigDecimal与0的比较问题

这是一个很细小的知识点,但是很容易被忽略掉,导致系统问题,因此记录下来 问题背景 明明逻辑上看a和b都不为0才会调用除法,但是系统会报错:java.lang.ArithmeticException异常: if (!a.equals(BigDecimal…

千年之后再出发,铜官窑驶入微短剧的数字航道

过去一年里,微短剧已经成为走向全民关注、平台扶持、政策引导的“内容新主流”。从市值百亿的爆款平台到走出国门的“短剧出海”,微短剧正在重塑中国数字文化的表达方式与产业结构,也成为各地竞相争夺的“新蓝海”。 就在这样的背景下&#…

数据库管理-第333期 Oracle 23ai:RAC打补丁完全不用停机(20250604)

数据库管理333期 2025-06-04 数据库管理-第333期 Oracle 23ai:RAC打补丁完全不用停机(20250604)1 概念2 要求3 操作流程4 转移失败处理总结 数据库管理-第333期 Oracle 23ai:RAC打补丁完全不用停机(20250604&#xff0…

Trae CN IDE自动生成注释功能测试与效率提升全解析

Trae CN IDE 的自动注释功能可以通过 AI 驱动的代码分析生成自然语言注释,以下是具体测试方法和优势总结: 一、Python 代码注释生成测试 1. 测试环境 IDE:Trae CN IDE(需确认支持 Python)代码示例: def …

软考 系统架构设计师系列知识点之杂项集萃(79)

接前一篇文章:软考 系统架构设计师系列知识点之杂项集萃(78) 第141题 软件测试一般分为两个大类:动态测试和静态测试。前者通过运行程序发现错误,包括()等方法;后者采用人工和计算机…

有公网ip但外网访问不到怎么办?内网IP端口映射公网连接常见问题和原因

有公网IP但外网访问不到的核心原因通常包括:端口未正确映射、防火墙限制、DNS解析问题、运营商端口屏蔽或路由配置错误‌。需依次排查这些关键环节,其中端口映射和防火墙设置是最常见的原因。‌‌ ‌内网IP端口映射公网连接常见问题和原因及解决方案 1…

HttpServletResponse 对象用来做什么?

HttpServletResponse 对象是由 Servlet 容器创建并传递给 Servlet 的 service() 方法(以及间接传递给 doGet(), doPost() 等方法)的。它的核心作用是让 Servlet 能够向客户端(通常是浏览器)发送 HTTP 响应。 通过 HttpServletRes…

FTPS、HTTPS、SMTPS以及WebSockets over TLS的概念及其应用场景

一、什么是FTPS? FTPS,英文全称File Transfer Protocol with support for Transport Layer Security (SSL/TLS),安全文件传输协议,是一种对常用的文件传输协议(FTP)添加传输层安全(TLS)和安全套接层(SSL)加密协议支持的扩展协议。…

前端​​HTML contenteditable 属性使用指南

​​什么是 contenteditable? HTML5 提供的全局属性,使元素内容可编辑类似于简易富文本编辑器兼容性​​ 支持所有现代浏览器(Chrome、Firefox、Safari、Edge) 移动端(iOS/Android)部分键盘行为需测试 &l…

持续领跑中国异地组网路由器市场,贝锐蒲公英再次登顶销量榜首

作为国产远程连接SaaS服务的创领者,贝锐持续引领行业发展,旗下贝锐蒲公英异地组网路由器,凭借出色的技术实力和市场表现,斩获2024年线上电商平台市场销量份额中国第一的佳绩,充分彰显了其在网络解决方案与异地组网领域…