摘要  
遥感技术已成为理解环境动态、城市规划和灾害管理的关键。然而,传统的遥感工作流程通常依赖显式分割或检测方法,这些方法难以处理需要对空间上下文、领域知识和隐含用户意图进行推理的复杂隐式查询。受此启发,我们提出了一项新任务——地理空间像素推理,该任务允许隐式查询和推理,并生成目标区域的掩码。为推进这一任务,我们构建并发布了首个大规模基准数据集——EarthReason,其中包含5,434个手动标注的图像掩码以及超过30,000个隐式问答对。此外,我们提出了一种简单但有效的语言引导分割基线——SegEarth-R1,该方法集成了分层视觉编码器、大型语言模型(LLM)用于指令解析,以及一个专门为空间相关性设计的掩码生成器。SegEarth-R1设计中结合了领域特定的改进,包括积极的视觉标记压缩以处理超高分辨率遥感图像、描述投射模块以融合语言和多尺度特征,以及简化的掩码预测管道直接查询描述嵌入。大量实验表明,SegEarth-R1在推理和参考分割任务上均实现了最先进的性能,显著优于传统和基于LLM的分割方法。我们的数据和代码将发布在:https://github.com/earth-insights/SegEarth-R1。

图1:语义分割、指代分割和地理空间像素推理的比较。(左)来自LoveDA [67]和RRSIS-D [40]数据集的示例。(右)来自EarthReason数据集的示例。之前的任务受到固定分类体系和显式指令的限制,而地理空间像素推理支持复杂的隐式指令,并要求模型具备推理能力。

1 引言  

通过遥感进行地球观测已成为现代地理空间分析的基石,能够以前所未有的深度洞察环境动态、城市规划和灾害管理 [56, 45]。卫星和航空影像为监测从森林砍伐模式到海岸侵蚀等行星尺度的现象提供了独特的视角。然而,将这些原始像素数据转换为可操作的洞见不仅需要传统的计算机视觉技术,还需要能够推测空间语境、领域知识和隐含用户意图的模型。传统的遥感工作流程主要依赖于显式任务,例如语义分割和指向分割 [44, 8, 85],这些任务在固定分类法中操作,并需要精确的用户指令。虽然这些方法在明确场景中效果显著,但在处理复杂的隐含查询方面则显得力不从心。例如,根据坡度、植被覆盖和基础设施的接近程度识别山体滑坡高风险区域。这类任务要求对异构空间模式、对象关系以及环境元数据进行隐含推理,超出了标准分割或检测管线的能力范围。  
受到这一问题的启发,我们提出了一个新任务,即地理空间像素推理,允许隐含查询和推理,并生成目标区域的掩膜。为了支持这一任务的研究,我们构建并发布了首个大规模基准数据集,称为EarthReason,该数据集包含来自多种分类来源的5,434对手动标注的遥感图像与掩码配对,涵盖28种场景类别,空间分辨率范围从0.5米到153米不等。每张图像都与多个隐性推理问题配对,这些问题要求模型基于背景和领域特定知识推导目标掩码,而非依据显性物体名称。此外,通过加入空目标情况和不同的空间尺度,EarthReason促进模型在复杂的实际遥感场景中进行泛化。 近年来,多模态大语言模型(MLLMs)在自然图像领域中表现出了令人印象深刻的性能,像LISA [26] 和 PixelLM [55]这样的模型利用大语言模型(LLMs) [62, 7, 79] 来解释丰富的文本提示并生成像素级输出。这些框架在诸如推理分割 [26] 等任务中表现出色,此类任务的目标掩码不是直接指定的,而是需要从细微的语言提示中推断出。然而,将这些方法直接转移到地理空间像素推理任务并不简单,因为遥感图像呈现出极端的尺度变化、高密度小物体分布以及超高分辨率,这些特性违背了自然图像的假设。此外,与自然图像不同,遥感查询通常需要空间相关性。例如,识别“非正式定居点”需要检测屋顶材料的不规则性、道路网络的碎片化以及与合法土地使用区域的空间邻接性。 为了解决这些挑战,我们提出了SegEarth-R1,这是一个简单但有效的语言引导分割模型,它集成了分层视觉编码器、用于指令解析的大语言模型(LLM)和为空间相关性设计的定制掩码生成器。此外,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97119.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97119.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/97119.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CRMEB标准版PHP移动应用微信开放配置及商城后台配置教程(附步骤)

APP配置内容主要围绕微信开放平台里的移动应用来配置;开发平台地址为:https://open.weixin.qq.com/ 1. 登录开发平台创建【移动应用】点击创建移动应用 2. 进入创建页面后根据页面提示填写对应信息 在是否上架的地方可以先选择否; 3.填写平台信息 根据自身需求勾选…

jQuery 从入门到实践:基础语法、事件与元素操作全解析

个人主页:♡喜欢做梦 欢迎 👍点赞 ➕关注 ❤️收藏 💬评论 目录 ​编辑 ⛅️定义 🍓引入依赖 ​编辑⛅️语法 🍑基础语法 🍑选择器 🍑jQuery事件 ⛅️操作 🍐添加操作…

野火STM32Modbus主机读取寄存器/线圈失败(二)-解决CRC校验错误

文章目录前情提要问题背景CRC校验失败问题现象原始问题数据问题分析1. CRC校验算法验证2. 手动计算验证问题解决思路问题解决根本原因解决方式1解决方式2重新编译测试前情提要 在自己的开发板上移植了野火的modbus主机程序并尝试使用。 问题背景 我使用STM32显示板作为Modbu…

从协作机器人到智能协作机器人:工业革命的下一跳

从协作机器人到智能协作机器人:工业革命的下一跳 文章目录从协作机器人到智能协作机器人:工业革命的下一跳摘要1️⃣ 协作机器人(Cobot):工业柔性化的催化剂核心特点典型应用2️⃣ 智能机器人:赋予机器“思…

49个Docker自动化脚本:覆盖全场景运维,构建高可用容器体系

一、容器生命周期管理(1-25):从创建到自愈的全流程自动化 1. 自动化容器创建脚本(可复用配置) 适用场景:快速创建标准化容器(如Nginx、Redis),无需重复编写docker run命令…

Linux(二) | 文件基本属性与链接扩展

个人主页-爱因斯晨 文章专栏-Linux 最近学习人工智能时遇到一个好用的网站分享给大家: 人工智能学习 文件属性 看懂文件属性 在Linux中我们可以使用ll或者ls-l命令来显示一个文件的属性以及文件所属的用户和组。如: rootVM-24-17-ubuntu:~# cd / rootV…

MaxCompute MaxFrame | 分布式Python计算服务MaxFrame(完整操作版)

MaxCompute MaxFrame评测 | 分布式Python计算服务MaxFrame(完整操作版)前言MaxCompute MaxFrame服务开通开通 MaxCompute 服务开通 DataWorks 服务资源准备创建 DataWorks 工作空间创建 MaxCompute 项目创建MaxCompute数据源绑定数据源或集群创建MaxComp…

[机械结构设计-48]:机械工程师的岗位要求

机械工程师的岗位要求涵盖学历、专业知识、技能水平、工作经验、软件应用、综合能力、沟通协作、职业规范与持续学习等多个维度,具体如下:学历要求:通常要求本科及以上学历,专业背景为机械工程、自动化、材料工程等相关专业。部分…

3446. 按对角线进行矩阵排序

Problem: 3446. 按对角线进行矩阵排序 文章目录思路解题过程复杂度Code思路 发现每条对角线行号减列号是一个定值。 设ki-jn,i0,jn-1时,k1;im-1,j0时,kmn-1。 解题过程 遍历对角线,找出最小和最大列&#x…

疯狂星期四文案网第53天运营日记

网站运营第53天,点击观站: 疯狂星期四 crazy-thursday.com 全网最全的疯狂星期四文案网站 运营报告 今日访问量 必应的关键词排名还可以,自然流量过来的创新高了,这周没有掘金大佬给我宣传,全是自然流量过来的 今日…

【Docker基础】Docker-compose进阶配置:环境变量与配置隔离完全指南

目录 前言 1 Docker-compose环境变量基础 1.1 环境变量的作用与优势 1.2 环境变量的作用范围 2 .env文件的核心用法 2.1 .env文件基础语法 2.2 变量引用与替换 2.3 多环境配置策略 3 高级配置技巧 3.1 环境变量优先级 3.2 条件配置与模板 3.3 安全实践 4 案例&…

习题答案 |《数据结构(C语言版第4版)》人民邮电出版社,李云清杨庆红等,2023年8月

李云清杨庆红等,《数据结构(C语言版第4版)》,人民邮电出版社,2023年8月 上海电力大学2025年专升本上岸学长经验分享(普通考生)-免费赠送25年电力考试真题!!!…

Chrome紧急修复AI发现的ANGLE高危漏洞CVE-2025-9478

近日,谷歌为Chrome稳定版发布关键安全更新,修复了ANGLE(支撑WebGL及其他渲染任务的图形引擎)中的释放后重用(use-after-free)漏洞。该漏洞编号为CVE-2025-9478,于2025年8月11日被发现——发现者…

8.28作业

1.提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数#include <iostream>using namespace std;int main() {string buf;cout << "输入字符串" << endl;getline(cin,buf);int capital 0,lower…

copy-to-clipboard 网站复制粘贴 三分钟入门

目录 一、介绍和安装 &#xff08;1&#xff09;介绍 &#xff08;2&#xff09;安装 二、示例 &#xff08;1&#xff09;示例效果演示 &#xff08;2&#xff09;示例视频演示 &#xff08;3&#xff09;示例代码 一、介绍和安装 &#xff08;1&#xff09;介绍 copy…

Python 多版本环境治理理念驱动的系统架构设计——三维治理、四级隔离、五项自治 原则(路径治理升级修订 V 2.0 版)

Python 多版本环境治理理念驱动的系统架构设计 ——三维治理、四级隔离、五项自治 原则&#xff08;路径治理升级修订 V 2.0 版&#xff09; Python 多版本环境治理理念驱动的系统架构设计&#xff1a;三维治理、四级隔离、五项自治 原则 V1.0 版 &#x1f4da; 系列文章导航 …

Ubuntu Server 快速部署长安链:基于 Go 的智能合约实现商品溯源

文章目录简介智能合约语言智能合约上链管理开发环境准备长安链官网官方源码仓库官方文档官方 Docker 镜像仓库部署管理平台登录管理平台快速生成证书新建区块链链配置文件订阅长安链项目编译打包&#xff08;商品溯源示例&#xff09;部署合约编辑合约上链管理生产商品运输商品…

德克西尔氢气探测器:工业安全守护核心

​ ​引言&#xff1a;氢气泄漏隐患下&#xff0c;谁来守住工业安全防线&#xff1f; 2024年某化工园区因氢气管道阀门老化&#xff0c;泄漏气体未及时被检测&#xff0c;遇静电引发小型爆炸&#xff0c;造成设备损毁与停产损失——这类事故在新能源、化工、冶金等依赖氢气的…

电商高并发稳赢指南:ZKmall开源商城微服务架构的实战拆解

在电商行业&#xff0c;高并发场景&#xff08;如秒杀活动、节日大促&#xff09;对系统稳定性的考验尤为严峻。据阿里云 2024 年电商技术白皮书显示&#xff0c;采用微服务架构的电商系统在峰值流量下的稳定性比单体架构高 4.2 倍&#xff0c;故障恢复时间缩短 75%。ZKmall 开…

搜维尔科技核心产品矩阵涵盖从硬件感知到软件渲染的全产品供应链

在虚拟现实&#xff08;VR&#xff09;技术加速渗透至人因工程、生物力学、拟态环境及XR仿真现实等多学科交叉领域的背景下&#xff0c;我司与恒挚科技展开交流合作&#xff0c;双方将依托我司在动作捕捉、力反馈设备及实时渲染软件等领域的全栈技术积累&#xff0c;共同开拓沉…