论文介绍

题目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China

期刊:Sustainable cities and society(中科院一区TOP,IF=10.5)

论文:https://doi.org/10.1016/j.scs.2025.106439

代码: https://github.com/whheda/LaRSE

数据:https://zenodo.org/records/15433646

年份:2025

单位:中山大学

注:本篇由论文原作者审阅

研究背景

快速的城市化进程带来了全球建筑数量和功能的剧烈变化,及时准确的调查统计建筑物数量,并在此基础上区分建筑物的用地属性和功能,对于提升空间布局合理性、人类宜居性、城市可持续发展至关重要。

研究问题

  • 土地利用分类是实现城市用地功能划分的有效途径,但土地利用分类研究多基于地块尺度,难以满足以建筑物单元为载体的人类活动空间的划分;

  • 建筑物足迹提取研究多关注建筑物边缘轮廓,且在遥感俯视图中建筑物视觉特征较为类似,难以推测其功能属性。

如何实现建筑物足迹尺度的属性功能分类?

  • 现有解决途径1:建筑物足迹公开产品+分类特征;但依赖已有产品,难以端对端应用。

  • 现有解决途径2:将此问题看作多类别语义分割问题;但传统建筑物提取模型多关注边缘轮廓,对功能语义推理能力不足。

  • 研究启示

  • 不同功能的建筑物之间、建筑物与周围实体之间具有一定的空间分布规律。充分利用空间规律或地学先验,是建筑物功能准确推理的关键。
  • 图1. 语言模型中编码的地理实体空间关系的底层机制可以帮助建筑物功能识别任务中的语义推理。
  • 创新点

  • 1)提出了视觉语言建筑物功能推理模型(LARSE),通过层级视觉编码器提取建筑物局部边缘轮廓和全局上下文嵌入特征,通过语言编码器提取建筑物功能描述嵌入特征,设计多模态推理解码器,综合上述嵌入特征,实现功能推理。

    2)在层级视觉编码器中设计了建筑物全局上下文提取模块(BGC)和建筑物局部细节提取模块(BLD),不仅捕捉细粒度的局部建筑物轮廓,还通过聚合建筑物周围视觉线索来形成全局上下文表示,用于后续功能推理。

    3)在多模态推理解码器中,通过对齐文本表示、像素级表示和相应的局部掩码,精准学习细粒度的视觉概念。经过训练,推理解码器能够将细粒度的语义信息从语言表示传播到建筑物的局部视觉激活,从而能够精确识别每座建筑物的功能。

  • 图2. 建筑物功能推理分割(LARSE)框架。

  • 4)构建了一套建筑物功能分类数据集BUFF(BUilding Footprint Function),包含12940张0.5米分辨率的512x512大小的影像及标注,涉及10种建筑物功能类型。

  • 图3 BUFF数据集介绍

  • 结果与分析

  • 本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法,表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力,证明了其结构的通用性与效率。
  • 图4 在BUFF数据集上的可视化实验结果
  • 语言模型功能推理的可解释性分析:
  • 1)本研究的亮点在于利用语言模型强大的语义推理能力识别建筑物功能类型。因此,为了解其可解释性,首先需要探究“经过语言模型编码的建筑物功能描述是否具有指引作用”。本研究使用 t-SNE 可视化了语言模型编码的每个建筑功能描述的特征嵌入,可以发现,相似的建筑功能属性的嵌入向量方向较为一致,而属性功能不同的嵌入向量方向差异较大。例如城中村(urban village)和住宅楼(residential)的嵌入向量方向较为一致,且与酒店(hotel)也较为一致,反映了居住属性;而商业(commercial)和商务(business)的嵌入向量方向较为一致,反映了其经济属性,政府(government)和企事业单位或机构(institution)的嵌入向量方向也较为一致,反映了公共服务属性。因此,建筑功能描述的特征嵌入具有指引作用。
  • 图5 通过t-SNE在三维特征空间中可视化由语言模型编码的功能描述嵌入特征
  • 2)然后,需要探究“经过建筑物功能语义描述的嵌入向量指引后,模型究竟是如何提升理解和推理能力的?”本研究通过对编码器最深层的attention map进行可视化,利用自注意力机制过程中对全局上下文关联的学习能力,试图寻找模型推理的痕迹。在如图6所示的场景中,我们选取education对应的像素的query q,并可视化其在整个场景上的attention map(即其他所有像素的key k与q相乘得到)。通过观察发现,在有建筑物功能嵌入向量的指引时(w/ language model),education属性与相邻的操场及其绿化树木的注意力强度是最强的,同时,也少量关注到周围的居民楼和其他类型的建筑物;相比之下,在没有建筑物功能嵌入向量的指引时(w/o language model),education属性的建筑物更多的关注到了周围的建筑物上,特别是居民楼上。因此,从最终的w/o language model的结果中可以看到,education building被错误的分类为residential。因此,建筑物功能语义描述的嵌入向量能够指引视觉模型关注到最关键、最具判别性的地物类型或空间模式,从而提升视觉模型对于功能语义的推理能力。
  • 图6 注意力图的可视化展示了通过构建函数描述嵌入所指示的相关知识。
  • 3)最后,我们从“最终的分类结果中各建筑物功能类型在特征空间的聚集程度”来可视化语言模型的可解释性和贡献。同样,我们使用t-SNE可视化方式,如图7,可以发现,在建筑物功能描述嵌入向量的影响下,相同建筑属性的分布变得更加紧密,从而提高了准确性。例如,在w/o language model的结果中,城中村(urban village)与居民楼(residential)的分布高度混合,而通过语言模型的关系理解,能够实现明显的区分。
  • 图7 利用t-SNE可视化建筑功能推理结果中各类型的特征聚集情况。
  • 长江经济带区域10个省会城市建筑物功能制图与分析:
  • 在长江经济带上海、南京、武汉、成都等10个主要城市进行建筑物功能制图验证和数值统计,发现:
  • 1)功能层面的建筑物足迹分布折射出区域经济异质性:LARSE制图结果显示,长江经济带沿线各城市在建筑功能层面存在显著异质性,东西部差异尤为突出性。以上海等城市为例,其建筑占地面积广阔,商业与住宅建筑比例较高,体现出经济发达、城市化程度高;而昆明、贵阳等西南城市因地理与民族多样性等因素,村庄及城中村建筑所占比重较大。由此可见,地理条件与政策导向共同影响城市结构。地理层面上,东部地区凭借优越的区位和完善的交通网络,吸引了大量投资与人口集聚;西部地区则受地形崎岖、交通可达性有限等因素制约。政策层面上,《长江经济带发展规划纲要》强调东西部区域协调发展,注重资源配置与功能布局。

    2)功能层面的建筑物足迹分布凸显出基础公共设施区域均衡性:从政府、医疗和教育类建筑在长江经济带沿线城市分布的差异性较小可以看出,尽管经济发展存在不平衡,但基础公共服务设施在区域间分布较为均衡。这与《中共中央国务院关于推进以人为核心的新型城镇化发展的若干意见》中提出的“城乡融合发展”政策有一定关系。该政策通过资源合理配置,推动区域经济协调发展,保障基础公共服务的公平覆盖。

  • 图8 对长江经济带区域中的上海、南京、武汉、成都等10个城市进行建筑功能制图和可视化展示。

  • 图9 长江经济带足迹尺度建筑物功能统计

  • 图10 100米网格的人均医疗服务占有面积。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/907512.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/907512.shtml
英文地址,请注明出处:http://en.pswp.cn/news/907512.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【软件】navicat 官方免费版

Navicat Premium Lite https://www.navicat.com.cn/download/navicat-premium-lite

每个路由器接口,都必须分配所属网络内的 IP 地址,用于转发数据包

在IP网络中,主机(Host)和路由器接口(Router Interface)都需要分配网络地址(IP地址)。 1. 主机(Host)的IP地址分配 (1) 作用 主机的IP地址用于唯一标识该设备&#xff0…

鸿蒙OSUniApp页面切换动效实战:打造流畅精致的转场体验#三方框架 #Uniapp

UniApp页面切换动效实战:打造流畅精致的转场体验 引言 在移动应用开发中,页面切换动效不仅能提升用户体验,还能传达应用的品质感。随着HarmonyOS的普及,用户对应用的动效体验要求越来越高。本文将深入探讨如何在UniApp中实现流畅…

Tesseract OCR 安装与中文+英文识别实现

一、下载 https://digi.bib.uni-mannheim.de/tesseract/ 下载,尽量选择时间靠前的(识别更好些)。符合你的运行机(我的是windows64) 持续点击下一步安装,安装你认可的路径即可,没必要配置环境变…

Visual Studio 2022 发布独立的 exe 文件

我们在用 Visual Studio 2022 写好一个 exe 程序之后,如果想把这个拿到其他地方运行,需要把 exe 所在的文件夹一起拿过去。 编译出来的 exe 文件需要其他几个文件一同放在同一目录才能运行,原因在于默认情况下,Visual Studio 是把…

Kotlin-特殊类型

文章目录 数据类型枚举类型匿名类和伴生对象单例类伴生对象 数据类型 声明一个数据类非常简单: //在class前面添加data关键字表示为一个数据类 data class Student(var name: String, var age: Int)数据类声明后,编译器会根据主构造函数中声明的所有属性自动为其生成以下函数…

在线博客系统【测试报告】

🕒 一. 项目背景 由于纸质笔记容易丢失,携带不变,为了方便自己学习的过程中记录笔记,特开发了这个博客系统。这个系统后端采用 SpringBoot MyBatis SpringMVC ;前端使用Html CSS JS;数据库使用的是Mysq…

每日刷题c++

快速幂 #include <iostream> using namespace std; #define int long long int power(int a, int b, int p) {int ans 1;while (b){if (b % 2){ans * a;ans % p; // 随时取模}a * a;a % p; // 随时取模b / 2;}return ans; } signed main() {int a, b, p;cin >> a …

Python中的变量、赋值及函数的参数传递概要

Python中的变量、赋值及函数的参数传递概要 python中的变量、赋值 python中的变量不是盒子。 python中的变量无法用“变量是盒子”做解释。图说明了在 Python 中为什么不能使用盒子比喻&#xff0c;而便利贴则指出了变量的正确工作方式。 如果把变量想象为盒子&#xff0c;那…

KVM 安装 Ubuntu 22

在 KVM 中安装 Ubuntu 22 虚拟机。 首先创建硬盘文件 sudo qemu-img create -f qcow2 /app/vms/ubuntu22.qcow2 100G安装Ubuntu 22 sudo virt-install \--name ubuntu22 \--ram 4096 \--vcpus 2 \--disk path/app/vms/ubuntu22.qcow2,formatqcow2 \--os-type linux \--os-va…

基于生产-消费模式,使用Channel进行文件传输(Tcp方式)

Client端&#xff1a; #region 多文件传输 public class FileMetadata {public string FileName { get; set; }public long FileSize { get; set; } }class Program {const int PORT 8888;const int BUFFER_SIZE 60 * 1024 * 1024;//15s-50 25s-64 33s-32 27s-50 31s-40 25…

【后端高阶面经:Elasticsearch篇】39、Elasticsearch 查询性能优化:分页、冷热分离与 JVM 调优

一、索引设计优化:构建高效查询的基石 (一)分片与副本的黄金配置 1. 分片数量计算模型 # 分片数计算公式(单分片建议30-50GB) def calculate_shards(total_data_gb, single_shard_gb=30):return max

学习路之PHP--easyswoole3.3安装入门

学习路之PHP--easyswoole安装入门 一、安装swoole扩展二、安装easyswoole三、指定PHP版本安装四、启动swoole五、EasySwoole的入门学习如果报&#xff1a;not controller class match 六、学习推荐&#xff1a; 0、centos 7、php7.2.33、easyswoole 3.3 一、安装swoole扩展 二、…

Ad Hoc

什么是 Ad Hoc&#xff1f; Ad hoc 一词源于拉丁语&#xff0c;意为“为此目的”或“为此特定原因”。一般来讲&#xff0c;它指的是为解决某一特定问题或任务&#xff08;而非为了广泛重复应用&#xff09;而设计的行动、解决方案或组合。在加密货币和区块链领域&#xff0c;…

Lines of Thought in Large Language Models

Lines of Thought in Large Language Models 《Lines of Thought in Large Language Models》(大语言模型中的思维链)聚焦于分析大语言模型(LLMs)在生成文本时,其内部向量轨迹的统计特性。 核心目标是揭示LLMs复杂的“思维过程”(即文本生成时的隐藏状态变化)能否被简…

npm/yarn/pnpm安装时Sharp模块报错解决方法

在安装依赖模块时&#xff0c;npm/yarn/pnpm安装时Sharp模块报错解决方法。 打开源代码发现&#xff1a;使用的下载地址是github地址&#xff0c;就是因为国内经常无法访问github造成的。 解决办法&#xff1a; 把涉及到的下载包设置不要从github上下载&#xff0c;设置成淘宝…

基于CEEMDAN-Transformer-BiLSTM的多特征风速气候预测的完整实现方案及PyTorch源码解析

基于CEEMDAN-Transformer-BiLSTM的多特征风速气候预测的完整实现方案及PyTorch源码解析 一、模型架构设计 1.1 整体框架 该模型采用三级架构设计&#xff08;图1&#xff09;&#xff1a; CEEMDAN分解层&#xff1a;对非平稳风速序列进行自适应分解多模态特征融合模块&#…

ubuntu24.04启用fcitx 5

在ubuntu24.04中启用fcitx 5 ubuntu24.04系统自带三种键盘输入法系统&#xff1a; IBusFcitx 5XIM 系统默认使用的是IBus,这个拼音输入少了一些智能的味道&#xff0c;比较影响输入体验。换用Fcitx 5后&#xff0c;加上搜狗细胞词库&#xff0c;感觉很丝滑&#xff0c;特记录…

【HTML/CSS面经】

HTML/CSS面经 HTML1. script标签中的async和defer的区别2. H5新特性&#xff08;1 标签语义化&#xff08;2 表单功能增强&#xff08;3 音频和视频标签&#xff08;4 canvas和svg绘画&#xff08;5 地理位置获取&#xff08;6 元素拖动API&#xff08;7 Web Worker&#xff08…

Dolphin文档解析从理论到实践——保姆级教程

论文&#xff1a;https://arxiv.org/abs/2505.14059 代码&#xff1a;github.com/bytedance/Dolphin 2025年5月&#xff0c;字节开源了文档解析Dolphin&#xff0c;让文档解析效率提升83%。本文将深入解析字节跳动最新开源的Dolphin模型&#xff0c;先看理论再实战体验。 现实…