论文介绍
题目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China
期刊:Sustainable cities and society(中科院一区TOP,IF=10.5)
论文:https://doi.org/10.1016/j.scs.2025.106439
代码: https://github.com/whheda/LaRSE
数据:https://zenodo.org/records/15433646
年份:2025
单位:中山大学
注:本篇由论文原作者审阅
研究背景
快速的城市化进程带来了全球建筑数量和功能的剧烈变化,及时准确的调查统计建筑物数量,并在此基础上区分建筑物的用地属性和功能,对于提升空间布局合理性、人类宜居性、城市可持续发展至关重要。
研究问题
-
土地利用分类是实现城市用地功能划分的有效途径,但土地利用分类研究多基于地块尺度,难以满足以建筑物单元为载体的人类活动空间的划分;
-
建筑物足迹提取研究多关注建筑物边缘轮廓,且在遥感俯视图中建筑物视觉特征较为类似,难以推测其功能属性。
如何实现建筑物足迹尺度的属性功能分类?
-
现有解决途径1:建筑物足迹公开产品+分类特征;但依赖已有产品,难以端对端应用。
-
现有解决途径2:将此问题看作多类别语义分割问题;但传统建筑物提取模型多关注边缘轮廓,对功能语义推理能力不足。
-
研究启示
- 不同功能的建筑物之间、建筑物与周围实体之间具有一定的空间分布规律。充分利用空间规律或地学先验,是建筑物功能准确推理的关键。
- 图1. 语言模型中编码的地理实体空间关系的底层机制可以帮助建筑物功能识别任务中的语义推理。
-
创新点
-
1)提出了视觉语言建筑物功能推理模型(LARSE),通过层级视觉编码器提取建筑物局部边缘轮廓和全局上下文嵌入特征,通过语言编码器提取建筑物功能描述嵌入特征,设计多模态推理解码器,综合上述嵌入特征,实现功能推理。
2)在层级视觉编码器中设计了建筑物全局上下文提取模块(BGC)和建筑物局部细节提取模块(BLD),不仅捕捉细粒度的局部建筑物轮廓,还通过聚合建筑物周围视觉线索来形成全局上下文表示,用于后续功能推理。
3)在多模态推理解码器中,通过对齐文本表示、像素级表示和相应的局部掩码,精准学习细粒度的视觉概念。经过训练,推理解码器能够将细粒度的语义信息从语言表示传播到建筑物的局部视觉激活,从而能够精确识别每座建筑物的功能。
-
图2. 建筑物功能推理分割(LARSE)框架。
-
4)构建了一套建筑物功能分类数据集BUFF(BUilding Footprint Function),包含12940张0.5米分辨率的512x512大小的影像及标注,涉及10种建筑物功能类型。
-
图3 BUFF数据集介绍
-
结果与分析
- 本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法,表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力,证明了其结构的通用性与效率。
- 图4 在BUFF数据集上的可视化实验结果
- 语言模型功能推理的可解释性分析:
- 1)本研究的亮点在于利用语言模型强大的语义推理能力识别建筑物功能类型。因此,为了解其可解释性,首先需要探究“经过语言模型编码的建筑物功能描述是否具有指引作用”。本研究使用 t-SNE 可视化了语言模型编码的每个建筑功能描述的特征嵌入,可以发现,相似的建筑功能属性的嵌入向量方向较为一致,而属性功能不同的嵌入向量方向差异较大。例如城中村(urban village)和住宅楼(residential)的嵌入向量方向较为一致,且与酒店(hotel)也较为一致,反映了居住属性;而商业(commercial)和商务(business)的嵌入向量方向较为一致,反映了其经济属性,政府(government)和企事业单位或机构(institution)的嵌入向量方向也较为一致,反映了公共服务属性。因此,建筑功能描述的特征嵌入具有指引作用。
- 图5 通过t-SNE在三维特征空间中可视化由语言模型编码的功能描述嵌入特征
- 2)然后,需要探究“经过建筑物功能语义描述的嵌入向量指引后,模型究竟是如何提升理解和推理能力的?”本研究通过对编码器最深层的attention map进行可视化,利用自注意力机制过程中对全局上下文关联的学习能力,试图寻找模型推理的痕迹。在如图6所示的场景中,我们选取education对应的像素的query q,并可视化其在整个场景上的attention map(即其他所有像素的key k与q相乘得到)。通过观察发现,在有建筑物功能嵌入向量的指引时(w/ language model),education属性与相邻的操场及其绿化树木的注意力强度是最强的,同时,也少量关注到周围的居民楼和其他类型的建筑物;相比之下,在没有建筑物功能嵌入向量的指引时(w/o language model),education属性的建筑物更多的关注到了周围的建筑物上,特别是居民楼上。因此,从最终的w/o language model的结果中可以看到,education building被错误的分类为residential。因此,建筑物功能语义描述的嵌入向量能够指引视觉模型关注到最关键、最具判别性的地物类型或空间模式,从而提升视觉模型对于功能语义的推理能力。
- 图6 注意力图的可视化展示了通过构建函数描述嵌入所指示的相关知识。
- 3)最后,我们从“最终的分类结果中各建筑物功能类型在特征空间的聚集程度”来可视化语言模型的可解释性和贡献。同样,我们使用t-SNE可视化方式,如图7,可以发现,在建筑物功能描述嵌入向量的影响下,相同建筑属性的分布变得更加紧密,从而提高了准确性。例如,在w/o language model的结果中,城中村(urban village)与居民楼(residential)的分布高度混合,而通过语言模型的关系理解,能够实现明显的区分。
- 图7 利用t-SNE可视化建筑功能推理结果中各类型的特征聚集情况。
- 长江经济带区域10个省会城市建筑物功能制图与分析:
- 在长江经济带上海、南京、武汉、成都等10个主要城市进行建筑物功能制图验证和数值统计,发现:
-
1)功能层面的建筑物足迹分布折射出区域经济异质性:LARSE制图结果显示,长江经济带沿线各城市在建筑功能层面存在显著异质性,东西部差异尤为突出性。以上海等城市为例,其建筑占地面积广阔,商业与住宅建筑比例较高,体现出经济发达、城市化程度高;而昆明、贵阳等西南城市因地理与民族多样性等因素,村庄及城中村建筑所占比重较大。由此可见,地理条件与政策导向共同影响城市结构。地理层面上,东部地区凭借优越的区位和完善的交通网络,吸引了大量投资与人口集聚;西部地区则受地形崎岖、交通可达性有限等因素制约。政策层面上,《长江经济带发展规划纲要》强调东西部区域协调发展,注重资源配置与功能布局。
2)功能层面的建筑物足迹分布凸显出基础公共设施区域均衡性:从政府、医疗和教育类建筑在长江经济带沿线城市分布的差异性较小可以看出,尽管经济发展存在不平衡,但基础公共服务设施在区域间分布较为均衡。这与《中共中央国务院关于推进以人为核心的新型城镇化发展的若干意见》中提出的“城乡融合发展”政策有一定关系。该政策通过资源合理配置,推动区域经济协调发展,保障基础公共服务的公平覆盖。
-
图8 对长江经济带区域中的上海、南京、武汉、成都等10个城市进行建筑功能制图和可视化展示。
-
图9 长江经济带足迹尺度建筑物功能统计
-
图10 100米网格的人均医疗服务占有面积。