NeighborGeo:基于neighbors的IP地理定位
X. Wang, D. Zhao, X. Liu, Z. Zhang, T. Zhao, NeighborGeo: IP geolocation based on neighbors, Comput. Netw. 257 (2025) 110896,
Abstract
IP地址定位在网络安全、电子商务、社交媒体等领域至关重要。当前主流的图神经网络方法通过将IP定位任务重构为属性图中的节点回归问题,利用特征对节点之间的连通性进行建模,提高了定位精度。然而,在实际应用中,路标往往是分散的、不规则的,并且容易受到异常值的影响,这使得路标选择和关系学习的不可靠性限制了它们的准确性。为了应对这些挑战,提出了一种基于图结构学习的IP地址定位模型NeighborGeo。该模型采用重参数化和有监督对比学习来精确捕捉和选择性地加强节点之间的特定邻居关系,以优化结构表示。通过准确地捕获和利用邻居,该模型实现了准确的预测。实验结果表明,在纽约、洛杉矶和上海的开源数据集上,NeighborGeo的定位精度明显高于现有方法,特别是在地标分布不均匀的场景下。
1. Introduction
IP地理定位是利用Internet协议(IP)地址确定设备或用户所在位置的过程。该技术被广泛应用于许多不同的领域,如网络安全、定向广告和社交媒体等。在网络安全中,它有助于识别攻击源的精确地理位置,使检测和预防[3]web攻击成为可能。在定向广告中,广告商利用IP地理定位来确定用户的位置,从而可以投放更有针对性的广告,从而提高转化率和投资回报率[4]。而在社交媒体中,平台利用IP地理定位提供地图绘制、位置共享等服务,提高了用户交互[5]。在当今互联网服务中,研究先进的IP定位技术对优化网络服务、加强网络安全具有重要意义。它对商业和安全等行业也具有重大的现实意义[2-5]。
随着地理定位技术的发展,用户可以依靠GPS定位、基站定位和Wi-Fi定位等技术以极高的精度跟踪自己的位置。这种方法通常被称为客户端依赖的IP定位[6-8]。然而,随着用户隐私保护和安全意识的增强,GPS和Wi-Fi模块的授权变得越来越困难。此外,在一些没有额外辅助模块[9]的网络设备上,依赖于客户机的IP定位并不那么成功。因此,与客户端无关的IP定位技术(仅需要IP地址信息)因其明显的优势而被广泛研究。一般来说,IP geolocation更多的是指与客户端无关的IP geolocation[2,10]。客户端无关的IP定位方法分为基于数据的方法、基于测量的方法和基于学习的方法[2]。基于数据的方法依赖于从互联网上收集的相关数据,包括ISP数据、WHOIS信息和webcam数据[9,11]。这些方法操作方便,但其准确性受到更新频率和覆盖范围的限制。基于测量的方法通过运行ping和traceroute[12]等网络测量任务来收集延迟和路由路径的信息。虽然该方法能够适应网络动态变化,但其有效性受到可用网络资源和网络状态的限制。与此同时,基于学习的方法,包括机器学习和深度学习技术,如图神经网络 (GNNs),已成为推动该领域精度提高的前沿技术[13,14]。
在基于学习的IP定位方法中,基于图神经网络的IP定位以其更高的定位粒度和精度而脱颖而出。该方法构建包含网络节点的图模型,分析节点本身及其拓扑连接和相互作用的属性。通过探索特征和地理位置之间的深度联系,基于GNN的方法成为IP地理定位领域最流行的方法[5,15,16]。尽管基于图神经网络的IP定位方法具有显著的理论优势,因为它们可以利用周围的地标进行预测,但准确识别正确的“邻居”仍然是一项具有挑战性的任务。当路标分布均匀密集时,邻居选择变得更加直接,目标和路标之间的关系更加清晰,从而减少邻居选择中的不可靠关系和误差,最终提高定位精度。然而,在实际应用中,landmark往往是分散的、不规则的,并且包含异常值。现有的定位方法在预测过程中经常受到较远的地标的影响,导致在学习过程中对不相邻的地标赋予过多的重要性,显著降低了定位精度。
针对这一现象,分析其具体原因并总结如下:
(1)不可靠的目标-地标关系(Unreliable target-landmark relationships):