如今人工智能(AI)和大模型训练的蓬勃发展,大规模AI算力集群(智算集群)已成为关键基础设施。这类集群对网络性能,特别是高吞吐、低延迟和无损特性有着严苛要求,RoCE因此被广泛应用。然而,在支撑智算集群的主流Clos组网架构下,传统的ECMP路由机制存在天然的局限性,容易引发哈希极化问题,成为制约集群整体性能的瓶颈。本文将探讨哈希极化的成因、影响,并介绍一种通过主动路径规划(PPD)来优化网络配置、提升性能的解决方案。

应对智算集群哈希极化:主动路径规划(PPD)配置方案

在支撑大规模AI算力(智算)集群的网络架构中,Clos架构因其高扩展性和冗余性被广泛采用。在此架构下,各交换节点基于常规的ECMP(等价多路径)路由机制(分布式运行、自我决策转发)运行时,往往难以充分感知全局网络状态。这一局限容易导致在多层组网中出现哈希(HASH)极化现象,即流量分布严重不均。这种不均衡会显著拖慢智算集群的整体性能,成为规模化部署的痛点。

什么是哈希极化?

哈希极化(也称哈希不均),其根本原因在于哈希算法的一致性与网络拓扑结构及流量模式特性之间的复杂相互作用。

  • 算法一致性: 网络设备(交换机和路由器)通常使用相同或高度相似的哈希算法,并基于标准输入参数(如五元组:源/目的IP、源/目的端口、协议)进行路径选择。
  • 流量特征集中: 当网络中大量数据流具有相似特征(例如,大量流共享相同的源IP或目的IP),而这些特征恰好是哈希算法的主要输入时,这些相似的流就极有可能被哈希到相同的路径上,而非均匀分布到所有等价路径。
  • 多层叠加效应: 在多层Clos架构(如Leaf-Spine)中,流量需要穿越多个ECMP层。例如,在Leaf层被初步“打散”的流量,经过Spine层转发时,可能因相同的哈希逻辑再次被集中到更少量的下行链路上,加剧极化现象。
  • 大流主导: 流量模式本身由少数大流量(Elephant Flows)主导时,也会显著放大哈希极化的负面影响。

主动路径规划配置逻辑

在不引入复杂动态负载均衡技术的前提下,我们可以通过增加参与哈希计算的因子以及主动规划流量路径的策略,来有效应对AI算力集群规模化部署中的负载均衡和租户隔离等挑战。这种主动路径规划需要网络工程师在RoCE交换机上配置以下转发策略:

1. Leaf层上行流量策略路由:智算服务器每张网卡对应一个Leaf交换机下行接口,服务器产生的、需要跨Spine传输的上行流量,由Leaf交换机基于策略路由判定并转发给指定的Spine交换机。端口映射规则:

  • 1:1无收敛: Leaf交换机的每个下行端口绑定一个固定的上行端口(连接Spine)。
  • n:1收敛: 下行端口与上行端口按倍数关系(向上取整)形成n:1的映射,确保流量按规划路径上行。

2. Spine层标准L3转发:

  • 跨Spine的上行流量在Spine层按照标准的三层路由逻辑进行转发。
  • 设计考量: 在典型的智算“轨道”(POD)组网中,大部分流量局限于轨道内部传输,跨轨道流量比例较小。因此,网络方案可优先解决Leaf层极化问题,Spine层拥塞风险暂不作为主要考量。

3. Leaf层下行流量默认路由:跨Spine的下行流量到达Leaf交换机后,依据默认路由表进行转发。3

然而,完全依赖手动命令行方式将上述复杂的配置逻辑下发到集群所有交换机上,不仅操作极其繁琐耗时,还极易引入配置错误,增加运维风险和成本。

借助 EasyRoCE PPD 工具简化配置

为加速智算场景下的路由优化配置,我们此前推出了 PPD工具(主动路径规划器,Proactive Path Definer) 的1.0版本。经过实践验证和持续优化,PPD现已升级至功能更强大、操作更便捷的2.0版本。作为EasyRoCE工具套件的核心组件之一,PPD 2.0可独立运行于服务器,也能以代码形式集成到第三方管理平台中。其主要运行流程如下:

  • 1. 读取网络配置: 自动从 AID工具(AI基础设施蓝图规划器,AI Infrastructure Descriptor) 中获取网络基础配置信息。
  • 2. 生成路由配置: 运行PPD工具,依据预设的主动路径规划逻辑,自动生成所需的交换机路由配置文件。
  • 3. 审核与下发: 生成的配置文件自动呈现在 UG工具(统一监控面板,Unified Glancer) 中。管理员可在线核对配置详情,确认无误后一键批量下发至目标设备。

EasyRoCE Toolkit 简介:

星融元EasyRoCE Toolkit基于开源、开放的网络架构与技术,专为AI智算、超算等场景的RoCE网络设计,提供一键配置RoCE、高精度流量监控、主动路径规划(PPD)等一系列实用特性与工具,显著简化高性能网络部署与管理。所有功能对签约客户免费开放。

PPD 2.0 核心升级点

相较于前代,PPD 2.0 实现了显著的功能与体验提升:

  • 无缝对接AID: 全面优化与AID工具的集成流程,实现网络基础信息(如GPU服务器网卡IP、交换机互联关系及IP)的自动化填充,极大减少手动输入。
  • 增强可视化与可操作性: 优化图形界面操作体验,配置下发进度和结果实时可视化展示,管理员能快速定位并排查下发异常。
  • 深度集成UG面板: 自动将生成的配置信息及状态集成到统一监控面板(UG),与其他RDMA网络配置信息集中展示和管理,提供一站式运维视图。

使用演示

第一步:导入基础网络信息

  • AID工具作为PPD的“数据源”,其专用工作表存储了PPD所需的所有网络基础信息(GPU服务器网卡IP、交换机互联IP等),支持一键自动填充。
  • 工作表还预留了多租户网络配置相关字段(如InstanceID, Description),管理员可按需填写,便于后续精细化管理。

第二步:运行PPD生成路由配置

  • 将PPD工具包上传至管理服务器并解压。
  • 运行 start_ppd.sh 命令启动PPD工具。

第三步:审核与下发配置

  • 所有主动路由规划信息自动同步至UG面板。管理员登录UG,进入PPD工具界面。
  • 点击左上角配置生成按钮,查看PPD为各设备生成的配置文件(XXXX.cfg)。管理员可详细检查配置内容进行二次核对。
  • 勾选目标设备和配置文件,点击上方批量下发按钮,工具将自动执行配置下发。
  • 下发完成后,界面实时展示各设备配置结果(成功/失败)。对于失败设备,提供明确的报错信息,管理员排障后可尝试重新下发。

图:EasyRoCE-PPD 工具界面概览

【更多详细内容,请访问星融元官网 开放网络的先行者和推动者- 星融元Asterfusion 官网】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90332.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90332.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90332.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue工程化 ElementPlus

一、Vue工程化1、环境准备create-vue是Vue官方提供的最新的脚手架工具,用于快速生成一个工程化的Vue项目。提供了以下功能:统一的目录结构本地调试热部署单元测试集成打包上线依赖环境:Node JS 是一个免费、开源、跨平台的JavaScript运行时环…

深入解析TCP:可靠传输的核心机制与实现逻辑

Linux 系列 文章目录Linux 系列前言一、TCP协议的概念1.1 TCP协议的特点1.2 TCP又叫做传输控制协议二、TCP协议段格式2.1、TCP的流量控制----------窗口大小(16位)2.2 TCP的确认应答机制2.2.1 什么是确认应答机制2.2.2 确认应答机制的优化2.3 超时重传机…

通缩浪潮中的 “测量防线”:新启航如何用国产 3D 白光干涉仪筑牢半导体成本护城河?

一、通缩浪潮下半导体行业的成本困局在通缩浪潮冲击下,半导体行业面临市场需求疲软、产品价格下滑的严峻挑战。为维持竞争力,降低生产成本成为企业生存发展的关键。而 3D 白光干涉仪作为半导体晶圆检测、制程监控的核心设备,传统进口产品价格…

[网安工具] 自动化威胁检测工具 —— D 盾 · 使用手册

🌟想了解其它网安工具?看看这个:[网安工具] 网络安全工具管理 —— 工具仓库 管理手册 D盾防火墙D盾,D盾_防火墙,D盾_IIS防火墙,D盾_web查杀,IIS防火墙,webshell查杀,https://www.d99net.net/ 0x01:D 盾 —— 工具简介 D 盾防火…

Spring AI 系列之二十二 - ImageModel

之前做个几个大模型的应用,都是使用Python语言,后来有一个项目使用了Java,并使用了Spring AI框架。随着Spring AI不断地完善,最近它发布了1.0正式版,意味着它已经能很好的作为企业级生产环境的使用。对于Java开发者来说…

Redis集群高可用与性能优化实战指南

Redis集群高可用与性能优化实战指南 一、业务场景描述 在大型分布式系统中,Redis不仅承担缓存职责,还常用于限流、排行榜、会话管理等高并发场景。随着访问量的激增和集群规模的扩展,如何保证Redis服务的高可用性与高性能,成为后端…

基于SpringBoot+Vue的高校特长互助系统(WebSocket实时聊天、协同过滤算法、ECharts图形化分析)

“ 🎈系统亮点:WebSocket实时聊天、协同过滤算法、ECharts图形化分析”01系统开发工具与环境搭建前后端分离架构项目架构:B/S架构运行环境:win10/win11、jdk17前端:技术:框架Vue.js;UI库&#x…

于纵横交错的矩阵间:二维数组与多维数据的默契和鸣

大家好啊,我是小象٩(๑ω๑)۶ 我的博客:Xiao Xiangζั͡ޓއއ 很高兴见到大家,希望能够和大家一起交流学习,共同进步。* 接着上节课的内容,这一节我们来学习二维数组,学习二维数组的概念和创建,明白二维数组的初始化,学会不完全初始化,完全初始化,按照行初始化的…

SHA-3算法详解

SHA-3(Secure Hash Algorithm 3)是美国国家标准与技术研究院(NIST)于 2015 年发布的新一代密码哈希算法标准,其核心基于比利时密码学家团队设计的Keccak 算法。SHA-3 的诞生旨在应对 SHA-1 和 SHA-2 系列算法可能面临的…

前端笔记:同源策略、跨域问题

只有前端才会有跨域问题后端不受限制 一、什么是“同源策略”(Same-Origin Policy) ✅ 定义: 浏览器的 同源策略 是一种 安全机制,限制一个源的 JavaScript 访问另一个源的资源,以防止恶意网站窃取用户敏感信息。 ✅ “…

java通过com进行pdf转换docx丢失

使用,通过com调用,发现pdf转换成docx后,没有看到docx输出到指定目录。直接说解决方案:关闭的保护模式即可,打开工具,编辑->首选项 找到安全性(增强),关闭启动时启用保护模式关闭后,docx正常输…

SQL基础⑫ | 视图篇

0 序言 本文将系统讲解数据库中视图的相关知识,包括视图的定义、作用、创建(单表、多表、基于视图创建)、查看、更新、修改与删除操作,以及视图的优缺点。 通过学习,你能够掌握视图的基本概念,理解何时及如…

移动云×华为昇腾:“大EP+PD分离”架构实现单卡吞吐量跨越式提升!

在面向下一代AI基础设施的关键技术攻关中,移动云与华为昇腾计算团队深度协同,实现了大模型推理引擎的架构级突破。双方基于昇腾AI基础软硬件平台,针对DeepSeek大模型完成了大规模专家并行(Expert Parallelism,简称“大…

配电自动化终端中电源模块的设计

配电自动化终端中电源模块的设计 引言 配电终端设备的可靠性和自动化程度,直接影响到整个配电自动化系统的可靠性和自动化水平。由于配电终端设备一般安装于户外或比较偏僻的地方,不可能有直流电源提供,因此,配电网终端设备的直流供电方式成为各配网自动化改造中必须要研究…

性能测试-groovy语言1

课程:B站大学 记录软件测试-性能测试学习历程、掌握前端性能测试、后端性能测试、服务端性能测试的你才是一个专业的软件测试工程师 Jmeter之Groovy语言Groovy简介为何性能测试中选择Groovywindows下载Groovy进入官网配置环境变量Groovy的数据类型groovy的保留字字符…

天邑TY1613_S905L3SB_安卓9-高安非-高安版-通刷-TTL线刷固件包

天邑TY1613_S905L3SB_安卓9-高安非-高安版-通刷-TTL线刷固件包刷机说明:本固件为TTL刷机方式,需要准备如下工具;电烙铁TTL线刷机优盘TTL接触点位于处理器左侧,从上往下数第二脚GND、3TXD、4RXD跑码工具-【工具大全】-putty跑码工具…

【硬件-笔试面试题】硬件/电子工程师,笔试面试题-7,(知识点:晶体管放大倍数计算)

目录 1、题目 2、解答 3、相关知识点 晶体管的电流分配关系 直流电流放大系数\(\overline{\beta}\) 交流电流放大系数\(\beta\) 晶体管的放大条件 总结 【硬件-笔试面试题】硬件/电子工程师,笔试面试题汇总版,持续更新学习,加油&…

力扣-152.乘积最大子数组

题目链接 152.乘积最大子数组 class Solution {public int maxProduct(int[] nums) {int[] dpMax new int[nums.length]; //包括nums[i]的乘积最大值int[] dpMin new int[nums.length]; //包括nums[i]的乘积最小值int res nums[0];dpMax[0] nums[0];dpMin[0] nums[0];fo…

HTTP/1.0、HTTP/1.1 和 HTTP/2.0 主要区别

一句话总结 HTTP/1.0: 短连接,每次请求都需要建立一个新的 TCP 连接,性能较差。HTTP/1.1: 长连接,默认开启 Keep-Alive,连接可复用,解决了 1.0 的大部分问题,是目前使用最广泛的版本。HTTP/2.0: 二进制、多…

Navicat 17.3 正式发布 | 现已支持达梦、金仓和 IvorySQL 数据库

🚀🚀🚀 Navicat 很高兴地宣布:Navicat 17.3 版本正式发布。此次更新包含多项突破性功能,包括新增对达梦、金仓和 IvorySQL 等数据库的支持,全面强化 AI 功能并新增阿里通义千问等 AI 大模型,同…