作者:SmartX 金融团队 祝志刚
在前两期“超融合常见误区解读”中,我们分别解读了如何以超融合建云并进行大规模部署。而对于生产业务场景,部分行业用户和业界人士可能还会有这样的认知:
- “超融合管理简单、成本也低,但这种技术,只能在测试环境使用。”
- “超融合用来跑一般的运维办公类系统还行,不适合跑交易类的生产系统。”
- “数据库用来存放我们最核心的业务数据,不敢把这么重要的生产数据库放在超融合上。”
这些“误区”在过去很长一段时间里都普遍存在,不过随着越来越多的企业用户基于 SmartX 企业云平台推进 IT 基础设施转型,很多企业用户也逐渐认识到,基于超融合架构的 SmartX 企业云平台,以其稳定可靠以及高性能的优势,不仅在生产系统上得到了充分的验证,甚至可以用来承载用户最核心的应用系统和数据库。以下,我们将针对上述超融合“误区”逐一梳理并进行澄清!
厘清误区
看法一:超融合虚拟化算力开销大,无法承载计算密集型的业务
❌ 误区成因 |
不少用户认为超融合使用的 x86 服务器算力不仅要提供给虚拟机,还需要额外提供给存储功能使用;另外虚拟化层也会有也算力开销,无法承载算力密集型的业务。事实上,超融合确实有一小部分算力会在虚拟化和存储层消耗,但是随着各种技术特性的加入,算力消耗已经得到了充分的优化。 |
✅ 基于 SmartX 企业云的真实情况 |
SmartX 企业云平台引入了各种算力优化方案,尽量减少虚拟化层面带来的算力消耗。 –NUMA 调度:尽可能让虚拟机的 CPU 和内存使用同一 NUMA node/socket,提升数据库等业务场景的计算性能。 –指令集:SmartX 企业云平台能提供丰富的 CPU 兼容性模型,其中一些 CPU 兼容性模型包含 AVX 等指令集,这样既能提供用户所需的高效指令集,又能维持热迁移的有效性。 –CPU QoS:通过 CPU QoS 对 CPU 进行预留和限制,最大程度地复用资源,降低成本,同时保证重要虚拟机的性能。 –CPU 独占:配置 CPU 独占功能可以达到独占使用 pCPU 的效果,给计算性能要求高的应用或者数据库提供更高的 CPU 性能。 |
看法二:超融合存储性能和可靠性跟传统架构采用的集中式存储相比还有很大差距
❌ 误区成因 |
在传统印象中,集中式存储的性能和可靠性经过了多年验证,得到了用户的充分信任,而超融合的分布式存储性能和稳定性还不足以支持重要生产应用。 |
✅ 基于 SmartX 企业云的真实情况 |
事实上,SmartX 企业云平台中的超融合模块采用分布式架构,其可靠性已经经过金融用户多年生产环境验证,在性能方面更是可以媲美中高端集中式存储。SmartX 企业云平台还通过多种技术优化,进一步提升存储可靠性与性能。 –副本机制:采用副本机制保证数据安全,可以支持两副本和三副本策略。对于安全性要求更高的应用,可以选择使用三副本来提高数据安全级别。 –智能数据分层:利用冷热数据分层算法,自动将热数据缓存至 SSD,冷数据下沉至 HDD,兼顾性能与成本。 –I/O 本地化:通过智能数据放置策略,将虚拟机数据优先存储在本节点,减少跨节点读操作,降低延迟。 –Boost 模式:SMTX OS 的高性能模式,该模式下将通过 vhost 内存共享技术提升虚拟机性能,降低 I/O 延迟。 –RDMA:RDMA(RoCE v2)技术能够绕过传统的内核协议栈,以极低的延迟和高带宽实现数据的远程传输,使以太网网络充分发挥其性能潜力。SmartX 企业云平台的高性能分布式存储结合 RDMA(RoCE v2)无损网络技术可有效支撑高性能数据库跑批和交易等场景。 |
看法三:超融合网络损耗非常大,不适合要求低延迟的业务场景
❌ 误区成因 |
一些用户认为,在证券、期货等行业的低延迟业务场景,超融合由于网络损耗过大,无法支持此类业务。 |
✅ 基于 SmartX 企业云的真实情况 |
事实上,测试数据表明,超融合完全可以支撑低延迟类、对网络要求非常高的业务场景。SmartX 企业云平台还通过直通 PCI 网卡、支持 SR-IOV 等技术特性,降低虚拟网络带来的性能损耗,为网络延迟要求高的业务场景提供网络高性能支持。 –直通 PCI 网卡:通过 PCI 直通(pass-through),可将主机上的 PCI 网卡设备直接分配给虚拟机使用,相比于虚拟化硬件来说,具有更高的性能和更低的延迟。 –SR-IOV 支持:SmartX 企业云平台支持 SR-IOV 网卡直通,虚拟机的网络延迟可以得到明显的降低,如果配置使用低延迟网卡及其所提供的 library,则可进一步降低延迟。新版本也即将支持 HA 技术,进一步保证该技术的高可用特性。同时,后续会引入 DPDK 等技术栈,在网卡层面进一步降低网络损耗。 –网络流量 QoS:SmartX 企业云平台允许为虚拟网络设定优先级、预留带宽、限制带宽和突发通信值,以满足不同虚拟网络所需的带宽要求。 |
看法四:超融合只能用来承载开发测试和边缘生产环境,无法在生产环境支撑关键业务(如数据库)
❌ 误区成因 |
传统上,很多用户对超融合的认知局限在“计算与存储融合”的初级阶段,因此一些用户认为超融合只能部署在开发测试和边缘生产环境,不具备承载关键业务系统和数据库的能力。 |
✅ 基于 SmartX 企业云的真实情况 |
事实上,经过多年的发展,超融合技术已逐渐成熟,已有很多客户经过充分验证后以超融合承载关键业务,包括数据库。尤其是 SmartX 企业云平台,不仅提供完整的计算、存储、网络、数据保护、容器管理、网络安全和集群管理能力,还可在多种技术栈的加持下,为数据库等关键业务系统提供高性能、高可靠支撑。SmartX 企业云平台也和主流国产数据库厂商完成了兼容适配和优化的认证,满足用户的国产化转型需要。 –高可靠:采用集群管理方式,不存在单点故障风险,灵活配置多数据副本,不同数据副本存放在不同的机架、服务器和硬盘上,单个物理设备故障不影响业务的使用,系统检测到设备故障后可以自动重建数据副本。 –高性能:采用数据冷热分层、I/O 本地化的数据分布策略,兼顾性能和成本。vhost 和 RDMA 技术栈的加入使得存储性能获得极大提升;CPU 独占、NUMA 调度等特性提升了计算性能;PCI 直通、SR-IOV、网络 QoS 保证了网络性能。 –常驻缓存:将存储卷的数据保留在缓存层中,以避免缓存击穿导致的性能下降。可以将数据库虚拟机或者存放数据库的虚拟卷设置常驻缓存,充分利用缓存层 SSD 更高的性能。 –数据库认证:目前 SmartX 企业云平台已经和达梦、人大金仓、OceanBase、GBase、TDSQL、OpenGauss 等众多集中式和分布式数据库完成兼容认证。 |
企业实践:以 SmartX 企业云平台承载关键业务及数据库
1. 某区域银行使用 SmartX 企业云平台构建高性能数据库资源池
某区域银行遵循“金融科技+场景金融=普惠金融”的经营逻辑,力争成为所属区域普惠金融客群最多、Fintech 应用最多的新型银行。
随着业务系统越来越互联网化,用户的传统集中式架构难以满足日益增长的业务需求,且多次遇到性能问题。与此同时,降本增效、控制人员增长、提升运维效率、满足业务发展支撑、顺应国产化趋势等需求也不断凸显。
基于此,该银行结合自身业务需求和技术发展趋势,在生产中心打造基于 SmartX 企业云平台 + 云管平台的新型轻量私有云,承载 100+ 套核心业务系统的 MySQL 数据库。
IT 基础设施的演进与挑战
用户原有的传统 IT 基础架构已经无法满足业务需求在性能、成本、运维等方面的要求。使用过程中遇到的主要痛点包括:
- 传统集中式架构不能灵活扩展,且存在性能瓶颈,难以发挥新一代高性能存储部件的效能,弹性差,不能满足资源灵活交付的需求。
- 采用专用硬件,硬件体系与配套不开放,硬件升级缓慢,维护复杂且整体成本较高。集中式存储架构扩展计算、存储资源均需扩展相应的配套硬件,同时硬件兼容性要求严苛,给后期集群扩容带来诸多不便。
- 集中式架构使用过程中问题难以排查,影响集群性能,影响业务系统的稳定运行。软硬件绑定的情况也使得用户无法自行选择虚拟化平台。
使用 SmartX 企业云平台构建高性能数据库资源池
超融合作为创新的融合部署的分布式架构,能够满足用户在基础架构性能、稳定性、扩展性等方面的需求。经过验证评估,该银行最终选择 SmartX 企业云平台构建数据库资源池。
- 技术与服务优势:产品技术迭代效率高,功能、性能、可靠性和服务等都得到高度认可,性能完全能够满足生产环境数据库运行要求。
- 产品形态优势:支持纯软件交付,100% 软件定义,与服务器硬件完全解耦,并且支持同一资源池的异构兼容,极大方便了用户未来扩容。
- 国产化优势:分布式存储完全自主研发,没有采用 Ceph 等开源版本进行封装,核心技术自主可控。KVM 虚拟化深度定制,功能丰富,上手容易,运维方便,经过培训,用户即可以自行部署、自行巡检、自行升级、自行运维。
从 21 年开始,用户陆续在生产环境中配置了 10 节点和 7 节点的两个 SMTX OS 集群(采用原生的 ELF 虚拟化),承载了除核心账务系统数据库之外全部 100+ 生产业务系统的 MySQL 数据库从库并稳定运行,支撑的业务系统包括电子票据、企业网银、账户系统、风险管理系统、核心柜面系统、个人信贷、指纹认证、智能营销平台、统一收单、人脸识别等。
在灾备环境中,用户配置了 6 个节点的 SMTX OS 集群(采用原生 ELF 虚拟化),承载灾备业务系统(除核心账务系统外)的 MySQL 数据库单机,并通过 MySQL 的复制技术与主数据中心同步。
在生产数据库环境进一步验证 SmartX 企业云平台的性能表现
在前述集群稳定运行近 4 年后,用户进一步针对 SmartX 企业云平台在核心贷款数据库场景的支撑能力进行了验证。在生产核心贷款数据库环境,一套核心数据库的三套 ADG 备库同时监控 ADG Apply Delay(应用延迟)。用户在日结批大数据量跑批场景下,基于 SmartX 企业云平台部署并分别记录三套 ADG 对比主库的延迟情况*。
* Oracle ADG 的 Apply Delay 可能是由网络传输延迟、日志应用速度不足或者备库资源争用等原因产生的非预期延迟。
测试结果表明,SmartX 企业云平台承载的数据库在 ADG Apply Delay 场景下的性能表现,与中高端全闪 NVMe 存储表现相当。
后续规划
基于上述实践与验证,客户决定采用 SmartX 企业云平台,基于更为开放的 x86 架构与信创服务器,全面、逐步替换生产环境的 VMware 虚拟化及相应的集中式存储。
- 根据不同场景,使用 SmartX 超融合架构与存算分离架构,逐步扩展支撑现有数据库主库资源池。
- 逐步替换现有集中式存储和 vSAN 数据库资源池。
- 使用 SMTX 迁移工具完成全部 VMware 虚拟机迁移。
该用户采用 SmartX 企业云平台构建轻量私有云的实践,满足了区域银行自身特点及使用需求,同时也充分说明 SmartX 企业云平台不仅能运用于 VDI、开发测试等场景,也能承载重要生产应用及其配套的数据库。
2. 某消费类金融公司使用 SmartX 企业云平台支撑 BI 报表应用的测试与实践
某金融客户在生产环境中使用 x86 服务器和全闪集中式存储 EMC PowerMax 支撑 Oracle 数据仓库,为 BI 系统提供数据收集、整合、分析和呈现支持,帮助企业进行决策制定和业务洞察。而随着业务开展,PowerMax 使用已超过 3 年,剩余存储空间不足,难以应对未来数据增长。同时,由于存储使用 8GB FC HBA 卡,难以充分发挥 NVMe 的性能优势。基于这些问题,用户考虑对生产环境存储系统进行更换,以更先进的分布式存储进行架构升级。
IT 基础设施面临的业务层面挑战
BI 系统主要通过大量数据撷取、加工从而提取数据的价值,而数据仓库的性能表现往往是影响 BI 系统效率的关键因素。随着业务范围扩大、数据量的增加,在存储性能没有随之提升的状况下,BI 系统的报表应用存在以下的问题:
- BI 报表应用在白天通过实时 SQL 语句处理并进行数据展示时效率变低,导致相关生产数据反馈的时效性变差;
- 晚间并行多个报表生成工作时,数据量的增加进一步加剧存储性能不足的问题,影响后端数据仓库的响应速度,导致报表生成时间过长;
- 部分报表需要在生成后进行手动加工处理,导致所有报表生成时间更长,可能超过允许的时间窗口(6 小时);甚至如果发现报表数据有误,则需要重新生成,导致最终报表数据无法及时支撑后续的业务开展。
测试验证
延伸思考
以上测试仅验证了超融合架构支撑 BI 系统报表应用的可行性和性能,同时,以超融合支撑核心业务系统还具备如下优势:
- 超融合架构基于软件定义模式和通用服务器平台,相对于小型机搭配传统存储方案,可以非常有效地降低系统运维复杂度以及投入成本;
- SmartX 超融合架构具有简单、易操作的横向扩容能力,在扩展容量及计算资源的同时也得到近乎线性的性能提升;
- 对于绝大多数金融客户,超融合的计算虚拟化和分布式存储可以有效整合各类 IT 系统的计算和存储资源,进一步降低整体 IT 系统的复杂度和投入成本;
- 超融合架构的软件定义模式支持快速引进先进的硬件技术,从而快速提升系统能力。例如,SmartX 企业云平台采用基于 RoCE 的 RDMA 与 vhost 性能加速方案,能够进一步提升系统交易处理能力;
- 针对核心业务系统最重要的可靠性问题,SmartX 企业云平台也提供诸多容灾加固方案,如存储级双活与异步复制,可在降本增效的同时,结合应用特点保证系统的高可用性与业务连续性。
落地实践
目前,用户已采用 SmartX 企业云平台构建 9+9 全闪双活集群作为生产 DB 资源池,稳定支撑新核心系统的 SQLServer Always-On 数据库集群,Oracle RAC 形态承载 BI、零售库存、ESP、影像等数据库集群, 以及多套生产所需的 Oracle、MySQL 等数据库。
欲了解完整验证与实践,请阅读:BI 数仓跑批测试:vSAN、 缓存击穿,SmartX 超融合缩短跑批时间近一半。
3.某基金客户 O32/TA/CC 风控与跑批性能验证
某基金客户自 2022 年开始引入 SmartX 企业云平台,用于支撑办公生产 / 网站业务 / 开发测试的新一代计算存储资源池,到目前为止,已交付的 2 个集群运行稳定。后续,客户计划将大部分核心生产、周边生产、ToC 业务等系统(包括相关数据库)也迁移至 SmartX 企业云平台,包括 O32、TA、FA、CC、反洗钱、直销、订单等多个业务系统。
迁移前,客户需要评估并验证 SmartX 企业云平台的性能表现,通过实际业务场景和真实数据量进行核心业务系统的模拟跑批,评估超融合架构对于基金多元化业务场景的适用性。
客户生产环境现状
该基金客户 O32 / TA / FA 等核心应用及数据库采用裸金属服务器,三套系统后端存储通过 NetApp 高端全闪集中式存储提供数据持久化。CC 核心数据库采用裸金属服务器,以本地盘方式提供数据持久化。4 套核心系统相关的周边生产以及直销、订单、网站、网上交易等各类系统的应用和数据库组件,采用 Nutanix 超融合平台(VMware 虚拟化)支撑运行。
核心生产系统数据库硬件配置:
- O32 系统:Intel Xeon Gold 6128 3.4GHz * 2 / 512GB / HBA 16G
- TA & FA 系统:Intel Xeon E5 2643 V4 3.4GHz / 256GB / HBA 16G
- CC 系统:Intel Xeon E5 2650 V3 2.4GHz / 32GB / 数据持久化在本地磁盘(SAS HDD)
SmartX 企业云平台验证环境
通过对生产系统的资源配置分析,确定采用如下测试硬件以支撑本次跑批验证:
- 测试集群由三台服务器组成,超融合采用 SmartX 原生虚拟化 ELF,并开启 Boost 存储加速模式。
- 集群内服务器 CPU 异构,其中一节点配置 Intel Xeon Gold 6226R * 2,剩余两节点配置 Intel Xeon
- Silver 4214R * 2。各节点硬件配置 256GB 内存 / NVMe SSD 1.6TB * 2 / HDD 2.4TB * 4 / 25GbE 网卡。
迁移 & 新建虚拟机共 7 台,包括 O32、TA、CC 系统 3 套 Oracle 数据库,以及相关的应用、中间件、客户端系统 4 台,存储使用率达到 65% (3 副本)。
虚拟机资源配置:
- O32:Oracle 配置 16 vCPU / 128GB 内存 / 1TB 磁盘
- TA:Oracle 配置 16 vCPU / 32GB 内存 / 1TB 磁盘
- CC:Oracle 配置 16 vCPU / 32GB 内存 / 1TB 磁盘
测试结果
各测试库数据量信息:O32 库为 300GB,TA 库为 480GB,CC 库为 580GB。
通过多轮性能测试,SmartX 超融合的跑批性能相比生产环境显著提升:
- 模拟 32 万笔委托交易量的 O32 压力测试,不带风控委托平均单笔延时 40ms,相比恒生提供基准值500ms 缩短 92%。
- O32 静态风控场景耗时缩短 67.5% ,TA 跑批耗时缩短 41.4%,CC 跑批耗时缩短 91.5%。
通过本次测试充分验证了 SmartX 超融合架构的优势以及对基金公司多元化场景的高性能支撑能力,顺利完成跑批测试验证目标,为后续客户 IT 规划提供量化参考依据。
总结:超融合已经逐步深入用户的核心生产环境
凭借长期技术积累与持续创新,SmartX 企业云平台能够为金融机构重要生产应用和数据库提供高效、弹性、敏捷的云底座,并支持金融机构基础设施信创转型与数据库资源池容灾加固,助力企业关键业务高效、稳定运行。超融合架构的灵活部署能力也可满足金融机构新数据库和业务系统快速上线的需求,为业务发展进一步提速。
【预告】相较传统架构,超融合不够稳定?
虽然我们在文章中提到,基于超融合架构的 SmartX 企业云平台能为生产业务系统和数据库提供稳定支持,但仍有用户存在这样的疑虑:“超融合系统一旦故障,就会造成大范围影响,难以保证集群稳定性?”下一篇文章“常见误区解读:相较传统架构,超融合不够稳定?”将深入探讨超融合在稳定性方面的技术与功能优化,并提供企业用户业务运行与运维方面的实践,敬请期待!
欲了解更多 SmartX 超融合功能特性,欢迎下载《超融合技术原理与特性解析合集》三册电子书。
SmartX 超融合技术原理与特性解析合集(一)虚拟化与存储
SmartX 超融合技术原理与特性解析合集(二)管理与运维
SmartX 超融合技术原理与特性解析合集(三)全栈能力