作者:来自 Elastic Elastic Platform Team

想想那些像公共健康记录、城市规划模型等项目背后的所有数据。政府机构一直在产生大量数据。当数据分散在云平台、本地系统或像卫星和应急响应中心这样的专业环境中时,情况变得更加复杂。找到信息变得困难,更不用说有效利用它了。不同团队使用许多不同的应用程序和数据格式,导致真正的互操作性缺失。

尽管他们尽最大努力建设数据驱动的组织,但根据最近 Elastic 的一项研究,65% 的公共部门领导者仍然难以实现实时、规模化地持续使用数据。

“一位公共部门领导告诉 Elastic,‘我们的工作时间变长了,这不好,因为我们的大多数工作都是紧急情况下完成的。我们需要尽快获取信息。’”

数据量在不断增长,访问却成了瓶颈。那么,公共部门机构如何摆脱那些集中式孤岛的复杂性?数据网格提供了一种组织数据的替代方式,可能就是答案。

什么是数据网格?

简单来说,数据网格打破孤岛。来自整个网络的数据可以在生态系统的任何或所有节点被检索和分析 —— 只要用户有权限访问。它提供了一个统一但分布式的层,简化并标准化数据操作。

Elastic 数据网

数据网格的四大支柱

数据网格建立在四个关键原则上:

  • 领域所有权:机构和部门如何管理自己的数据
  • 数据即产品:领域所有者确保他们的数据集高质量且易于访问
  • 自助服务平台:让内部和外部团队在没有 IT 阻碍的情况下找到并使用高质量数据
  • 联合治理:确保系统之间一切顺利且安全运行

我们来仔细看看每个支柱。

领域所有权

数据所有权分散在政府机构和部门,而不是依赖中央 IT 团队管理所有数据。基本上,你是在建立与机构组成相对应的技术团队。你希望最熟悉数据的人来拥有数据。这适用于公共健康、城市规划等几乎所有公共部门的使用场景。

例如,美国网络安全与基础设施安全局(CISA)采用数据网格方法,能够查看来自数百个联邦机构的安全数据,同时允许每个机构保留对其数据的控制权。

了解更多关于如何使用 Elastic 作为统一数据层加速 CISA 零信任。

这引出了第二个(也可以说是最重要的)支柱 —— 其他三个支柱都是为了支持它设计的:

数据即产品

每个数据集都被视为一个有明确文档和质量标准的产品。拥有数据的部门需要确保数据易于访问和组织,以便其他部门需要时能够使用。换句话说,他们对共享该数据作为可用产品负有责任和义务。

从政府角度来看,这可能是人口普查信息、应急响应数据或情报报告等,具体取决于项目或政府机构的结构。重要的是,这些经过整理的数据在其他团队查找时已经准备好使用,不需要花时间清理或验证。

那么,你可能会问,这不就是另一种数据孤岛吗?其他部门如何访问数据的具体方式是什么?这就引出了我们的下一个支柱。

自助服务平台

部门被要求承担很多任务,因此他们需要方便的平台,让他们的数据对其他人可访问。可搜索的目录便于发现数据,查询工具支持实时分析,用户还能自行清理和整合数据,通过仪表盘和 API 分享见解,这些都是可用的工具。

他们还需要内置的治理来执行访问控制,这就引出了最后一个支柱。

联合计算治理

我们已经确定每个部门控制自己的数据。然而,数据网格仍然需要整体的治理协议来确保安全并防范风险。

这些安全控制应内置于检索数据的系统中,而不是由各部门单独实施。系统应在搜索时检查用户权限,确保用户从一开始只能看到他们被允许访问的数据。

在公共部门,这可能涉及从医疗数据隐私法规到系统中的机密信息等各方面。

观看网络研讨会

数据网格架构

数据网格架构是将数据网格的支柱统一成管理分布式数据流程的框架。

实施数据网格架构减少了协作过程中的摩擦。由于其更以用户为中心的方法,它对处理特定领域数据进行模型训练和分析的团队来说是一个变革者。

尽管存在多个平台和实施团队,数据网格仍能实现更高效的数据处理和治理。数据网格架构带来更多自主权和数据民主化 —— 前提是你拥有可扩展的自助式数据可观测性。数据可观测性让团队能够在一个统一界面下管理所有数据。

有效的数据可观测性内置于数据网格架构中。它让团队能够利用所收集数据的洞察。可以这样理解:数据可观测性是对数据健康和完整性的监控,而数据网格架构是对数据的去中心化管理。要管理数据,就必须能够详细地查看数据。

数据网格与其他方法的比较

数据网格与其他分析数据架构和存储形式相比如何?我们来看两个常被比较的:数据织物( data fabric )和数据湖( data lake )。

数据网格 vs. 数据织物

数据网格和数据织物都采用分散式方法,在远程地点收集数据,类似之处在于此。然而,数据织物会将一个地点收集的数据复制到另一个地点。数据作为单个记录共享,除非有能理解它的系统消费,否则无法与其他记录关联。这种方法常导致数据孤岛。

而数据网格方法不依赖复制数据,而是在分布式平台中对数据进行本地索引,用户可以在本地及远程地点搜索数据。在此模型中,数据在搜索平台层统一。数据只索引一次,授权用户或用例可以通过这一统一层访问。

数据网格 vs. 数据湖

你可能注意到数据中有很多与水相关的比喻:数据流( data streams )、数据管道( data pipelines )等。数据像水一样,可以被收集、存储、过滤和分发 —— 有时高效,有时混乱。

正如湖泊汇集多条水源,数据湖汇集数据并保存以备将来使用。换句话说,它是结构化、半结构化或非结构化数据的存储环境。

数据湖有时对数据网格领域所有者有帮助,因为他们可以用它处理和整理数据产品。比如,可以用数据湖长期存储大型非结构化数据集(如卫星影像或公共记录),这些数据暂时没有具体用途。但如果数据湖变得无序难以导航,它就变成数据沼泽 —— 混浊、杂乱且难以提取价值。

数据网格与人工智能

数据网格可以为公共部门机构实现 AI 和机器学习民主化提供一种方式。传统上,数据科学团队作为集中式枢纽运作,从多个来源提取数据以开发机器学习模型。然而,如前所述,这种过程可能导致重复工作和不一致性,造成模型可复现性方面的挑战。

通过数据网格颠覆这种模式,并将 AI 开发嵌入到领域团队中,可以在数据源头进行清洗和优化,创建其他部门可使用的 AI 驱动数据产品。

以国家灾难响应为例。嵌入应急响应团队的 AI 模型通常会分析实时卫星图像、传感器数据,甚至是社交媒体报告,以识别受灾最严重的地区。借助数据网格,从政府机构到一线响应人员等不同机构都能立即访问这些信息,而无需等待集中处理,从而提升响应速度。

数据网格还提升了 AI 治理,因为它从一开始就将治理纳入架构中,标准化诸如模型验证、偏差检测、可解释性和模型漂移监控等任务。

公共部门如何实施数据网格

每个公共部门组织都有独特的数据需求,这也是一刀切的数据孤岛模式对内部和外部用户来说往往缓慢而受限的原因。三分之二的公共部门领导表示,他们对现有的数据洞察不满意。

数据网格可以根据各类公共部门机构的独特需求进行定制,无论是国家安全,还是联邦、州和地方政府。

要开始实施数据网格,公共部门机构需要遵循以下几个步骤:

  • 将数据责任分配给具体部门。
  • 将数据集视为文档完善、可访问的资产,面向内部和外部使用,并确保它们符合监管要求。
  • 实施工具,让机构、分析师和政策制定者无需依赖集中式 IT 团队也能轻松访问和分析数据。
  • 在机构之间执行治理,遵循如 FedRAMP、CMMC 和 Zero Trust 等框架。
  • 最后,鼓励机构间的数据共享,在保持安全控制的同时做出更好的决策、提升公共服务。

政府与应用

数据网格非常适用于政府和应用领域,这些领域需要对庞大、分布式的数据集进行实时、安全的访问和分析。

在公共卫生方面,它可以帮助快速整合来自医院或研究机构的流行病学数据,以应对疫情暴发。交通部门可以分析跨城市的交通和天气数据。教育部门可以查看过去十年儿童的考试成绩,并将其与其他数据交叉对比,例如远程学习与线下学习的时间比例。

Elastic 实现中的数据网格

作为 Search AI 公司, Elastic 的数据分析平台是强大的全球数据网格,集机器学习、自然语言处理、语义搜索、告警和可视化于一体。换句话说, Elastic 提供统一能力,让各机构全面可视化其数据,并具备摄取、组织、访问和分析的能力。

Elastic 的三大核心特性:

  • 跨集群搜索( CCS ):支持对一个或多个远程集群发起单个搜索请求

  • 可搜索快照:以低成本访问和查询不常用的历史数据

  • 基于角色的访问控制:提供集成的安全机制

Elastic 的数据网格方法还可以作为 Zero Trust 等现代安全框架的基础,为数据驱动的运营打开新可能。

了解更多 Elastic 如何帮助政府、医疗和教育团队以更快速度、更强规模和更高相关性释放数据价值:

探索更多公共部门中的数据网格资源

  • 使用 Elastic 构建全球数据网格:以安全、治理和策略统一数据访问

  • 最大化公共部门数据价值

  • 借助 Elastic 作为统一数据层加速 CISA 零信任

本博文中提到的任何功能或特性均以 Elastic 的最终决定为准。尚未提供的功能可能不会如期发布,甚至不会发布。

文中可能使用或提到第三方生成式 AI 工具,这些工具由各自所有者拥有和运营。 Elastic 无法控制这些第三方工具,对其内容、运行或使用不承担任何责任,也不对因使用这些工具而导致的任何损失或损害承担责任。在使用 AI 工具处理个人、敏感或机密信息时请务必小心。你提交的数据可能会被用于 AI 训练或其他用途。 Elastic 不保证你提供的信息会被安全或保密处理。你在使用前应了解相关 AI 工具的隐私政策和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志是 Elasticsearch N.V. 在美国和其他国家的商标、徽标或注册商标。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Understanding data mesh in public sector: Pillars, architecture, and examples | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/88826.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/88826.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/88826.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云ACP-检索分析服务

当数据量爆炸增长,并且需要提供全文检索功能,需要有效的数据检索能力 用什么数据库怎么保证安全性如何解决统计分析问题如何解决单点故障如何解决检索难题 应对方案: 关系型数据库:主从备份解决数据安全性问题,数据…

【DBeaver】跨平台数据库连接工具DBeaver Community 23.2.5安装配置使用

DBeaver是一款免费开源的通用数据库管理工具和SQL客户端,支持多种数据库系统。它基于Java开发,具备跨平台能力,可以在Windows、macOS和Linux系统上运行。 目录 安装DBeaver 连接MySQL数据库 安装DBeaver 进入DBeaver官网 DBeaver Communit…

【钱包】WEB3钱包APP框架的设计

【钱包】WEB3钱包APP框架的设计 一、前言 前段时间,自己做了一款WEB3钱包APP,从产品设计到框架搭建都是我一个人搞的,更多的参考了其他公司的钱包APP。 在此,想把自己的钱包经验分享出来,帮助没有做过钱包APP的同学开…

openGL学习(基本窗口)

学习路线 学习 OpenGL 需要掌握一系列基础知识和技能,这些内容涵盖了计算机图形学的基本概念、编程语言、数学知识以及 OpenGL 的具体 API 使用。以下是学习 OpenGL 所需的主要知识点: 1. 计算机图形学基础 图形学概念:了解图形学的基本概…

无人机防护装置技术解析

一、技术要点 1. 侦测防御系统 多频谱复合探测 整合无线电侦测(20MHz–6GHz频段扫描)、雷达探测、光电跟踪(可见光/红外/激光)技术,实现360无死角监测。例如神州明达系统可5公里内识别无人机信号,并同步…

2.2.2、CAN总线-测试模式、工作模式

目录 1、测试模式 2、工作模式 (1) (2)SLEEP位: (3)INRQ位:(Init Request) (4)ACK:应答 (5)…

区块链大讲堂 | 分布式隐私计算友好的零知识证明协议

区块链大讲堂 主讲人:上海交通大学计算机学院助理教授胡云聪 报告题目:分布式隐私计算友好的零知识证明协议 参与方式:扫描海报二维码报名参与活动

MyBatis映射文件(XML)中参数传递和SQL特殊字符处理

1. 参数占位符 1.1 #{} 和 ${} 的区别 #{} 占位符 作用:安全传参。MyBatis在执行SQL时,会把#{}替换成?,然后用参数值自动填充。 优点:可以防止SQL注入,推荐使用。 例子: select * from user wher…

C语言 数据结构 --排序 (直接插入排序,选择排序,交换排序......)

引言:本章简洁的讲解一下数据结构中的几个常见的排序 ,作复习之用,后面可能会补一些其他的排序 。并给出一些小编学习中遇到的坑,作借鉴。 1.直接插入排序 直接插入排序是一种简单直观的排序算法,其基本思想是将一个数…

华为云发布盘古大模型 5.5 新一代昇腾 AI 云服务上线

2025 年 6 月 20 日,华为开发者大会 2025(HDC 2025)在东莞召开。华为常务董事、云计算 CEO 张平安宣布基于 CloudMatrix 384 超节点的新一代昇腾 AI 云服务全面上线,并发布盘古大模型 5.5,五大基础模型实现技术突破&am…

Reactor Handle

handle 是 Reactor 中一个非常灵活的操作符,它允许你对每个源元素进行处理,并可以选择性地发出零个或多个元素。它既可以用于映射(map)也可以用于过滤(filter),因此可以看作是 map 和 filter 的…

C#哈希加密:原理、实现与应用

C#哈希加密:原理、实现与应用 在当今数字化时代,数据安全是每个应用程序都必须重视的问题。哈希加密作为一种重要的加密技术,在密码存储、数据完整性验证、数字签名等领域发挥着关键作用。本文将深入探讨C#中哈希加密的原理、常用算法以及实…

httpbin.org是什么,有什么作用

httpbin.org 是一个开源的 HTTP 请求与响应测试服务,基于 Python 的 Flask 框架开发 它允许开发者发送各种 HTTP 请求,并返回请求的详细信息,便于调试和验证 HTTP 客户端的行为。以下是其核心功能和作用详解: 一、核心功能与作用…

mongodb生产备份工具PBM

如果你的 MongoDB 数据量特别大(例如几十 GB、TB 级别),普通的 mongodump/mongorestore 会显得缓慢且资源消耗大,不适合生产级别大数据集。下面是当前 MongoDB 社区和企业广泛使用的几种备份方案对比和推荐: 工具是否…

【LeetCode#第167题】两数之和Ⅱ

给你一个下标从 1 开始的整数数组 numbers &#xff0c;该数组已按 非递减顺序排列 &#xff0c;请你从数组中找出满足相加之和等于目标数 target 的两个数。如果设这两个数分别是 numbers[index1] 和 numbers[index2] &#xff0c;则 1 < index1 < index2 < numbers…

Python(一)实现一个爬取微信小程序数据的爬虫+工程化初步实践

文章目录 前言用Charles 抓包 iOS 微信小程序在Mac端和iOS端安装Charles 自签名证书Mac端iOS端 能抓到Safari浏览器的包但是抓不到微信小程序的包直接在iOS 上抓包的App如何抓取Android 7.0 以上/Harmony OS微信小程序包 Python 项目工程化pip 切换为国内镜像源工程化参考脚手架…

uview ui request get / post 传参含params和json数据的分析和使用

背景。单独写了controller方法去配合移动端的接口调用。但有的接口与pc端类似。于是进行了复用。但接口得复制不是。 uview js request 文档 注意迪三个参数是header 后端接口GET方法 调用代码截图 浏览器调试 总结。 复制之前的api接口。为了方便复用底层实现。接口类型…

用 pnpm + TurboRepo,构建多项目高效开发体系

在现代前端项目日益复杂的今天&#xff0c;我们越来越多地面对一个场景&#xff1a;多个项目共享逻辑、组件和依赖&#xff0c;而维护和构建效率却在不断拉垮。这种情况下&#xff0c;传统项目结构的痛点就显现无遗。 从我亲身实践来看&#xff0c;选择 pnpm TurboRepo 构建 …

Pytest 使用命令行参数执行指定环境的脚本—— Python 实践

&#x1f9fe; 一、项目背景 在自动化测试中&#xff0c;我们经常需要根据不同的运行环境&#xff08;如测试环境和生产环境&#xff09;来执行测试脚本。本文将详细介绍如何通过命令行参数来指定运行环境&#xff0c;并使用 Python 和 pytest 框架实现这一功能。 &#x1f6e…

利用可控验证码位数实现拒绝服务攻击(DoS)风险与线程模型分析

一、背景介绍&#xff1a;验证码接口中的潜在 DoS 漏洞 在渗透测试过程中&#xff0c;常见验证码接口支持传入“验证码位数”参数&#xff0c;表面看是业务可配置&#xff0c;实则若未做上限控制&#xff0c;极易成为资源消耗型 DoS 攻击入口。 &#x1f9ea; 测试场景&#…