在训练阶段,训练算法通过优化目标/损失函数在训练数据集上的表现,不断更新模型参数θ。在监督学习场景中,训练数据集由输入-标签对(真实输出值)组成。目标函数应当奖励模型根据训练输入成功预测真实输出的行为,同时也需避免过拟合、训练集偏差或对其他非代表性训练数据的过度依赖。

由于训练模型的质量本质上与训练数据的质量相关,应尽可能减少训练数据中的标注错误。然而仍需假设此类错误可能存在,并采取措施降低其污染模型的风险。

在数据预处理阶段,必须确保数据不包含任何无效值,例如空值、无穷大或与特定特征预期类型不匹配的值。当检测到数据中的错误时,首先需要思考的问题是:"应如何修正这些错误?"一个简单的解决方案可能是直接删除包含缺失或损坏特征的记录。然而,这种做法可能导致大量经过微小调整即可使用的数据被剔除。

针对此类问题,可采用多种处理技术:无效值可以用最小值、最大值或平均值替代;另一种解决方案是训练一个较小的模型,利用其他所有特征来预测特定特征,进而填补缺失或损坏的值。部分数据科学家甚至建议直接删除异常值,将其视为"可能的错误",但需谨慎操作,因为异常值未必意味着数据收集错误。

在测试和评估模型时,选择能准确反映模型需求的评估指标至关重要。例如,若银行训练金融欺诈检测模型,评估指标可能需要同时考虑误判正常交易的代价与漏判恶意交易的损失。由于不同错误的代价可能存在差异,简单的准确率指标可能不足,甚至可能曲解根本目标。

隐私问题

据估算,2024年全球每日将消耗149泽字节(10²¹字节)数据。尽管数据规模如此庞大,但可用于模型训练的现成数据——尤其是高质量标注数据——仍是珍贵且稀缺的资源,研究人员往往难以获取。由于商业利益、伦理道德或法律监管等方面的考量,数据所有者出于隐私保护、保密要求等因素,通常不愿共享其数据。

即便模型完成训练后,数据科学家仍面临各类隐私隐患:既可能从训练好的模型中提取出私密数据,也能从聚合数据中还原出个人身份信息。虽然各类匿名化技术能在一定程度上缓解隐私问题,但这些技术往往需要在隐私保护与数据准确性/可用性之间作出权衡。

上述问题主要涉及个人身份信息(PII)的保护,但还需考虑防范以模型权重形式存在的知识产权(IP)被盗风险。攻击者既可能通过系统入侵窃取完整模型,也能在黑盒模型使用场景中实施基于查询的攻击算法。

发送至模型作为查询输入的数据,也可能通过中间人攻击泄露给恶意行为者。此类情况下,能够截获数据传输的恶意黑客 运行该模型的计算机平台会等待数据被解密后,再交由分析模型进行处理,随后窃取有价值的明文信息。最后,模型输出和分析结果也可能被视为敏感信息,因此必须确保学习过程的安全性,以免涉及金融、医疗或其他机密信息的结果落入不法分子之手。


应对上述隐私问题,除了全同态加密(FHE)外,以下简要讨论几种常见方法和技术:

多方计算(MPC)技术通过强密码学保障实现数据保护,无需依赖专用硬件或软件。该技术允许多方在不泄露各自输入数据的前提下,协同计算某个函数或算法的结果——最终仅向指定方或全体参与方公开计算结果。但MPC存在显著局限性:其底层算法的实现可能因多方间频繁交互而产生巨大的网络开销[3]。

MPC的理论雏形最初由姚期智提出双方案例,后经Goldreich、Micali和Wigderson推广至多方场景。文献[16]提出的混淆电路(GC)概念为MPC理论奠定了基础。GC协议使两个互不信任的方无需第三方中介即可进行安全计算。

MPC的核心驱动力源于跨实体/组织数据共享场景中隐私保护与数据价值挖掘的双重需求。当机构间能安全共享隐私数据时,将产生无数带来重大商业利益的场景用例。某些情况下,以隐私保护方式实现多方数据共享甚至能催生全新商业模式。

实际应用的MPC协议多针对特定场景开发,如隐私投标和安全集合求交。但由于实施难度大、计算与通信开销远高于其他隐私保护方案,该技术在工业界的应用仍受限。

2008年丹麦甜菜拍卖应用[7]成为多方计算(MPC)领域的重要里程碑。这是首个大规模实际应用的 商业领域的多方计算(MPC)。丹麦甜菜种植者协会代表、丹麦甜菜加工企业丹尼斯克公司以及MPC协议实施团队成功运行了一场基于MPC协议的虚拟拍卖。该技术的运用确保了农民的投标信息对丹麦市场唯一甜菜加工商丹尼斯克保密,同时降低了整体拍卖流程成本。鉴于农民报价可能暴露其经济状况与生产能力,必须防止丹尼斯克获取这些信息并在销售合同时谋取优势。

机密计算(CC)是通过基于硬件的可信执行环境(TEE,又称安全飞地)处理数据的技术。在TEE部署软件时需进行认证流程,确保运行软件栈的合法性。IBM、英特尔和AMD等厂商提供的TEE方案中,内存数据全程加密,仅在中央处理器(CPU)内部解密。相较于MPC和全同态加密(FHE)等技术,该方案具有显著时效优势,但其安全假设存在固有局限——必须预设安全飞地内的硬件与软件栈始终未被攻破。这种假设在软件漏洞与侧信道攻击频发的背景下尤其值得商榷。此外,安全飞地技术无法实现多方间的敏感数据安全协同处理。

差分隐私(DP)通过量化潜在数据泄露量来提供强隐私保障,但会降低数据效用与保真度,制约工业场景应用。该方法通过向私有属性添加特定噪声来保护个体隐私,同时保持群体趋势可观测性。经定制调参的噪声分布能隐藏个体在数据集中的存在状态,使攻击者无法区分包含特定个体的分析结果与替换个体数据的分析结果。这种"无法检测个体数据是否存在于数据集"的特性,正符合隐私法规对参与者身份不可识别性的要求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86940.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86940.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/86940.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Node.js特训专栏-实战进阶:11. Redis缓存策略与应用场景

🔥 欢迎来到 Node.js 实战专栏!在这里,每一行代码都是解锁高性能应用的钥匙,让我们一起开启 Node.js 的奇妙开发之旅! Node.js 特训专栏主页 专栏内容规划详情 Redis 缓存策略与应用场景:从理论到实战的高…

【stm32】HAL库开发——Cube配置基本定时器

目录 一、Cube配置基本定时器 1.定时器CubeMX配置介绍 2.定时器中断控制LED 3.定时器常用函数 4.定时器从模式(Reset Mode) 5.定时器的从模式(Gated Mode) 6.定时器的编码器接口 一、Cube配置基本定时器 1.定时器CubeMX配置…

nginx反向代理后端服务restful及token处理

#user nobody; worker_processes 1;#error_log logs/error.log; #error_log logs/error.log notice; #error_log logs/error.log info;#pid logs/nginx.pid;events {worker_connections 1024; } #代理mysql服务 stream {upstream mysql_backend {server 192.168…

正确理解Cola StateMachine不内置事务管理机制

✅ 正确理解:Cola StateMachine 并非“不支持”事务一致性,而是“不内置”事务管理机制 因为: Cola StateMachine 是轻量级、无状态、不依赖 Spring 的框架,它本身 不绑定任何事务上下文。它不像 Spring StateMachine 那样自动与…

AudioTrack使用

** AudioTrack ** AudioTrack 是 Android 音频系统中的核心类,用于播放原始音频数据(PCM)或压缩音频(如 MP3、AAC)。它提供了低级别的音频播放控制,适合需要精细管理的场景(如游戏音效、实时音…

解密:MySQL 的常见存储引擎

在数据库领域,MySQL 作为一款广受欢迎的关系型数据库管理系统,提供了多种存储引擎以满足不同应用场景的需求。每种存储引擎都有其独特的特性、优势和适用场景。本文将深入探讨 MySQL 中几种常见的存储引擎,包括 InnoDB、MyISAM、MEMORY 和 AR…

qt和qtcreator版本关系

实例展示: 如图所示的qtcreator是使用qt5.15安装过程选择勾选了qtcreator 14.0.2,安装完成qtcreator版本信息: 安装过程中选择了这些构件kits,会自动识别到: 使用qt5.9.9另外安装的kits,需要手动设置才能识…

2个任务同时提交到YARN后2个都卡住(CDH)

文章目录 问题描述解决方案1、增加资源2、调整ApplicationMaster资源3、关闭YARN调度器的资源抢占4、不使用公平调度器 问题描述 在CDH集群上,同时提交2个任务到YARN后,2个任务都卡住 解决方案 1、增加资源 增加服务器的内存和CPU 2、调整Applicatio…

web3区块链-ETH以太坊

一. 以太坊概述 以太坊(Ethereum)作为区块链技术的代表性项目之一,自2015年发布以来,迅速成为全球区块链行业的核心基础设施。相比比特币,以太坊不仅支持点对点的价值转移,还引入了智能合约,使…

【智能协同云图库】智能协同云图库第二弹:用户管理系统后端设计与接口开发

用户管理系统 一、需求分析 对于用户模块,通常要具有下列功能: 二、方案设计 (一)库表设计 实现用户模块的难度不大,在方案设计阶段,我们需要确认以下内容: 库表设计用户登录流程如何对用户权限…

闲庭信步使用SV搭建图像测试平台:第十三课——谈谈SV的数据类型

(本系列只需要modelsim即可完成数字图像的处理,每个工程都搭建了全自动化的仿真环境,只需要双击top_tb.bat文件就可以完成整个的仿真,大大降低了初学者的门槛!!!!如需要该系列的工程…

前端进阶之路-从传统前端到VUE-JS(第一期-VUE-JS环境配置)(Node-JS环境配置)(Node-JS/npm换源)

经过前面的传统前端开发学习后,我们接下来进行前端的VUE-JS框架学习(写这篇文章的时候VUE-JS最新版是VUE3,所以默认为VUE3即可) 首先,我们要配置Node-JS环境,虽然我们还不学习Node-JS但是Node-JS可以快速配…

Requests源码分析:面试考察角度梳理

简单描述执行流程 🌟 Q:能简单描述一下发送一个requests.get(url)请求时,在requests库内部的主要执行流程吗?(从调用get方法到收到响应) 入口委托: get() 方法内部调用 requests.request(GET, url)。Session 接管: request() 方法会获取或隐式创建一个 Session 对象,并…

航天VR赋能,无人机总测实验舱开启高效新篇​

(一)沉浸式培训体验​ 在传统的无人机培训中,操作人员主要通过理论学习和简单的模拟操作来掌握技能。但这种方式存在很大局限性,难以让操作人员真正感受无人机在复杂环境下的运行状态。而航天 VR 技术引入到 VR 无人机总测实验舱后,彻底改变了…

Kotlin 函数与 Lambda 表达式

今天继续分享Kotlin学习内容。 目标:掌握函数定义、调用、参数传递,以及 Lambda 表达式的基础用法 1. 函数:Kotlin 的代码模块化工具 定义:函数是可重复调用的代码块,用于封装逻辑。 语法: fun 函数名(参…

[mcp-servers] docs | AI客户端-MCP服务器-AI 架构

链接:https://github.com/punkpeye/awesome-mcp-servers 服务器调用 相关专栏:实现Json-Rpc docs:精选MCP服务器资源列表 本专栏为精选 模型上下文协议(MCP)服务器的列表。 MCP 是一种标准协议语言,允许*…

1688商品发布API:自动化上架与信息同步

一、1688商品发布API的核心功能与技术架构 1.1 API功能全景 1688商品发布API是1688开放平台的核心组件之一,支持商品信息的自动化发布、编辑、上下架及库存同步。其核心功能包括: 商品信息管理:支持商品标题、描述、价格、库存、SKU&#…

如何在x86_64 Linux上部署Android Cuttlefish模拟器运行环境

0 软硬件环境 x86_64服务器Ubuntu20.04 LTS参考:Cuttlefish 虚拟 Android 设备参考: 笔记:搭建 Cuttlefish 运行环境可以下载编好的android-cuttlefish:android-cuttlefish.tar.gz 1 系统采用Ubuntu20.04 LTS 2 搭建cuttlefish…

机器学习9——决策树

决策树 Intro 归纳学习(Inductive Learning)的目标:从训练数据中学习一般规则,应用于未见过的数据。 决策树是一个树形结构,其中: 每个分支节点表示一个属性上的选择(即决策条件)。…

CppCon 2017 学习:The Asynchronous C++ Parallel Programming Model

清晰理解 Amdahl’s Law(阿姆达尔定律),这是一条描述并行计算加速能力的核心定律。 定义公式: S 1 ( 1 − P ) P N S \frac{1}{(1 - P) \frac{P}{N}} S(1−P)NP​1​ S S S:加速比(Speedup&#xff09…