利用R包mice实现的链式方程多重插补方法来插补缺失的数据。

所有多重插补方法都遵循三个步骤

插补——与单次插补类似,对缺失值进行插补。但是,插补值会从分布中提取m次,而不是仅提取一次。此步骤结束时,应该有m 个完整的数据集。
分析——对m个数据集进行逐一分析。此步骤结束时,应该有m个分析结果。
池化——通过计算关注变量的平均值、方差和置信区间,或组合各个独立模型的模拟结果,将m个结果合并为一个结果。

为什么要多重插补?

单次插补直接用某种方法填补缺失值,得到一个完整数据集,但忽略了插补值本身存在的不确定性,会低估标准误,导致统计推断过于乐观。

多重插补通过多次(比如5次、10次)插补,生成多个完整数据集,反映了缺失值可能的多种合理取值,从而考虑了插补的不确定性。

链式方程多重插补(MICE)怎么做?

先对所有变量的缺失值初始化(比如用均值或随机值填充),得到一个初步完整数据集。

逐个变量进行迭代插补,比如第1个变量的缺失值用其它变量的当前完整值建立回归模型预测(如线性回归、逻辑回归、PMM等),插补预测值(加上随机扰动)。

依次对第2个、第3个…变量做类似操作,每一轮完成一遍所有变量的插补。

这个过程迭代多次(比如20次),模型逐渐稳定。

每一次迭代的最终结果就是一个完整数据集,重复m次(默认5次)得到多个完整数据集。

随机性的来源在哪里?

每次变量插补时,不是简单用回归预测值,而是用带随机误差的预测值,比如PMM(预测均值匹配)会随机从训练样本中选取一个类似的真实值来填补。

这种“随机扰动”保证了插补值的多样性,使得多组插补结果反映了缺失值潜在的真实变异。

同时,在初始化、模型拟合、抽样步骤中都会引入随机性,保证不同插补数据集的差异。

什么是 PMM(预测均值匹配)?

在 MICE 多重插补中,PMM 是一种常用的插补方法,它不直接使用回归预测值,而是找一个“相似的人”来“借值”填补缺失。
例子
假设你现在有个变量是认知分数(比如“记忆得分”),有些人没填。
你要为“小明”插补一个记忆得分,他的其它信息是:
年龄:40
教育年限:16年
BMI:23
其他认知指标:都正常

你用这些变量训练了一个回归模型来预测“记忆得分”。
回归模型告诉你:“小明的记忆得分大概是 78.3”。
但你不会直接填 78.3。
PMM 怎么做呢?
找到所有“非缺失者”(有真实记忆得分的人),用同一个模型去预测他们的得分。
得到每个人的“预测得分”和他们的真实得分(比如:预测=78.0,真实=80)。
从中选出预测得分最接近 78.3 的几个“邻居”(通常是5个)。
从这几个邻居的“真实得分”中随机抽一个来给小明用,比如抽到的是“80”,那小明就插补为 80。

所以随机来自:

  1. “邻居”中随机选一个真实值填进去;
  2. 整个插补过程本身也有随机扰动(不同种子、初始化方式);
    插补每个数据集时都独立进行,因此你得到了5个(默认)不完全一样的版本。

分别对5个数据集进行了检验,并应用Rubin规则汇集了5个数据集中的参数估计值。

参考:
https://en.wikipedia.org/wiki/Imputation_(statistics)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/87018.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/87018.shtml
英文地址,请注明出处:http://en.pswp.cn/web/87018.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【专题】网络攻防技术期末复习资料

网络攻防技术期末复习资料 链接:https://blog.csdn.net/Pqf18064375973/article/details/148996272?sharetypeblogdetail&sharerId148996272&sharereferPC&sharesourcePqf18064375973&sharefrommp_from_link 网络安全威胁的成因。 分类&#xff1a…

地震灾害的模拟

为确保地震灾害模拟的准确性和高效性,涉及的系统需要处理复杂的物理模型、数据输入和多层次的模拟过程。在技术设计方案中,我们将涵盖以下几个方面: 背景:描述该模拟系统的目的与应用场景。需求:列出系统的功能需求&a…

9.9 《1/10成本实现GPT-3.5级表现!ChatGLM3-6B QLoRA微调实战:4bit量化+低秩适配全解析》

1/10成本实现GPT-3.5级表现!ChatGLM3-6B QLoRA微调实战:4bit量化+低秩适配全解析 ChatGLM3-6B 微调入门实战:QLoRA 量化低秩适配技术 ▲ ChatGLM3-6B采用GLM架构改进版,支持32K上下文长度和代码生成能力 一、QLoRA 技术原理精要 QLoRA(Quantized Low-Rank Adaptation)…

【Python基础】11 Python深度学习生态系统全景解析:从基础框架到专业应用的技术深度剖析(超长版,附多个代码及结果)

引言:Python在深度学习领域的统治地位 在人工智能浪潮席卷全球的今天,Python已经成为深度学习领域当之无愧的王者语言。这不仅仅是因为Python语法简洁易学,更重要的是围绕Python构建的深度学习生态系统的完整性和强大性。从Google的TensorFlow到Facebook的PyTorch,从科学计…

RESTful API 设计原则深度解析

在 Web 服务架构中,RESTful API作为一种轻量级、可扩展的接口设计风格,通过 HTTP 协议实现资源的标准化访问。本文从核心原则、URL 设计、HTTP 方法应用、状态管理及面试高频问题五个维度,结合工程实践与反例分析,系统解析 RESTfu…

java web2(黑马)

数据库设计 简介 1.软件的研发步骤 2.数据库设计概念 > 数据库设计就是根据业务系统的具体需求,结合我们所选用的DBMS,为这个业务系统构造出最优 的数据存储模型 > 建立数据库中的表结构以及表与表之间的关联关系的过程, > …

Meta 宣布加入 Kotlin 基金会,将为 Kotlin 和 Android 生态提供全新支持

近日 Meta 正式宣发加入了 Kotlin 基金会,如果你对 Meta 不熟悉,那么对于开源了 React Native 的 Facebook 应该不陌生了吧?现在它也正式加入了 Kotlin 领导者的阵营: Kotlin 基金会 是由 Jetbrains 和 Google 共同成立的基金会&a…

缓存系统-淘汰策略

目录 一、LRU(最近最少使用) 工作原理 操作流程 基本特征 二、LFU(最不常使用) 工作原理 操作流程 基本特征 三、ARC 自适应 工作原理 操作流程 基本特征 四、TTL(生存时间) 工作原理 操作流…

TypeScript 安装使用教程

一、TypeScript 简介 TypeScript 是由微软开发的开源编程语言,是 JavaScript 的超集,添加了静态类型、接口、枚举、类等特性,使开发大型应用更安全、可维护、可扩展。最终会被编译为标准的 JavaScript 代码在浏览器或 Node.js 中运行。 二、…

强化学习系列--dpo损失函数

DPO 概要 DPO(Direct Preference Optimization,直接偏好优化)是由斯坦福大学等研究团队于2023年提出的一种偏好优化算法,可用于LLM、VLM与MLLM的对齐训练。 算法基于PPO的RLHF基础上进行了大幅简化。DPO算法跳过了训练奖励模型这…

UniApp完全支持快应用QUICKAPP-以及如何采用 Uni 模式开发发行快应用优雅草卓伊凡

UniApp完全支持快应用QUICKAPP-以及如何采用 Uni 模式开发发行快应用优雅草卓伊凡 一、UniApp 对快应用的支持深度 UniApp 已完全支持快应用的开发和发布,具体包括: 两种渲染模式: Webview 渲染(快应用 Light 版)&a…

js 允许生成特殊的变量名 基于字符集编码混淆的 XSS 绕过漏洞 -- Google 2025 Lost In Transliteration

题目实现了一个字符转换工具 在/file路由用户可以通过 ct 参数自定义 Content-Type // 文件路由 - 提供静态文件服务(JS和CSS),支持内容类型验证 app.MapGet("/file", (string filename "", string? ct null, string?…

【仿muduo库实现并发服务器】LoopThreadPool模块

仿muduo库实现并发服务器 1.LoopThread模块1.1成员变量1.2构造函数13线程入口函数1.4获取eventloop对象GetLoop() 2.LoopThreadPool模块2.1成员变量2.2构造函数2.3配置线程数量2.4按照配置数量创建线程2.5依次分配Eventloop对象 1.LoopThread模块 这个模块是为了将EventLoop与…

华为云Flexus+DeepSeek征文|基于Dify构建文本/图像/视频生成工作流

华为云FlexusDeepSeek征文|基于Dify构建文本/图像/视频生成工作流 一、构建文本/图像/视频生成工作流前言二、构建文本/图像/视频生成工作流环境2.1 基于FlexusX实例的Dify平台2.2 基于MaaS的模型API商用服务 三、构建文本/图像/视频生成工作流实战3.1 配置Dify环境…

相机-IMU联合标定:IMU更新频率

文章目录 📚简介⚠️ IMU频率参数错误设置的影响❌ 相机-IMU联合标定失败:Optimization failed!🚀 确定IMU更新频率直接通过 rostopic hz 检查实际频率检查 IMU 驱动或数据手册从 bag 文件统计频率在这里插入图片描述修改 `update_rate` 的注意事项**最终建议****常见问题…

动手实践:如何提取Python代码中的字符串变量的值

要提取Python代码中所有变量类型为字符串的变量的值,但不执行代码(避免安全风险),可以通过静态分析代码的抽象语法树(AST)来实现。以下是完整的解决方案: 本文由「大千AI助手」原创发布&#xf…

Python中字符串isalpha()函数详解

在 Python 中,isalpha() 是字符串(string)类型的内置方法,用于检查字符串中的所有字符是否都是字母字符(alphabetic character)。以下是详细说明: 一、基本功能 返回值:布尔值&…

Gradio全解13——MCP详解(4)——TypeScript包命令:npm与npx

Gradio全解13——MCP详解(4)——TypeScript包命令:npm与npx 第13章 MCP详解13.4 TypeScript包命令:npm与npx13.4.1 概念区分1. npm概念与运行逻辑2. npx概念及特点 13.4.2 操作示例1. 使用npm执行包2. 使用npx执行包3. 常用npm命令…

《推客小程序全链路开发指南:从架构设计到裂变运营》

在移动互联网流量红利逐渐消退的今天,如何低成本获客成为企业营销的核心痛点。推客小程序作为一种基于社交关系的裂变营销工具,正成为企业突破增长瓶颈的利器。本文将为您全面解析推客小程序的开发定制全流程,帮助您打造专属的社交裂变营销平…

中钧科技参加中亚数字经济对话会,引领新疆企业数字化新征程!

6月27 日,乌鲁木齐成为数字经济领域的焦点,中国新疆 - 中亚国家数字经济和数字贸易企业对话会在此盛大举行。 来自中亚国家及新疆数字经济领域的100 余位核心代表齐聚一堂,围绕数字经济时代的机遇、挑战与策略展开深度探讨。 本次对话会由新…