web/2025/7/2 11:39:13/文章来源:https://blog.csdn.net/yes666666/article/details/148998063

利用R包mice实现的链式方程多重插补方法来插补缺失的数据。

所有多重插补方法都遵循三个步骤

插补——与单次插补类似，对缺失值进行插补。但是，插补值会从分布中提取m次，而不是仅提取一次。此步骤结束时，应该有m 个完整的数据集。
分析——对m个数据集进行逐一分析。此步骤结束时，应该有m个分析结果。
池化——通过计算关注变量的平均值、方差和置信区间，或组合各个独立模型的模拟结果，将m个结果合并为一个结果。

为什么要多重插补？

单次插补直接用某种方法填补缺失值，得到一个完整数据集，但忽略了插补值本身存在的不确定性，会低估标准误，导致统计推断过于乐观。

多重插补通过多次（比如5次、10次）插补，生成多个完整数据集，反映了缺失值可能的多种合理取值，从而考虑了插补的不确定性。

链式方程多重插补（MICE）怎么做？

先对所有变量的缺失值初始化（比如用均值或随机值填充），得到一个初步完整数据集。

逐个变量进行迭代插补，比如第1个变量的缺失值用其它变量的当前完整值建立回归模型预测（如线性回归、逻辑回归、PMM等），插补预测值（加上随机扰动）。

依次对第2个、第3个…变量做类似操作，每一轮完成一遍所有变量的插补。

这个过程迭代多次（比如20次），模型逐渐稳定。

每一次迭代的最终结果就是一个完整数据集，重复m次（默认5次）得到多个完整数据集。

随机性的来源在哪里？

每次变量插补时，不是简单用回归预测值，而是用带随机误差的预测值，比如PMM（预测均值匹配）会随机从训练样本中选取一个类似的真实值来填补。

这种“随机扰动”保证了插补值的多样性，使得多组插补结果反映了缺失值潜在的真实变异。

同时，在初始化、模型拟合、抽样步骤中都会引入随机性，保证不同插补数据集的差异。

什么是 PMM（预测均值匹配）？

在 MICE 多重插补中，PMM 是一种常用的插补方法，它不直接使用回归预测值，而是找一个“相似的人”来“借值”填补缺失。
例子
假设你现在有个变量是认知分数（比如“记忆得分”），有些人没填。
你要为“小明”插补一个记忆得分，他的其它信息是：
年龄：40
教育年限：16年
BMI：23
其他认知指标：都正常

你用这些变量训练了一个回归模型来预测“记忆得分”。
回归模型告诉你：“小明的记忆得分大概是 78.3”。
但你不会直接填 78.3。
PMM 怎么做呢？
找到所有“非缺失者”（有真实记忆得分的人），用同一个模型去预测他们的得分。
得到每个人的“预测得分”和他们的真实得分（比如：预测=78.0，真实=80）。
从中选出预测得分最接近 78.3 的几个“邻居”（通常是5个）。
从这几个邻居的“真实得分”中随机抽一个来给小明用，比如抽到的是“80”，那小明就插补为 80。

所以随机来自：

“邻居”中随机选一个真实值填进去；
整个插补过程本身也有随机扰动（不同种子、初始化方式）；
插补每个数据集时都独立进行，因此你得到了5个（默认）不完全一样的版本。

分别对5个数据集进行了检验，并应用Rubin规则汇集了5个数据集中的参数估计值。

参考：
https://en.wikipedia.org/wiki/Imputation_(statistics)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/87018.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/87018.shtml
英文地址，请注明出处：http://en.pswp.cn/web/87018.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【专题】网络攻防技术期末复习资料

网络攻防技术期末复习资料链接：https://blog.csdn.net/Pqf18064375973/article/details/148996272?sharetypeblogdetail&sharerId148996272&sharereferPC&sharesourcePqf18064375973&sharefrommp_from_link 网络安全威胁的成因。分类&#xff1a…

阅读更多...

地震灾害的模拟

为确保地震灾害模拟的准确性和高效性，涉及的系统需要处理复杂的物理模型、数据输入和多层次的模拟过程。在技术设计方案中，我们将涵盖以下几个方面： 背景：描述该模拟系统的目的与应用场景。需求：列出系统的功能需求&a…

阅读更多...

9.9 《1/10成本实现GPT-3.5级表现！ChatGLM3-6B QLoRA微调实战：4bit量化+低秩适配全解析》

9.9 《1/10成本实现GPT-3.5级表现！ChatGLM3-6B QLoRA微调实战：4bit量化+低秩适配全解析》

1/10成本实现GPT-3.5级表现！ChatGLM3-6B QLoRA微调实战：4bit量化+低秩适配全解析 ChatGLM3-6B 微调入门实战：QLoRA 量化低秩适配技术 ▲ ChatGLM3-6B采用GLM架构改进版，支持32K上下文长度和代码生成能力一、QLoRA 技术原理精要 QLoRA（Quantized Low-Rank Adaptation）…

阅读更多...

【Python基础】11 Python深度学习生态系统全景解析：从基础框架到专业应用的技术深度剖析（超长版，附多个代码及结果）

【Python基础】11 Python深度学习生态系统全景解析：从基础框架到专业应用的技术深度剖析（超长版，附多个代码及结果）

引言：Python在深度学习领域的统治地位在人工智能浪潮席卷全球的今天，Python已经成为深度学习领域当之无愧的王者语言。这不仅仅是因为Python语法简洁易学，更重要的是围绕Python构建的深度学习生态系统的完整性和强大性。从Google的TensorFlow到Facebook的PyTorch，从科学计…

阅读更多...

RESTful API 设计原则深度解析

在 Web 服务架构中，RESTful API作为一种轻量级、可扩展的接口设计风格，通过 HTTP 协议实现资源的标准化访问。本文从核心原则、URL 设计、HTTP 方法应用、状态管理及面试高频问题五个维度，结合工程实践与反例分析，系统解析 RESTfu…

阅读更多...

java web2（黑马）

数据库设计简介 1.软件的研发步骤 2.数据库设计概念 > 数据库设计就是根据业务系统的具体需求，结合我们所选用的DBMS，为这个业务系统构造出最优的数据存储模型 > 建立数据库中的表结构以及表与表之间的关联关系的过程， > …

阅读更多...

Meta 宣布加入 Kotlin 基金会，将为 Kotlin 和 Android 生态提供全新支持

Meta 宣布加入 Kotlin 基金会，将为 Kotlin 和 Android 生态提供全新支持

近日 Meta 正式宣发加入了 Kotlin 基金会，如果你对 Meta 不熟悉，那么对于开源了 React Native 的 Facebook 应该不陌生了吧？现在它也正式加入了 Kotlin 领导者的阵营： Kotlin 基金会是由 Jetbrains 和 Google 共同成立的基金会&a…

阅读更多...

缓存系统-淘汰策略

目录一、LRU（最近最少使用） 工作原理操作流程基本特征二、LFU（最不常使用） 工作原理操作流程基本特征三、ARC 自适应工作原理操作流程基本特征四、TTL（生存时间） 工作原理操作流…

阅读更多...

TypeScript 安装使用教程

一、TypeScript 简介 TypeScript 是由微软开发的开源编程语言，是 JavaScript 的超集，添加了静态类型、接口、枚举、类等特性，使开发大型应用更安全、可维护、可扩展。最终会被编译为标准的 JavaScript 代码在浏览器或 Node.js 中运行。二、…

阅读更多...

强化学习系列--dpo损失函数

DPO 概要 DPO（Direct Preference Optimization，直接偏好优化）是由斯坦福大学等研究团队于2023年提出的一种偏好优化算法，可用于LLM、VLM与MLLM的对齐训练。算法基于PPO的RLHF基础上进行了大幅简化。DPO算法跳过了训练奖励模型这…

阅读更多...

UniApp完全支持快应用QUICKAPP-以及如何采用 Uni 模式开发发行快应用优雅草卓伊凡

UniApp完全支持快应用QUICKAPP-以及如何采用 Uni 模式开发发行快应用优雅草卓伊凡

UniApp完全支持快应用QUICKAPP-以及如何采用 Uni 模式开发发行快应用优雅草卓伊凡一、UniApp 对快应用的支持深度 UniApp 已完全支持快应用的开发和发布，具体包括： 两种渲染模式： Webview 渲染（快应用 Light 版）&a…

阅读更多...

js 允许生成特殊的变量名基于字符集编码混淆的 XSS 绕过漏洞 -- Google 2025 Lost In Transliteration

js 允许生成特殊的变量名基于字符集编码混淆的 XSS 绕过漏洞 -- Google 2025 Lost In Transliteration

题目实现了一个字符转换工具在/file路由用户可以通过 ct 参数自定义 Content-Type // 文件路由 - 提供静态文件服务（JS和CSS），支持内容类型验证 app.MapGet("/file", (string filename "", string? ct null, string?…

阅读更多...

【仿muduo库实现并发服务器】LoopThreadPool模块

仿muduo库实现并发服务器 1.LoopThread模块1.1成员变量1.2构造函数13线程入口函数1.4获取eventloop对象GetLoop() 2.LoopThreadPool模块2.1成员变量2.2构造函数2.3配置线程数量2.4按照配置数量创建线程2.5依次分配Eventloop对象 1.LoopThread模块这个模块是为了将EventLoop与…

阅读更多...

华为云Flexus+DeepSeek征文｜基于Dify构建文本/图像/视频生成工作流

华为云Flexus+DeepSeek征文｜基于Dify构建文本/图像/视频生成工作流

华为云FlexusDeepSeek征文｜基于Dify构建文本/图像/视频生成工作流一、构建文本/图像/视频生成工作流前言二、构建文本/图像/视频生成工作流环境2.1 基于FlexusX实例的Dify平台2.2 基于MaaS的模型API商用服务三、构建文本/图像/视频生成工作流实战3.1 配置Dify环境…

阅读更多...

相机-IMU联合标定：IMU更新频率

文章目录 📚简介⚠️ IMU频率参数错误设置的影响❌ 相机-IMU联合标定失败：Optimization failed!🚀 确定IMU更新频率直接通过 rostopic hz 检查实际频率检查 IMU 驱动或数据手册从 bag 文件统计频率在这里插入图片描述修改 `update_rate` 的注意事项**最终建议****常见问题…

阅读更多...

动手实践：如何提取Python代码中的字符串变量的值

要提取Python代码中所有变量类型为字符串的变量的值，但不执行代码（避免安全风险），可以通过静态分析代码的抽象语法树（AST）来实现。以下是完整的解决方案： 本文由「大千AI助手」原创发布&#xf…

阅读更多...

Python中字符串isalpha()函数详解

在 Python 中，isalpha() 是字符串（string）类型的内置方法，用于检查字符串中的所有字符是否都是字母字符（alphabetic character）。以下是详细说明： 一、基本功能返回值：布尔值&…

阅读更多...

Gradio全解13——MCP详解（4）——TypeScript包命令：npm与npx

Gradio全解13——MCP详解（4）——TypeScript包命令：npm与npx

Gradio全解13——MCP详解（4）——TypeScript包命令：npm与npx 第13章 MCP详解13.4 TypeScript包命令：npm与npx13.4.1 概念区分1. npm概念与运行逻辑2. npx概念及特点 13.4.2 操作示例1. 使用npm执行包2. 使用npx执行包3. 常用npm命令…

阅读更多...

《推客小程序全链路开发指南：从架构设计到裂变运营》

在移动互联网流量红利逐渐消退的今天，如何低成本获客成为企业营销的核心痛点。推客小程序作为一种基于社交关系的裂变营销工具，正成为企业突破增长瓶颈的利器。本文将为您全面解析推客小程序的开发定制全流程，帮助您打造专属的社交裂变营销平…

阅读更多...

中钧科技参加中亚数字经济对话会，引领新疆企业数字化新征程！

6月27 日，乌鲁木齐成为数字经济领域的焦点，中国新疆 - 中亚国家数字经济和数字贸易企业对话会在此盛大举行。来自中亚国家及新疆数字经济领域的100 余位核心代表齐聚一堂，围绕数字经济时代的机遇、挑战与策略展开深度探讨。本次对话会由新…

阅读更多...

最新文章