首页 > 资讯

R数据插补:3 种常用的数据缺失插补方法

来源:哔哩哔哩 发表时间:2023-08-31 11:06:17
分享到

2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法  

现实生活中我们遇到的数据通常是杂乱无章并且有很多缺失值的,这样就使得我们要花费很多的时间和精力在数据清洗和数据准备上。因此,今天我们一起学习使用R进行数据插补的3种方法,希望可以为你以后的数据清洗节省时间。

今天介绍三种R常用的数据插补方法:1. R内置函数的简单值插补;包插补缺失值;3.使用 missForest 包进行插补。使用到的数据集是Titanic。


(资料图片仅供参考)

首先查看一下数据集:本篇推文以titanic_train数据集的Age变量为例进行填补,查看Age变量:

可看到有较多的缺失。在进行数据插补之前,我们先看一下要填补数据的分布:

注意,这里查看数据分布的目的是为了对比数据插补前后的分布是否一致。接下来我们开始插补。

1. R内置函数的简单值插补

简单插补可以用(1)任意常数插补:用0或其他数据插补;(2)均数插补;(3)中位数插补,代码如下:

接着我们看一下插补之后数据分布是否有变化,代码如下:

可以看到以上三种填补均对数据分布产生严重的影响。因此这种方法不是很好。

2.使用 MICE 包插补缺失值

MICE 包填补假定缺失值是随机缺失的 (MAR),该算法背后的基本思想是将每个具有缺失值的变量视为回归中的因变量,将其并他变量视为独立变量(预测变量)。

MICE包提供了许多单变量插补方法,但我们只使用少数几种。首先将所需要的变量从titanic_train数据集挑选出来:

现在进行插补,我们将使用以下 MICE 插补方法:(1)pmm:预测均值匹配;(2)cart:分类和回归树;(3):Lasso线性回归。

如果单从表格数据很难判断插补后对原来数据的影响,这种情况我们还是依旧做直方图进行可视化:

详情请点击下方:

/s?__biz=MzAwOTYyMDY3OQ==&mid=2650407949&idx=2&sn=6da3a40b83ac9f2e9b4a9761d4ca85f9&chksm=835279a5b425f0b3559d41e2a80989114da997e5a0791279e047c7e347e8a7952322e8373b1a&token=1125654723&lang=zh_CN#rd

关键词:

保安全、拿资格、抠细节 冬运中心全面进入北京冬奥会临战状态

2021-12-16

人民财评:稳步朝着实现共同富裕的目标迈进

2021-12-16

靠双手让日子变得更美好

2021-12-16

第一观察·瞬间 | 中俄元首视频会晤:相约北京见,携手向未来

2021-12-16

世卫组织:全球累计新冠确诊病例达270791973例

2021-12-16

他们为何奔向先行示范区——2021深圳全球招商大会透视

2021-12-16

Copyright   2015-2032 华西木材网 版权所有  备案号:京ICP备2022016840号-35   联系邮箱: 920 891 263@qq.com