代码收藏家技术教程 2022-08-16

数据清洗以及常用的方法

最近用到数据清洗，写篇博客，供自己回忆，供有需要的人参考~

一、数据清洗是什么？

数据清洗，顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除；把缺失部分补充完整，并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。

注：很多做ml和dl任务拿到的数据并非可以直接使用的数据，往往需要先进行数据清洗这一步。

二、数据清洗想要洗掉什么？

从上面数据清洗的概念就可以大概知道数据清洗是在清洗什么了，洗掉的就是数据集中的“脏”数据。“脏数据”，即数据集中残缺、错误、重复的数据。数据清洗，旨在提高数据的质量、缩小数据统计过程中的误差值。

三、常见的数据清洗方法？

注：不同类型的数据异常所要用到的方法有所不同，因此我们拿到原始数据之后，需要先分析都有什么样的数据异常，然后再使用相应异常下常常采用的方法，正所谓“对症下药”，方能“药到病除”。

1、重复数据：

（1）删除法

2、缺失值处理：

（1）删除法：删除法是指当缺失的观测比例非常低时（如5%以内），直接删除存在缺失的观测，或者当某些变量的缺失比例非常高时（如85%以上），直接删除这些缺失的变量；
（2）替换法：替换法是指用某种常数直接替换那些缺失值，例如，对连续变量而言，可以使用均值或中位数替换，对于离散变量，可以使用众数替换；
（3）插补法：插补法是指根据其他非缺失的变量或观测来预测缺失值，常见的插补法有回归插补法、K近邻插补法、拉格朗日插补法等。

3、异常值处理：异常值是指那些远离正常值的观测，即“不合群”观测。

异常值检测方法：

a、简单统计量分析：计算统计量值，常见的就是看最大最小值是否合理。
b、3 $\sigma$ 准则： $\sigma$ 是正态分布的参数，所谓3 $\sigma$ 准则就算是将不落在正负 3 $\sigma$ 内的值认为是异常值，应为它们发生的概率为0.3%
c、基于模型检测：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象;如果模型是簇的集合，则异常是不显著属于任何簇的对象;在使用回归模型时，异常是相对远离预测值的对象
d、基于距离：通过在对象之间定义临近性度量，异常对象是那些远离其它对象的对象
e、基于聚类：基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇。离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。为了处理该问题，可以使用如下方法：对象聚类，删除离群点，对象再次聚类。

处理异常值常用的方法：
（1）删除异常值—-明显看出是异常且数量较少可以直接删除
（2）不处理—如果算法对异常值不敏感则可以不处理，但如果算法对异常值敏感，则最好不要用这种方法，如基于距离计算的一些算法，包括kmeans，knn之类的。
（3）平均值替代—-损失信息小，简单高效。
（4）视为缺失值—-可以按照处理缺失值的方法来处理