Python训练营第四天学习打卡回顾
补全信贷数据集中的数值型缺失值
- 打开数据(csv文件、excel文件)
# 读取数据 import pandas as pd data = pd.read_csv(r'data.csv')#加r无视转义字符 - 查看数据(尺寸信息、查看列名等方法)
data.isnull() # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。 data.head(10)#不加参数默认显示前五行 data2 =pd.read_excel('data.xlsx') data2#读取excel data.info() # 列名、非空值、数据类型 data.shape # (行数, 列数) data的属性 data.columns # 所有列名 data的属性 data.describe() # 数值列的基本统计量 data.dtypes # 各列数据类型 data["Annual Income"].dtype # 查看某一列的数据类型 - 查看空值
data.isnull() # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,也是dataframe对象,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。 type(data.isnull()) # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。 data.isnull() # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。 data.isnull().sum() # 每列缺失值计数,sum方法为求每一列的和 - 众数、中位数填补空值
#*****************用中位数填补空值******************** # 计算 'Annual Income' 列的中位数(会自动忽略 NaN 值) median_income = data['Annual Income'].median() median_income # 使用计算出的中位数填补该列的 NaN 值 # inplace=True 参数表示直接在原 DataFrame 上进行修改 # 如果不设置该参数,fillna() 方法会返回一个新的 DataFrame,原 DataFrame 不会被修改 data['Annual Income'].fillna(median_income, inplace=True) # 检查下是否有缺失值 data['Annual Income'].isnull().sum()#*****************使用众数填充缺失值**************** import pandas as pd data = pd.read_csv('data.csv') #需要重新读取一遍数据 mode = data['Annual Income'].mode() # mode() 会返回数据中出现频率最高的所有值,如果频次相同,会返回最多每个值。 mode mode = mode[0]#一般保留第一个 # 众数填补 data['Annual Income'].fillna(mode, inplace=True) # 检查下是否有缺失值 data['Annual Income'].isnull().sum() - 利用循环补全所有列的空值
# *************tolist方法,将numpy数组和pandas对象转换成list******** import numpy as np a =np.array([1,2,3]) a.tolist() c = data.columns.tolist() type(c)#此时输出是list # ***************循环遍历c这个列表中的每一列************************* for i in c: # 找到为数值型的列 if data[i].dtype != 'object': # 找到为数值型的列 if data[i].isnull().sum() > 0: # 找到存在缺失值的列 #计算该列的均值 mean_value = data[i].mean() #用均值填充缺失值 data[i].fillna(mean_value, inplace=True) data.isnull().sum()
@浙大疏锦行
作者:澪REI