代码收藏家技术教程 2025-05-01

Python训练营第四天学习打卡回顾

补全信贷数据集中的数值型缺失值

打开数据（csv文件、excel文件）

# 读取数据
import pandas as pd
data = pd.read_csv(r'data.csv')#加r无视转义字符

查看数据（尺寸信息、查看列名等方法）

data.isnull()            # 布尔矩阵显示缺失值，这个方法返回一个布尔矩阵，其中True表示对应位置的值是缺失值，False表示对应位置的值不是缺失值。

data.head(10)#不加参数默认显示前五行

data2 =pd.read_excel('data.xlsx')
data2#读取excel

data.info()       # 列名、非空值、数据类型
data.shape        # (行数, 列数) data的属性
data.columns      # 所有列名 data的属性
data.describe()   # 数值列的基本统计量
data.dtypes       # 各列数据类型
data["Annual Income"].dtype # 查看某一列的数据类型

查看空值

data.isnull()            # 布尔矩阵显示缺失值，这个方法返回一个布尔矩阵，也是dataframe对象，其中True表示对应位置的值是缺失值，False表示对应位置的值不是缺失值。
type(data.isnull())         # 布尔矩阵显示缺失值，这个方法返回一个布尔矩阵，其中True表示对应位置的值是缺失值，False表示对应位置的值不是缺失值。
data.isnull()            # 布尔矩阵显示缺失值，这个方法返回一个布尔矩阵，其中True表示对应位置的值是缺失值，False表示对应位置的值不是缺失值。
data.isnull().sum()      # 每列缺失值计数,sum方法为求每一列的和

众数、中位数填补空值

#*****************用中位数填补空值********************
# 计算 'Annual Income' 列的中位数（会自动忽略 NaN 值）
median_income = data['Annual Income'].median()
median_income

# 使用计算出的中位数填补该列的 NaN 值
# inplace=True 参数表示直接在原 DataFrame 上进行修改
# 如果不设置该参数，fillna() 方法会返回一个新的 DataFrame，原 DataFrame 不会被修改
data['Annual Income'].fillna(median_income, inplace=True)

# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

#*****************使用众数填充缺失值****************
import pandas as pd
data = pd.read_csv('data.csv') #需要重新读取一遍数据
mode = data['Annual Income'].mode()
# mode() 会返回数据中出现频率最高的所有值，如果频次相同，会返回最多每个值。
mode

mode = mode[0]#一般保留第一个
# 众数填补
data['Annual Income'].fillna(mode, inplace=True)
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

利用循环补全所有列的空值

# *************tolist方法，将numpy数组和pandas对象转换成list********
import numpy as np
a =np.array([1,2,3])
a.tolist()

c = data.columns.tolist()
type(c)#此时输出是list

# ***************循环遍历c这个列表中的每一列*************************
for i in c:
    # 找到为数值型的列
    if data[i].dtype != 'object': # 找到为数值型的列
        if data[i].isnull().sum() > 0: # 找到存在缺失值的列
            #计算该列的均值
            mean_value = data[i].mean()
            #用均值填充缺失值
            data[i].fillna(mean_value, inplace=True)

data.isnull().sum()

@浙大疏锦行

作者：澪REI

物联沃分享整理
物联沃-IOTWORD物联网 » Python训练营第四天学习打卡回顾