使用Pandas库中的15个函数实现Python高效处理Excel文件

说起数据分析和处理文件,Excel绝对是我们日常生活中常见的格式之一。在Python的世界里,有一个强大的工具叫Pandas,它能让我们非常高效地处理Excel文件。今天我们就来聊聊Pandas里最常用的15个函数,手把手教你从读取文件到复杂数据处理的各种操作。


包含编程资料、学习路线图、源代码、软件安装包等!【籽料戳这里】!


1. 用read_excel读取Excel文件

这是第一步!我们先得把Excel内容加载进来。

import pandas as pd

# 读取一个简单的Excel文件
df = pd.read_excel('example.xlsx')
print(df.head())  # 查看前5行数据

注释 : pd.read_excel()函数用来读取Excel文件,并生成DataFrame对象,这是Pandas处理数据的核心结构。

2. 使用head查看数据头部

通过查看数据的前几行,可以快速了解数据的样子。

print(df.head(3))  # 只查看前三行

解释 : head()默认显示前五行,也可以指定具体数量。

3. 检查数据类型和缺失值:info

了解数据的整体结构非常重要。

print(df.info())

功能 : 展示列的数据类型以及是否有缺失值。

4. 获取描述性统计信息:describe

快速获取数字型数据的基本统计数据(如平均值、标准差等)。

print(df.describe())

5. 利用groupby进行分组

当你需要根据某一列进行汇总计算时,这个函数是神器。

grouped = df.groupby('Category')['Sales'].sum()
print(grouped)

代码工作原理 : 先按'Category'列分组,然后对每个组的'Sales'求和。

6. 条件筛选数据:loc

找到你想要的数据就像过滤咖啡粉一样简单。

filtered = df.loc[df['Sales'] > 1000]
print(filtered)

解释 : loc[]用于基于条件或索引进行定位筛选。

7. 排序:sort_values

将销售量按高到低排序?一句话搞定!

sorted_df = df.sort_values('Sales', ascending=False)
print(sorted_df)

8. 重命名列名:rename

有时候列名看起来不太方便,我们可以直接更改。

renamed = df.rename(columns={'Old Name': 'New Name'})
print(renamed)

9. 填充缺失值:fillna

处理缺失值有很多方式,比如用平均值填补。

filled = df.fillna(df.mean())
print(filled)

10. 按条件添加新列:apply

创建一个新列表示是否销售额大于1000。

df['Big Sale'] = df['Sales'].apply(lambda x: 'Yes' if x > 1000 else 'No')
print(df[['Sales', 'Big Sale']])

11. 数据透视表:pivot_table

制作复杂的统计表格更轻松。

pivot = pd.pivot_table(df, values='Sales', index='Category', aggfunc=sum)
print(pivot)

12. 合并数据:merge

把两份数据结合在一起使用。

another_df = pd.DataFrame({'ProductID': [1, 2], 'Inventory': [100, 150]})
merged = pd.merge(df, another_df, on='ProductID')
print(merged)

13. 导出到Excel:to_excel

当完成处理后,可以将结果保存为一个新的Excel文件。

df.to_excel('output.xlsx', index=False)

14. 统计频率分布:value_counts

想看看某类别有多少不同的种类吗?

counts = df['Category'].value_counts()
print(counts)

15. 样式优化输出:style

如果想要让输出更加美观,样式化是一个选择。

styled = df.style.highlight_max(color='lightgreen', subset=['Sales'])
styled.to_excel('styled_output.xlsx', engine='openpyxl')

实战案例

现在咱们来做个小项目吧——分析某电商平台不同商品类别的销售额情况。假设我们有一个Excel文件sales_data.xlsx包含产品类别(Category)和对应销量(Sales),按照下面步骤完成任务:

  • 导入Excel文件;

  • 检查是否有缺失值并清理数据;

  • 对每种商品类别分别求和;

  • 将最后结果导出至新的Excel文档。 完整实战代码如下所示:

  • # 加载原始销售数据
    df_sales = pd.read_excel('sales_data.xlsx')
    
    # 检测数据状态及缺失情况
    print(df_sales.info())
    
    # 清理掉所有包含NA的记录
    df_cleaned = df_sales.dropna()
    
    # 分类汇总计算各类型销售总额
    group_results = df_cleaned.groupby('Category')['Sales'].sum()
    
    # 存储汇总结果至新的Excel文档
    group_results.to_excel('sales_summary.xlsx')

    经过这一轮介绍,你应该能够熟练运用这15个函数来高效地处理Excel文件了。我们详细学习了从基本文件输入到复杂的数据处理技巧,还尝试了一个小项目的实操。

    资源分享

    今天的分享就到这里,另外对Python感兴趣的同学,给大家准备好了Python全套的学习资料

    ​​​​​

     Python所有方向的学习路线

    Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

    图片​​​​​​

    视频教程

    大信息时代,传统媒体远不如视频教程那么生动活泼,一份零基础到精通的全流程视频教程分享给大家

    图片​​​​​​

    实战项目案例

    光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

    图片​​​​​​

    图片​​​​​​

    副业兼职路线

    ​​​​​​

    作者:欧子有话说

    物联沃分享整理
    物联沃-IOTWORD物联网 » 使用Pandas库中的15个函数实现Python高效处理Excel文件

    发表回复