代码收藏家技术教程 2025-04-25

使用Pandas库中的15个函数实现Python高效处理Excel文件

说起数据分析和处理文件，Excel绝对是我们日常生活中常见的格式之一。在Python的世界里，有一个强大的工具叫Pandas，它能让我们非常高效地处理Excel文件。今天我们就来聊聊Pandas里最常用的15个函数，手把手教你从读取文件到复杂数据处理的各种操作。

包含编程资料、学习路线图、源代码、软件安装包等！【籽料戳这里】！

1. 用`read_excel`读取Excel文件

这是第一步！我们先得把Excel内容加载进来。

import pandas as pd

# 读取一个简单的Excel文件
df = pd.read_excel('example.xlsx')
print(df.head())  # 查看前5行数据

注释 : pd.read_excel()函数用来读取Excel文件，并生成DataFrame对象，这是Pandas处理数据的核心结构。

2. 使用`head`查看数据头部

通过查看数据的前几行，可以快速了解数据的样子。

print(df.head(3))  # 只查看前三行

解释 : head()默认显示前五行，也可以指定具体数量。

3. 检查数据类型和缺失值：`info`

了解数据的整体结构非常重要。

print(df.info())

功能 : 展示列的数据类型以及是否有缺失值。

4. 获取描述性统计信息：`describe`

快速获取数字型数据的基本统计数据（如平均值、标准差等）。

print(df.describe())

5. 利用`groupby`进行分组

当你需要根据某一列进行汇总计算时，这个函数是神器。

grouped = df.groupby('Category')['Sales'].sum()
print(grouped)

代码工作原理 : 先按'Category'列分组，然后对每个组的'Sales'求和。

6. 条件筛选数据：`loc`

找到你想要的数据就像过滤咖啡粉一样简单。

filtered = df.loc[df['Sales'] > 1000]
print(filtered)

解释 : loc[]用于基于条件或索引进行定位筛选。

7. 排序：`sort_values`

将销售量按高到低排序？一句话搞定！

sorted_df = df.sort_values('Sales', ascending=False)
print(sorted_df)

8. 重命名列名：`rename`

有时候列名看起来不太方便，我们可以直接更改。

renamed = df.rename(columns={'Old Name': 'New Name'})
print(renamed)

9. 填充缺失值：`fillna`

处理缺失值有很多方式，比如用平均值填补。

filled = df.fillna(df.mean())
print(filled)

10. 按条件添加新列：`apply`

创建一个新列表示是否销售额大于1000。

df['Big Sale'] = df['Sales'].apply(lambda x: 'Yes' if x > 1000 else 'No')
print(df[['Sales', 'Big Sale']])

11. 数据透视表：`pivot_table`

制作复杂的统计表格更轻松。

pivot = pd.pivot_table(df, values='Sales', index='Category', aggfunc=sum)
print(pivot)

12. 合并数据：`merge`

把两份数据结合在一起使用。

another_df = pd.DataFrame({'ProductID': [1, 2], 'Inventory': [100, 150]})
merged = pd.merge(df, another_df, on='ProductID')
print(merged)

13. 导出到Excel：`to_excel`

当完成处理后，可以将结果保存为一个新的Excel文件。

df.to_excel('output.xlsx', index=False)

14. 统计频率分布：`value_counts`

想看看某类别有多少不同的种类吗？

counts = df['Category'].value_counts()
print(counts)

15. 样式优化输出：`style`

如果想要让输出更加美观，样式化是一个选择。

styled = df.style.highlight_max(color='lightgreen', subset=['Sales'])
styled.to_excel('styled_output.xlsx', engine='openpyxl')

实战案例

现在咱们来做个小项目吧——分析某电商平台不同商品类别的销售额情况。假设我们有一个Excel文件sales_data.xlsx包含产品类别(Category)和对应销量(Sales)，按照下面步骤完成任务：

导入Excel文件；

检查是否有缺失值并清理数据；

对每种商品类别分别求和；

将最后结果导出至新的Excel文档。完整实战代码如下所示：

# 加载原始销售数据
df_sales = pd.read_excel('sales_data.xlsx')

# 检测数据状态及缺失情况
print(df_sales.info())

# 清理掉所有包含NA的记录
df_cleaned = df_sales.dropna()

# 分类汇总计算各类型销售总额
group_results = df_cleaned.groupby('Category')['Sales'].sum()

# 存储汇总结果至新的Excel文档
group_results.to_excel('sales_summary.xlsx')

经过这一轮介绍，你应该能够熟练运用这15个函数来高效地处理Excel文件了。我们详细学习了从基本文件输入到复杂的数据处理技巧，还尝试了一个小项目的实操。