使用Pandas库中的15个函数实现Python高效处理Excel文件
说起数据分析和处理文件,Excel绝对是我们日常生活中常见的格式之一。在Python的世界里,有一个强大的工具叫Pandas,它能让我们非常高效地处理Excel文件。今天我们就来聊聊Pandas里最常用的15个函数,手把手教你从读取文件到复杂数据处理的各种操作。
包含编程资料、学习路线图、源代码、软件安装包等!【籽料戳这里】!
1. 用read_excel
读取Excel文件
这是第一步!我们先得把Excel内容加载进来。
import pandas as pd
# 读取一个简单的Excel文件
df = pd.read_excel('example.xlsx')
print(df.head()) # 查看前5行数据
注释 : pd.read_excel()
函数用来读取Excel文件,并生成DataFrame对象,这是Pandas处理数据的核心结构。
2. 使用head
查看数据头部
通过查看数据的前几行,可以快速了解数据的样子。
print(df.head(3)) # 只查看前三行
解释 : head()
默认显示前五行,也可以指定具体数量。
3. 检查数据类型和缺失值:info
了解数据的整体结构非常重要。
print(df.info())
功能 : 展示列的数据类型以及是否有缺失值。
4. 获取描述性统计信息:describe
快速获取数字型数据的基本统计数据(如平均值、标准差等)。
print(df.describe())
5. 利用groupby
进行分组
当你需要根据某一列进行汇总计算时,这个函数是神器。
grouped = df.groupby('Category')['Sales'].sum()
print(grouped)
代码工作原理 : 先按'Category'列分组,然后对每个组的'Sales'求和。
6. 条件筛选数据:loc
找到你想要的数据就像过滤咖啡粉一样简单。
filtered = df.loc[df['Sales'] > 1000]
print(filtered)
解释 : loc[]
用于基于条件或索引进行定位筛选。
7. 排序:sort_values
将销售量按高到低排序?一句话搞定!
sorted_df = df.sort_values('Sales', ascending=False)
print(sorted_df)
8. 重命名列名:rename
有时候列名看起来不太方便,我们可以直接更改。
renamed = df.rename(columns={'Old Name': 'New Name'})
print(renamed)
9. 填充缺失值:fillna
处理缺失值有很多方式,比如用平均值填补。
filled = df.fillna(df.mean())
print(filled)
10. 按条件添加新列:apply
创建一个新列表示是否销售额大于1000。
df['Big Sale'] = df['Sales'].apply(lambda x: 'Yes' if x > 1000 else 'No')
print(df[['Sales', 'Big Sale']])
11. 数据透视表:pivot_table
制作复杂的统计表格更轻松。
pivot = pd.pivot_table(df, values='Sales', index='Category', aggfunc=sum)
print(pivot)
12. 合并数据:merge
把两份数据结合在一起使用。
another_df = pd.DataFrame({'ProductID': [1, 2], 'Inventory': [100, 150]})
merged = pd.merge(df, another_df, on='ProductID')
print(merged)
13. 导出到Excel:to_excel
当完成处理后,可以将结果保存为一个新的Excel文件。
df.to_excel('output.xlsx', index=False)
14. 统计频率分布:value_counts
想看看某类别有多少不同的种类吗?
counts = df['Category'].value_counts()
print(counts)
15. 样式优化输出:style
如果想要让输出更加美观,样式化是一个选择。
styled = df.style.highlight_max(color='lightgreen', subset=['Sales'])
styled.to_excel('styled_output.xlsx', engine='openpyxl')
实战案例
现在咱们来做个小项目吧——分析某电商平台不同商品类别的销售额情况。假设我们有一个Excel文件sales_data.xlsx
包含产品类别(Category)和对应销量(Sales),按照下面步骤完成任务:
导入Excel文件;
检查是否有缺失值并清理数据;
对每种商品类别分别求和;
将最后结果导出至新的Excel文档。 完整实战代码如下所示:
# 加载原始销售数据
df_sales = pd.read_excel('sales_data.xlsx')
# 检测数据状态及缺失情况
print(df_sales.info())
# 清理掉所有包含NA的记录
df_cleaned = df_sales.dropna()
# 分类汇总计算各类型销售总额
group_results = df_cleaned.groupby('Category')['Sales'].sum()
# 存储汇总结果至新的Excel文档
group_results.to_excel('sales_summary.xlsx')
经过这一轮介绍,你应该能够熟练运用这15个函数来高效地处理Excel文件了。我们详细学习了从基本文件输入到复杂的数据处理技巧,还尝试了一个小项目的实操。
资源分享
今天的分享就到这里,另外对Python感兴趣的同学,给大家准备好了Python全套的学习资料
Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
视频教程
大信息时代,传统媒体远不如视频教程那么生动活泼,一份零基础到精通的全流程视频教程分享给大家
实战项目案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
副业兼职路线
作者:欧子有话说