使用Python批量合并多个Excel表格

一、问题的提出

现收集到多个Excel表,需要对这些表进行汇总合并。但是这些Excel表并不规则,有不少空列,而且这些列名虽然一致,但是顺序各不相同,所以汇总起来并不是那么简单。单独的一个Excel表显示如下:

Excel表

二、问题的解决

起初考虑用openpyxl,但是由于问题较为复杂,最后决定用os和pandas来解决。

第一步:用os来遍历当前目录下的所有excel表格,用列表表达式来生成这些文件名的列表:

import os
files = [file for file in os.listdir(".") if file.endswith(".xlsx") if not file.endswith("~")]

第二步:导入pandas,批量读取Excel表,删除空例。

    df =  pd.read_excel(file, index_col=None,header = 0)
    df1 = df.dropna(how='all', axis=1,inplace=False) #inplace=True不创建新的对象
    lst.append(df1)

第三步:利用pandas中的concat来按照列名合并数据框,最后把数据框转化为Excel,最终形成以下代码:

import pandas as pd
import os
lst = []
files = [file for file in os.listdir(".") if file.endswith(".xlsx") if not file.endswith("~")]
for file in files:
    df =  pd.read_excel(file, index_col=None,header = 0)
    df1 = df.dropna(how='all', axis=1,inplace=False) #inplace=True不创建新的对象
    lst.append(df1)
sava_data = pd.concat(lst,axis = 0,ignore_index=True) #ignore_index 重建索引 axis=1 列空值
sava_data.to_excel("合并.xlsx",index=False,header=1) #设置无索引

三、合并的Excel表

以下是合并后的Excel表展示,效果还不错,保持了原为表头和格式,而且排列整齐。

合并后的Excel表

四、学后反思

  1. 用习惯了openpyxl就不太喜欢用pandas,主要是因为pandas比较复杂,但是它能解决复杂的问题,有机会以还是要认真地学习。
  2. pandas的功能强大,学起来虽然不容易,但是可以帮助我们解决很多现实问题。唯一的缺点是它做成的程序打包以后个头比较大,需要的时间也更长。比如上面的10行代码,打包以后竟然达到了90M。打包后程序运行速度也不错,整理的数据更整齐,格式更为规范,便于后期的分析和处理。
  3. 最后还是想强调一点,很多Python包的学习要以项目为导向,从解决现实问题入手,在了解pandas基础上,通过大胆尝试,小心验证,边学习边实践,收获才能收获满满。
物联沃分享整理
物联沃-IOTWORD物联网 » 使用Python批量合并多个Excel表格

发表评论