【Python】文件读写操作详解与实例指南

一、csv

python内置了csv模块用于读写csv文件,csv是一种逗号分隔符文件,是数据科学中最常见的数据存储格式之一。 csv模块能轻松完成各种体量数据的读写操作,当然大数据量需要代码层面的优化。

  • csv模块读取文件

  • # 读取文件
    import csv
    file = open("test.csv", 'r')
    table = csv.reader(file)
    for row in table:
    print(row)
  • csv模块写入文件
  • #写入文件
    import csv
    file = open(r"C:\Users\user\Desktop\test.csv", 'w')
    write = csv.writer(file)
    # writerow一行一行写入
    write.writerow([7, 8, 9])
    write.writerow([8, 'h', 'f'])
    # writerows多行写入
    List = [[1, 2, 3], [4, 5, 6]]
    write.writerows(List)

    二、pandas

    1、读取数据

    pandas是数据处理最常用的分析库之一,可以读取各种各样格式的数据文件,一般输出dataframe格式。 如:txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等

    (1)read_csv

    read_csv方法用来读取csv格式文件,输出dataframe格式。

    import pandas as pd
    a = pd.read_csv('test.csv', sep=';', nrows=1000, skiprows=[2, 5], encoding='gb18030'')
    print(a)

    sep 代表的是分隔符。如果你在使用法语数据,excel 中 csv 分隔符是「;」,因此你需要显式地指定它。编码设置为 gb18030来读取中文字符。nrows=1000 表示读取前 1000 行数据。skiprows=[2,5] 表示你在读取文件的时候会移除第 2 行和第 5 行。

    (2)read_excel

    读取excel文件,包括xlsx、xls、xlsm格式

  • sheet_name

  • import pandas as pd
    
    # str字符串用于引用的sheet的名称
    a = pd.read_excel('test.xlsx',sheet_name="Sheet1")
    
    # int整数用于引用的sheet的索引(从0开始)
    
    a = pd.read_excel('test.xlsx',sheet_name=0)
    
    # None 表示引用所有sheet
    
    a = pd.read_excel('test.xlsx',sheet_name=None)
    print(a.head())
  • header
  • 表示用第几行作为表头,默认header=0,即默认第一行为表头

    import pandas as pd
    
    # 默认header=0,即默认第一行为表头
    a = pd.read_excel('test.xlsx', sheet_name=0, header=0)
    
    # header=1,选择第二行为表头,第一行数据就不要了。其他以此类
    a = pd.read_excel('test.xlsx', sheet_name=0, header=1)
    
    # hearder=[1,2,3]:选择第1,2,3行的数据作为表头,第三行之上的数据不用
    
    a = pd.read_excel('test.xlsx', sheet_name=0, header=[1, 2, 3])
    
    # header=None:表示不使用数据源中的表头
    
    a = pd.read_excel('test.xlsx', sheet_name=0, header=None)
    print(a.head())
  • names
  • 表示自定义表头的名称,需要传递数组参数。

    import pandas as pd
    a = pd.read_excel('test.xlsx', sheet_name=0, names=["第一列", "第二列"])
    print(a.head())
  • index_col
  • 指定列为索引列,默认为None,也就是索引为0的列用作DataFrame的行标签。

    import pandas as pd
    
    # int整数:指定第几列为索引列
    a = pd.read_excel('test.xlsx', sheet_name=0, index_col=0)
    print(a.head())
  • skiprows
  • 跳过指定的行

    import pandas as pd
    # 跳过第1行
    a = pd.read_excel('test.xlsx', sheet_name=0, skiprows=1)
    
    # 跳过前三行
    a = pd.read_excel('test.xlsx', sheet_name=0, skiprows=3)
    
    # 跳过第1、3、5行
    a = pd.read_excel('test.xlsx', sheet_name=0, skiprows=[1, 3, 5])
    
    # 跳过偶数行
    a = pd.read_excel('test.xlsx', sheet_name=0, skiprows=lambda x: x % 2 == 0)
    print(a.head())
  • nrows
  • 指定需要读取前多少行,通常用于较大的数据文件中。

    import pandas as pd
    # 读取前三行
    a = pd.read_excel('test.xlsx', sheet_name=0, nrows=3)
    print(a.head())

    2、写入数据

    excel,csv,txt写入文件的方式基本类似,以pandas的to_xx()方式写入;

    1. index:是否保留行索引
    2. columns:通过列索引指定所需列
    3. sheet_name:表名
    4. encoding:编码格式,utf-8或者gbk
    5. na_rep:缺失值填充
    6. inf_rep:无穷值填充
    7. index_label:行索引标签
    8. header:默认为True,False没有列索引,如需更改列名,则header = ["列1","列2","列3"]
    (1)写.csv文件

    变量名.to_csv(文件路径+文件名, index = 通常设置成False)、

    import pandas as pd
    
    
    data_read_path ="my_csv.csv"
    data_write_path ="my_csv_saved.csv"
    
    
    data = pd.read_csv(data_read_path)
    data.to_csv(data_write_path, index=False) # 此时不能打开被写的文件

    data.to_csv(data_write_path, index=False)
    把data中的数据 ,写入到data_write_path 中,且设置去除索引操作。

    (2)写.txt文件

    写txt文件使用的是:.to_csv()方法;记得设置分割方式:sep

    import pandas as pd
    
    data_read_path ="my_txt.txt"
    data_write_path = "my_txt_saved.txt"
    
    data = pd.read_csv(data_read_path)
    data.to_csv('my_txt_saved.txt', sep='\t', index=False) # 此时不能打开被写的文件
    (3)写.excel文件
    import pandas as pd
    
    data_read_path ="my_excel.xlsx"
    data_write_path = "my_excel_saved.xlsx"
    
    data = pd.read_csv(data_read_path)
    data.to_csv('my_excel_saved.xlsx', sep='\t', index=False) # 此时不能打开被写的文件

    3、DataFrame 常用操作

    pandas官方对DataFrame的定义了三个特点:Two-dimensional(二维), size-mutable(尺寸可变), potentially heterogeneous tabular data(潜在的异构表格型数据)。

    通俗的说,DataFrame是一种表格型数据结构,由行(rows)和列(columns)组成,index为行索引,column为列索引。我们可以对整行和整列进行操作。可以理解成是一种存放Series对象,结构类似于字典的容器。

    由于DataFrame用起来方便,很多库都基于DataFrame编写。接下来介绍一些主要使用方法。

    (1)DataFrame的创建
  • 创建一个空的dataframe
  • import pandas as pd
    
    df=pd.DataFrame(columns={"a":"","b":"","c":""},index=[0])
    print(df)
    
    out:
    
       a      b       c
    
    0 NaN NaN NaN
  • 用list的数据创建dataframe
  • import pandas as pd
    
    a = [['2', '1.2', '4.2'], ['0', '10', '0.3'], ['1', '5', '0']]
    df = pd.DataFrame(a, columns=['one', 'two', 'three'])
    print(df)
    
    out:
    
    one two three
    
    0  2     1.2   4.2
    
    1  0     10    0.3
    
    2  1     5      0
  • 用dict的数据创建DataFrame
  • import pandas as pd
    
    data = {'row1': [1, 2, 3, 4], 'row2': ['a', 'b', 'c', 'd']}
    df = pd.DataFrame(data)
    print(df)
    
    out:
    
         row1   row2
    
    0   1         a
    
    1   2         b
    
    2   3         c
    
    3   4         d
    import pandas as pd
    
    dict = { 'row1' : [1,2,3,4], 'row2' : ['a' , 'b' , 'c' , 'd'] }
    df = pd.DataFrame.from_dict(dict,orient='index').T
    print(df)
    
    out:
    
         row1   row2
    
    0   1         a
    
    1   2         b
    
    2   3         c
    
    3   4         d
    (2)DataFrame的切片
  • iloc索引或切片(iloc中只能取整数值)
  • print(df.iloc[1, :]) # 第1行,所有列
    print(df.iloc[:, [0, 2]]) # 第0行,第0列和第2列
    print(df['one'].iloc[2]) # 列名索引+行号
  • loc索引或切片(loc中可以取str)
  • print(df.loc[0:1, ['row1']])
    (3)添加新的行,将两个dataframe连接到一起

    axis表示连接的方向,axis=0表示两个dataframe的行数会增加,如果列名相同则直接共用列,如果列名不同会生成新的列

  • axis=1,表示会加上新的列
  • import pandas as pd
    
    dict = {'row1': [1, 3, 2], 'row2': ['a', 'b', 'c', 'd']}
    df = pd.DataFrame.from_dict(dict, orient='index').T
    
    df=pd.concat([df,df],axis=0) # 连接后行数是以前的2倍,列数不变
    
    print(df)
    
    out:
    
        row1   row2
    
    0  1         a
    
    1  3         b
    
    2  2         c
    
    3  None  d
    
    0  1        a
    
    1  3        b
    
    2  2        c
    
    3  None d
  • 在dataframe添加新的行
  • import pandas as pd
    
    dict = {'row1': [1, 3, 2], 'row2': ['a', 'b', 'c', 'd']}
    df = pd.DataFrame.from_dict(dict, orient='index').T
    
    df1 = df.append(df.iloc[2,:],ignore_index=True)
    
    print(df)
    print(df1)
    
    out:
    
         row1 row2
    
    0   1       a
    
    1   3       b
    
    2   2       c
    
    3   None d
    
        row1 row2
    
    0  1       a
    
    1  3       b
    
    2 2        c
    
    3 None d
    
    4  2       c
  • 如果两个dataframe的列名是一样的,也可以用merge:
  • import pandas as pd
    
    dict1 = {'row1': [1, 3, 2, 3], 'row2': ['a', 'b', 'c', 'd']}
    dict2 = {'row2': ['a', 'b', 'c', 'd'], 'row3': ['A', 'B', 'C', 'D']}
    
    df1 = pd.DataFrame(dict1)
    df2 = pd.DataFrame(dict2)
    
    df = pd.merge(df1, df2, on=['row2'])
    
    print(df)
    
    out:
    
         row1   row2   row3
    
    0  1          a         A
    
    1  3          b         B
    
    2  2          c         C
    
    3 3 d D
    (4)DataFrame的输出
  • 输出为excel或者csv格式,csv文件里的数据被读取时数据类型默认为object,excel则会保留原有的数据类型
  • df.to_excel('filename.xls')
    df.to_csv('filename.csv')
  • 输出为dict格式
  • dict = df.to_dict(orient="dict")

    二、openpyxl

    1、读取数据

    通过调用方法 load_workbook(filename) 进行文件读取,该方法中还有一个 read_only 参数用于设置文件打开方式,默认为可读可写,该方法最终将返回一个 workbook 的数据对象

    import openpyxl
    
    # 文件必须是xlsx格式,如果是其他格式在执行前可利用win32辅助转化
    wb = openpyxl.load_workbook('test.xlsx')
    (1)获取工作表

    每一个 Excel 表格中都会有很多张 sheet 工作表,在对表格操作前需要先选定一张工作表

    # 获取所有工作表名(返回一个列表)
    sheets = wb.get_sheet_names()
    
    # 获取某一特定的工作表
    sheet = wb.get_sheet_by_name('Sheet2')
    
    # 获取工作表的表名
    sheet_name = sheet.title
    
    # 一般来说,表格大多数用到的是打开时显示的工作表,这时可以用active来获取当前工作表
    sheet = wb.active
    (2)获取单元格

    对 Excel 表格的操作最终都落于对单元格的操作,获取单元格有两种获取方法:sheet[列行名]和

    sheet.cell(row,column)
    
    # 通过sheet[列行名]获取
    a = sheet['A2']
    
    # 通过sheet.cell(row,column)获取
    b = sheet.cell(1, 2) # 即sheet['B1']
    
    # 获取单元格内容
    print(a.value)
    
    # 获取单元格所在列和行
    print('a'+str((a.column,a.row)))

    需要注意的是,sheet.cell(row,column)中参数分别是行和列,且必须为整数,如果列为英文字母,可以利用 openpyxl.utils 中的 column_index_from_string (char)进行字母数字的转化。顺便一说,同理也可以利用 get_column_letter(number) 进行数字字母间的转化

    from openpyxl.utils import get_column_letter, column_index_from_string
    
    # 对列进行字母/数字转化
    c_num = column_index_from_string('B') # c_num = 2
    c_char = get_column_letter(5) # c_char = 'E‘
    (3)获取行和列

    在处理 Excel 表格有时可能需要对表格进行遍历查找,openpyxl 中便提供了一个行和列的生成器 (sheet.rows和sheet.columns) ,这两个生成器里面是每一行(或列)的数据,每一行(或列)又由一个 tuple 包裹,借此可以很方便地完成对行和列的遍历

    # 对行进行遍历,输出A1,B1,C1
    for row in sheet.rows:
    for cell in row:
    print(cell.value)
    
    # 对列进行遍历,输出A1,A2,A3
    for column in sheet.columns:
    for cell in column:
    print(cell.value)

    也可以通过 list(sheet.rows)index 对某一行或列进行遍历,而在此值得注意的是,由于sheet.rows(或sheet.columns)是生成器类型,是不能直接调用的,需将其转化为一个 list 类型,然后再通过索引遍历

    # 对某一特定的行进行遍历
    for cell in list(sheet.rows)[0]:
    print(cell.value)

    同时,也可以通过使用 sheet[行列值:行列值] 来对给定单元格范围进行遍历

    # 对某一单元格范围进行遍历
    for spaces in sheet['A1':'B2']:
    for cell in spaces:
    print(cell.value)

    有时候我们还可能需要确定表格的大小,即获取表格行和列的最大值,可以用 max_row 和 max_column 来获取

    # 获得最大列和最大行
    print(sheet.max_row)
    print(sheet.max_column)

    2、写入数据

    默认的打开方式为可读可写,那么使用 load_workbook(filename) 读取 Excel 文档后也就可以直接写入了。另外,如果需要新建一个 Excel 文件,可以使用 Workbook()方法,同时它会自动提供一个 sheet 工作表。对于删除一个工作表,则可以使用 workbook 对象的 remove(sheet) 方法删除

    # 新建一个Excel文档
    wb = openpyxl.Workbook()
    
    # 删除某个工作表
    wb.remove(sheet)
    (1)写入单元格

    获取工作表和之前一样,如果使用 load_workbook(filename) 读取,那么获取工作表后可以直接通过sheet[行列值]写入单元格。学习时,有资料介绍还可以传入Excel中的公式进行赋值,不过要注意,在读取文件时需要加上参数 data_only=True ,这样才能返回数字,否则将返回字符串,即公式本身

    # 直接赋值
    sheet['A1'].value = 2
    
    # 公式赋值
    sheet['A6'].value = '=SUM(A1:A5)'
    
    另外,也可使用 sheet.append(parameters) 一行或多行写入
    
    # 写入一行
    row = [1 ,2, 3, 4, 5]
    sheet.append(row)
    
    # 写入多行
    rows = [
    ['ID', 'ClassName', 'StudentName'],
    ['001', '一年级1班','张三'],
    ['002', '二年级2班,'李四'],
    ['003', '三年级1班,'王五']
    ]
    sheet.append(rows)
    (2)保存文件

    写完文件后,使用 workbook.save(path+filename)进行保存,不过要注意文件扩展名一定要是 xlsx 格式

    # 保存文件至当前目录
    wb.save('new_file.xlsx')

    三、示例

  • 使用 openpyxl、numpy、pandas 实现以【行】的方式向Excel追加数据
  • from openpyxl import load_workbook
    
    import numpy as np
    
    import pandas as pd
    
    
    
    
    
    # 追加数据
    
    def insertDate(fname, sname, datas):
    
        file = pd.read_excel(fname, sheet_name=sname, header=1)  # 获取原文件表头
    
        for data in datas:  # 遍历传入的数据
    
            i = 1  # 行根据传入数据的数量自增
    
            s = pd.DataFrame(np.array([data]), columns=[file])  # 创建数据结构
    
            df = pd.read_excel(fname, sheet_name=sname)  # 读取原文件sheet的数据
    
            row = df.shape[0]  # 获取原文件sheet的行数
    
            # s = pd.concat([pd.DataFrame(columns=df.columns), s1], ignore_index=True)  # 将新数据格式化成原数据的模样,以解决数据列之间的差异
    
    
    
            # 保留旧数据
    
            book = load_workbook(fname)
    
            with pd.ExcelWriter(fname) as writer:
    
                writer.book = book
    
                writer.sheets = {sheet.title: sheet for sheet in book.worksheets}
    
    
    
                # 追加新数据,追加前必须先格式化新数据,否则新数据缺少列,或是列顺序不对会导致数据紊乱
    
                s.to_excel(writer, sheet_name=sname, startrow=row + i, index=False, header=False)
    
            i += 1
  • 使用 openpyxl 实现以【列】的方式向Excel追加数据
  • import openpyxl
    
    
    
    
    
    # 追加数据方法 (fanme 文件名; data_script 数据集; judges 判断条件)
    
    def insertDate(fname, datas, judges):
    
        wb = openpyxl.load_workbook(fname)  # 打开文件
    
        ws = wb.active  # 活跃的sheet
    
        max_row = ws.max_row  # 最大行数
    
    
    
        row_n = 1  # 初始行
    
        col_n = judges[1]  # 初始列
    
    
    
        for data in datas:  # 遍历多组数据
    
            # 「单列」数据处理
    
            if judges[0] == "单列":
    
                ws.cell(row=max_row + row_n, column=col_n, value=data)  # 写入数据
    
                # print("行", max_row + row, "列", col, "值", data)
    
                row_n = row_n + 1  # 每次循环后,行数加1
    
    
    
            # 「多列」数据处理
    
            if judges[0] == "多列":
    
                row_n = 1  # 初始行
    
                for val in data:  # 遍历要输入的数据
    
                    ws.cell(row=max_row + row_n, column=col_n, value=val)  # 写入数据
    
                    print("行", max_row + row_n, "列", col_n, "值", val)
    
                    row_n = row_n + 1  # 每次循环后,行数加1
    
                col_n = col_n + 1  # 每次循环后,列数加1
    
    
    
        wb.save(fname)  # 保存
    
        wb.close()  # 退出

    作者:996小白的进阶路

    物联沃分享整理
    物联沃-IOTWORD物联网 » 【Python】文件读写操作详解与实例指南

    发表回复