pandas详细用法指南(python)

我们可以使用pandas完成

  • 1 定义数据结构
  • 1.1 Series
  • 1.2 Dataframe
  • 2 读取和保存文件
  • 2.1 载入csv文件
  • 2.2 载入excel文件
  • 2.3 载入txt文件
  • 2.4 输出csv文件
  • 3 读取数据格式
  • 4 访问某个位置的元素
  • 4.1 读取数据某一列:
  • 4.2 访问具体某个位置的元素:
  • 4.2.1 .iloc[] #访问位置 是具体的整数
  • 4.2.2 .loc #访问标签 即列索引 列名
  • 5 修改数据
  • 5.1 增减列
  • 5.2 删除行列
  • 5.3 索引和切片
  • 5.4 数据分析
  • 5.4.1 描述性统计
  • 5.4.2 判断序列中元素是否在另一个序列中
  • 5.4.3 删除字符串中的某些字符(删除功能)
  • 5.4.4 将Series的值转为字符串**
  • 5.4.4 将Series中的值根据文本逗号分列(分割功能)
  • 5.4.5 判断Series的某个值是不是字符串
  • 5.4.6 Series中的值进行格式转换
  • 1 定义数据结构

    1.1 Series

    pandas主要的数据结构是 Series (一维数据)与 DataFrame(二维数据)。
    Series (一维数据):可以是数字(整数、浮点数等)、字符串、列表,元组,字典等python对象。series的每个值都有一个索引,默认从0开始。具有不变性(创建后大小不变)。

     pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
    

    data可以是列表[1,2,3]

    pd.Series([1,2,3])
    

    可以是字符串[“a”,"b","c"]

    pd.Series(["a","b","c"])
    

    可以是数组np.array([1, 2, 3])

    pd.Series(np.array([1, 2, 3]))
    

    可以是字典{1: "a", 2: "b", 3: "c"},这种方式把索引指定为1,2,3。

    pd.Series({1:"a",2:"b",3:"c"})
    

    1.2 Dataframe

    Dataframe(二维数据)是一个二维的表格,有许多有序的列,每列的数据类型可以不一样,可以是数字(整数、浮点数等)、字符串、列表,元组,字典等python对象。Dataframe的每行每列分别有一个索引,默认从0开始。具有可变性!

    pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
    

    data可以是二维列表[["a",1],["b",2],["c",3]],每一行都是一个列表

    pd.DataFrame([["a",1],["b",2],["c",3]], columns=['abc', '123'])
    


    data可以是二维数组np.array([[1,2],[3,4],[5,6]])

    pd.DataFrame(np.array([[1,2],[3,4],[5,6]]), columns=['col1', 'col2'])
    


    data可以是字典{'Sex':["f", "f", "m"], 'Age':[10, 12, 13]},字典的键将成为列名,字典的值将成为数据,这种方式需要值的长度一样。

    pd.DataFrame({"Sex":["f","f","m"],"Age":[10,12,13]})
    


    colomns是列名,可以是字典的键的子集或者排序,实现对数据的筛选和排序。

    可以通过index初始索引标签来取出数据框data的一些列,得到字典格式的数据框,比如data = pd.DataFrame(index=data['col1'])#就是将索引0 1 2 3用col1列的值来替代。
    若数据有NaN值,可以:

    pd.DataFrame([{"Sex":"f","Age":10},{"Sex":"f","Age":65,"edu":65}])
    

    2 读取和保存文件

    2.1 载入csv文件

    import pandas as pd
    df = pd.read_csv('data.csv')

    2.2 载入excel文件

    df=pd.read_excel('data.xlsx',sheet_name='Sheet1')

    2.3 载入txt文件

    df=pd.read_table(r"J:\data.txt", header=None)#不读取文件第一行为列名

    2.4 输出csv文件

    df.to_csv('data1.csv') #将 DataFrame 存储为 csv 文件

    3 读取数据格式

    一些常用的代码:
    data.head(10) #读取前10行,不填默认为5
    data.tail(10) #读取尾部10行,不填默认为5
    data.info() #读取数据基本信息,多少行多少列和每一列数据类型。有多少空值
    data.shape
    data.index #索引
    data.colomns #列名

    修改列名
    a.columns = [‘rename_col1’,‘rename_col2’]
    a.rename(columns={‘rawname_col1’:‘rename_col1’})

    4 访问某个位置的元素

    4.1 读取数据某一列:

    data["Sex"]

    4.2 访问具体某个位置的元素:

    有两种方式,一种是.iloc访问索引整数,一种是.loc是访问列标签

    4.2.1 .iloc[] #访问位置 是具体的整数

    data.iloc[:,0] #第一列的所有行
    data.iloc[:,0:1]#第一列的所有行,注意在python里区间是不包含最后一个元素的,并且把0当作初始值

    data.iloc[0,1] #第一行第二列的元素

    4.2.2 .loc #访问标签 即列索引 列名

    data.loc[0,'Sex'] #sex列所有行

    data.loc[0,"Sex"] #具体数值

    5 修改数据

    5.1 增减列

    修改某一列的数据
    data['Sex']=['m','m']
    加新的一列
    data['value']=[10,1]
    加新的一行
    data.loc[3]=['f',10,2,1]

    5.2 删除行列

    删除某列元素
    data.drop('Sex',axis=1)
    如果不知道列名,可以用索引选哪一列,比如第一列data.columns[0]
    data.drop(data.columns[0],axis=1)
    删除某行元素
    data.drop(0)

    5.3 索引和切片

    提取多列

    提取多行

    5.4 数据分析

    5.4.1 描述性统计

    data.describe()

    5.4.2 判断序列中元素是否在另一个序列中

    isin()函数是一个非常有用的工具,用于检查一个序列data(如DataFrame或Series)中的元素是否存在于另一个序列data1、列表、元组、Series或DataFrame中。
    data.isin(data1)

    5.4.3 删除字符串中的某些字符(删除功能)

    使用strip()可以将字符串中指定的字符删除,如果没有指定,就是删除空白格。

    若给定字符,将从字符串开头和结尾的字符开始删除,返回剩下的部分,如果给定字符与开头结尾不匹配,则返回原字符。

    指定的字符串只要有开头或结尾的字符就可以删除,顺序没有关系。

    5.4.4 将Series的值转为字符串**

    pandas.Series.str可以对字符串方便的做各项操作。
    比如a是一个Series
    a.str.split()
    我们可以看到a.str.split()中的值变为了字符串了

    5.4.4 将Series中的值根据文本逗号分列(分割功能)

    使用split()将可以将文本根据逗号分成多列。原理是通过指定分隔符(例子是逗号)对字符串进行切片。
    利用pandas.Series.str.split
    假设a为Series如下所示,分隔符为逗号,设置expand=True则python自动在输出中将分割的内容放不同的列中,否则默认不分开。

    a.str.split(',',expand=True)

    5.4.5 判断Series的某个值是不是字符串

    因为有时候文件中的数字是字符串格式,想变为float格式
    比如看series的col1列的第二个值是不是字符串
    isinstance(series['col1'][1], str)
    结果输出 True

    5.4.6 Series中的值进行格式转换

    使用Series.astype转变值得格式,比如转为float格式:
    Series.astype(float)

    作者:一只小海龙

    物联沃分享整理
    物联沃-IOTWORD物联网 » pandas详细用法指南(python)

    发表回复