代码收藏家技术教程 2024-10-15

pandas详细用法指南（python）

我们可以使用pandas完成

1 定义数据结构

1.1 Series

1.2 Dataframe

2 读取和保存文件

2.1 载入csv文件

2.2 载入excel文件

2.3 载入txt文件

2.4 输出csv文件

3 读取数据格式

4 访问某个位置的元素

4.1 读取数据某一列：

4.2 访问具体某个位置的元素：

4.2.1 .iloc[] #访问位置是具体的整数

4.2.2 .loc #访问标签即列索引列名

5 修改数据

5.1 增减列

5.2 删除行列

5.3 索引和切片

5.4 数据分析

5.4.1 描述性统计

5.4.2 判断序列中元素是否在另一个序列中

5.4.3 删除字符串中的某些字符（删除功能）

5.4.4 将Series的值转为字符串**

5.4.4 将Series中的值根据文本逗号分列（分割功能）

5.4.5 判断Series的某个值是不是字符串

5.4.6 Series中的值进行格式转换

1 定义数据结构

1.1 Series

pandas主要的数据结构是 Series （一维数据）与 DataFrame（二维数据）。
Series （一维数据）：可以是数字（整数、浮点数等）、字符串、列表，元组，字典等python对象。series的每个值都有一个索引，默认从0开始。具有不变性（创建后大小不变）。

 pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

data可以是列表[1,2,3]

pd.Series([1,2,3])

可以是字符串[“a”,"b","c"]

pd.Series(["a","b","c"])

可以是数组np.array([1, 2, 3])

pd.Series(np.array([1, 2, 3]))

可以是字典{1: "a", 2: "b", 3: "c"}，这种方式把索引指定为1，2，3。

pd.Series({1:"a",2:"b",3:"c"})

1.2 Dataframe

Dataframe（二维数据）是一个二维的表格，有许多有序的列，每列的数据类型可以不一样，可以是数字（整数、浮点数等）、字符串、列表，元组，字典等python对象。Dataframe的每行每列分别有一个索引，默认从0开始。具有可变性！

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

data可以是二维列表[["a",1],["b",2],["c",3]]，每一行都是一个列表

pd.DataFrame([["a",1],["b",2],["c",3]], columns=['abc', '123'])

data可以是二维数组np.array([[1,2],[3,4],[5,6]])。

pd.DataFrame(np.array([[1,2],[3,4],[5,6]]), columns=['col1', 'col2'])

data可以是字典{'Sex':["f", "f", "m"], 'Age':[10, 12, 13]}，字典的键将成为列名，字典的值将成为数据，这种方式需要值的长度一样。

pd.DataFrame({"Sex":["f","f","m"],"Age":[10,12,13]})

colomns是列名，可以是字典的键的子集或者排序，实现对数据的筛选和排序。

可以通过index初始索引标签来取出数据框data的一些列，得到字典格式的数据框，比如data = pd.DataFrame(index=data['col1'])#就是将索引0 1 2 3用col1列的值来替代。
若数据有NaN值，可以:

pd.DataFrame([{"Sex":"f","Age":10},{"Sex":"f","Age":65,"edu":65}])

2 读取和保存文件

2.1 载入csv文件

import pandas as pd
df = pd.read_csv('data.csv')

2.2 载入excel文件

df=pd.read_excel('data.xlsx',sheet_name='Sheet1')

2.3 载入txt文件

df=pd.read_table(r"J:\data.txt", header=None)#不读取文件第一行为列名

2.4 输出csv文件

df.to_csv('data1.csv') #将 DataFrame 存储为 csv 文件

3 读取数据格式

一些常用的代码：
data.head(10) #读取前10行，不填默认为5
data.tail(10) #读取尾部10行，不填默认为5
data.info() #读取数据基本信息，多少行多少列和每一列数据类型。有多少空值
data.shape
data.index #索引
data.colomns #列名

修改列名
a.columns = [‘rename_col1’,‘rename_col2’]
a.rename(columns={‘rawname_col1’:‘rename_col1’})