代码收藏家技术教程 2022-10-05

Python pandas DataFrame排序与去重操作

前言

本篇文章主要介绍了Python数据分析Pandas Dataframe排序与去重操作：
1、DataFrame 的排序分为两种，一种是对索引进行排序，另一种是对值进行排序；
2、DataFrame 的去重主要针对单列或多列中的完全重复的项进行处理

DataFrame 提供了sort_index()方法来进行索引的排序，主要考虑以下几个可选输入项：

axis参数：指定对行索引排序还是对列索引排序，默认为0，表示对行索引排序，设置为1表示对列索引

ascending参数：指定升序还是降序，默认为True表示升序，设置为False表示降序

inplace参数：表示是否返回副本，默认为False表示返回副本，设置为True表示在原数据上修改

使用方法：

	df = pd.DataFrame(data)
	df.sort_index(axis=0, ascending=False, inplace=True)

DataFrame 提供了sort_values()方法来进行值的排序，相比sort_index()方法，它多了一个by参数，其他参数与sort_index()方法：

by参数：接收字符串或者列表，来指定要排序的行或者列名

ascending参数：若by参数指示的为列表，此处也需要按照列表填写排序方向

ignore_index参数：指示是否重新生成行索引，默认为False表示不生成，此时会导致index乱序，设置为True表示重新按照0，1 ，2…生成index

使用方法：

	df = pd.DataFrame(data)
	df.sort_values(by=['age', 'gender'], ascending=[False, True], inplace=True, ignore_index=True)

Dataframe的去重使用的方法为drop_duplicates()，此方法可以快速的实现对全部数据、部分数据的去重操作。
主要包含以下几个参数：

subset参数：设置识别重复项的列名或列名序列，对某些列来识别重复项，默认情况下使用所有列，即识别完全相同的内容，若设置，则仅识别对应的列；

keep参数：可选值有first，last，False，默认为first，确定要保留哪些重复项

inplace参数：表示是否返回副本，默认为False表示返回副本，设置为True表示在原数据上修改

ignore_index参数：指示是否重新生成行索引，默认为False表示不生成，此时会导致index乱序，设置为True表示重新按照0，1 ，2…生成index

使用方法：

	df = pd.DataFrame(data)
	df.drop_duplicates(subset=None, keep=‘first’, inplace=False, ignore_index=False)

分享到：