python pandas 数据排序的几种常用方法

09-15 124阅读 0评论

前言:

pandas排序的几种常用方法,主要括sort_index和sort_values

基础数据

import Pandas as pd import numpy as np data = { 'brand':['Python', 'C', 'C++', 'C#', 'Java'], 'B':[4,6,8,12,10], 'A':[10,2,5,20,16], 'D':[6,18,14,6,12], 'years':[4,1,1,30,30], 'C':[8,12,18,8,2] } index = [9,3,4,5,2] df = pd.DataFrame(data=data, index = index) print("df数据:\n", df, '\n')

out:

df数据: A B C D brand years9 10 4 8 6 python 43 2 6 12 18C 14 5 8 18 14 C++ 15 20 12 8 6 C# 302 16 10 2 12 java 30

按行索引排序:

print("按行索引排序:\n", df.sort_index(), '\n')

out:

按行索引排序: A B C D brand years2 16 10 2 12 Java 303 2 6 12 18C 14 5 8 18 14 C++ 15 20 12 8 6 C# 309 10 4 8 6 Python 4

通过设置参数ascending可以设置升序或者降序排序,默认情况下ascending=True,为升序排序。

设置ascending=False时,为降序排序。

print("按行索引降序排序:\n", df.sort_index(ascending=False), '\n')

out:

按行索引降序排序: A B C D brand years9 10 4 8 6 Python 45 20 12 8 6 C# 304 5 8 18 14 C++ 13 2 6 12 18C 12 16 10 2 12 Java 30

按列的名称排序:

设置参数axis=1实现按列的名称排序:

print("按列名称排序:\n", df.sort_index(axis=1), '\n')

out:

按列名称排序: A B C D brand years9 10 4 8 6 Python 43 2 6 12 18C 14 5 8 18 14 C++ 15 20 12 8 6 C# 302 16 10 2 12 Java 30

同样,也可以设置ascending参数:

print("按列名称排序:\n", df.sort_index(axis=1, ascending=False), '\n')

out:

按列名称排序: years brand D C B A9 4 Python 6 8 4 103 1C 18 12 6 24 1 C++ 14 18 8 55 30 C# 6 8 12 202 30 Java 12 2 10 16

数值排序:

sort_values()是Pandas中按数值排序的函数

1、按单个列的值排序

sort_values()中设置单个列的列名,可以对单个列进行排序,通过设置ascending可以设置升序或者降序。

print("按列名称A排序:\n", df.sort_values('A'), '\n')

out:

按列名称排序: A B C D brand years3 2 6 12 18C 14 5 8 18 14 C++ 19 10 4 8 6 Python 42 16 10 2 12 Java 305 20 12 8 6 C# 30

设置ascending=False进行降序排序:

print("按列名称A降序排序:\n", df.sort_values('A', ascending=False), '\n')

out:

按列名称A降序排序: A B C D brand years5 20 12 8 6 C# 302 16 10 2 12 Java 309 10 4 8 6 Python 44 5 8 18 14 C++ 13 2 6 12 18C 1

按多个列的值排序:

先按year列的数据进行升序排序,year列相同的再看B列进行升序排序

print("按多个列排序:\n", df.sort_values(['years', 'B']), '\n')

out:

按多个列排序: A B C D brand years3 2 6 12 18C 14 5 8 18 14 C++ 19 10 4 8 6 Python 42 16 10 2 12 Java 305 20 12 8 6 C# 30

也可以分别设置列的升序、降序来排序:

years列为升序,B列为降序。

print("按多个列排序:\n", df.sort_values(['years', 'B'], ascending=[True, False]), '\n')

out:

按多个列排序: A B C D brand years4 5 8 18 14 C++ 13 2 6 12 18C 19 10 4 8 6 Python 45 20 12 8 6 C# 302 16 10 2 12 Java 30

Inplace使用

inplace=True:创建新的对象,直接对原始对象进行修改;默认是False,即创建新的对象进行修改,原对象不变,和深复制和浅复制有些似。

df.sort_values('A', inplace=True) print("按A列排序:\n", df, '\n')

out:

按A列排序: A B C D brand years3 2 6 12 18C 14 5 8 18 14 C++ 19 10 4 8 6 Python 42 16 10 2 12 Java 305 20 12 8 6 C# 30

缺失值:

含有nan值的数据排序:

data = { 'brand':['Python', 'C', 'C++', 'C#', 'Java'], 'B':[4,6,8,np.nan,10], 'A':[10,2,5,20,16], 'D':[6,18,14,6,12], 'years':[4,1,1,30,30], 'C':[8,12,18,8,2] } index = [9,3,4,5,2] df = pd.dataframe(data=data, index = index) print("df数据:\n", df, '\n')

out:

df数据: A B C D brand years9 10 4.0 8 6 Python 43 2 6.0 12 18C 14 5 8.0 18 14 C++ 15 20 NaN 8 6 C# 302 16 10.0 2 12 Java 30

B列含有nan值,对B列进行排序,缺失值排在最前面:

print("按B列排序:\n", df.sort_values('B', na_positiON='first'), '\n')

按B列排序: A B C D brand years5 20 NaN 8 6 C# 309 10 4.0 8 6 Python 43 2 6.0 12 18C 14 5 8.0 18 14 C++ 12 16 10.0 2 12 Java 30

包含缺失值,缺失值排在最后:

print("按B列排序:\n", df.sort_values('B', na_position='last'), '\n')

out:

按B列排序: A B C D brand years9 10 4.0 8 6 Python 43 2 6.0 12 18C 14 5 8.0 18 14 C++ 12 16 10.0 2 12 Java 305 20 NaN 8 6 C# 30

到此这篇关于pythonpandas数据排序的几种常用方法的文章就介绍到这了,更多相关pythonpandas内容请搜索云初冀北以前的文章或继续浏览下面的相关文章希望大家以后多多支持云初冀北!

免责声明
本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail:Goliszhou@gmail.com
$

发表评论

表情:
评论列表 (暂无评论,124人围观)

还没有评论,来说两句吧...