1、导入数据集

使用Pandas自带的方法,将数据集存入变量df中。

import pandas as pd

df = pd.read_excel(‘./team.xlsx’)

print(df)

2、查看数据

df.head() #查看数据的前5行,可指定行数

df.tail() #查看数据的后5行,可指定行数

df.sample() #查看数据的某1行,可指定行数

3、查看数据概况

df.info() #查看数据概要信息

df.describe() #查看数值型列数据的常用统计信息

df.dtypes #查看各列的数据类型及整个DataFrame的类型

df.axes #查看行列索引内容

df.index #查看索引

df.columns #查看列名

df.values #返回所有值的列表矩阵

df.size #行数x列数的值,表示总共有多少个数据

df.empty #判断DataFrame是否为空

4、设定索引

df.set_index(‘name’, inplace=True) #将name列设定为索引

5、选择数据

1)直接取

df[‘Q1’] #取Q1列的数据

df[df.index == ‘Liver’] #取索引为Liver的行,注意取值用方括号

df[0:3] #取前三行数据

2)用loc函数取

df.loc[x, y] #loc函数,取行为x,列为y的数据,x和y可以是表达式

df.loc[‘Ben’, ‘Q1’:’Q3’] #取索引为Ben,在列Q1到Q3之间的数据

df.loc[‘Eorqe’:’Isaac’, ‘Q3’:’Q4’] #取索引在Eorqe到Isaac之间,且列在Q3到Q4之间的数据

3)设置条件取

df[‘Q1’] > 90 #这不是在取值,而是将Q1列的所有值分别与90比大小,大于90的显示True,小于90的显示False

df[df.Q1 > 90] #这是在取值,取值条件是Q1列中的数据大于90的行,结果会返回所有符合条件的行

df[df.team == ‘C’] #取值,条件为team列中值等于C的行,结果会返回所有符合条件的行

4)组合条件取值

df[(df.Q1 > 90) & (df[‘team’] == ‘C’)] #组合条件取值,取同时满足两个条件的值

df[df[‘team’] == ‘C’].loc[df.Q1 > 90] #取team等于C的列,在其中再取Q1列值大于90的数据

5)按数字索引.iloc

iloc[]不同与loc[],它只支持数字切片

df.iloc[:3] #取前三行

df.iloc[2:20:3] #取2到20行,步长为3

6)取具体值.at/.iat

df.at[4, ‘name’] #取4行,name列的值

df.set_index(‘name’).at[‘Liver’, ‘Q1’] 

#先设定索引,取Liver行,Q1列的值

df.set_index(‘name’).Q1.at[‘Arry’]

#先设定索引,取Q1列,Arry行的值


.iat仅支持数字索引

df.iat[4, 2] #去第4行第2列的值