1、导入数据集
使用Pandas自带的方法,将数据集存入变量df中。
import pandas as pd
df = pd.read_excel(‘./team.xlsx’)
print(df)
2、查看数据
df.head() #查看数据的前5行,可指定行数
df.tail() #查看数据的后5行,可指定行数
df.sample() #查看数据的某1行,可指定行数
3、查看数据概况
df.info() #查看数据概要信息
df.describe() #查看数值型列数据的常用统计信息
df.dtypes #查看各列的数据类型及整个DataFrame的类型
df.axes #查看行列索引内容
df.index #查看索引
df.columns #查看列名
df.values #返回所有值的列表矩阵
df.size #行数x列数的值,表示总共有多少个数据
df.empty #判断DataFrame是否为空
4、设定索引
df.set_index(‘name’, inplace=True) #将name列设定为索引
5、选择数据
1)直接取
df[‘Q1’] #取Q1列的数据
df[df.index == ‘Liver’] #取索引为Liver的行,注意取值用方括号
df[0:3] #取前三行数据
2)用loc函数取
df.loc[x, y] #loc函数,取行为x,列为y的数据,x和y可以是表达式
df.loc[‘Ben’, ‘Q1’:’Q3’] #取索引为Ben,在列Q1到Q3之间的数据
df.loc[‘Eorqe’:’Isaac’, ‘Q3’:’Q4’] #取索引在Eorqe到Isaac之间,且列在Q3到Q4之间的数据
3)设置条件取
df[‘Q1’] > 90 #这不是在取值,而是将Q1列的所有值分别与90比大小,大于90的显示True,小于90的显示False
df[df.Q1 > 90] #这是在取值,取值条件是Q1列中的数据大于90的行,结果会返回所有符合条件的行
df[df.team == ‘C’] #取值,条件为team列中值等于C的行,结果会返回所有符合条件的行
4)组合条件取值
df[(df.Q1 > 90) & (df[‘team’] == ‘C’)] #组合条件取值,取同时满足两个条件的值
df[df[‘team’] == ‘C’].loc[df.Q1 > 90] #取team等于C的列,在其中再取Q1列值大于90的数据
5)按数字索引.iloc
iloc[]不同与loc[],它只支持数字切片
df.iloc[:3] #取前三行
df.iloc[2:20:3] #取2到20行,步长为3
6)取具体值.at/.iat
df.at[4, ‘name’] #取4行,name列的值
df.set_index(‘name’).at[‘Liver’, ‘Q1’]
#先设定索引,取Liver行,Q1列的值
df.set_index(‘name’).Q1.at[‘Arry’]
#先设定索引,取Q1列,Arry行的值
.iat仅支持数字索引
df.iat[4, 2] #去第4行第2列的值