资讯专栏INFORMATION COLUMN

数据科学 第 3 章 10 数据透视表

lily_wang / 1545人阅读

摘要:官方文档连接像其他函数一样,官方文档中的参数有很多,具体如下写在前面,如果要对透视表中的字段进行计数,有时候用会报错,可以用实例运用简单版透视表上面以部门为索引,下面有二级索引,部门小组。

本节学习数据透视表

引用激励数据,连接数据库jili表,jili这几个太难打了,下文用df代表激励数据(代码省略)
之前在excel中用烂了的透视表,终于用python来实现了,其实主要是讲pivot_table里面的参数怎么使用,但书中讲的不是详细,还是要自己找一些文档或者视频辅助学习。

pivot_table 官方文档连接
像其他函数一样,官方文档中的参数有很多,具体如下:
df.pivot_table(data, values=None, index=None, columns=None, aggfunc="mean", fill_value=None, margins=False, dropna=True, margins_name="All")

写在前面,如果要对透视表中的字段进行计数,有时候用count会报错,可以用len

实例运用:

1、简单版透视表
df.pivot_table(index="dep",aggfunc="sum")
#上面以部门为索引,下面有二级索引,部门、小组。  不知道是不是叫二级索引,暂且这么命名吧
df.pivot_table(index=["dep","group"],aggfunc="sum")

2、升级版透视表:金额分组

对金额进行分组,然后再来透视表(看了就懂了):

#金额分组
amount = pd.cut(df["allbones"],[0,1000,5000,10000,20000,40000])
df.pivot_table(index=["dep",amount],values= "allbones", aggfunc="count")

因为指定了值values = "allbones",所以结果中只包含allbones的计算结果,如果不指定values,则会像上面一样计算满足条件的所有字段的count值。

3、再升级版:多个计算方法

进行多个值的计算,并指定计算方法。 如果有需要,还可以增加计算值。
为了方便查看每个参数的内容,所以换行了。

df.pivot_table(index =[ "dep",amount],
              values = ["allbones","oldrate"],
              aggfunc = {"allbones":[np.sum,len,np.mean],  #一个字段进行3中运算
                         "oldrate":np.sum})

4、在透视表最后加一个汇总
df.pivot_table(index =[ "dep",amount],
              values = ["allbones","oldrate"],
              aggfunc = [np.sum,np.mean,len],
              margins = True)    #margins默认为false,改成True后在表的最后显示汇总
5、大boss版,在每个部门下面进行分类汇总:不会

还没找到方法

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44999.html

相关文章

  • 数据科学 3 : 9 累计与分组 groupby

    摘要:聚合后没有用函数,会返回一个用函数后会显示计算结果组合之后,切片,查看的和。可以设定计算方法对列进行了切片,如果的均值小于,则不显示二部的均值低于,所以结果中没有二部数据。 本节学习groupby 引用激励数据,连接数据库jili表(代码省略)数字简单计算本节内容前面是运用sum/mean等函数对数字简单计算 jili.mean() #求均值 jili.mean(axis = col...

    wemallshop 评论0 收藏0
  • 数据科学 3 12 处理时间序列,小时、分

    摘要:时间序列,日期格式处理原以为本章是讲怎么用处理时间格式,比如提取年月之类的。新增一列日期,不要时分新增两列年,月,以便后续分析。这个方法太复杂,而且处理时间可能会更长,看下面的简单方法新增月份年。 时间序列,日期格式处理 原以为本章是讲怎么用python处理时间格式,比如提取年月之类的。 但本节写的是时间格式已经工整后的事,暂时不是我想学的,所以跳过,就没有写公式了。 下面的函数时之前...

    Atom 评论0 收藏0
  • 数据科学 3 : 7-8 合并、连接数据

    摘要:第章合并连接数据集包含三个函数省略,在页。没有对默认合并两个表的所有列,如果有列,有列,则结果为列多对保留多条记录多对多会交叉每一条记录通过参数设定连接方式两个表都有两个字段,则通过连接两个表。 第3章 7-8:合并、连接数据集 包含三个函数:numpy:concatenate 省略,在126页。pandas:concat/ append(略过) /merge 主要是讲merge函数...

    IntMain 评论0 收藏0
  • 数据科学 5 主成分分析(降维)、相关性

    摘要:主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。相关系数系数为为为。从结果看,这个数据可能不太适合用来分析,因为降到维后的代笔性不足。 这两天用学了主成分分析,用的是PCA。主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。所以你想看具体哪个特征对结果的影响大,通过PC...

    ixlei 评论0 收藏0
  • 数据科学系统学习】Python # 数据分析基本操作[四] 数据规整化和数据聚合与分组运算

    摘要:数据规整化清理转换合并重塑数据聚合与分组运算数据规整化清理转换合并重塑合并数据集可根据一个或多个键将不同中的行链接起来。函数根据样本分位数对数据进行面元划分。字典或,给出待分组轴上的值与分组名之间的对应关系。 本篇内容为整理《利用Python进行数据分析》,博主使用代码为 Python3,部分内容和书本有出入。 在前几篇中我们介绍了 NumPy、pandas、matplotlib 三个...

    The question 评论0 收藏0

发表评论

0条评论

lily_wang

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<