资讯专栏INFORMATION COLUMN

python基础篇之pandas常用基本函数汇总

89542767 / 420人阅读

 Pandas是一个python数据分析库,它提供了许多函数和方法来加快数据分析过程,下面这篇文章主要给大家介绍了关于python基础篇之pandas常用基本函数的相关资料,需要的朋友可以参考下


  前言


  这篇主要整理pandas常用的基本函数,主要分为五部分:


  汇总函数


  特征统计函数


  唯一值函数


  替换函数


  排序函数


  1、汇总函数


  常用的主要是4个:


  tail():返回表或序列的后n行


  head():返回表或序列的前n行


  info():返回表的信息概况


  describe():返回表中数值列对应的主要统计量


  n默认为5


  df.describe()
  #运行截图
  Height Weight
  count 183.000000 189.000000
  mean 163.218033 55.015873
  std 8.608879 12.824294
  min 145.400000 34.000000
  25%157.150000 46.000000
  50%161.900000 51.000000
  75%167.500000 65.000000
  max 193.900000 89.000000

  2、特征统计函数


  在Series和DataFrame上定义了许多统计函数,最常见的是:


  sum


  mean(均值)


  median(中位数)


  var(方差)


  std(标准差)


  max


  min


  用法示例


  df_demo=df[['Height','Weight']]
  df_demo.mean()


  聚合函数


  quantile(返回分位数)


  count(返回非缺失值个数)


  idxmax(最大值对应的索引)


  聚合函数,有一个公共参数axis,axis=0代表逐列聚合,axis=1表示逐行聚合

  df_demo.mean(axis=1).head()


  3、唯一值函数


  唯一值函数常用的四个函数:


  unique():得到唯一值组成的列表->统计出指定列唯一存在的值有哪些


  nunique():唯一值的个数->统计出指定列唯一存在的值总共有多少个


  value_counts():得到唯一值和其对应出现的频数


  drop_duplicates():去重


  duplicated()


  drop_duplicates()基本用法


  关键参数keep


  first:保留第一次出现的重复行,删除后面的重复行


  last:删除重复项,除了最后一次出现


  False:把所有重复组合所在的行剔除。


  需要指定列


  代码:


  #原本的数据样例
  df_demo=df[['Gender','Transfer','Name']]
  df_demo


  Gender Transfer Name
  0 Female N Gaopeng Yang
  1 Male N Changqiang You
  2 Male N Mei Sun
  3 Female N Xiaojuan Sun
  4 Male N Gaojuan You
  ............
  195 Female N Xiaojuan Sun
  196 Female N Li Zhao
  197 Female N Chengqiang Chu
  198 Male N Chengmei Shen
  199 Male N Chunpeng Lv
  200 rows×3 columns
  Gender Transfer Name
  0 Female N Gaopeng Yang
  1 Male N Changqiang You
  12 Female NaN Peng You
  21 Male NaN Xiaopeng Shen
  36 Male Y Xiaojuan Qin
  43 Female Y Gaoli Feng

  由此可见,使用了first参数,保留第一次出现的重复行,删除后面的重复行


  在未指定参数的情况下,keep默认first;


  指定last


  案例如下:


  df_demo.drop_duplicates(['Gender','Transfer'],keep='last')
  Gender Transfer Name
  147 Male NaN Juan You
  150 Male Y Chengpeng You
  169 Female Y Chengquan Qin
  194 Female NaN Yanmei Qian
  197 Female N Chengqiang Chu
  199 Male N Chunpeng Lv


  last:删除所有的重复行,只保留出现的最后一个


  drop_duplicates()&duplicated()的区别


  duplicated和drop_duplicates的功能类似,但前者返回了是否为唯一值的布尔列表,其keep参数与后者一致。其返回的序列,把重复元素设为True,否则为False。drop_duplicates等价于把duplicated为True的对应行剔除。


  4、替换函数


  替换函数有三类:


  映射函数:replace()…


  逻辑函数:(1)where(2)mask


  数值替换


  replace的用法


  Gender Transfer Name
  0 Female N Gaopeng Yang
  1 Male N Changqiang You
  2 Male N Mei Sun
  3 Female N Xiaojuan Sun
  4 Male N Gaojuan You
  ............
  195 Female N Xiaojuan Sun
  196 Female N Li Zhao
  197 Female N Chengqiang Chu
  198 Male N Chengmei Shen
  199 Male N Chunpeng Lv
  200 rows×3 columns

  逻辑替换


  逻辑替换包括了where和mask,这两个函数是完全对称的:where函数在传入条件为False的对应行进行替换,而mask在传入条件为True的对应行进行替换,当不指定替换值时,替换为缺失值(NAN)


  s=pd.Series([-1,1.2345,100,-50])
  s.where(s<0)
  0-1.0
  1 NaN
  2 NaN
  3-50.0
  dtype:float64
  0-1.0
  1 100.0
  2 100.0
  3-50.0
  dtype:float64
  0 NaN
  1 1.2345
  2 100.0000
  3 NaN
  dtype:float64

  综上所述,这篇文章就给大家介绍到这里了,希望可以给大家带来帮助。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/128337.html

相关文章

  • 【数据科学系统学习】Python # 数据分析基本操作[二] pandas

    摘要:中面向行和面向列的操作基本是平衡的。用层次化索引,将其表示为更高维度的数据。使用浮点值表示浮点和非浮点数组中的缺失数据。索引的的格式化输出形式选取数据子集在内层中进行选取层次化索引在数据重塑和基于分组的操作中很重要。 我们在上一篇介绍了 NumPy,本篇介绍 pandas。 pandas入门 Pandas 是基于Numpy构建的,让以NumPy为中心的应用变的更加简单。 pandas...

    jayzou 评论0 收藏0
  • Pandas之旅(一): 让我们把基础知识一次撸完,申精干货

    为什么你需要pandas 大家好,今天想和大家分享一下有关pandas的学习新的,我因工作需要,从去年12月开始接触这个非常好用的包,到现在为止也是算是熟悉了一些,因此发现了它的强大之处,特意想要和朋友们分享,特别是如果你每天和excel打交道,总是需要编写一些vba函数或者对行列进行groupby啊,merge,join啊之类的,相信我,pandas会让你解脱的。 好啦,闲话少说,这篇文章的基础...

    tuomao 评论0 收藏0
  • 我是如何入门机器学习的呢

    摘要:在这里我分享下我个人入门机器学习的经历,希望能对大家能有所帮助。相关学习链接,,入门后的体验在入门了机器学习之后,在实际工作中,绝大多数的情况下你并不需要去创造一个新的算法。 机器学习在很多眼里就是香饽饽,因为机器学习相关的岗位在当前市场待遇不错,但同时机器学习在很多人面前又是一座大山,因为发现它太难学了。在这里我分享下我个人入门机器学习的经历,希望能对大家能有所帮助。 PS:这篇文章...

    ShowerSun 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<