资讯专栏INFORMATION COLUMN

如何利用Python pandas找到数据并删除

89542767 / 673人阅读


  小编写这篇文章的主要目的,主要是想给大家做出一个深入解答,解答一下关于Python pandas技术,主要是如何找到数据,然后对其进行删除,下面小编就给大家进行详细解答下。


  前言


  当我们在使用Python pandas处理各种数据的时候,经常性的会遇到一些问题,比如会遇到一些数据重复的问题,这个时候,我们需要做的就是找出产生问题的原因是什么。那么,pandas将会给我们提供两种比较高效的方法:duplicated()和drop_duplicates()。


  一、duplicated()


  duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。


  DataFrame.duplicated(subset=None,keep=‘first’)


  subset:默认为None,需要标记重复的标签或标签序列


  keep:默认为‘first’,如何标记重复标签


  first:将除第一次出现以外的重复数据标记为True


  last:将除最后一次出现以外的重复数据标记为True


  False:将所有重复的项都标记为True(不管是不是第一次出现)


  Series.duplicated(keep=‘first’)


  keep:与DataFrame.duplicated的keep相同


  Index.duplicated(keep=‘first’)


  keep:与DataFrame.duplicated的keep相同


  例子:


  import pandas as pd
  df=pd.DataFrame({
  'brand':['Yum Yum','Yum Yum','Indomie','Indomie','Indomie'],
  'style':['cup','cup','cup','pack','pack'],
  'rating':[4,4,3.5,15,5]
  })
  df


  brand style rating


  0 Yum Yum cup 4.0


  1 Yum Yum cup 4.0


  2 Indomie cup 3.5


  3 Indomie pack 15.0


  4 Indomie pack 5.0

  df.duplicated()


  0 False


  1 True


  2 False


  3 False


  4 False


  dtype:bool

   df.duplicated(keep='last')


  0 True


  1 False


  2 False


  3 False


  4 False


  dtype:bool


 df.duplicated(keep=False)


  0 True


  1 True


  2 False


  3 False


  4 False


  dtype:bool

  df.duplicated(subset=['brand'])


  0 False


  1 True


  2 False


  3 True


  4 True


  dtype:bool


  关于Index的重复标记:


  df=df.set_index('brand')


  df


  style rating


  brand


  Yum Yum cup 4.0


  Yum Yum cup 4.0


  Indomie cup 3.5


  Indomie pack 15.0


  Indomie pack 5.0


  df.index.duplicated()


  array([False,True,False,True,True])


  二、drop_duplicates()


  与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。


  DataFrame.drop_duplicates(subset=None,keep=‘first’,inplace=False)


  subset:与duplicated()中相同


  keep:与duplicated()中相同


  inplace:与pandas其他函数的inplace相同,选择是修改现有数据还是返回新的数据


  Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子:


  df=pd.DataFrame({
  'brand':['Yum Yum','Yum Yum','Indomie','Indomie','Indomie'],
  'style':['cup','cup','cup','pack','pack'],
  'rating':[4,4,3.5,15,5]
  })
  df

  brand style rating


  0 Yum Yum cup 4.0


  1 Yum Yum cup 4.0


  2 Indomie cup 3.5


  3 Indomie pack 15.0


  4 Indomie pack 5.0


  df.drop_duplicates()


  brand style rating


  0 Yum Yum cup 4.0


  2 Indomie cup 3.5


  3 Indomie pack 15.0


  4 Indomie pack 5.0


  df.drop_duplicates(inplace=True)


  df


  brand style rating


  0 Yum Yum cup 4.0


  2 Indomie cup 3.5


  3 Indomie pack 15.0


  4 Indomie pack 5.0


  到此为止,小编写的关于pandas内容就为大家介绍到这里了,希望可以为各位读者带来帮助。


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/127960.html

相关文章

  • 一文带你斩杀Python之Numpy☀️Pandas全部操作【全网最详细】❗❗❗

    目录Numpy简介Numpy操作集合1、不同维度数据的表示1.1 一维数据的表示1.2 二维数据的表示1.3 三维数据的表示2、 为什么要使用Numpy2.1、Numpy的ndarray具有广播功能2.2 Numpy数组的性能比Python原生数据类型高3 ndarray的属性和基本操作3.1 ndarray的基本属性3.2 ndarray元素类型3.3 创建ndarray的方式3.4 ndarr...

    asoren 评论0 收藏0
  • Pandas之旅(一): 让我们把基础知识一次撸完,申精干货

    为什么你需要pandas 大家好,今天想和大家分享一下有关pandas的学习新的,我因工作需要,从去年12月开始接触这个非常好用的包,到现在为止也是算是熟悉了一些,因此发现了它的强大之处,特意想要和朋友们分享,特别是如果你每天和excel打交道,总是需要编写一些vba函数或者对行列进行groupby啊,merge,join啊之类的,相信我,pandas会让你解脱的。 好啦,闲话少说,这篇文章的基础...

    tuomao 评论0 收藏0
  • 收藏 | 10个可以快速用Python进行数据分析的小技巧

    摘要:函数将单元格内容以形式呈现。自动评论代码自动注释单元格中的选定行,再次命中组合将取消注释相同的代码行。如果需要恢复整个已删除的单元格,请按或撤消删除单元格。 showImg(https://segmentfault.com/img/remote/1460000019599210); 编译:小七、蒋宝尚 一些小提示和小技巧可能是非常有用的,特别是在编程领域。有时候使用一点点黑客技术,既可...

    silvertheo 评论0 收藏0
  • 使用Pandas&NumPy进行数据清洗的6大常用方法

    摘要:在这个教程中,我们将利用的和包来进行数据清洗。在很多情况下,使用唯一的值作为索引值识别数据字段是非常有帮助的。清洗数据字段到现在为止,我们移除了不必要的列并改变了我们的索引变得更有意义。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 数据科学家花了大量的时间清洗数据集,并将这些数据转换为他们可以处理的格式。事实上,很多数据科学家声称开始获取和清洗数据...

    siberiawolf 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<