如何利用Python pandas找到数据并删除

89542767 发布于2022-10-08 14:56 / 739人阅读

　　小编写这篇文章的主要目的，主要是想给大家做出一个深入解答，解答一下关于Python pandas技术，主要是如何找到数据，然后对其进行删除，下面小编就给大家进行详细解答下。

　　前言

　　当我们在使用Python pandas处理各种数据的时候，经常性的会遇到一些问题，比如会遇到一些数据重复的问题，这个时候，我们需要做的就是找出产生问题的原因是什么。那么，pandas将会给我们提供两种比较高效的方法：duplicated()和drop_duplicates()。

　　一、duplicated()

　　duplicated()可以被用在DataFrame的三种情况下，分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似，前两个会返回一个布尔值的Series，最后一个会返回一个布尔值的numpy.ndarray。

　　DataFrame.duplicated(subset=None,keep=‘first’)

　　subset：默认为None，需要标记重复的标签或标签序列

　　keep：默认为‘first’，如何标记重复标签

　　first：将除第一次出现以外的重复数据标记为True

　　last：将除最后一次出现以外的重复数据标记为True

　　False：将所有重复的项都标记为True（不管是不是第一次出现）

　　Series.duplicated(keep=‘first’)

　　keep：与DataFrame.duplicated的keep相同

　　Index.duplicated(keep=‘first’)

　　keep：与DataFrame.duplicated的keep相同

　　例子：

　　import pandas as pd
　　df=pd.DataFrame({
　　'brand':['Yum Yum','Yum Yum','Indomie','Indomie','Indomie'],
　　'style':['cup','cup','cup','pack','pack'],
　　'rating':[4,4,3.5,15,5]
　　})
　　df

　　brand style rating

　　0 Yum Yum cup 4.0

　　1 Yum Yum cup 4.0

　　2 Indomie cup 3.5

　　3 Indomie pack 15.0

　　4 Indomie pack 5.0

　　df.duplicated()

　　0 False

　　1 True

　　2 False

　　3 False

　　4 False

　　dtype:bool

   df.duplicated(keep='last')

　　0 True

　　1 False

　　2 False

　　3 False

　　4 False

　　dtype:bool

　df.duplicated(keep=False)

　　0 True

　　1 True

　　2 False

　　3 False

　　4 False

　　dtype:bool

　　df.duplicated(subset=['brand'])

　　0 False

　　1 True

　　2 False

　　3 True

　　4 True

　　dtype:bool

　　关于Index的重复标记：

　　df=df.set_index('brand')

　　style rating

　　brand

　　Yum Yum cup 4.0

　　Indomie cup 3.5

　　Indomie pack 15.0

　　Indomie pack 5.0

　　df.index.duplicated()

　　array([False,True,False,True,True])

　　二、drop_duplicates()

　　与duplicated()类似，drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。

　　DataFrame.drop_duplicates(subset=None,keep=‘first’,inplace=False)

　　subset：与duplicated()中相同

　　keep：与duplicated()中相同

　　inplace：与pandas其他函数的inplace相同，选择是修改现有数据还是返回新的数据

　　Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数，和上诉介绍一样，Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子：

　　df=pd.DataFrame({
　　'brand':['Yum Yum','Yum Yum','Indomie','Indomie','Indomie'],
　　'style':['cup','cup','cup','pack','pack'],
　　'rating':[4,4,3.5,15,5]
　　})
　　df

　　brand style rating

　　0 Yum Yum cup 4.0

　　1 Yum Yum cup 4.0

　　2 Indomie cup 3.5

　　3 Indomie pack 15.0

　　4 Indomie pack 5.0

　　df.drop_duplicates()

　　brand style rating

　　0 Yum Yum cup 4.0

　　2 Indomie cup 3.5

　　3 Indomie pack 15.0

　　4 Indomie pack 5.0

　　df.drop_duplicates(inplace=True)

　　brand style rating

　　0 Yum Yum cup 4.0

　　2 Indomie cup 3.5

　　3 Indomie pack 15.0

　　4 Indomie pack 5.0

　　到此为止，小编写的关于pandas内容就为大家介绍到这里了，希望可以为各位读者带来帮助。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/127960.html

一文带你斩杀Python之Numpy☀️Pandas全部操作【全网最详细】❗❗❗

目录Numpy简介Numpy操作集合1、不同维度数据的表示1.1 一维数据的表示1.2 二维数据的表示1.3 三维数据的表示2、为什么要使用Numpy2.1、Numpy的ndarray具有广播功能2.2 Numpy数组的性能比Python原生数据类型高3 ndarray的属性和基本操作3.1 ndarray的基本属性3.2 ndarray元素类型3.3 创建ndarray的方式3.4 ndarr...

asoren 2021-09-09 09:34 评论0 收藏0
Pandas之旅（一): 让我们把基础知识一次撸完，申精干货

为什么你需要pandas 大家好，今天想和大家分享一下有关pandas的学习新的，我因工作需要，从去年12月开始接触这个非常好用的包，到现在为止也是算是熟悉了一些，因此发现了它的强大之处，特意想要和朋友们分享，特别是如果你每天和excel打交道，总是需要编写一些vba函数或者对行列进行groupby啊，merge，join啊之类的，相信我，pandas会让你解脱的。好啦，闲话少说，这篇文章的基础...

tuomao 2019-07-31 10:07 评论0 收藏0
收藏 | 10个可以快速用Python进行数据分析的小技巧

摘要：函数将单元格内容以形式呈现。自动评论代码自动注释单元格中的选定行，再次命中组合将取消注释相同的代码行。如果需要恢复整个已删除的单元格，请按或撤消删除单元格。 showImg(https://segmentfault.com/img/remote/1460000019599210); 编译：小七、蒋宝尚一些小提示和小技巧可能是非常有用的，特别是在编程领域。有时候使用一点点黑客技术，既可...

silvertheo 2019-07-31 10:37 评论0 收藏0
使用Pandas&NumPy进行数据清洗的6大常用方法

摘要：在这个教程中，我们将利用的和包来进行数据清洗。在很多情况下，使用唯一的值作为索引值识别数据字段是非常有帮助的。清洗数据字段到现在为止，我们移除了不必要的列并改变了我们的索引变得更有意义。作者：xiaoyu微信公众号：Python数据科学知乎：Python数据分析师数据科学家花了大量的时间清洗数据集，并将这些数据转换为他们可以处理的格式。事实上，很多数据科学家声称开始获取和清洗数据...

siberiawolf 2019-07-31 11:07 评论0 收藏0