pandas使用

int64 发布于2019-07-30 15:23 / 1353人阅读

摘要：写这篇文章主要是想按照一定的逻辑顺总结一下自己做项目以来序用到过的的知识点虽然官方文档上各个方面都写的很清楚但是还是想自己再写一份一个是想作为个人梳理另外也可以把最经常使用的部分拎出来更清晰一些不定时更新数据的读数据其中是需要的语句是创建的

写这篇文章,主要是想按照一定的逻辑顺总结一下自己做项目以来,序用到过的pandas的知识点.
虽然pandas官方文档上各个方面都写的很清楚,但是还是想自己再写一份,一个是想作为个人梳理,另外也可以把最经常使用的部分拎出来,更清晰一些.

不定时更新.

数据的IO MySQL

1.读mysq数据

df = pd.read_sql(sql, db.conn)

其中sql是需要的sql语句,db是创建的数据库连接对象.

一般来说,这样基本就能满足需求.

额外的参数

 1. chunksize : int, default None
    当数据量比较大,或者想将读入的数据分割成指定行数的一个个block,则可以设置这个参数.其会返回一个迭代器,迭代器中的元素为chunksize行数的记录.
    
 2. index_col : string or list of strings, optional, default: None
    可以设置某些列为索引列.

pandas.read_sql文档

2.写mysql数据

engine = create_engine("mysql+pymysql://root:password@localhost/schemeName", echo=False)

df.to_sql(tablename, engine, if_exists="append", index=index)

将df的数据写入到数据库表中.pandas文档中提供的例子是SQlite的数据库,所以不能直接用db.conn去充当engine.

参数说明

1. if_exists: {‘fail’, ‘replace’, ‘append’}, default ‘fail’
当数据库中存在要写入的table时,三种处理方式
fail:那么写入失败
replace:把原来的table删掉,写入新的
append:在原来的table上,添加新的记录

2. index : boolean, default True
当设为True时,会把df的index当成一列写入数据库.

pandas.DataFrame.to_sql文档

csv

1.读数据

df = pd.read_csv(path + filename, header=None, names=[name1, name2])

参数说明

1.header: int or list of ints, default ‘infer’
用来指定行号作为数据的开始和列的名称.header设为None是告诉其打开的文件里没有列名.如果打开的文件有列名的时候,可以不设置这一项,这样系统会自动推测出列名.

2.names : array-like, default None
显示地指定列的名称.当header是None的时候,需要加上这个.

关于这个函数,可设置的参数还比较多,不过目前使用的也就这几个,所以先不描述其他了.

pandas.read_csv文档

2.写数据

df.to_csv(path+filename, index=False, header=header, mode="a")

参数说明

1.index: boolean, default True
说明是否需要写入df的index.

2.header : boolean or list of string, default True
说明是否要把列名写入.也可以在这里重新设置写入的列名.

3.mode : str,default ‘w’
python的写入模式.

pandas.DataFrame.to_csv文档

excel 直接创建dateFrame 数据的选择 简单选择

选择部分行

选择部分列

选择数值

按照条件进行筛选

单一条件筛选

多个条件筛选

数据的聚合值描述 数据的修改 索引信息的修改 数据的合并

concat

merge

join

数据的可视化 时间序列相关

数据采样

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41218.html

还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

摘要：它还使用执行所谓的链式索引，这通常会导致意外的结果。但这种方法的最大问题是计算的时间成本。这些都是一次产生一行的生成器方法，类似中使用的用法。在这种情况下，所花费的时间大约是方法的一半。根据每小时所属的应用一组标签。作者：xiaoyu 微信公众号：Python数据科学知乎：python数据分析师 showImg(https://segmentfault.com/img/bVboe...

keelii 2019-07-31 10:03 评论0 收藏0
Pandas数据类型转换的几个小技巧

摘要：利用的一些辅助函数进行类型转换的函数和复杂的自定函数之间有一个中间段，那就是的一些辅助函数。这些辅助函数对于某些特定数据类型的转换非常有用如。利用Pandas进行数据分析时，确保使用正确的数据类型是非常重要的，否则可能会导致一些不可预知的错误发生。笔者使用Pandas已经有一段时间了，但是还是会在一些小问题上犯错误，追根溯源发现在对数据进行操作时某些特征列并不是Pandas所能处理的...

luckyw 2019-07-30 16:26 评论0 收藏0
tensorflow安装pandas

当使用TensorFlow进行数据分析和机器学习时，经常需要使用Pandas库来处理数据。在本文中，我将向您介绍如何在TensorFlow中安装Pandas库。首先，确保您已经安装了TensorFlow。如果您还没有安装TensorFlow，请按照官方文档中的说明进行安装。接下来，打开您的Python环境。您可以使用Anaconda Navigator或在命令行中输入python来打开Py...

Salamander 2023-04-26 02:23 评论0 收藏2201
媲美Pandas？告诉你Python的Datatable包到底怎么用！

摘要：帧的基础属性下面来介绍中的一些基础属性，这与中的一些功能类似。下面来看看如何在和中，通过对分组来得到列的均值分组分组代表什么在中，代表，它提供一种简单的方式来引用当前正在操作的帧。 showImg(https://segmentfault.com/img/remote/1460000019598242);作者 | Parul Pandey 【导读】工具包 datatable 的功能特征...

KitorinZero 2019-07-31 10:37 评论0 收藏0
Pandas之旅(七) 谁说pandas慢

摘要：下面让我们开始提速假设我们现在的电价是定值，不根据用电时间段来改变，那么中最快的方法那就是采用，这就是一个简单的矢量化操作示范。它基本是在中运行最快的方式。 Pandas 加速大家好，今天我们来看有关pandas加速的小技巧，不知道大家在刚刚接触pandas的时候有没有听过如下的说法 pandas太慢了，运行要等半天其实我想说的是，慢不是pandas的错，大家要知道pandas本身...

genedna 2019-07-31 10:15 评论0 收藏0