摘要:是一个数据分析的开源库。与表格或关系数据库中的表非常神似。注意带有一个索引,类似于关系数据库中的主键。的统计函数分组与聚合通过方法,可以对数据组施加一系列的函数。函数的作用是串联,追加数据行使用函数。
pandas(Python data analysis)是一个Python数据分析的开源库。
pandas两种数据结构:DataFrame和Series
安装:pandas依赖于NumPy,python-dateutil,pytz
pip install pandas
DataFrameDataFrame是一种带标签的二维对象。与excel表格或关系数据库中的表非常神似。可以用以下方式来创建DataFrame:
从另一个DataFrame来创建DataFrame
从具有二维形状的NumPy数组或者数组的复合结构来生成DataFrame
可以用Series来创建DataFrame
DataFrame可以从类似CSV之类的文件来生成
准备数据资料:http://www.exporedata.net/Dow... 下载一个csv数据文件。
from pandas.io.parsers import read_csv df = read_csv("WHO_first9cols.csv") print "Dataframe", df print "Shape", df.shape print "Length", len(df) print "Column Headers", df.columns print "Data types", df.dtypes print "Index", df.index print "Values", df.values
注意:DataFrame带有一个索引,类似于关系数据库中的主键。我们既可以手动创建,也可以自动创建。访问df.index
如果需要遍历数据,请使用df.values获取所有值,非数字的数值在被输出时标记为nan。
Series是一个由不同类型元素组成的一维数组,该数据结构也具有标签。可以通过以下方式创建Series数据结构:
由Python字典来创建
由NumPy数组来创建
由单个标量值来创建
创建Series数据结构时,可以向构造函数递交一组轴标签,这些标签通常称为索引。
对DataFrame列执行查询操作时,会返回一个Series
from pandas.io.parsers import read_csv import numpy as np df = read_csv("WHO_first9cols.csv") #这里对DataFrame列进行查询操作,返回一个Series country_col = df["Country"] print "Type df", type(df) print "Type country col", type(country_col) print "Series shape", country_col.shape print "Series index", country_col.index print "Series values", country_col.values print "Series name", country_col.name print "Last 2 countries", country_col[-2:] print "Last 2 countries type", type(country_col[-2:]) #NumPy的函数同样适用于pandas的DataFrame和Series print "df signs", np.sign(df) last_col = df.columns[-1] print "Last df column signs", last_col, np.sign(df[last_col]) print np.sum(df[last_col] - df[last_col].values)利用pandas查询数据
数据准备:pip install Quandl 或者手动从http://www.quandl.com/SIDC/SU... 下载csv文件。
import Quandl # Data from http://www.quandl.com/SIDC/SUNSPOTS_A-Sunspot-Numbers-Annual # PyPi url https://pypi.python.org/pypi/Quandl sunspots = Quandl.get("SIDC/SUNSPOTS_A") print "Head 2", sunspots.head(2) print "Tail 2", sunspots.tail(2) last_date = sunspots.index[-1] print "Last value", sunspots.loc[last_date] print "Values slice by date", sunspots["20020101": "20131231"] print "Slice from a list of indices", sunspots.iloc[[2, 4, -4, -2]] print "Scalar with Iloc", sunspots.iloc[0, 0] print "Scalar with iat", sunspots.iat[1, 0] print "Boolean selection", sunspots[sunspots > sunspots.mean()] print "Boolean selection with column label", sunspots[sunspots.Number > sunspots.Number.mean()]
DataFrame的统计函数
describe、count、mad、median、min、max、,pde、std、var、skew、kurt
import pandas as pd from numpy.random import seed from numpy.random import rand from numpy.random import random_integers import numpy as np seed(42) df = pd.DataFrame({"Weather" : ["cold", "hot", "cold", "hot", "cold", "hot", "cold"], "Food" : ["soup", "soup", "icecream", "chocolate", "icecream", "icecream", "soup"], "Price" : 10 * rand(7), "Number" : random_integers(1, 9, size=(7,))}) print df weather_group = df.groupby("Weather") i = 0 for name, group in weather_group: i = i + 1 print "Group", i, name print group print "Weather group first ", weather_group.first() print "Weather group last ", weather_group.last() print "Weather group mean ", weather_group.mean() wf_group = df.groupby(["Weather", "Food"]) print "WF Groups", wf_group.groups #通过agg方法,可以对数据组施加一系列的NumPy函数。 print "WF Aggregated ", wf_group.agg([np.mean, np.median])DataFrame的串联与附加操作
数据库的数据表有内部连接和外部连接。DataFrame也有类似操作,即串联和附加。
函数concat()的作用是串联DataFrame,追加数据行使用append()函数。
例如
pd.concat([df[:3],df[3:]]) df[:3].append(df[5:])
pandas提供merge()或DataFrane的join()方法都能实现类似数据库的连接操作功能。默认情况下join()方法会按照索引进行连接,不过,有时候这不符合我们的要求。
数据准备:
tips.csv
EmpNr,Amount 5,10 9,5 7,2.5
dest.csv
EmpNr,Dest 5,The Hague 3,Amsterdam 9,Rotterdam
dests = pd.read_csv("dest.csv") tips = pd.read_csv("tips.csv") #使用merge()函数按照员工编号进行连接处理 print "Merge() on key ", pd.merge(dests, tips, on="EmpNr") #用join()方法执行连接操作时,需要使用后缀来指示左、右操作对象。 print "Dests join() tips ", dests.join(tips, lsuffix="Dest", rsuffix="Tips") #用merge()执行内部连接时,更显示的方法如下 print "Inner join with merge() ", pd.merge(dests, tips, how="inner") #稍作修改便变成完全外部连接,缺失的数据变为NaN print "Outer join ", pd.merge(dests, tips, how="outer")处理缺失的数据
缺失的数据变为NaN(非数字),还有一个类似的符号NaT(非日期). 可以使用pandas的两个函数来进行判断isnull(),notnull(), fillna()方法可以用一个标量值来替换缺失的数据。
import pandas as pd import numpy as np df = pd.read_csv("WHO_first9cols.csv") # Select first 3 rows of country and Net primary school enrolment ratio male (%) df = df[["Country", df.columns[-2]]][:2] print "New df ", df print "Null Values ", pd.isnull(df) print "Total Null Values ", pd.isnull(df).sum() print "Not Null Values ", df.notnull() print "Last Column Doubled ", 2 * df[df.columns[-1]] print "Last Column plus NaN ", df[df.columns[-1]] + np.nan print "Zero filled ", df.fillna(0)处理日期数据
http://pandas.pydata.org/pand...
各种频率(freq)短码对照表:
B business day frequency
C custom business day frequency (experimental)
D calendar day frequency
W weekly frequency
M month end frequency
SM semi-month end frequency (15th and end of month)
BM business month end frequency
CBM custom business month end frequency
MS month start frequency
SMS semi-month start frequency (1st and 15th)
BMS business month start frequency
CBMS custom business month start frequency
Q quarter end frequency
BQ business quarter endfrequency
QS quarter start frequency
BQS business quarter start frequency
A year end frequency
BA business year end frequency
AS year start frequency
BAS business year start frequency
BH business hour frequency
H hourly frequency
T, min minutely frequency
S secondly frequency
L, ms milliseconds
U, us microseconds
N nanoseconds
import pandas as pd from pandas.tseries.offsets import DateOffset import sys print "Date range", pd.date_range("1/1/1900", periods=42, freq="D") try: print "Date range", pd.date_range("1/1/1677", periods=4, freq="D") except: etype, value, _ = sys.exc_info() print "Error encountered", etype, value offset = DateOffset(seconds=2 ** 63/10 ** 9) mid = pd.to_datetime("1/1/1970") print "Start valid range", mid - offset print "End valid range", mid + offset print pd.to_datetime(["1900/1/1", "1901.12.11"]) print "With format", pd.to_datetime(["19021112", "19031230"], format="%Y%m%d") print "Illegal date", pd.to_datetime(["1902-11-12", "not a date"]) print "Illegal date coerced", pd.to_datetime(["1902-11-12", "not a date"], coerce=True)据透视表(pivot_table)
数据透视表可以用来汇总数据。pivot_table()函数及相应的DataFrame方法。
import pandas as pd from numpy.random import seed from numpy.random import rand from numpy.random import random_integers import numpy as np seed(42) N = 7 df = pd.DataFrame({ "Weather" : ["cold", "hot", "cold", "hot", "cold", "hot", "cold"], "Food" : ["soup", "soup", "icecream", "chocolate", "icecream", "icecream", "soup"], "Price" : 10 * rand(N), "Number" : random_integers(1, 9, size=(N,))}) print "DataFrame ", df #cols指定需要聚合的列,aggfunc指定聚合函数。 print pd.pivot_table(df, cols=["Food"], aggfunc=np.sum)
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38355.html
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:在基本语法入门之后,就要准备选一个研究方向了。是自己比较感兴趣的方向,可是,导师这边的数据处理肯定不能由我做主了。真的挺愁人的还有几个月就要进行春季实习招聘了,加油总结一下机器学习方面的资料吧。 在python基本语法入门之后,就要准备选一个研究方向了。Web是自己比较感兴趣的方向,可是,导师这边的数据处理肯定不能由我做主了。paper、peper、paper……真的挺愁人的 还有几个...
摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...
阅读 754·2021-09-30 09:46
阅读 3739·2021-09-03 10:45
阅读 3592·2019-08-30 14:11
阅读 2524·2019-08-30 13:54
阅读 2242·2019-08-30 11:00
阅读 2316·2019-08-29 13:03
阅读 1512·2019-08-29 11:16
阅读 3563·2019-08-26 13:52