资讯专栏INFORMATION COLUMN

Python数据分析 - numpy

CHENGKANG / 2660人阅读

摘要:前言以下简称是数据分析必不可少的第三方库,的出现一定程度上解决了运算性能不佳的问题,同时提供了更加精确的数据类型。因此,理解的数据类型对数据分析十分有帮助。一维数据由对等关系的有序或无序数据构成,采用线性方式组织,可以用数组表示。

前言

NUMPY(以下简称NP)是Python数据分析必不可少的第三方库,np的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型。如今,np被Python其它科学计算包作为基础包,已成为Python 数据分析的基础,可以说,NP是SciPy、Pandas等数据处理或科学计算库最基本的函数功能库。因此,理解np的数据类型对python数据分析十分有帮助。
下面,本文将介绍Np的常用操作和基本数据类型。

NP提供了以下重点功能。

一个强大的N维数组对象ndarray

广功能函数

整合C/C++/Fortran代码的工具

提供了线性代数、傅里叶变换、随机数生成的相关功能

为了更加直观的了解Np的强大与作用,我们先看作用再看方法:

使用NUMPY操作数据集

在操作数据之前,我们先来理解什么是维度:

什么是维度

维度是一组数据的组织形式,不同数据维度可能表示不同的含义。
一维数据由对等关系的有序或无序数据构成,采用线性方式组织,可以用数组表示。
通俗来讲,

1,2,3,4

这么一行数据就可以称之为一维数据,但如果我们再对其折叠:

1,2,
3,4

那么他就成为了二维数据,又可以称之为矩阵。

什么是数据集

数据集,顾名思义就是数据的集合,是用以训练程序的数据集合,一般是二维或者多维数表。
如果我们想自己手工新建一个数据集,可以直接新建一个文本文件,只要有恰当的数据,都可以称之为数据集:

城市,环比,同比,定基
北京,100.1,100.2,100.3
上海,111.1,111.2,111.3
南京,133.0,133.3,133.4

比如这样,我们就可以称上面的文件称之为数据集。
我们还注意到,上面数据是使用逗号作为分隔符分隔数据的,它简单描述了数据的内容和含义,并使用半角逗号作为分隔符。
像这样,用逗号分隔的数据集就称之为CSV(Comma-Separated Value,逗号分隔值)数据集,它是一种常见的文件格式,用来存储批量的数据。它就像一张excel表,用来存储简单结构的数据。
怎么样,数据集的概念是否特别简单呢?

生成数据集

数据集是一个简单的概念,但每次使用手工的方式去写毕竟不方便,所以,我们可以使用np的内置函数来生成数据集:

np.savetxt(frame,array,fmt="%.18e",delimiter=None)

frame:文件、字符串、或产生器的名字,可以是.gz,.bz2的压缩文件

arrray:存入文件的NP的数组

fmt(format):写入文件的格式,如%d,%.2f,%.18e(默认,科学计数法保留18位)

delemiter:分割字符串,默认是任何空格。

我们可以这样写下代码:

a= np.arange(20).reshape(4,5)
np.savetxt("demo.csv",a,fmt="%d",delimiter=",")

这样,我们就会在当前的工作目录下发现一个新的demo.csv,用记事本打开,里面是一个4 * 5的矩阵,元素0~19。

读取数据集

既然生成,那就可以读取,同样使用np:

np.loadtxt(frame,dtype=np.float,delimiter=None,inpack=False)

frame:指定读入的文件来源

dtype:数据类型,默认为np.float。

delimiter:分割字符串

unpack:默认为False读入文件写入一个数组,如果为True,读入属性将分别写入不同变量

同样的我们只需要写下代码:

np.loadtxt("demo.csv",delimiter=",")

就可以查看到我们先前写入的数组a。

CSV文件的局限

可以发现,CSV文件只能有效存储和读取一维和二维数组,因为更高的维度无法更直观的文本下显现出来,这时,更加灵活的存取方式就呼之欲出了,但讲之前先卖个关子,再介绍一个不太常用的方法:tofile:
对于NP中的ndarray数组,我们可以使用NP中的tofile方法。

a.tofile(frame,sep="",format="%d")

frame:文件,字符串

数据分割字符串,如果不写,将使用二进制文件存储

format:写入数据的格式

同样,我们只需要命令:

import numpy as np
a = np.arange(100).reshape(5,10,2)
a.tofile("a.dat",sep=",",format="%d")

就可以生成新的CSV数据集。

此时,我们如果打开a.dat文件,我们可以看到数组1,2,3……99。但是与CSV不同,这个文件并没有包含数字的维度信息,他只是将数组所有元素逐一的列出。而且如果我们不指定sep,将保存为二进制文件,虽然对人不可读,但将占用更小的空间。

既然tofile可以保存文本文件,那么也很容易猜到对应的fromfile可以还原这些信息。

np.fromfile(frame,dtype=float,count=-1,sep="")

frame:文件

dtype:读取元素使用的数据类型,默认为float

count:读文件的个数,默认-1,读取全部

sep:数据分割字符串,如果是空串,写入文件为二进制。

如果我们想要重新恢复数据的维度信息,我们需要重新使用reshape来恢复维度信息:

c = np.fromfile("b.dat",sep=",",dtype=np.int).reshape(5,10,2)

不得不说,当我看到这个方法时感觉这两个真是蠢爆了,使用savetxt / loadtxt 至少还能保存个二维信息,而使用了tofile / fromfile 方法居然把数被伸展为一维的,然后自己记住维度信息(╯‵□′)╯︵┻━┻。

因此,为了保存更复杂的数据类型,二维以上的数据信息,save / load 函数成功解决了这个问题:(为了方便,两个函数就放到一起了)

保存 / 读取高维度数据
np.save(frame,array)或np.savez(fname,array)(压缩)
+ frame:文件名,以.npy为扩展名,压缩扩展名为.npz
+ array:数组变量
np.load(fname)

Demo:

a = np.arange(100).reshape(5,10,2)
np.save("a.npy",a)
b=np.load("a.npy")
附录

附录中提供NP的常用方法及注释,做查询用。

np数组定义
>>>lst = [[1,3,5],[2,4,6]]
>>>np_lst = np.array(lst,dtype=np.float)
>>>print(np_lst.shape)#返回数组的行列
>>>print(np_lst.ndim)#返回数组的维数
>>>print(np_lst.dtype)#返回数据类型,float默认为64
>>>print(np_lst.itemsize)#np.array每个元素的大小,float64占8个字节
>>>print(np_lst.size)#大小,6个元素
(2, 3)
2
float64
8
6
初始化数组
>>>print(np.zeros([2,4])#初始化一个2行4列的数组
>>>print(np.ones([2,4])
[[ 0.  0.  0.  0.]
[ 0.  0.  0.  0.]]
[[ 1.  1.  1.  1.]
[ 1.  1.  1.  1.]]
随机序列
>>>print(np.random.rand(2,4))#将生成一个处于0~1之间2行4列的随机数序列(不加参数将只返回一个)
[[ 0.39531286  0.4845      0.1463168   0.82327991]
[ 0.89042255  0.65049931  0.43890163  0.89577744]]

如果想要多个随机整数:

print(np.random.randint(22,55,3))#必须有(前两个参数)指定范围,第三个参数用于指定生成的个数
[27 40 29]
print(np.random.randn(2,4))#生成标准正态随机数
[[-1.15561548  0.3689953   0.38253231 -1.16346441]
[-1.32625322 -0.41707673 -0.11822205 -0.95807535]]
print(np.random.choice([10,20,40,33]))#从指定可迭代的数组中生成随机数
20
print(np.random.beta(1,10,4))#生成4个beta分布
[ 0.02258548  0.25848896  0.00696899  0.0609543 ]
多维数组运算
print(np.arange(1,11,2))#得到step为2的range序列
[1 3 5 7 9]

还可以使用reshape函数,对数组结构重定义:

print(np.arange(1,11).reshape(2,5))#(5可以缺省为-1)
[[ 1  2  3  4  5]
[ 6  7  8  9 10]]

下面介绍一些常用的运算操作:

lst=np.arange(1,11).reshape(2,5)
print(np.exp(lst))#自然指数操作
[[  2.71828183e+00   7.38905610e+00   2.00855369e+01   5.45981500e+01    1.48413159e+02]
[  4.03428793e+02   1.09663316e+03   2.98095799e+03   8.10308393e+03    2.20264658e+04]]

此外,还可以sqrt、log、sin、sum、max等操作:
我们下定义一个三维数组:

lst = np.array([
                [[1,2,3,4],[4,5,6,7]],
                [[7,8,9,10],[10,11,12,13]],
                [[14,15,16,17],[18,19,20,21]]
            ])
print(lst.sum())
252

我们可以看到sum方法对lst的所有元素都进行了求和,此外我们还可以通过对sum方法增加参数axis的方式来设置求和的深入维度:

print(lst.sum(axis=0))
[[22 25 28 31]#22=1+7+14;25=2+8+15
[32 35 38 41]]
print(lst.sum(axis=1))
[[ 5  7  9 11]#5=1+4;7=2+5
[17 19 21 23]
[32 34 36 38]]
print(lst.sum(axis=2))
[[10 22]#10=1+2+3+4;22=4+5+6+7
[34 46]
[62 78]]

这里的axis取值为数组维数-1,axis可以理解为进行运算操作时的深入程度,axis越大,深入程度越大。同理,不仅sum函数,max等函数也可以一样理解。

相加运算

numpy.array是np最简单的数据结构。np.array相比与Python原生列表其强大之处在于可以实现对数组数据的运算。我们知道,list只能对元素的追加。而numpy是真正意义上的数据运算。
例如

    In [1]: import numpy as np
    In [2]: list1 = np.array([10,20,30,40])
    In [3]: list2 = np.array([4,3,2,1])
    In [4]: print(list1)
    [10 20 30 40]
    In [5]: print(list1+list2)
    [14 23 32 41]    

但np最强大的地方不在于简单的一维运算,Np对矩阵也能进行基本的运算操作:

lst1 =np.array([10,20,30,40])
lst2 = np.array([4,3,2,1])
print(np.dot(lst1.reshape([2,2]),lst2.reshape([2,2])))
[[10 22]
[34 46]
[62 78]]
[[ 80  50]
[200 130]]

此外,由于原生list没有确定的数据类型,所以维护起来成本较高,而使用C编写的numpy,则可以声明各种常见的数据类型:

lst = [[1,3,5],[2,4,6]]
np_lst = np.array(lst,dtype=np.float)

np所支持的数据类型都有bool、int8/16/32/64/128/、uint8/16/32/64/128、float16/32/43、complex64/128、string。

总结

Python作为一门弱类型语言,有其不可避免的缺点。但NP的出现,弥补了这些缺点,使其具备了构造复杂数据类型的能力,为Python数据分析提供了基础。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/40884.html

相关文章

  • 真假美猴王-Numpy数据Python数组的区别与联系

    摘要:下文统一称为数组是存储单一数据类型的多维数组同语言数组直接保存数值而则是能够对数组进行处理的函数。动态数据类型与的数组和的这些不可变数据类型的适用场景等可变数据类型适用于需要不断对原始数据进行修改的场景。 showImg(https://segmentfault.com/img/remote/1460000018925396);Numpy,是python中的一个矩阵计算包,功能类似ma...

    邹强 评论0 收藏0
  • Numpy 中文用户指南 1. 安装

    摘要:包的核心是对象。但有个例外,包括对象数组的元素大小是不同的。序列大小和速度在科学计算中尤为重要。例如考虑两个长度相同的列表中每个元素相乘的情况。此外,编码所需的工作量随数据维数的增加而增加。这些信息主要用于高级用户。 译者:飞龙 1.1 NumPy 是什么? 原文:What is NumPy? NumPy是Python中用于科学计算的基础包。它是一个Python库,提供多维数组对象,各...

    mochixuan 评论0 收藏0
  • python综合学习三之Numpy和Pandas

    摘要:本章学习两个科学运算当中最为重要的两个模块,一个是一个是。这种工具可用来存储和处理大型矩阵,比自身的嵌套列表结构要高效的多该结构也可以用来表示矩阵。专为进行严格的数字处理而产生。可以通过函数对相应值进行打印检验。 本章学习两个科学运算当中最为重要的两个模块,一个是 numpy,一个是 pandas。任何关于数据分析的模块都少不了它们两个。 一、numpy & pandas特点 NumP...

    tinylcy 评论0 收藏0
  • NumPyPython内置列表计算标准差区别详析

      小编写这篇文章的主要目的,主要是给大家进行介绍,关于NumPy与Python内置列表计算标准差区别的相关介绍,希望可以给各位读者带来帮助。  1什么是Numpy  NumPy,是NumericalPython的通称,用以性能卓越计算机的应用和数据统计分析的前提包,像数理科学专用工具(pandas)和架构(Scikit-learn)中都采用上了NumPy这个包。  NumPy中的基本数据结构是n...

    89542767 评论0 收藏0
  • python学习笔记 --- python中的list和numpy中的矩阵分析

    摘要:中的和中的矩阵分析由于之前在做的源码学习,并且将其的源码翻译成了的版本。在逛知乎里,我又发现了很多关于为什么这么快的讨论,很有意思。作者链接来源知乎著作权归作者所有。 python中的list和numpy中的矩阵分析 Author : Jasper Yang School : Bupt preface 由于之前在做GIbbsLDA++的源码学习,并且将其c++的源码翻译成了pyth...

    DobbyKim 评论0 收藏0
  • numpypython数据领域的功臣

    摘要:前言对的意义非凡,在数据分析与机器学习领域为立下了汗马功劳。现在用搞数据分析或机器学习经常使用的等库,都需要基于构建。毫不夸张地说,没有,今天在数据分析与机器学习领域只能是捉襟见肘。 前言 numpy对python的意义非凡,在数据分析与机器学习领域为python立下了汗马功劳。现在用python搞数据分析或机器学习经常使用的pandas、matplotlib、sklearn等库,都需...

    DevYK 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<