{eval=Array;=+count(Array);}
pandas是python一个非常著名的数据处理库,内置了大量函数和类型,可以快速读取日常各种文件,包括txt,csv,excel,json,mysql等,为机器学习模型提供样本输入(包括数据预处理等),下面我简单介绍一下这个库的使用,以读取这5种类型文件为例:
这里直接使用read_csv函数读取就行(早期版本中可以使用read_table函数),测试代码如下,非常简单,第一个参数为读取的txt文件名称,第二个参数为列标题(None代表无列标题,如果需要列标题的话,去掉header参数就行),第三个参数为分隔符,可以是任意符号(空格、逗号等都行):
这里也直接使用read_csv函数就行,测试代码如下,和上面读取txt文件差不多,分隔符就不需要多带带指出了,默认是逗号:
这里直接使用read_excel函数读取就行,参数设置和read_csv差不多,第一个参数为文件名称,第二参数header为None,则没有列标题,若不写,则默认有列标题,如下,则含有列标题:
这里直接使用read_json函数就行,第一个参数也是文件名称,第二个参数为编码,如果出现中文乱码的情况下,这里设置一下就行:
这里需要借助sqlalchemy模块,才能完成mysql数据库(Oracle,SQL Server等也都可以)的读取,安装的话,直接在cmd窗口输入命令“pip install sqlalchemy”就行,测试代码如下,非常简单,先创建一个engine连接,然后直接调用read_sql_query函数执行sql查询就行:
至此,我们就完成了利用pandas模块来读取txt,csv,excel,json,mysql等5种类型的文件。总的来说,pandas这个库的功能非常强大,对于日常数据处理来说,是一个非常不错的选择,在机器学习中,经常会用于数据预处理,非常实用,只要你有一定的python基础,熟悉一下相关文档和说明,很快就能掌握的,网上也有相关资料和教程,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。
file1.csv 文件内容:
name, physics, python, math, english
Google, 100, 100, 25, 12
Facebook, 45, 54, 44, 88
Twitter, 54, 76, 13, 91
Yahoo, 54, 452, 26, 100
Python程序:
import pandas as pd
marks = pd.read_csv("F:/file1.csv")
print(marks)
结果:
name physics python math english
0 Google 100 100 25 12
1 Facebook 45 54 44 88
2 Twitter 54 76 13 91
3 Yahoo 54 452 26 100
Process finished with exit code 0
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答