{eval=Array;=+count(Array);}

问答专栏Q & A COLUMN

机器学习必备数据分析库pandas,如何使用pandas完成文件读取?

wushuiyongwushuiyong 回答0 收藏1
收藏问题

2条回答

TNFE

TNFE

回答于2022-06-28 14:57

pandas是python一个非常著名的数据处理库,内置了大量函数和类型,可以快速读取日常各种文件,包括txt,csv,excel,json,mysql等,为机器学习模型提供样本输入(包括数据预处理等),下面我简单介绍一下这个库的使用,以读取这5种类型文件为例:

txt

这里直接使用read_csv函数读取就行(早期版本中可以使用read_table函数),测试代码如下,非常简单,第一个参数为读取的txt文件名称,第二个参数为列标题(None代表无列标题,如果需要列标题的话,去掉header参数就行),第三个参数为分隔符,可以是任意符号(空格、逗号等都行):

csv

这里也直接使用read_csv函数就行,测试代码如下,和上面读取txt文件差不多,分隔符就不需要多带带指出了,默认是逗号:

excel

这里直接使用read_excel函数读取就行,参数设置和read_csv差不多,第一个参数为文件名称,第二参数header为None,则没有列标题,若不写,则默认有列标题,如下,则含有列标题:

json

这里直接使用read_json函数就行,第一个参数也是文件名称,第二个参数为编码,如果出现中文乱码的情况下,这里设置一下就行:

mysql

这里需要借助sqlalchemy模块,才能完成mysql数据库(Oracle,SQL Server等也都可以)的读取,安装的话,直接在cmd窗口输入命令“pip install sqlalchemy”就行,测试代码如下,非常简单,先创建一个engine连接,然后直接调用read_sql_query函数执行sql查询就行:

至此,我们就完成了利用pandas模块来读取txt,csv,excel,json,mysql等5种类型的文件。总的来说,pandas这个库的功能非常强大,对于日常数据处理来说,是一个非常不错的选择,在机器学习中,经常会用于数据预处理,非常实用,只要你有一定的python基础,熟悉一下相关文档和说明,很快就能掌握的,网上也有相关资料和教程,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

评论0 赞同0
  •  加载中...
Fourierr

Fourierr

回答于2022-06-28 14:57

file1.csv 文件内容:

name, physics, python, math, english

Google, 100, 100, 25, 12

Facebook, 45, 54, 44, 88

Twitter, 54, 76, 13, 91

Yahoo, 54, 452, 26, 100

Python程序:

import pandas as pd

marks = pd.read_csv("F:/file1.csv")

print(marks)

结果:

name physics python math english

0 Google 100 100 25 12

1 Facebook 45 54 44 88

2 Twitter 54 76 13 91

3 Yahoo 54 452 26 100

Process finished with exit code 0

评论0 赞同0
  •  加载中...

相关问题

最新活动

您已邀请0人回答 查看邀请

我的邀请列表

  • 擅长该话题
  • 回答过该话题
  • 我关注的人
向帮助了您的网友说句感谢的话吧!
付费偷看金额在0.1-10元之间
<