{eval=Array;=+count(Array);}

问答专栏Q & A COLUMN

如何利用pandas、matplotlib和seaborn来分析脏数据?

tomlingtmtomlingtm 回答0 收藏1
收藏问题

1条回答

layman

layman

回答于2022-06-28 14:58

工具方面,seaborn是matplotlib的扩展和二次封装,个人认为日常数据分析matplotlib完够用了。

一般脏数据分析可以分为以下几个步骤:

一.数据读取:根据数据源文件的文件类型,可以使用pandas的read_csv、read_table、read_excel、read_sql、read_json、read_html、DataFrame来读取。

二.查看数据信息:主要使用describe、info这两个方法,也可以直接用pandas的绘图功能可视化显示数据。

三.处理异常和缺失的数据:用到的方法主要有dropna、fillna,处理完异常和缺失数据后再可视化显示出处理完的数据

四.如果是做机器学习或深度学习,还要再做一下归一化处理。

五.数据处理完后再写入到文件中,以备调用,我一般用to_csv方法来保存。

以下是我这自己处理的一段实例代码:


评论0 赞同0
  •  加载中...

最新活动

您已邀请0人回答 查看邀请

我的邀请列表

  • 擅长该话题
  • 回答过该话题
  • 我关注的人
向帮助了您的网友说句感谢的话吧!
付费偷看金额在0.1-10元之间
<