资讯专栏INFORMATION COLUMN

数据科学 第 3 章 4:连接mysql、改类型、索引应用

yuxue / 3560人阅读

今天开始学习《数据科学手册》,主要学习3-5章,其他的选修。

-- 先连接数据库加载数据:

用sqlalchemy 的create_engine连接:
注意:代码里mysql+pymysql: 这部分不能加空格,否则会报错

import pymysql
import pandas as pd
from sqlalchemy import  create_engine

sql = "select * from sougou"
engine = create_engine("mysql+pymysql://root:123456@192.168.200.200/xiaom")
df = pd.read_sql(sql,engine,)

查看每列的格式:

RangeIndex: 2324 entries, 0 to 2323
Data columns (total 6 columns):
date 2324 non-null object
id 2324 non-null object
word 2324 non-null object
rank1 2324 non-null object
number1 2324 non-null object
url 2324 non-null object
dtypes: object(6)
memory usage: 109.0+ KB

-- 改rank1、number1的格式

str转int转换为数字:https://vimsky.com/article/36...

data =df
data[["rank1","number1"]] = data[["rank1","number1"]].apply(pd.to_numeric,errors="coerce")
data

第3章4-6节:索引 -- loc、iloc、ix的运用 1、多重索引 两个条件

data[(data["rank1"] > 10) & (data["number1"] > 10)]

2、loc与iloc的区别:loc[1:3]包含2-4条,iloc为2-3条 ,不含第4条数据

3、行列转换:data.T

4、用iloc取指定行列数据:
data.iloc[1:3,3:4]
data.iloc[:,2:4]
data.iloc[:,:"rank1"]  #从前面取到rank1列

5、没怎么懂的pd.MultiIndex.from_tuples(),直接跳过 6、设置索引、索引排序:

set_index(inplace = True) 会在原数据集上修改
sort_index()
reset_index(drop= True) # 重设索引为默认索引

indexdata = data
indexdata.set_index(data["rank1"], inplace = True) 

indexdata.sort_index()

indexdata.reset_index(drop= True)  #重设索引为默认索引

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44963.html

相关文章

  • 数据科学 3 : 7-8 合并、连接数据

    摘要:第章合并连接数据集包含三个函数省略,在页。没有对默认合并两个表的所有列,如果有列,有列,则结果为列多对保留多条记录多对多会交叉每一条记录通过参数设定连接方式两个表都有两个字段,则通过连接两个表。 第3章 7-8:合并、连接数据集 包含三个函数:numpy:concatenate 省略,在126页。pandas:concat/ append(略过) /merge 主要是讲merge函数...

    IntMain 评论0 收藏0
  • 数据科学 3 : 9 累计与分组 groupby

    摘要:聚合后没有用函数,会返回一个用函数后会显示计算结果组合之后,切片,查看的和。可以设定计算方法对列进行了切片,如果的均值小于,则不显示二部的均值低于,所以结果中没有二部数据。 本节学习groupby 引用激励数据,连接数据库jili表(代码省略)数字简单计算本节内容前面是运用sum/mean等函数对数字简单计算 jili.mean() #求均值 jili.mean(axis = col...

    wemallshop 评论0 收藏0
  • 数据科学 3 10 数据透视表

    摘要:官方文档连接像其他函数一样,官方文档中的参数有很多,具体如下写在前面,如果要对透视表中的字段进行计数,有时候用会报错,可以用实例运用简单版透视表上面以部门为索引,下面有二级索引,部门小组。 本节学习数据透视表 引用激励数据,连接数据库jili表,jili这几个太难打了,下文用df代表激励数据(代码省略)之前在excel中用烂了的透视表,终于用python来实现了,其实主要是讲pivot...

    lily_wang 评论0 收藏0
  • 客官,这里有一份《MySQL 必知必会》读书笔记,请您笑纳!

    摘要:主键唯一标识表中每行的这个列称为主键。不为空,每行数据必须具有一个主键值。主要负责与用户进行交互,接受用户的指令,然后发出请求给,负责数据访问和处理,然后将结果返回给。注意虽然似乎通配符可以匹配任何东西,但有一个例外,即。 为什么写这篇文章 因为我最近的一些工作内容跟数据分析比较密切,所以需要对SQL使用得比较熟练,所以便阅读了《MySQL 必知必会》这本书,为了检验自己的阅读效果及帮...

    liuyix 评论0 收藏0

发表评论

0条评论

yuxue

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<