【译】技能测试解决方案：Python中的数据科学（二）

zhoutao 发布于2019-07-25 11:46 / 3573人阅读

摘要：比较折中的解决方案是，另外建立二分类变量，当变量为缺失值时，该变量取值，否则取值。一种方案是创建变量变量的数据透视表，并求变量的值。一种解决办法是加载指定数目的行数到内存中。

本文是译文，可以转载，但需注明出处，点击这里可以获取原文，有删减。
本系列博文包含四篇文章：
【译】技能测试解决方案：Python中的数据科学（一）——Q1-Q15
【译】技能测试解决方案：Python中的数据科学（二）——Q16-Q30
【译】技能测试解决方案：Python中的数据科学（三）——Q31-Q45
【译】技能测试解决方案：Python中的数据科学（四）——A1-A45及其解释

Q16

在上述数据集中， “Cabin”变量5个样本中就有3个是缺失值，如果某个变量含有较高比例的缺失值，我们可以删除该类变量，但这样做又会损失一定的信息量。
比较折中的解决方案是，另外建立二分类变量 “Missing_Cabin”，当“Cabin”变量为缺失值时，该变量取值1，否则取值0。
下列哪行代码可以实现这个需求？

A - train["Missing_Cabin"] = train.Cabin.apply(lambda x: x == "")
B - train["Missing_Cabin"] = train.Cabin.isnull() == False
C - train["Missing_Cabin"] = train.Cabin.isnull().astype(int)
D - 以上选项都不能

Q17

上述数据集是出口产品的属性数据，但是在原始数据中，没有列名。我们怎样读入包含指定列名的数据框的数据集？

A - pd.read_csv("train.csv", header=None, columns=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility" ])
B - pd.read_csv("train.csv", header=None, usecols=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility"])
C - pd.read_csv("train.csv", header=None, names=["Item_Identifier" ,"Item_Weight" ,"Item_Fat_Content", "Item_Visibility"])
D - 以上选项都不能

Q18

当我们使用pandas读入数据集时，变量的类型可能解析得不对。为此，我们需要在读入数据集时，指定每个变量的数据类型，或者读入数据集后，转换指定变量的数据类型。
下列哪行代码可以把“Item_Fat_Content” 变量由“object”类型改变成“category”类型？

A - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("categorical")
B - train["Item_Fat_Content"] = train["Item_Fat_Content"].astype("category")
C - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("category")
D - 以上选项都不能

Q19

上述数据集中， “Item_Identifier”变量似乎和“Item_Type”变量存在一些关系：当“Item_Identifier”变量首字母发生变化时， “Item_Type” 变量随即也发生变化。当“Item_Identifier”变量以字母“F”开头时，对应的“Item_Type” 变量取值都是可以吃的物品，而“D”则对应的是饮料。
为了检验这个假设，下列哪行代码可以查询出所有“Item_Identifier” 变量以“F”开头的样本？

A - train.Item_Identifier.str.starts_with("F")
B - train.Item_Identifier.str.startswith("F")
C - train.Item_Identifier.str.is_start("F")
D - 以上选项都不能

Q20

下列哪行代码可以把 “Item_MRP”变量由“浮点型”改变成“整型”？

A - train["Item_MRP"] = train.Item_MRP.astype(real)
B - train["Item_MRP"] = train.Item_MRP.astype(int)
C - train["Item_MRP"] = train.Item_MRP.astype(float)
D - 以上选项都不能

Q21

我们现在还有另外一个假设：在超市里，对于新顾客而言，一个物品越容易看到，它的销量就会越好。
下列哪行代码可以计算 “Item_Outlet_Sales”变量和 “Item_Visibility”变量之间的皮尔逊相关系数？

A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method="pearson")
B - train.Item_Visibility.corr(train.Item_Outlet_Sales)
C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method="pearson")
D - A和B都可以

Q22

我们想查看“Hours.Per.Week”变量相对于用户的“Marital.Status”变量和“Occupation”变量的分布。一种方案是创建“Marital.Status”变量vs“Occupation”变量的数据透视表，并求“Hours.Per.Week”变量的值。
下列哪行代码可以实现这个需求？（聚合函数设定为“Sum”）

A - train.pivot(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum")
B - train.pivot_table(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum")
C - train.pivot_table(index="Marital.Status", columns="Hours.Per.Week", values="Occupation", aggfunc="sum")
D - 以上选项都不能

Q23

上述数据集中，假设前两行都不是我们想要的，我们想从第三行开始读入数据，在pandas 中如何操作？

A - train = pd.read_csv("train.csv", startrow=2)
B - train = pd.csvReader("train.csv", startrow=2)
C - train = pd.read_csv("train.csv", skiprows=2)
D - 以上选项都不能

Q24

假设数据集太大而不能加载到本地机器中，但是我们仍然想把它加载到内存中。一种解决办法是加载指定数目的行数到内存中。
下列哪行代码可以只读取前500行数据到内存中？

A - train = pd.read_csv("train.csv", nrows=500)
B - train = pd.read_csv("train.csv", numrows=500)
C - train = pd.read_csv("train.csv", rows=500)
D - 以上选项都不能

Q25

我们现在想要知道“Relationship”变量在数据集中的分布。为此，我们可以发现用户数与“Relationship”变量的百分比分布。
要做到这一点，需要找到“Relationship”变量所有取值的样本量，然后将其除以总样本数，得到百分比并将其映射到每一列即可。
下列哪行代码可以实现这个需求？

A - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_count/train.shape[0])
B - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0])
C - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts/train.shape[0])
D - 以上选项都不能

Q26

上述数据集中，“Date_time_of_event”变量被解析成“分类型”变量，因此，一些有关日期的操作不能作用于该变量。
下列哪行代码可以把 “Date_time_of_event”变量由“分类型”变量转换成“时间型”变量？

A - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y")
B - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M")
C - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m")
D - 以上选项都不能

Q27

上述数据集中，我们想根据“Date_time_of_event” 变量衍生出 “Date”变量，下列哪行代码可以提取出“Date_time_of_event” 变量中的日期？

A - train.Date_time_of_event.dt.days
B - train.Date_time_of_event.dt.day
C - train.Date_time_of_event.dt.Day
D - 以上选项都不能

Q28

下列哪行代码可以提取“Date_time_of_event” 变量中的工作日？

A - train.Date_time_of_event.dt.weekdayname
B - train.Date_time_of_event.dt.weekday_name
C - train.Date_time_of_event.dt.Weekday_name
D - 以上选项都不能

Q29

“时间型”变量可能被解析成unix格式，在抽取有用信息之前，我们必须把它转换成可用的格式，下列哪行代码可以实现？

A - pd.to_datetime(train["TIMESTAMP"],unit="s")
B - pd.to_datetime(train["TIMESTAMP"],unit="second")
C - pd.to_datetime(train["TIMESTAMP"],unit="unix")
D - 以上选项都不能

Q30

下列哪行代码可以找出“现在”与 ‘Date_time_of_event’变量之间的时间差？

A - pd.datetime.now - train.Date_time_of_event.dt
B - pd.datetime.now() - train.Date_time_of_event.dt
C - pd.datetime.now() - train.Date_time_of_event
D - 以上选项都不能

友情链接：
【译】技能测试解决方案：Python中的数据科学（一）——Q1-Q15
【译】技能测试解决方案：Python中的数据科学（三）——Q31-Q45
【译】技能测试解决方案：Python中的数据科学（四）——A1-A45及其解释

云服务器 GPU云服务器数据科学在生活中的应用软件测试技能 java第二阶段测试数据迁移测试方案

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/38599.html

【译】技能测试解决方案：Python中的数据科学（四）

摘要：友情链接译技能测试解决方案中的数据科学一译技能测试解决方案中的数据科学二译技能测试解决方案中的数据科学三本文是译文，可以转载，但需注明出处，点击这里可以获取原文，有删减。本系列博文包含四篇文章：【译】技能测试解决方案：Python中的数据科学（一）——Q1-Q15【译】技能测试解决方案：Python中的数据科学（二）——Q16-Q30【译】技能测试解决方案：Python中的数据科学（...

sourcenode 2019-07-31 10:55 评论0 收藏0
【译】技能测试解决方案：Python中的数据科学（三）

摘要：在关联该数据集时，重复行会带来一定的困扰，为了避免这个困扰，我们只保留重复数据第一个出现的样本。本文是译文，可以转载，但需注明出处，点击这里可以获取原文，有删减。本系列博文包含四篇文章：【译】技能测试解决方案：Python中的数据科学（一）——Q1-Q15【译】技能测试解决方案：Python中的数据科学（二）——Q16-Q30 【译】技能测试解决方案：Python中的数据科学（三）...

i_garfileo 2019-07-25 11:46 评论0 收藏0
SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

摘要：学习笔记七数学形态学关注的是图像中的形状，它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换，简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制，并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言开始之前，我们先来看这样一个提问： pyth...

lifesimple 2019-07-30 14:22 评论0 收藏0
深度 : 数据科学，来自业界的诱惑（译）

摘要：所以克拉姆卡创办了洞察力数据科学公司来为博士们提供面向业界数据科学的职业培训。旧金山公司的数据实验室主管伊莱巴塞特建议，学习更符合业界胃口的编程工具如和语言。伊莱·巴塞特（Eli Bressert）计划把自己的学术生涯都放在针对恒星形成的研究上。他在英国埃克塞特大学（University of Exeter）获得博士学位，又在澳洲悉尼附近完成了针对射电天文学的博士后研究。他发表论文的引用量...

Acceml 2019-04-25 17:59 评论0 收藏0