职场小白如何学习数据分析？

fuchenxuan 2022-06-28 15:50 回答0 收藏1

收藏问题

5条回答

wwolf

回答于2022-06-28 15:50

先确认下自己是否对此感兴趣，正感兴趣就考虑学习，不论是自学还是参加学习，都务必要有坚定的信念，当然学习数据分析是需要一定的数学、统计基础，同时需要掌握一点数据分析的工具软件，若有人带你学习或指导你，将会事半功倍，我知道比较牛的数据分析专家是赵强，舒立克商学院数据分析教授，有兴趣可以了解下他，

评论0 赞同0

加载中...

codecraft

回答于2022-06-28 15:50

完整的数据分析流程：

• 业务建模。

• 经验分析。

• 数据准备。

• 数据处理。

• 数据分析与展现。

• 专业报告。

• 持续验证与跟踪。

1、数据采集

了解数据采集的意义在于真正了解数据的原始面貌，包括数据产生的时间、条件、格式、内容、长度、限制条件等。

2、数据存储

在数据存储阶段，数据分析师需要了解数据存储内部的工作机制和流程，最核心的因素是在原始数据基础上经过哪些加工处理，最后得到了怎样的数据。

3、数据提取

在数据提取阶段，数据分析师首先需要具备数据提取能力。其次是理解业务需求的能力。

4、数据挖掘

在数据挖掘阶段，数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识；二是熟练使用一门数据挖掘工具，Clementine、SAS或R都是可选项，如果是程序出身也可以选择编程实现；三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点......

加米谷大数据开发培训9月0基础班，预报名中...

lavor

回答于2022-06-28 15:50

想要深入学习数据分析，第一步是要进行Python实战，然后需要对业务进行深入的理解，建立指标体系和思路，因为脱离了业务的数据分析基本上就是瞎胡闹。

这里我就不谈业务了，先演示一下如何利用Python做一次真正的、完整的数据分析实操。

————————Python实操正文————————

比如说，我想要研究亚马逊上Top100的细分品类——女式内衣的销售情况。（还有点不好意思）

分析分为三步：数据采集、数据清理、可视化分析

一、如何爬取内衣数据

Python爬数据很简单，我个人总结大致就 3点：请求数据、进行数据处理、写数据。

请求数据

会有几种可能：

很简单的html页面，就直接requests就可以请求成功；
js渲染的页面，这种页面超多，requests请求一堆js数据；
需要登录才能获取，至今登录我都是用的cookie 请求登录，但应该有更好的办法；
json数据；

数据处理

会有几种可能：

请求的数据是简单的html结构页面——直接BS4解析就好了
请求的数据是json——导入json模块进行解析
请求的数据是简单的js渲染的html页面

遇到这种页面通过抓包或者简单的在网站上审查请求，然后找的你想要的那部分数据，如果是js渲染的html，其实就是js拼写的html，只要把其他无用的数据匹配掉用正则找到剩下想要的html文本就好了。然后BS4解析。

写数据

open方法进行文件打开里面的参数进行文件格式设置，读写文件、编码格式操作

文件格式我用过的就是txt、csv 、xml 大部分文本格式都支持的。

a--是创建文件每次写都是重新创建w--是追加a--是读数据encoding="utf-8"这句话不加encoding= 在windows系统下会报编码错误，linux不会。

然后就是数据量太大，写入到数据库数据库就用sqlite，记得引入模块 import sqlite3，就是创建数据表。

好了，不啰嗦，开始爬数据。

1、爬取商品排名和详情页链接

需要爬取的具体字段：排名（Rank），商品名（item_name），商品详情页链接（item_link）、商品图片链接（img_src）。

2、在商品详情页爬取更多商品信息

店家名、店家链接、商品名、价格

星级、评论标签

核心：

构建函数来获取单个商品的详细信息；
利用for循环，遍历商品详情页链接列表，来获取每个商品的详细信息

3、爬取评论

评论内容，星级

核心：

从上一步的csv文件中，读取Rank , item_name , reviews , reviews_link字段
构建函数读取每个商品的所有评论
利用for循环，获取所有商品的所有评论
存储到数据库和csv文件中

4、爬取size和color数据

和第三步基本一样，代码基本一样，主要在于要确认每页评论的size&color个数。

二、数据清洗和预处理

1、读取、清洗数据

从csv文件读取100个商品的数据，筛选出所需要的字段，进行数据清洗。

这里注意，部分读取的数据，看似是数值，实际是字符，因此需要进行类型转换（如price拆分后，还需要转为float型）

需要参与数值计算的NaN，使用平均值进行替换。

2、以商家维度处理数据

获取所需的数据：商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比。针对星级、评论数均值、价格均值、商品数量做标准化处理，并计算加权分。

三、分析：歪果情趣内衣哪家强

1、不同商家的星级排名

平均星级达4.15分，高于平均分的商家超过一半（17/32）
Top1的LALAVAVA高达4.9分，紧随其后也有5家达到4.5分。
倒数第一N-pearI只有3.2分

让我看看LALAVAVA长什么样。亚马逊上的商品，看上去就是普通泳衣，米国人还是很保守的嘛~

但评分高真的就说明产品好吗？不如来看看评论数吧。

②不同商家的平均评论数排名

首先平均评论数只有193条，而且高于平均线的只有不到三成（12/32），想想淘宝动辄上万，我们的人口优势让米国人羡慕呀；
再来看星级Top1的LALAVAVA，评论数少得可怜，那么对其商品真实质量就要存疑了；
而星级倒数的N-pear I，同样评论数很少，那大概率其商品其实不咋地；
反观评论数Top1的Garmol，其星级评价4.4，口碑佳评论也多，看来是不错的商品；
紧随其后的几家，其星级分数就低于平均分了

那么，亚马逊的星级评价难道就只受评论数的几颗星比例影响吗？我查阅了网上的一些资料，发现亚马逊评价星级评定的三个重要因素：评论距离现在的时间，评论被买家投票采纳数，评论是否有verified purchase标志（意指真实买家）。此外，评论的字符数，被点击次数等因素也可能会对评论星级有影响。

看来，亚马逊对评论的监控和管理是非常严格而复杂的！当然，最重要的还是看看评论第一名的Garmol长什么样：

比上边的泳衣更点题了，大家说好才是真的好，very sexy！

2、不同商家的价格区间排名（按均价）

从图上来看，明显ELOVER锁定的是高端市场，定价区间在49刀左右；相反，Goddessvan定价仅0.39刀，还只有一款，猜测可能是亏本冲量，提高商家曝光，抢夺低端市场
从均价来看，基本分布在10-20刀间，说明这是情趣内衣市场的主要价格区间；但20-40刀区间居然没有任何商家，可以在这一块深入研究，看能不能找到证据说明该区间是蓝海，有更大的市场潜力
而从每个商家的价格区间来看，大多数都是采取多颜色或款式的策略，一方面为用户提供更多选择，另一方面也体现了商家的上新能力；而仅有少数几家采取了单一爆款的策略

最奢华的ELOVER看上去果然比较女神，缩略图都比别家更用心。

那么，到底哪个商家的策略更靠谱，市场份额更大呢？

3、商家的商品数量饼

在Top100的商品占比中，Avidlove以28%的巨大优势称霸
而其他商家基本都是个位数的占比，没有很明显的优劣势

Avidlove的内衣是酷酷风的，我喜欢。

单一方面毕竟还是很难衡量哪家商家更优秀，不如综合多个指标来分析吧~

4、不同商家的加权分排名

将星级、平均评论数、商品均价、商品数量进行标准化处理后，因为不好拍定加权的比例，便将4项的归一化结果x10后直接累加得到总分，并制作成条形堆积图。

而每个商家的4项指标的占比，则侧面反映其自身的优劣势。

Avidlove，刚刚的酷酷风内衣，在其他三项中规中矩的情况下，以商品数量优势夺得综合分第一，有种农村包围城市的感觉
Garmol，主要依靠口碑（星级、平均评论数）的优势，夺得了第二名
ELOVER，主要依靠精准切分高端市场，夺得了第三名
N-pearI，没有任何优势，不出意料的光荣垫底

口碑最差的N-pearI，能搜到的商品也最少，不过图很劲爆，emm……然而不是我的菜

粗略来看的话，想要排名靠前，口碑一定不能太差，至少要保持在平均水平及以上！

5、不同商家的星级/价格散点图

用Python做了张散点图，x轴为商家的商品均价，y轴为商家的星级，点大小为商品数量，商品数量越大，点越大，点颜色为评论均值，评论均值越大，颜色越深红。

利用价格均值和星级均值，将图切分为四个象限：

①左上象限：实惠好评的商家

②右上象限：有点贵，但一分钱一分货的商家

③右下象限：贵，但质量不咋地的商家

④左下象限：便宜没好货的商家

所以借助这张散点图，挑商家买东西就容易多啦：

追求性价比，可选择Avidlove，而且商品多，任君挑选；
追求高端，可选择ELOVER，它贵有它的道理；
追求大众，可选择Garmol，评论数最多，而且好评居多。

顾客可以根据自己的喜好挑选合适的商家，那么作为商家如何改进自己呢？

6、词频分析

前面在爬取的过程中，同样爬取了评论标签，通过对此进行词频分析，可以发现顾客最关心的依次是：

是否合身：size、fit等相关字眼多次出现且排位靠前
质量：good quality、well made；soft and comfortable、fabric是对材质的肯定
款式：cute、sexy、like the picture你懂的
价格：cheaply made勉强算价格吧，但更多是对商品质量的怀疑
口碑：highly recommend，评论的还是非常有参考价值的

评论标签的数量较少，进一步对2.4w条评论进行词频分析，并制作成词云：

快夸我底图选得好！

最直观的，仍然是跟“是否合身”以及质量或款式有关。那么我们就从顾客购买商品的Size&Color继续分析

这里，Size&Color的词频数据存在几点问题：1、数据量较少，仅有约6000条2、Size&Color无法较好的区分开，因此一起分析3、商家的命名规则不同，比如同样是黑色款，有个商家会命名black，而有的可能是style1（所以一些奇怪的数字编号其实是商家的款式编号）4、有些奇怪的字眼如trim可能是爬虫时爬错了或者导出csv时的格式错乱

可以明显看出：

Size方面：large、medium、small肯定均有涵盖，但另外还有xlarge、xxlarge、xxxlarge，亚马逊主要是欧美顾客，可能体型相对较大，所以商家应该多研发以及备货针对体型较大的顾客的商品。

Color方面：非常直观：Black > red > blue > green > white > purple....所以黑色、红色永远不会错；绿色是出乎我意料的，商家也可以大胆尝试。

Style方面：词频中出现trim、lace字眼，蕾丝最高！！！

最后

在分析了Top100的商品信息和2.4w条评论后，作为一篇正经的python数据分析研究，我们来总结一下亚马逊情趣内衣产品和销售策略：

1、一定要注意的竞品

Garmol、ELOVER、Avidlove分别在口碑、定价、产品数量三个方向有其核心优势，是需要重点研究的竞争对手。

2、口碑很重要

Review和星级是影响口碑的重要因素，需要深入研究其算法机制并制定针对性的营销策略
Review和星级有基础要求
平均星级达4.15分，高于平均分的商家超过一半
平均评论数只有193条，高于平均线的商家约三成
Review相对淘宝评论较少，亚马逊的算法复杂且惩罚力度大，因此Review重精胜于重多

3、定价策略

主流市场竞争激烈，价格多集中在10-20刀间
高端市场有切入机会，目前仅ELOVER一家，价格在40-55刀间
低端市场价值不大，利润空间小，为了提高曝光或铺量可考虑，但不利于以后冲击中高端市场
中高端市场机会巨大，20-40刀区间暂无其他商家，有巨大的市场潜力

4、产品策略

应结合目标市场和定价，提高研发和上新能力，先多产品试错，再尝试单一爆款巩固市场
内衣尺寸：合身最重要，需贴合国外顾客的体型，一般large及以上。颜色上：保守可多使用黑色、红色，同时可大胆尝试绿色。款式上：多采用蕾丝装饰
质量和品控是底线

5、拓展&思考：

亚马逊Best Sellers是每小时更新一次，理论上可以每一小时爬一次，看商品的排名变化，是否有新品等，可以尝试自动化爬虫；
针对上一点，但商品的评论内容并不是经常更新的，如何去重避免重复爬取？（类似于断点续传功能）；
此次也有爬取商品图片的链接，可全部下载；在积累一定的图片素材以后，就可以一定程度上看出颜色、甚至是款式的趋势。

——————一次完整的数据分析就结束了——————

评论0 赞同0

加载中...

Zack

回答于2022-06-28 15:50

这个的话，看你是学什么专业的，干的什么工作，结合工作来说，数据分析的话有点专业性较强，没有基础的话，可能学习起来比较难，所以结合自己的专业，工作等等。如果真的想要学习的话，多看看视频，别人的教学视频，或者在一些云课堂上面都有好多，我自己还是比较喜欢网易云课堂的，比较不错，也学会了很多。祝你成功！

评论0 赞同0

加载中...

Mr_houzi

回答于2022-06-28 15:50

大家都知道我一直专注于数据分析领域，在知乎上面也发表了些数据分析方面的文章，带动了不少有这方面想法的小伙伴想进入数据分析领域。

不少小伙伴会私信我，提出自己学习数据的一些想法和计划，但其中有些同学的想法让我感觉到大家在数据入门方面可能走入了一些歧途，典型的聊天一般是这样的：

现在有不少数据方面的"小白"，来自运营、产品，大家学习数据的切入却选择了学习类似Python这样的编程语言。这样的想法确实让我感觉有必要发文一篇，以免更多的朋友南辕北辙、误入歧途。

我一直认为各行各业的同学都应该具备一定的数据分析能力，哪怕你不是或者也不准备做一名数据分析师。原因在于数据分析是一种思想，是一种高效且行之有效的认识这个世界的能力。

即便你本人并不做数据分析师，一旦具备了这种思想和能力，也能够让你在自己的领域看的更高、更远、更透彻。而类似Python这样的编程语言是一门工具，也仅仅是一门工具而已。即便掌握了这门工具，也并不代表你掌握了数据分析的思想和能力。

更何况，这样的工具对于非IT领域的同学来说过于繁琐，学习成本是非常高的。这也是为什么要选择FineBI这样的工具作为数据分析的工具，因为FineBI足够简单，上手够快，并能够支撑数据分析的一般需求，更重要的是我们的课程是要教给大家数据分析的思路和想法，工具学习成本越低越好。
（a.我曾见到过的一个数据科学家，只会用Sql+excel做模型，他帮助公司收入增长了300%，3个亿。注意只会sql+excel，但是他的分析思路和高度是我所佩服的；
b.我见到过太多太多python，学到一半没有实际应用场景而放弃的，也见到过学会了python入门，但不知道如何运用到工作因此浪费时间的。这里并不是指python不好，而是我建议先入门，入门之后，再根据业务场景去学语言工具，会python肯定是数据分析师的主流，但并不是入门的好工具。）

所以，我给大家的建议是：首先，大家应该将精力集中于数据分析思路的培养和训练上，多去看一些商业数据模型和数据分析案例方面的资料，结合自己的工作场景和特点，形成自己的数据分析思路；

其次，学习一个上手最简单的数据分析工具，利用已有的数据和自己的分析思路进行分析，形成看板或者结论；最后，重点锻炼一下自己演讲和PPT的制作能力。

要知道，一个优秀的数据分析结论，也需要有好的演讲者说服他的听众去接受，也需要有清晰的PPT把整个思想展示给阅读者。毕竟，在这个时代，酒香也怕巷子深。

为什么我会这么建议大家呢？因为每件事情都是有成本的，而一旦有成本就意味着我们需要有收益。我们每一个人都不是万能的，我们有自己的长处，也有自己的短板。我们在学习时，应该结合自身的特点和情况，最快的从我们的付出中见到成效。

其实，对于并不在数据分析领域的同学来说，也许绝大多数人都没有办法成为一名数据科学家，但却更有可能成为自己领域的大牛：一名优秀的运营专家、产品经理、HR、财务、销售、咨询顾问。让数据分析成为你在自己职业发展中的一项助力，让它更好的帮助到你本身的职业发展，也许才是学习数据分析的正确思路和定位。
最后，认清自己的优势和劣势，明确自己职业发展的方向，选择最适合自己的道路，做一个最好的自己，这才是每一个人最正确的选择。

各位，如果觉得自己并不是对数据很有兴趣，只是觉得多一个就业方向，那我建议大家学英语会更实际一点。

评论0 赞同0

加载中...

fuchenxuan

男|

我要关注我要私信

TA的文章

问答专栏Q & A COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

职场小白如何学习数据分析？

写回答

5条回答

wwolf

回答于2022-06-28 15:50

codecraft

回答于2022-06-28 15:50

lavor

回答于2022-06-28 15:50

Zack

回答于2022-06-28 15:50

Mr_houzi

回答于2022-06-28 15:50

相关问题