{eval=Array;=+count(Array);}
先确认下自己是否对此感兴趣,正感兴趣就考虑学习,不论是自学还是参加学习,都务必要有坚定的信念,当然学习数据分析是需要一定的数学、统计基础,同时需要掌握一点数据分析的工具软件,若有人带你学习或指导你,将会事半功倍,我知道比较牛的数据分析专家是赵强,舒立克商学院数据分析教授,有兴趣可以了解下他,
完整的数据分析流程:
• 业务建模。
• 经验分析。
• 数据准备。
• 数据处理。
• 数据分析与展现。
• 专业报告。
• 持续验证与跟踪。
1、 数据采集
了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。
2、数据存储
在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。
3、数据提取
在数据提取阶段,数据分析师首先需要具备数据提取能力。其次是理解业务需求的能力。
4、数据挖掘
在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点......
加米谷大数据开发培训9月0基础班,预报名中...
相关:
数据分析师的完整工作流程与知识结构体系
https://www.toutiao.com/i6584961126356746760/
想要深入学习数据分析,第一步是要进行Python实战,然后需要对业务进行深入的理解,建立指标体系和思路,因为脱离了业务的数据分析基本上就是瞎胡闹。
这里我就不谈业务了,先演示一下如何利用Python做一次真正的、完整的数据分析实操。
————————Python实操正文————————
比如说,我想要研究亚马逊上Top100的细分品类——女式内衣的销售情况。(还有点不好意思)
分析分为三步:数据采集、数据清理、可视化分析
一、如何爬取内衣数据Python爬数据很简单,我个人总结大致就 3点:请求数据、进行数据处理、写数据。
会有几种可能:
会有几种可能:
遇到这种页面通过抓包或者简单的在网站上审查请求,然后找的你想要的那部分数据,如果是js渲染的html,其实就是js拼写的html,只要把其他无用的数据匹配掉用正则找到剩下想要的html文本就好了 。然后BS4解析。
open方法进行文件打开 里面的参数进行文件格式设置,读写文件、编码格式操作
文件格式我用过的就是txt、csv 、xml 大部分文本格式都支持的。
a--是创建文件 每次写都是重新创建w--是追加a--是读数据encoding="utf-8"这句话 不加encoding= 在windows系统下会报编码错误,linux不会。
然后就是数据量太大,写入到数据库数据库就用sqlite,记得引入模块 import sqlite3,就是创建数据表。
好了,不啰嗦,开始爬数据。
1、爬取商品排名和详情页链接
需要爬取的具体字段:排名(Rank),商品名(item_name),商品详情页链接(item_link)、商品图片链接(img_src)。
2、在商品详情页爬取更多商品信息
店家名、店家链接、商品名、价格
星级、评论标签
核心:
3、爬取评论
评论内容,星级
核心:
4、爬取size和color数据
和第三步基本一样,代码基本一样,主要在于要确认每页评论的size&color个数。
二、数据清洗和预处理1、读取、清洗数据
从csv文件读取100个商品的数据,筛选出所需要的字段,进行数据清洗。
这里注意,部分读取的数据,看似是数值,实际是字符,因此需要进行类型转换(如price拆分后,还需要转为float型)
需要参与数值计算的NaN,使用平均值进行替换。
2、以商家维度处理数据
获取所需的数据:商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比。针对星级、评论数均值、价格均值、商品数量做标准化处理,并计算加权分。
三、分析:歪果情趣内衣哪家强1、不同商家的星级排名
让我看看LALAVAVA长什么样。亚马逊上的商品,看上去就是普通泳衣,米国人还是很保守的嘛~
但评分高真的就说明产品好吗?不如来看看评论数吧。
②不同商家的平均评论数排名
那么,亚马逊的星级评价难道就只受评论数的几颗星比例影响吗?我查阅了网上的一些资料,发现亚马逊评价星级评定的三个重要因素:评论距离现在的时间,评论被买家投票采纳数,评论是否有verified purchase标志(意指真实买家)。此外,评论的字符数,被点击次数等因素也可能会对评论星级有影响。
看来,亚马逊对评论的监控和管理是非常严格而复杂的!当然,最重要的还是看看评论第一名的Garmol长什么样:
比上边的泳衣更点题了,大家说好才是真的好,very sexy!
2、不同商家的价格区间排名(按均价)
最奢华的ELOVER看上去果然比较女神,缩略图都比别家更用心。
那么,到底哪个商家的策略更靠谱,市场份额更大呢?
3、商家的商品数量饼
Avidlove的内衣是酷酷风的,我喜欢。
单一方面毕竟还是很难衡量哪家商家更优秀,不如综合多个指标来分析吧~
4、不同商家的加权分排名
将星级、平均评论数、商品均价、商品数量进行标准化处理后,因为不好拍定加权的比例,便将4项的归一化结果x10后直接累加得到总分,并制作成条形堆积图。
而每个商家的4项指标的占比,则侧面反映其自身的优劣势。
口碑最差的N-pearI,能搜到的商品也最少,不过图很劲爆,emm……然而不是我的菜
粗略来看的话,想要排名靠前,口碑一定不能太差,至少要保持在平均水平及以上!
5、不同商家的星级/价格散点图
用Python做了张散点图,x轴为商家的商品均价,y轴为商家的星级,点大小为商品数量,商品数量越大,点越大,点颜色为评论均值,评论均值越大,颜色越深红。
利用价格均值和星级均值,将图切分为四个象限:
①左上象限:实惠好评的商家
②右上象限:有点贵,但一分钱一分货的商家
③右下象限:贵,但质量不咋地的商家
④左下象限:便宜没好货的商家
所以借助这张散点图,挑商家买东西就容易多啦:
顾客可以根据自己的喜好挑选合适的商家,那么作为商家如何改进自己呢?
6、词频分析
前面在爬取的过程中,同样爬取了评论标签,通过对此进行词频分析,可以发现顾客最关心的依次是:
评论标签的数量较少,进一步对2.4w条评论进行词频分析,并制作成词云:
快夸我底图选得好!
最直观的,仍然是跟“是否合身”以及质量或款式有关。那么我们就从顾客购买商品的Size&Color继续分析
这里,Size&Color的词频数据存在几点问题:1、数据量较少,仅有约6000条2、Size&Color无法较好的区分开,因此一起分析3、商家的命名规则不同,比如同样是黑色款,有个商家会命名black,而有的可能是style1(所以一些奇怪的数字编号其实是商家的款式编号)4、有些奇怪的字眼如trim可能是爬虫时爬错了或者导出csv时的格式错乱
可以明显看出:
Size方面:large、medium、small肯定均有涵盖,但另外还有xlarge、xxlarge、xxxlarge,亚马逊主要是欧美顾客,可能体型相对较大,所以商家应该多研发以及备货针对体型较大的顾客的商品。
Color方面:非常直观:Black > red > blue > green > white > purple....所以黑色、红色永远不会错;绿色是出乎我意料的,商家也可以大胆尝试。
Style方面:词频中出现trim、lace字眼,蕾丝最高!!!
最后在分析了Top100的商品信息和2.4w条评论后,作为一篇正经的python数据分析研究,我们来总结一下亚马逊情趣内衣产品和销售策略:
1、一定要注意的竞品
Garmol、ELOVER、Avidlove分别在口碑、定价、产品数量三个方向有其核心优势,是需要重点研究的竞争对手。
2、口碑很重要
3、定价策略
4、产品策略
5、拓展&思考:
——————一次完整的数据分析就结束了——————
这个的话,看你是学什么专业的,干的什么工作,结合工作来说,数据分析的话有点专业性较强,没有基础的话,可能学习起来比较难,所以结合自己的专业,工作等等。如果真的想要学习的话,多看看视频,别人的教学视频,或者在一些云课堂上面都有好多,我自己还是比较喜欢网易云课堂的,比较不错,也学会了很多。祝你成功!
大家都知道我一直专注于数据分析领域,在知乎上面也发表了些数据分析方面的文章,带动了不少有这方面想法的小伙伴想进入数据分析领域。
不少小伙伴会私信我,提出自己学习数据的一些想法和计划,但其中有些同学的想法让我感觉到大家在数据入门方面可能走入了一些歧途,典型的聊天一般是这样的:
现在有不少数据方面的"小白",来自运营、产品,大家学习数据的切入却选择了学习类似Python这样的编程语言。这样的想法确实让我感觉有必要发文一篇,以免更多的朋友南辕北辙、误入歧途。
我一直认为各行各业的同学都应该具备一定的数据分析能力,哪怕你不是或者也不准备做一名数据分析师。原因在于数据分析是一种思想,是一种高效且行之有效的认识这个世界的能力。
即便你本人并不做数据分析师,一旦具备了这种思想和能力,也能够让你在自己的领域看的更高、更远、更透彻。而类似Python这样的编程语言是一门工具,也仅仅是一门工具而已。即便掌握了这门工具,也并不代表你掌握了数据分析的思想和能力。
更何况,这样的工具对于非IT领域的同学来说过于繁琐,学习成本是非常高的。这也是为什么要选择FineBI这样的工具作为数据分析的工具,因为FineBI足够简单,上手够快,并能够支撑数据分析的一般需求,更重要的是我们的课程是要教给大家数据分析的思路和想法,工具学习成本越低越好。
(a.我曾见到过的一个数据科学家,只会用Sql+excel做模型,他帮助公司收入增长了300%,3个亿。注意只会sql+excel,但是他的分析思路和高度是我所佩服的;
b.我见到过太多太多python,学到一半没有实际应用场景而放弃的,也见到过学会了python入门,但不知道如何运用到工作因此浪费时间的。这里并不是指python不好,而是我建议先入门,入门之后,再根据业务场景去学语言工具,会python肯定是数据分析师的主流,但并不是入门的好工具。)
所以,我给大家的建议是:首先,大家应该将精力集中于数据分析思路的培养和训练上,多去看一些商业数据模型和数据分析案例方面的资料,结合自己的工作场景和特点,形成自己的数据分析思路;
其次,学习一个上手最简单的数据分析工具,利用已有的数据和自己的分析思路进行分析,形成看板或者结论;最后,重点锻炼一下自己演讲和PPT的制作能力。
要知道,一个优秀的数据分析结论,也需要有好的演讲者说服他的听众去接受,也需要有清晰的PPT把整个思想展示给阅读者。毕竟,在这个时代,酒香也怕巷子深。
为什么我会这么建议大家呢?因为每件事情都是有成本的,而一旦有成本就意味着我们需要有收益。我们每一个人都不是万能的,我们有自己的长处,也有自己的短板。我们在学习时,应该结合自身的特点和情况,最快的从我们的付出中见到成效。
其实,对于并不在数据分析领域的同学来说,也许绝大多数人都没有办法成为一名数据科学家,但却更有可能成为自己领域的大牛:一名优秀的运营专家、产品经理、HR、财务、销售、咨询顾问。让数据分析成为你在自己职业发展中的一项助力,让它更好的帮助到你本身的职业发展,也许才是学习数据分析的正确思路和定位。
最后,认清自己的优势和劣势,明确自己职业发展的方向,选择最适合自己的道路,做一个最好的自己,这才是每一个人最正确的选择。
各位,如果觉得自己并不是对数据很有兴趣,只是觉得多一个就业方向,那我建议大家学英语会更实际一点。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答