{eval=Array;=+count(Array);}

问答专栏Q & A COLUMN

零基础如何入门数据分析?

fantixfantix 回答0 收藏1
收藏问题

10条回答

I_Am

I_Am

回答于2022-06-28 14:34

零基础入门数据分析,建议先从Excel开始,因为Excel是数据分析最常用的工具,功能强大,入门容易。

从Excel开始

Excel需要学习的有3点,Excel公式、数据透视表和Excel图表。

1、Excel公式

2、数据透视表

3、Excel图表

学习一些SQL基础

接着建议学习MySQL,因为数据分析跟数据打交道,懂点sql知识还是很有必要的。

懂点统计学理论很有必要

统计学是必须的,不懂统计学根本算不上数据分析师,具体内容有:统计学基础、参数估计、假设检验、方差分析、线性回归、时间序列、聚类分析、主成分分析及因子分析等。

SPSS

分析工具除了Excel,推荐SPSS,使用广泛,容易上手。

因为统计学很有些分析方法通过Excel就可以搞定;有些不行,必须通过其他工具才能搞定,例如多元线性回归、聚类分析、主成分分析及因子分析,都需要用到SPSS。

在掌握了统计学的基础上,在学习SPSS是很容易的,因为SPSS只是一个工具而已。

编程学习(可选)

另外,有精力的话,懂点编程也是必须的,因为用Excel做数据分析,少量数据(大约几十万甚至百万)没有问题,但是再大一点的数据通过程序来程序会更高效。

1、Python/R

Python和R都可以,R在数据分析方面更加强大,也更成熟,但是想往机器学习方向发展的话,Python还是主流语言,推荐学习Python。

2、Excel VBA

虽然Excel为我们提供了很多好用的公式和功能,但是还有很多工作无法用现有的公式和功能批量完成,比如Excel表格的批量拆分、数据批量分类等,而借助于VBA代码,可以很方便地处理这些问题。

回答完毕!

评论0 赞同0
  •  加载中...
v1

v1

回答于2022-06-28 14:34

大数据公司里一般建立数据库和分析数据的是两拨人。


如果你想学习如何建立数据库,就学SQL。结构化查询语言(Structured Query Language),简称SQL,是一种数据库查询和程序设计语言,用于存取数据及查询,更新和管理数据的系统。可以用来查询检索数据,添加修改和删除数据等等。


如果你想学习拿到数据后如何进行分析,就学Python,统计和一些机器学习算法。机器学习理论主要是设计和分析一些让计算机可以自动学习的算法,从数据中自动分析获得规律,并利用规律对未知数据进行预测。因为这些算法中涉及了大量的统计学理论,所以有一些统计学的知识是很有帮助的,但是也不需要统计什么都懂。但是由于我们处理的数据很庞大,无法手算,必须借助计算机来帮我们进行大量的计算,所以需要学习Python编程语言来帮助我们,每个机器学习的算法都有相应的Python指令来帮你计算的。


机器学习的算法有比如:

非监督式学习中的K-Means算法,DBSCAN,t-SNE等等,主要不是用来预测,而是对整个数据有一定的深入了解。

监督式学习中常见的有:

  1. 回归算法:试图采用对误差的衡量来探索变量之间的关系的一类算法,常见的种类有最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)。

  2. 决策树学习:根据数据的属性采用树状结构建立决策模型,通常用来解决分类的问题。常见种类有:分类及回归树(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林(Random Forest), 多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine, GBM)

  3. 神经网络:模拟生物神经网络,通常用于解决分类和回归问题。神经网络是机器学习的一个庞大的分支,有几百种不同的算法。(其中深度学习就是其中的一类算法,我们会多带带讨论),重要的神经网络算法包括:感知器神经网络(Perceptron Neural Network), 反向传递(Back Propagation), Hopfield网络,自组织映射(Self-Organizing Map, SOM)等等。

评论0 赞同0
  •  加载中...
JouyPub

JouyPub

回答于2022-06-28 14:34

想要零基础如何入门数据分析,先要从整体认识数据分析,再从简单处着手。

大数据时代,数据分析变得越来越普遍。即便有着不同的职业经历,来自不同的国家或地区,数字都能发挥威力。数据分析不是简单地把业绩做成图表提交上去,而要用合乎逻辑的方式证明“为什么会这样”,才能说服对方。


柏木吉基写了《如何用数据分析解决实际问题》,作者柏木吉基在汽车公司的总部工作了11年,主要工作就是跟数据打交道,因此有着不寻常的见解。

柏木吉基在书中指出,将数据应用于实际业务分四种情况:

1.解读数据。这是驾驭数据的基础,关键要掌握观察数据的“视点”,从静态和动态两方面去看一个数据。

2.基本的数据分析方法。互联网时代,要有基本的电子办公技能。

3.综合技能。将思维方式有机地结合起来,不再孤立地看数据,而使数据具有整体一贯性。

4.高级分析技能和IT系统。更专业,难度也更大。


这本书里同样介绍了基本的统计学知识,如平均值、中位数、标准差、回归分析等,结合了作者柏木吉基工作的实例,简单易懂,也更有实用价值。需要注意的是,数据分析方法从来都不是孤立使用的,组合运用威力更巨大,从而实现1+1的爆炸式效果。正如《如何用数据分析解决实际问题》中说,“复杂的管理问题不一定需要高难度的统计方法。简单易懂的表达方式反而更为重要。”数据分析不是比拼难度,而是以终为始,服务于解决问题的目的。

评论0 赞同0
  •  加载中...
pingan8787

pingan8787

回答于2022-06-28 14:34

要多看多练习还有就是要有兴趣,越看越想学越有动力才能学好

评论0 赞同0
  •  加载中...
lakeside

lakeside

回答于2022-06-28 14:34

数据分析思维概述:

数据分析的过程与做大盘鸡有异曲同工之妙。如果一一对应,可以这么来看:

1.客人到底想吃什么?(分析目标)

2.要做一盘大盘鸡(业务背景)

3.知道大盘鸡的做法,需要哪些材料(分析思路)

4.有一块鸡肉(原始数据)

5.有配料(辅助数据)

6.有灶台、锅碗瓢盆(分析工具)

7.蒸煮炸等烹饪手法(数据处理)

以上可以形象帮你理解数据分析。当然其中最重要的是分析思路,当然我感觉数据分析还是应该从 获取数据以及可视化开始。希望对你有帮助

评论0 赞同0
  •  加载中...
张红新

张红新

回答于2022-06-28 14:34

《深入浅出统计学》

《从零进阶!数据分析的统计基础》

《谁说菜鸟不会数据分析》

《精益数据分析》

《数据挖掘与数据化运营实战,思路、方法、技巧与应用》......

评论0 赞同0
  •  加载中...
lifesimple

lifesimple

回答于2022-06-28 14:34

大数据时代,数据为王。用数据做分析,给公司决策提供指导性意见,是众多公司在这个精细化运营,降本增效的时代必须要做的事情。各大企业都建立了数据分析部门。截止目前,我国共计1400万数据分析人才缺口,市场规模预计将在2025年达到2000亿!数据分析与其说是一个岗位,更是一个重要技能,拥有这项技能意味着你的就业前景更好,职业发展更广。

那么数据分析零基础应该怎么学呢?下面我将从数据分析的学习周期、学习内容以及职业发展规划三个方面,带大家充分了解数据分析这一行业。

1、 数据分析要学多久?

每个人的学习能力和基础都不同,所以数据分析的学习周期也不同。如果是通过自学的方式,由于无专业老师指导及无法系统的学习,这个周期可能会很长。一般来讲,如果零基础的学习者进行系统的培训,最快也要将近三、四个月的时间。数据分析的学习应该首先从熟悉表以及表结构开始,它的原点一定是在首先了解熟悉Excel的基础上,在能够从数据库里提数的基础上再进行技能的升级。你的技能从能够从数据库里提数,并且用Excel和BI处理几万行的小数据量,到使用python批量化处理几十万甚至百万行中量级数据量,到最终使用大数据的相关组件,例如hadoop,spark,flume等组件处理千万级甚至是亿级大数据量。每一个阶段所需要的工具加方法论都是不一样的。一般而言,对于自学而成为能处理中量级数据量的分析师而言,得至少入门python的pandas,numpy等数据处理库。这个零自学的周期,也一般跟悟性和自律有关,悟性和自律性高的同学,可能在4个月能够掌握;如果悟性和自律性不高的同学,这个周期有可能就是半途而废,无法估量时间了。这里给大家推荐一下聚数学院的《数据分析实战就业班》(聚数学院),专注于培养数据分析师的数据处理能力、数据分析能力和数据挖掘能力,课程内容从数据库管理、统计理论方法、数据分析主流软件的应用到数据挖掘算法等,对一整套数据分析流程技术进行系统讲解并配以实战练习,学完之后,学习者可以直接达到数据分析师的水平。

2、 数据分析要学什么?

(1) Excel

说起Excel可能会有人觉得这个很简单,但是Excel确实是一个功能强大的利器。零基础学数据分析师一定要从Excel入门,因为Excel是处理小型数据量企业用的最多的工具,在基础数据分析师与数据运营岗位中具有极其重要的地位。作为数据分析师的核心工具,具体学习内容有Excel函数技巧(查找函数、统计函数、逻辑函数)、Excel快速处理技巧(格式调整、查找定位、快捷键技巧等)和Excel可视化技巧(组合图、条形图、数据气泡地图)等。

(2) Mysql

SQL同样是零基础学习数据分析的核心内容。因为作为数据分析师,你首先要解决的问题就是你要有数据来做分析。通常企业都会有自己的数据库,数据分析师首先得根据业务需要知道自己要从企业数据库中提取哪些数据。企业如果部署本地数据库,那么一定是SQL语言做提取数据的语言。SQL简单易懂,非常容易上手,并且是非学不可的。SQL语言从学习MySQL数据库开始,涉及对表结构数据的增删改查。真正在企业里面,数据分析师一般不会有增删改的权限,只会有查的权限。学员应该重点掌握查的各种句式。

(3) Python

Python的基础对于数据分析师而言是非常重要的。对于十万级或者百万级数据量而言,Excel和BI都会因为运行卡顿而变得完全无法使用。然而在实际企业运用中,一次性处理十万级以及百万级数据又是非常常见的。而Python则是处理这种中量级数据的利器。因为Python有很多的第三方强大的库,比如Numpy、Pandas、Matplotlib、Seaborn等。这些库能让数据分析师对百万数据进行数据清理和画图分析。Python不仅能数据清洗,画图,还能用sklearn进行大数据算法分析。虽然Python是数据分析的重要工具,但是不同的职业发展方向,Python掌握的程度也是不一样的。

(4) BI商业智能工具

BI可以理解成Excel图表透视表的高级版。BI是将表与表相连,然后得出很多指标图。它是一个大屏的看板,如下图:

企业销售指标,运营指标,物流指标等等。这些图可以表示企业在过去5个月的平均销售单价,过去24个月销售的物流发货量的变化曲线,甚至是现在实时的销售额,这些都是企业关心的问题。有了这个看板,领导层在监控企业业务方面就有了非常直观的数据,以供他们及时做出决策调整。现在市面上比较流行的BI软件,有FineBI,PowerBI等。而这些BI软件实际上都是非常类似的,学起来难度也不大。学习FineReport、FineBI由入门到精通,快速挖掘数据价值,将这些数据转化成有用的信息,让企业决策有数据依据,从而驱动企业决策和运营。

(5) 数理统计与数据运营

数理统计和数据运营方法论是数据分析师的理论基石。数理统计包括概率论,统计学,线性代数,以及基础的微积分理论。这些内容都不需要理解的很深,但是对它们的原理以及内涵都需要有所掌握。由于整个数据分析的源头其实就是脱胎于描述性统计分析的。描述性统计分析是对样本的总数、均值等指标做统计的;而数据分析后续涉及到的算法则是架构在统计学上更深一层次的建模。因此,掌握数理统计的相关知识对于入门数据分析师而言是基础且必要的。

那数据运营方法论是什么呢?数据运营方法论实际上是学习各个行业所运营的分析模型。例如,对电商而言,漏斗分析可以分析出来进入主页的人数PV1,到进入服装板块的人数PV2,PV2/PV1就可以得出一个进入服装板块的比率。还有很多通用的分析模型:相关分析,A/B test等。对于想往管理路线发展的数据分析师来讲,数据运营是必须要学习的知识。其实数据运营知识也不复杂,就是根据自身业务需求将指标拆解到最细,然后运用同比和环比两种数据分析方式。

(6) 机器学习

最后一个进阶要求数据分析师掌握对大量数据分析的能力。这种分析就不只是停留在描述统计分析和运用数据运营方法进行分析了,而是进行预测分析。预测分析的本质是利用已有的数据做出一套变量x,与预测最终值y之间的关系(也就是数学算法公式),然后利用这套算法,将更多的x输入算法中去得出一个预测的y值,这里听不懂没关系。总之,这个阶段的数据分析是利用大量的历史数据构建出一套数学公式(也就是算法),用这个数学公式去对未来进行预测。比如说:一个人大量地刷体育短视频,根据算法可以得出这个人可能对观看足球比赛的ucloud体育会员感兴趣。这类推断和预测对于商业世界是有着极大变现意义的。要想成为掌握算法的数据分析师,机器学习是不可跳过的入门。学员应该从简单的一元回归,多元回归,以及逻辑回归学习等,逐渐学习更多像决策树,随机森林,SVM等更高级的算法。

3、 数据分析的职业发展规划?

一般来讲,数据分析有两条发挥路线,一条是管理路线,一条是技术路线。往管理端发展,比如初级数据分析师,到数据运营,到数据分析经理、数据运营总监等等。这条发展路径主要要求统计学、Excel、PPT等技能,需要撰写市场分析报告。这条路看似技术掌握不用太深,但是对业务的理解要极深。而精深的业务理解需要时间和深度的业务钻研精神。如果你是非数学、计算机和统计学专业的朋友,比较适合这条非技术的职业发展之路。

而向技术方向发展,则目标会非常明确。一是深入往数据挖掘方向发展,学习深度神经网络,NLP等前沿算法。二是深入数据分析开发,把大数据组件hadoop,spark等等大数据组件学好学精。这是一条技术类的发展方向,要求更高的统计学能力、数理能力以及编程技巧。

实际上,无论是非技术的业务方向和技术专家方向都要的是两个字:钻研。当然听到这里,我们也需要重重地阐述一下:入门初级数据分析是不难的。而后半段,要成为一个优秀的数据分析师是难的,是需要刻苦钻研精神的。

如果看到这里,你觉得自己心理上已经就入门数据分析师方向做好了准备,但是你是零基础实在不知道如何入行的话,欢迎私聊获取免费的数据分析师知识点大纲,并且免费做数据分析师的入门咨询。


评论0 赞同0
  •  加载中...
546669204

546669204

回答于2022-06-28 14:35


我是一枚做过产品运营,策划,数据分析,数据挖掘,大数据,在IT行业浸淫多年的最老的80后。

之前在刚毕业加入互联网这行的时候,也很焦虑也很着急,那会儿特别想做互联网产品序列的工作,但是脑袋里一片浆糊,不知道从何入手。

我先说说我的经历,然后再顺着我的经历讲数据分析这块的学习和提升的方法论,避免大家少走弯路,能用正确的方法快速成长。

我刚毕业那会儿是03年,面了很多网络游戏公司,因为从小特别热爱游戏,也面了很多IT公司,因为那会儿互联网刚起步没多久是一个风口,自己也挺喜欢,最终还是选择了游戏行业,因为还是遵循内心最真实的想法,选择自己热爱的领域作为未来的事业,这个选择一直到现在我都觉得很正确。

03年那会开始以管理培训生的身份到北京的一家知名游戏公司实习,机缘巧合,被选拔到了上海分公司做产品运营,负责一个moba+rpg项目的商业化和产品调优模块,刚去那会儿哪儿会这些专业的东西啊,去的时候甚至连封闭测试的目的都不知道,后来也是一个个问在工作中打磨出了方法论。说实话当时负责的是商业化和产品调优模块,如果你没有数据,你怎么去给研发提调优建议,怎么去设计商业化活动,如果商业化活动有问题你连调整的依据都没有,所以从那儿开始就开始接触数据分析的工作。

最开始的时候,我们内部对于用户流失的指标定义有很大的歧义,但是如果这个指标不确定下来,我们接下来的分析的结论会出现很大的偏差,最终会影响我们的调优决策,从而影响最终的业务,当时因为年轻也没有考虑太多就按照公司统一标准来,但现在转过头发现,真的很坑,当年的很多结论都是不对的,严重影响了大家的决策和判断。这里提到第一个点,叫做:业务数据指标的定义。这个东西至关重要!!!

当我们有了业务指标的定义的时候,需要去确定很多东西,比如说观测数据的维度,统计的周期等,比如拿一个最简单的流失分析来说,可能我的分析思路是抽丝剥茧,从大到小,逐项缩小范围的分析方式,那么具体分析的时候怎么分析呢?很多人都知道是看流失时的等级,如果等级看不出具体问题,还得到任务,如果任务还看不出来要到具体的客户端点击,当然这些都只是常规的操作,甚至如果有足够的经验和积累,不用做分析都大概知道哪里有问题,我们需要的分析不仅仅只局限于此,而是要更加的深入,深入的玩家背后的动机。这里提到第二个点,叫做:数据观测的维度,和统计的周期。这个东西同样直观重要!!!

在上海做了一年的产品运营之后,后续我调回北京总部,担任数据分析师,我是从普通数据分析师一步步走上管理岗位的,现在是公司业务数据部门的负责人,当然在15-19年这四年的过程中,对于产品设计,产品运营,数据分析,机器学习等相关领域均有比较深度的涉猎,所以在数据驱动业务这个事务上还算处理得比较得心应手,也推动了公司往“数据驱动”和“精细化运营”的方向发展,公司在这块的投入也逐步加大。

在这里,对于新人而言,我不会只推荐一些没啥卵用的书籍给你,比如《深入浅出数据分析》,这种书一点用都没有,我会给你推荐有用的书籍和实用的学习方法,看不好的书,看无用的书,往往感动了自己,却感动不了他人(你的上司和合作伙伴),你的能力并没有得到提升。

对于数据分析的小白而言,对于我现在培养的应届生而言,我有如下几个要求:

第一,技术需要过硬:

1)sql语句,你必须要给我学精通了,增删改查,以及存储过程你都需要样样精通,这块的话,给大家推荐一个学习地址,如果大家感兴趣或者有问题可以私信我要我之前整理学习文档资料

2)python,python的学习是为了让你后续处理繁杂庞大的数据集时更高效更方便更快速,以及后续有很多机器学习也好,或者深度学习也好的应用项目你能上手。


第二,掌握或精通一部分常用的数学原理:

1)基本数学原理,统计相关的原理,比如平均值,方差,标准差,导数,反函数,拉格朗日等等,这里大家可以去csdn也好或者淘宝也好买一本相关的书籍就够用。

2)机器学习算法原理:回归算法,分类算法,聚类算法等等,比如最简单的分类算法:决策树,他的数学原理你真的掌握吗?信息熵和条件熵是啥意思,怎么计算的知道么?如果你只能调包,那么解决简单的问题ok,涉及到很多复杂的情形,比如样本不均衡,比如特征过少时,你就无从下手。这块的话,推荐大家多去逛逛csdn这个论坛,很有用,能学到不少东西。

3)动手做一些虚拟案例,或者参与组里同事的一些项目,比如一个游戏内广告聊天拉人识别的项目,其本质是通过分类算法达成文本识别,这块涉及到的知识点可能有:文本处理,分类算法应用等,这块可以多去github上转转,有一些也许是已经运营过的案例能够给你启发的。

第三,不断加强自己对产品的感知力:

1)如果是游戏行业的:

  • 多玩不同品类的产品,每个品类选择1-2款精品深度体验,注意是深度体验,而非浅尝辄止
  • 随着版本迭代深入体验,并且需要思考每一次的版本迭代和周更新的原因,反推业务需要解决什么问题
  • 带着问题去玩游戏,边玩边记录自己的感受,有经济能力就充点小钱,后续商业化分析部分会用得着
  • 做个有心人,记得多游戏横向之间做对比
  • 不要看gamelook等媒体上的测评稿,那些大多数是枪稿,要自己去体验,用心去体验,不要人云亦云
  • 多跟制作人层面的人交流宏观的设计理念(如果有机会的话),多跟数值策划学习数值规划的流程(职业,属性,战斗公式,属性配比放出,商品定价,游戏内经济流转设计等),多跟系统策划学习系统架构的知识(做一个系统目的是啥,是为了解决什么问题?),多跟产品运营学习运营知识(比如商业化设计,活动设计等等),多跟市场发行的同学学习相关知识(营销方法论,买量等),还有很多,不一而足...
  • 这里推荐几个有用的资讯门户或者app:ucloudGAD,游资网,机核网
  • 另外推荐一本书:《游戏设计的艺术》,这本书能带你进入一个前所未有的世界,并且从入门到精通都可以随手翻的工具书,注意是“设计的艺术”,而非“分析的艺术”

2)传统互联网(非游戏):

  • 多体验互联网产品,要多而广,因为互联网产品跟游戏产品还不一样,他的体验成本(时间和精力)比具体游戏产品小很多,所以尽可能多而广,我现在仍然保持着每周至少体验5个新互联网产品的习惯,比如社交类的,可以多体验体验陌生人社交的,熟人社交的,多思考产品之间有什么共性和不同点
  • 带着问题去体验产品,主要反推产品做成这样有什么好,有什么不好,产品主要为了解决什么问题,他的业务目标有可能是什么样
  • 经常跟圈内人去探讨和交流,跟游戏不一样的是,互联网有很多的沙龙,可以多参加这种沙龙,但是不要杂而广,要专而精,现在有很多的沙龙就是为了做而做,为了感动自己而做,这种没有必要参加
  • 时刻关注竞品,比如你是社交产品公司的,那么微信也好,陌陌也好,每一次版本迭代,你都需要去思考他为了解决什么问题,然后结合具体的内容去评估他的目的是否达到。
  • 这里推荐1个能获取到较新互联网资讯的app:36kr,用这个基本上就足够了
第四,多做数据积累,多思考,多提问:

我们在做具体的数据分析的时候,有时候需要快速响应业务,有时候通过传统分析方法很难找到问题点,这个时候积累就至关重要,游戏行业的产品决策,40%依靠数据,30%依靠用户反馈,还有30%依靠经验,这个经验就是积累。

积累是什么?积累是过往的产品调整,活动设计,跟数据之间的关系,我们只有在每一项工作都认真严谨对待的基础上,这个积累工作才能做好,这样你的产品和数据敏锐度会越来越高,后续你可以跨界成为产品专家。

第五,给自己的定位不光是数据分析师,而是半个产品或运营负责人

我们有很多的数据分析师,一直都处于很被动的状态,业务提什么需求你照做,久而久之就变成一个机械式地接需求完成需求的人员,毫无存在感。怎么改变这个现状呢?第一是要多做积累就如同上述第四点所说,这块急不得需要时间,第二是需要主动,把自己当作半个产品或运营负责人来对待,这样面对日常数据的时候,你会主动去完善日常监控指标,你会每日去盯着数据的异常和变化,你会根据这些异常和变化往下去进行深度的挖掘,或者数据没有异常时,按照经验这个阶段该做什么分析了,赶紧做,发现了问题或者潜在风险赶紧跟业务聊解决方案,这样才能将数据分析师的价值发挥到最大

以上五点,我认为是针对小白学习数据分析必备的方法和心理建设,职业道路漫漫,希望各位一切顺利,这是我第一次发这么长的回复,还希望各位支持,后续我会陆陆续续开通个人专栏和订阅号,争取多跟大家分享数据分析,数据挖掘,机器学习应用的一些案例,大家一起提升。

如有问题,随时私信我。谢谢大家。

评论0 赞同0
  •  加载中...
whatsns

whatsns

回答于2022-06-28 14:35

在这之前,我想推荐吴军老师的几本书,《数学之美》、《浪潮之巅》和《大学之路》

做分析之前,不得不提一下分析思维,《金字塔原理》可能会比较适合

想要了解数据分析是什么,不得不读《深入浅出数据分析》、《谁说菜鸟不会数据分析》、《人人都会数据分析》、《如何用数据解决实际问题》、《Excel图表之道》

不满足于简单的汇总统计、报表制作,进阶之后的案例丛书,全方位了解传统行业、互联网行业中的分析案例、方法和模式,《网站分析实战》、《增长黑客》、《数据化管理》、《数据化运营速成手册》、《精益数据分析》……

会了一点分析,但是觉得理论不够扎实,那有必要读点统计学,《赤裸裸的统计学》、《统计数字会撒谎》

随着工作内容的深入,越来越觉得工具不够用,原来我只用excel,想要拓展点其他的工具,按照复杂程度,如下

sql类的书,《Mysql必知必会》、《SQL Cookbook》

spss的书,《spss统计分析基础教程》

R的书,《R语言实战》、《R cookbook》

python的书,《利用python进行数据分析》、《python cookbook》

数据算法层面,西瓜书《machine learning 机器学习》、《machine learing in action》、《the elements of statistical learning》、《数据挖掘与数据化运营实战》、《数据挖掘-市场营销、销售与客户关系管理领域应用》

资深的数据分析,在方法论、工具上的使用已经炉火纯青,对于模式和框架也已经了然于胸,这时候往往不局限于一个行业或者一个方向,而是拓面立体,《决战大数据》、《Doing Data Science》、《数据之巅》、《大数据时代》、《智能时代》、《卓有成效的管理者》……

好的分析离不开好的可视化呈现,《The Wall Street Journal Guide to Information Graphics》、《鲜活的数据:数据可视化指南》、《ggplot2:数据分析与图形艺术》、

数据集越来越大,sql已经不能满足日常工作,要学习hadoop、hive、sprak,我的第一推荐仍然是官网,当然,这里有个前提,就是你的英文阅读能力得特别好,否则得话,还是推荐《Spark大数据分析》、《Data Analytics with Hadoop》

要做实时分析,可以关注下flink、kafka的生态圈

评论0 赞同0
  •  加载中...
jsyzchen

jsyzchen

回答于2022-06-28 14:35

大家的回答都很好,但是有个问题。


一上来便是各种教程,二话不说给出一批书单,各种数据处理的方式,讲怎么样用Python挖掘数据,怎么用R进行数据可视化,讲AB测试。

他们给的教程都很好,数据处理的方式也很有借鉴意义。

且不说,有多少人是光收藏,而不去认真学习的,就算是认真去学习的,他们也会遇到这样的问题

为什么这么用,为什么这么做。

比如,前两天在我的这个回答中,零基础如何学爬虫技术? - 知乎

有很多人都有这样的评论

一开始我是无语,后来想了想,这应该是一个普遍问题


这就是数据分析中最大问题,很多人学习数据分析,更多的是为了数据分析而数据分析,实际上根本不知道自己在做什么,为什么这么做。

或者仅仅是为了在简历上增加一行

鄙人精通数据分析。

估计HR看了是要微笑着,然后把简历放入不予录用的文件夹中。


数据分析,不论使用什么样的工具,使用什么样的方法,不论是Excel,还是Python,还是MySQL,都是工具,目的只有一个——

解决一个问题,或者给一个决策提供依据。

所以,学习数据分析的第一步,是要考虑,我要用数据,解决一个什么样的问题?

这点如果没有考虑清楚,只是跟着网上的教程学习爬虫,学习数据清洗,然后把那些公有的统计数据做成绚烂的图表,又有什么用呢?


1.哪里开店

比如,有这样一个现实的例子,你表嫂跟你说,小明啊,你最喜欢吃我煮的麻辣烫了,我想开麻辣烫店,就在大学城附近,你说哪里好呢?

你是不是会想到以下几个问题呢?

表嫂的麻辣烫真好吃,想想就流下了口水

咳咳,正事要紧,到底应该在哪里开店呢?

所以,你有考虑到了这些可以量化的数据并且对应的你找到了这些数据的获取方式

问题来了,虽然写出来了大致的数据获取方式,但是具体怎么操作?

  • 招生计划怎么获得,学校官网还是相关报道?
  • 如何通过在线地图分析学校面积及相关建筑分布的合理性,最小路径还是顺路路径?
  • 如何获学校食堂评价,爬取微博数据,获得地理位置,并且对提及“食堂”的微博进行词义褒贬分析?或者直接拦路问询?
  • 人流量怎么获得,实地考察的时候,用本子画正字吗?


很好,这些问题你都想到了相应的解决方式,并且很顺利的获得这些数据,尽管有可能不太准确,但是你确确实实比以前更加了解了大学城附近大致的餐饮市场环境,不是么?

这也就是,

数据分析必须紧贴业务本身

获得数据之后,如何分析,人流量/商贩个数?但是每个商贩的服务能力又不一样,是不是得加权,如何加权?

于是你考虑了很多情况,写下来一个公式:

建议推荐开店系数=(人流量*XX/(YY*0.4)+租金*0.5)/ZZ

根据系数,你得出一个结论,建议开店的位置的前三家分别是

  • A大东门
  • A大小西门
  • B大女生宿舍小南门

你表嫂想了下,说,我知道你最喜欢B大的小姑娘们,胸大貌美腿子长。

于是麻辣烫店就开在了B大女生宿舍的小南门。


这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

  • Excel加减乘除,基础函数;
  • 爬虫的基本原理,及操作方式;
  • 正则表达式与数据清洗;
  • 语义分析的一般实现方式;
  • 在线地图API可以获取的数据有哪些;


2.优化数据的应用


一阵时间的忙碌,店终于开起来了,你表嫂的手艺真的很不错,每天都有很多小姑娘过来吃麻辣烫,中午晚上的时候,都忙不过来。

你表嫂感觉很可惜,很多客户就这样被浪费掉了:我多卖一份,少卖一份都无所谓,但是小姑娘本来想吃咱们家的麻辣烫,结果爬不上队饿着肚子走掉了,到别家说不定还要等,看见我都觉得挺过意不去的。

这时候聪明的你,有可能想到了通过获取以下数据,并且进行相关的分析来优化当前这个问题

你连续跟踪了三天这样的数据,运用了相关的统计学的相关知识

等待时间>=13分钟的时候,用户放弃继续等待的概率是78%!,然后你表嫂并不能理解,这78%到底是什么意思

所以你画了一张图,说山峰越高,走的人就越多。


问题找到了,只要将最长等待时间优化到13分钟之内,用户放弃等待的几率有可能下降。

这时候聪明的你,想到了如下的解决方式:

  • 用户抵店之后,才开始点餐,然后烹饪,是不是可以通过互联网的方式进行预点餐呢,所以你给表嫂申请了一个微信号,日经贴就是:“今天你想吃什么”,回复留言及预计到店时间,即可预订。
  • 你发现,用户选完菜之后总是喜欢把菜夹放到最远的地方,每次表嫂都需要把菜夹整理一次,拿到开始的地方。你考虑了一下,将菜筐的布局进行更改,刚好菜夹能够完成一次循环;或者你使用专菜专夹的方式。
  • 优化了店内桌椅布局,行走了最短的距离到达全店
  • ……

数据分析必须落地才是有效的,不是提交统计结果,而且获得统计结论


这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

  • 数据清洗的一般方式,时间函数计算
  • 统计学中分布的相关知识,这里应该是泊松分布
  • 数据可视化,包括不限于Excel 图表,js图表库,或者在线图表工具


3.大数据的处理

生意越做越大,扩充了店面之后,又开了分店,这时候你表嫂已经不亲自上一线熬煮麻辣烫了,但是又不放心那些雇来的人是否认真的在服务,于是制定了相应的店规,动不动还来一个突击检查。感觉比以前还要累了。

这时候,聪明的你,看在眼里,疼在心里,所以,你建议嫂嫂购买专业的餐饮管理软件,来获得相应的店铺运营数据。

在餐饮软件的后台,会有这么些个大致的运营数据,

当前订单量,成交量,客流量,客单价,等等等等,一切看起来那么完美。


等等,不对,为什么这个月以来,C分店的客单价总是这么低呢?事出有异,必定有妖!

还好,这个系统功能还算完善,能够导出一天所有的订单明细,包含以下字段,

下单时间,下单菜品,下单客户,联系电话,消费金额,配餐人,操作人,收银员,等等等


但是,你还是快掀桌子了,一个月,让我导出30次数据,然后在合并么?这个方法简直太土鳖了

你想着,要是能直接读取数据库不就好了么?一看产品介绍,数据库使用MySQL,于是你Google了一下,SQL入门,你发现,WHERE 和SELECT 基本上都满足你的需求了

很顺利的,你把这些数据导出了。

你把这个20W条记录的CSV用Excel打开,风扇疯狂的转了起来,不一会,你表嫂孱弱的笔记本就卡死了。

你感叹,Excel分析小一点的数据还行,数据量稍微大点,就显得力不从心。所以,你拿起了一本书,名字叫《21天学习Python,从入门到放弃》,这不坑爹呢吗?


你想着,反正我是为了处理这批很大的数据,没必要全部了解Python的功能,只需要找到相关的操作方法就好了。


你在Google上分别搜索了以下关键字

  • Python mysql
  • Python 数据分析库


你还找到了一本,用Python进行数据分析的pdf,感觉这本书写的通俗易懂,而且还有元数据示例。

在搜索的过程中,你发现了有好多数据分析是代码示例,有的甚至,只需要改一下文件路径,搬过来就能用。

你会感叹,原来,写程序也是Ctrl+C,Ctrl+V啊


这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

  • SQL基础语句
  • Python常见的数据分析库
  • Python数据可视化

聪明的你,捣鼓了三两天,就发现了问题的所在?


那么问题究竟在哪呢

我实在是写不动了,明天再更

评论0 赞同0
  •  加载中...

相关问题

最新活动

您已邀请0人回答 查看邀请

我的邀请列表

  • 擅长该话题
  • 回答过该话题
  • 我关注的人
向帮助了您的网友说句感谢的话吧!
付费偷看金额在0.1-10元之间
<