{eval=Array;=+count(Array);}
优秀的数据分析师并不能速成,但是零经验也有零经验的捷径。
市面上有《七周七数据库》,《七周七编程语言》。今天我们就《七周七学习成为数据分析师》,没错,七周。
第一周:Excel学习掌握
如果Excel玩的顺溜,可以略过这一周。但很多人并不会vlookup,所以有必要讲下。
了解sum,count,sumif,countif,find,if,left/right,时间转换等。excel的各类函数很多,完全不需要学全。重要的是学会搜索。我学函数是即用即查,将遇到的问题在网上搜索得到所需函数。
重中之重是学会vlookup和数据透视表。这两个对后续的数据转换有帮助。
学会vlookup,SQL中的join,Python中的merge能很快掌握。
学会数据透视表,SQL中的group,Python中的groupby也是同理。
这两个搞定,基本10万条以内的数据统计没啥难度,也就速度慢了点。80%的办公室白领都能秒杀。
网上多找些习题做,Excel是熟能生巧。
养成一个好习惯,不要合并单元格,不要过于花哨。表格按照原始数据、加工数据,图表的类型管理。
附加学习:
1、了解中文编码utf-8,ascii的含义和区别
2、了解单元格格式,帮助你了解后期的timestamp,date,string,int,bigint,char,factor等各类格式。
3、如果时间还有剩余,可以看《大数据时代》,培养职业兴趣。
第二周:数据可视化
数据分析界有一句经典名言,字不如表,表不如图。别说平常人,数据分析师自己看数据也头大。这时就得靠数据可视化的神奇魔力了。
以上就是所谓的可视化。排除掉数据挖掘这类高级分析,不少数据分析师的平常工作之一就是监控数据观察数据。
另外数据分析师是需要兜售自己的观点和结论的。兜售的最好方式就是做出观点清晰数据详实的PPT给老板看。如果没人认同分析结果,那么分析也不会被改进和优化,分析师的价值在哪里?工资也就涨不了对吧。
抽空花一段时间学习可视化的基础,如《数据之美》
另外你还需要了解BI的概念。知名的BI产品有Tableau,Power BI,还有国产的FineBI等。都有体验版和免费版能下载,网上找一点数据就能体验可视化的魅力。比Excel的图表高级多了。
BI需要了解仪表盘Dashboard的概念,知道维度的联动和钻取,知道绝大多数图表适用的场景和怎么绘制。比如以下FineBI制作的dashboard。
第三周:分析思维的训练
这周我们轻松一下,学学理论知识。
分析思维首推大名鼎鼎的《金字塔原理》,帮助数据分析师结构化思维。如果金字塔原理让你醍醐灌顶,那么就可以学思维导图,下载一个XMind中文网站,或者在线用百度脑图。
再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。这些框架都是大巧不工的经典。你要快速成为数据分析师,思考方式也得跟着改变。网上搜咨询公司的面试题,搜Case Book。
题目用新学的思维导图做,先套那些经典框架,做一遍,然后去看答案对比。因为要锻炼数据分析能力。所以得结合数据导向的思维。
这里送三条金句:
一个业务没有指标,则不能增长和分析
好的指标应该是比率或比例
好的分析应该对比或关联。
举一个例子:我告诉你一家超市今天有1000人的客流量,你会怎么分析?
这1000人的数量,和附件其他超市比是多是少?(对比)
这1000人的数量比昨天多还是少?(对比)
1000人有多少产生了实际购买?(转化比例)
路过超市,超市外的人流是多少?(转化比例)
这是一个快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何结果。
第四周:数据库学习
Excel对十万条以内的数据处理起来一点不虚,但是资深的数据分析师还是笑摸狗头,Too Young Too Sample,爷搞得都是百万数据。要百万数据,就得上数据库。
SQL是数据分析师的核心技能之一。有些公司并不给数据库权限,需要分析师写邮件提需求,这非常不好。数据分析师经常有各类假设需要验证,很多时候写十几行SQL就能得到的答案,还得麻烦其他部门导出数据。
SQL学习不需要买书,W3C学习就行了,SQL 教程。大多数互联网公司都是MySQL,我也建议学,性价比最高。
作为数据分析师,只要懂Select相关,增删改、约束、索引、数据库范式全部略过。你的公司心得多大才会给你写权限。
了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等即可。
你看,和Excel的函数都差不多。如果时间充裕,则学习row_number,substr,convert,contact等。和Excel一样,学会搜索解决问题。不同引擎的函数也会有差异,例如Presto和phpMyAdmin。
期间你不需要考虑优化和写法丑陋,查询几秒和几分钟对数据分析师没区别,跑数据时喝杯咖啡呗,以后你跑个SVM都能去吃饭了。
网上搜索SQL相关的练习题,刷一遍就行。也能自己下载数据库管理工具,找些数据练习。我用的是Sequel Pro。
第五周:统计知识学习
统计学是数据分析的基础之一。
统计知识会要求我们以另一个角度看待数据。当你知道AB两组的差异用平均值看是多傻的事情,你的分析技巧也会显著提高。
这一周努力掌握描述性统计,包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。详细的数学推导不用细看,谁让我们是速成呢,只要看到数据,知道不能怎么样,而是应该这样分析即可。
Excel中有一个分析工具库,简单强大。对列1的各名词做到了解。如果是多变量多样本,学会各种检验。
《统计数字会撒谎》休闲读物,有趣的案例可以让我们避免很多数据陷阱。
深入浅出统计学 (豆瓣)还是经典的HeadFirst系列,适应它一贯的啰嗦吧。
多说一句,老板和非分析师不会有兴趣知道背后的统计学原理,通常要的是分析后的是与否,二元答案。不要告诉他们P值什么的,告诉他们活动有效果,或者没效果。
第六周:业务学习(用户行为、产品、运营)
这一周需要了解业务。对于数据分析师来说,业务的了解比数据方法论更重要。当然很遗憾,业务学习没有捷径。
我举一个数据沙龙上的例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。
这个案例中,我们只知道送货员的送货水平距离,数据上根本不可能知道垂直距离这个指标。这就是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。
对于业务市场的了解是数据分析师工作经验上最大优势之一。既然是零经验面试,公司肯定也知道刚入门分析师不会有太多业务经验,不会以这个卡人。所以简单花一周了解行业的各指标。
《增长黑客》
数据驱动业务的典型,里面包含产品运营最经典的AAARR框架,部分非数据的营销案例,
《网站分析实战》
如果应聘的公司涉及Web产品,可以了解流量的概念。书中案例以Google Analytics为主。其实现在是APP+Web的复合框架,比如朋友圈的传播活动肯定需要用到网页的指标去分析。
《精益数据分析》
互联网数据分析的入门书籍,归纳总结了几个常用的分析框架。比较遗憾的是案例都是欧美。
还有一个小建议,现在有不少第三方的数据应用,囊括了不少产品领域的数据分析和统计。自学党们即使没有生产环境的数据,也可以看一下应用Demo,有好处的。
除了业务知识,业务层面沟通也需要掌握。另外建议在面试前几天收集该行业的业务强化一下。
第七周:Python/R学习
终于到第七周,也是最痛苦的一周。这时应该学习编程技巧。是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘,爬虫,可视化报表都需要用到编程能力。掌握一门优秀的编程语言,可以让数据分析师事半功倍,升职加薪,迎娶白富美。
这里有两条支线,学习R语言或Python。速成只要学习一条,以后再补上另外一门。
R的优点是统计学家编写的,缺点也是统计学家编写。如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。Python则是万能的胶水语言,适用性强,可以将各类分析的过程脚本化。Pandas,sklearn等各包也已经追平R。
如果学习R,建议看《R语言实战》,照着书本打一遍代码,一星期绰绰有余。另外还有一本《统计学》,偏知识理论,可以复习前面的统计学知识。
R学习和熟悉各种包。知道描述性统计的函数。掌握DataFrame。如果时间有余。可以再去学习ggplot2。
Python拥有很多分支,我们专注数据分析这块,入门可以学习《深入浅出Python》。
需要学会条件判断,字典,切片,循环,迭代,自定义函数等。知道数据领域最经典的包Pandas+Numpy。
在速成后的很长一段时间,我们都要做调包侠。
这两门语言最好安装IDE,R语言我建议用RStudio,Python我建议用 Anaconda。都是数据分析的利器。
Mac自带Python2.7,但现在Python 3已经比几年前成熟,而且没有编码问题。各类教程也足够多,不要抱成守旧了。Win的电脑,安装Python会有环境变量的问题,是个大坑(R的中文编码也是天坑)。
到这里,刚刚好是七周。如果还需要第八周+,则是把上面的巩固和融会贯通,毕竟速成是以转岗或拿offer为目的。有机会,我会专门写文章讲解每一周的具体知识,并且用爬虫爬一些数据做练习和案例。
文章源自知乎作者秦路
作为一个奋战在一线的数据分析岗,我觉得应该有些话语权。
首先,需要定位清楚,学习是一个量变的过程,但是,我想分享的是如何快速且高效的掌握到技能然后找到自己想要的工作。前面分享的各位大佬都把数据分析中用的工具给列了出来。
然而,我这里分享的就是数据分析岗需要解决什么任务,为了解决什么任务用什么样的数据分析工具去分析。在这个分析的过程中,把工具使用透。而不是先把工具学会,再去分析,本末或许会被倒置。
互联网电商常见命题:
订单量增长原因,差评增加原因,访问pvuv增长。
使用工具:最简单的excel,基本的sql查询语句、python的使用
通过以上两种工具可以有效解决各种同类问题,对于工具类的使用,往往都是由点到面,因为工具很优秀,而你需要的只是,能够在需要用到它的时候知道怎么用。
app运营常见命题:
app用户注册量、用户ugc增长量
使用工具:sql、excel、python
那么问题来了,其实现如今,只要能够利用这三个工具,就可以再数据分析入门的时候找到一份不错的job。以战代练,往往在技术性工作中能给自己带来很大的帮助。
如有兴趣,欢迎私聊。本人担任某大型电商数据分析,欢迎交流经验
不管是运营APP,还是运营微信公众号,头号号,大鱼号,还是百家号,新媒体数据不仅是数据工程师和分析师的事情,在工作中也要求运营从业者有一定的数据分析能力。
新媒体数据分析
公子义认为数据是优化新媒体运营关键所在,能更好推动运营策略和工作的开展。
但运营童鞋多是数据小白,没有编程和技术基础,该怎么分析并用好数据呢?
今天从运营常见的数据问题出发,希望让大家能快速地入门数据分析,让数据更好地为工作服务,别白白浪费数据的价值。
一、数据分析应该从哪里入手?
从哪些角度入手?这是运营小伙伴们最头痛的问题,不知道该关注、分析哪些数据,就算拿到数据后,也不知道到底从哪些方面去分析这些运营数据。
新媒体数据分析
公子义给小伙伴们整理一些运营常见的数据指标,也总结了一些比较适用的分析角度,希望有用~
1、新媒体运营关注的常见数据指标
1)访问:PV、UV、IP(最常见);跳出率、平均访问时长、平均访问页数等;
2)注册:关注人数、关注走势、累计关注人数、转化率等;
用户
1)活跃:内容PV、UV;UGC、PGC、文章数、关注数、阅读数、互动数(评论、点赞等)、传播数(转发、分享等);
用户喜好文章的类型
2)互动人数:每日评论人数、收藏人数、分享人数等
3)头像:分析用户属性,关注年龄、性别、学历、职业、地域、婚否、收入、兴趣等;
2、新媒体运营数据分析要遵循哪些原则?
但是运营毕竟不是专业的数据分析师,主要能用好这些原则就够了~
对比:分成横向和纵向对比,比如纵向的同环比分析,横向的不同产品、不同渠道的对比等;
走势(变化):指标随时间的变动,表现为增幅(同比、环比等);
分布:这个好理解,比如说用户不同年龄段的分类、不同职业的分布、不同地域分布等;
用户地域分布图
细分:从多层级去了解数据,比如分析全国不同省份不同城市的具体订单数据,从全国—省份—城市一一下钻深入分析;
如何变身自己的“专属分析师”呢~数据分析的整个过程:确定指标——数据收集——数据整合、数据处理/建模、数据分析、数据呈现、报表整理
数据收集:可通过公司数据库埋点获得,可以通过头条号、微信公众号、大鱼号、百家号等媒体平台获得,也通过一些记录的数据获得。
数据整合:运营人要看的数据太多了,有数据库,有各种第三平台的数据(新榜、清博指数、公众号等),每次都需要从不同平台取数据,太分散了,最好能在一个数据平台集中管理数据。
爆款文章数据分析
数据分析:可参考分析方法,比如“求和、计数、同环比、多粒度下钻”等分析,一般在Excel中需通过写公式搞定。
数据呈现(可视化):
简单地说,就是如何制图呗,报表汇报:将数据通过表格、图表或其他形式向领导汇报。如何不依赖分析师,自己搞定数据分析呢?
1、学习一些数据分析理论。(数据思维)
2、了解、熟悉业务,这点很重要。(业务思路)
3、学习一些数据分析工具。(工具辅助)以我的个人经验来看,真正把握这些真真是够了
二、如何制作让老板满意的好看图表?
没有哪个老板喜欢杂乱的表格数据,颜值才是王道啊。简单地说,就是数据如何可视化,让数据直观、明了。
分析数据占比:分析单维度的数据占比可用饼/环图、分析多维度的数据占比,可用旭日图和矩形树图。
分析数据走线图:最常用的是折线图,柱状图也可以表达,直观度略低于折线图。分析地区分布:全国、省份分布可用行政地图,更详细的地域分布可用经纬。
用户分析词频
分析词频:比如用户的职位分布,可用词云,有3D效果哦~分析转化效果:那肯定用漏斗图最最合适。
关于转化,分享一个自己身边的真实故事。每个图表都有适合的使用场景,用好各种图表很重要,直接影响到数据的直观和美观程度。
三、如何快速找到数据背后的问题?
做了那么多的数据工作,最终无非是为了从数据中去发现问题,不断优化运营策略。
不论数据是上升了还是下降了,肯定有其变化的原因,这里以用户数据变化为例了解一下快速找到问题的思路。
看数据—发现问题—解决问题—再看数据—问题解决,或者看数据—发现增长—找到原因—继续应用。
作者 l 公子义
来源 l 公子义(ID:gongzi348)
数据分析分为两部分,数据和分析。
数据通过Excel和PPT即可展示,可以在一些专业的数据平台获得数据,比如艾媒北极星、百度指数、微指数、微信指数等等。
而分析才是大学问。对于数据的引用,分析的方法,推荐你可以参考一些部门、协会和机构的高质量数据报告,比如麦肯锡,尼尔森,思略特,艾媒咨询,多参考专业的报告进行练习。
怎么入门数据分析?
1、打好概率与统计的基础
概率与统计是数据分析的基石,像一些概率分布、抽样、线性回归、时间序列都是数据分析当中经常会用到的,可以说日常碰到的大部分的分析需求都可以用统计分析来解决。
2、掌握数据库技能
做数据分析离不开查询数据库,这里主要涉及的是SQL。对于传统的数据库如MySQL,SQL Server,Oracle,或者大数据平台Hadoop,都可以通过SQL查询的方式来获取数据。
3、掌握Python或者R
Python和R是数据分析当中最常用的两门语言。R是为数据分析而生的一门语言,但Python在数据分析方面有后来居上的趋势。
4、机器学习
数据分析如果继续深入的话,可以学习机器学习。机器学习涉及的理论主要是分类、回归、聚类、决策树、贝叶斯定理等。
相关:大数据分析学习的详细解读
https://www.toutiao.com/i6616593013986558471/
数据科学,数据分析和机器学习之间的差异
https://www.toutiao.com/i6592350285857817102/
https://www.toutiao.com/i6630975917390823943/
- 数学基础(数据分析的原理)
- 编程基础(数据分析的实现手段)
- 这两个基础建议先了解一下基本的数学原理;
- 然后根据你需要,选择一款相关数据分析软件(Excel、SPSS、Matlab、R、Python),做些针对性的练习;
- 后面在不断的实际应用中学习成长就好。
摘自今日头条号《算法集市》— 数据分析的数学基础简介
1、描述性数据汇总
描述性数据汇总可以识别数据的典型性质,包括数据的中心趋势和离中趋势。
1.1、数据中心趋势
数据中心趋势度量包括:均值(mean)、中位数(median)、众数(mode)、中列数(midrange,数据最大和最小值的平均值)、加权平均(weighted average)。
截断均值(trimmed mean):为了抵消少数极端值的影响,同时避免损失有价值的信息,可以在计算均值前去掉上下各2%~5%的值。
1.2、数据离中趋势
数据离中趋势,即数据分散程度,其度量包括:极差(range,数据最大值和最小值之差)、方差(variance)
1.3、数据汇总可视化
数据汇总可视化可用不同的图形表示:直方图、饼图、线图、散点图、雷达图、组合图等。
2、数据预处理
现实世界的数据通常是不完整、含噪声、不一致的,对数据进行预处理,可提高数据质量,从而有助于提高其后数据挖掘的精度和性能。
2.1、数据清理
数据清理对象包括缺失值、噪声数据、离群点。
缺失值:忽略缺失值所在组、人工填写缺失值、使用全局常量填充、利用均值代替、利用最值代替;
噪声数据:利用数据邻近值的均值或中位数光滑(分箱)、利用回归函数拟合数据;
离群点:人工去除离群点、设置数据最值边界去除离群点、通过聚类检测离群点。
2.2、数据变换
数据变换将数据转换或统一成适合挖掘的形式。
光滑:去除数据噪声,包括分箱、回归、聚类;
聚集:对数据汇总或聚集,包括总和、均值、方差;
分类:根据数据属性对其分类;
规范:将数据按比例缩放,包括最小-最大规范化、Z-score规范化、小数点移动规范化;
属性构造:根据数据给定属性,通过组合添加构建新属性。
3、数据处理
1)分类和预测:可用相同的数据处理方法进行,分类是离散的函数模型,预测是连续的函数模型,包括回归分析、神经网络、遗传算法、模糊分析、决策树;
2)聚类:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法;
3)降维:主成分分析、低方差滤波、高相关滤波。
每个人的学习能力和基础都不同,所以数据分析的学习周期也不同。如果是通过自学的方式,由于无专业老师指导及无法系统的学习,这个周期可能会很长。一般来讲,如果零基础的学习者进行系统的培训,最快也要将近三、四个月的时间。
数据分析的学习应该首先从熟悉表以及表结构开始,它的原点一定是在首先了解熟悉Excel的基础上,在能够从数据库里提数的基础上再进行技能的升级。你的技能从能够从数据库里提数,并且用Excel和BI处理几万行的小数据量,到使用python批量化处理几十万甚至百万行中量级数据量,到最终使用大数据的相关组件,例如hadoop,spark,flume等组件处理千万级甚至是亿级大数据量。每一个阶段所需要的工具加方法论都是不一样的。一般而言,对于自学而成为能处理中量级数据量的分析师而言,得至少入门python的pandas,numpy等数据处理库。这个零自学的周期,也一般跟悟性和自律有关,悟性和自律性高的同学,可能在4个月能够掌握;如果悟性和自律性不高的同学,这个周期有可能就是半途而废,无法估量时间了。
(1) Excel
说起Excel可能会有人觉得这个很简单,但是Excel确实是一个功能强大的利器。零基础学数据分析师一定要从Excel入门,因为Excel是处理小型数据量企业用的最多的工具,在基础数据分析师与数据运营岗位中具有极其重要的地位。作为数据分析师的核心工具,具体学习内容有Excel函数技巧(查找函数、统计函数、逻辑函数)、Excel快速处理技巧(格式调整、查找定位、快捷键技巧等)和Excel可视化技巧(组合图、条形图、数据气泡地图)等。
(2) Mysql
SQL同样是零基础学习数据分析的核心内容。因为作为数据分析师,你首先要解决的问题就是你要有数据来做分析。通常企业都会有自己的数据库,数据分析师首先得根据业务需要知道自己要从企业数据库中提取哪些数据。企业如果部署本地数据库,那么一定是SQL语言做提取数据的语言。SQL简单易懂,非常容易上手,并且是非学不可的。SQL语言从学习MySQL数据库开始,涉及对表结构数据的增删改查。真正在企业里面,数据分析师一般不会有增删改的权限,只会有查的权限。学员应该重点掌握查的各种句式。
(3) Python
Python的基础对于数据分析师而言是非常重要的。对于十万级或者百万级数据量而言,Excel和BI都会因为运行卡顿而变得完全无法使用。然而在实际企业运用中,一次性处理十万级以及百万级数据又是非常常见的。而Python则是处理这种中量级数据的利器。因为Python有很多的第三方强大的库,比如Numpy、Pandas、Matplotlib、Seaborn等。这些库能让数据分析师对百万数据进行数据清理和画图分析。Python不仅能数据清洗,画图,还能用sklearn进行大数据算法分析。虽然Python是数据分析的重要工具,但是不同的职业发展方向,Python掌握的程度也是不一样的。
(4) BI商业智能工具
BI可以理解成Excel图表透视表的高级版。BI是将表与表相连,然后得出很多指标图。它是一个大屏的看板,如下图:
企业销售指标,运营指标,物流指标等等。这些图可以表示企业在过去5个月的平均销售单价,过去24个月销售的物流发货量的变化曲线,甚至是现在实时的销售额,这些都是企业关心的问题。有了这个看板,领导层在监控企业业务方面就有了非常直观的数据,以供他们及时做出决策调整。现在市面上比较流行的BI软件,有FineBI,PowerBI等。而这些BI软件实际上都是非常类似的,学起来难度也不大。学习FineReport、FineBI由入门到精通,快速挖掘数据价值,将这些数据转化成有用的信息,让企业决策有数据依据,从而驱动企业决策和运营。
(5) 数理统计与数据运营
数理统计和数据运营方法论是数据分析师的理论基石。数理统计包括概率论,统计学,线性代数,以及基础的微积分理论。这些内容都不需要理解的很深,但是对它们的原理以及内涵都需要有所掌握。由于整个数据分析的源头其实就是脱胎于描述性统计分析的。描述性统计分析是对样本的总数、均值等指标做统计的;而数据分析后续涉及到的算法则是架构在统计学上更深一层次的建模。因此,掌握数理统计的相关知识对于入门数据分析师而言是基础且必要的。
那数据运营方法论是什么呢?数据运营方法论实际上是学习各个行业所运营的分析模型。例如,对电商而言,漏斗分析可以分析出来进入主页的人数PV1,到进入服装板块的人数PV2,PV2/PV1就可以得出一个进入服装板块的比率。还有很多通用的分析模型:相关分析,A/B test等。对于想往管理路线发展的数据分析师来讲,数据运营是必须要学习的知识。其实数据运营知识也不复杂,就是根据自身业务需求将指标拆解到最细,然后运用同比和环比两种数据分析方式。
(6) 机器学习
最后一个进阶要求数据分析师掌握对大量数据分析的能力。这种分析就不只是停留在描述统计分析和运用数据运营方法进行分析了,而是进行预测分析。预测分析的本质是利用已有的数据做出一套变量x,与预测最终值y之间的关系(也就是数学算法公式),然后利用这套算法,将更多的x输入算法中去得出一个预测的y值,这里听不懂没关系。总之,这个阶段的数据分析是利用大量的历史数据构建出一套数学公式(也就是算法),用这个数学公式去对未来进行预测。比如说:一个人大量地刷体育短视频,根据算法可以得出这个人可能对观看足球比赛的ucloud体育会员感兴趣。这类推断和预测对于商业世界是有着极大变现意义的。要想成为掌握算法的数据分析师,机器学习是不可跳过的入门。学员应该从简单的一元回归,多元回归,以及逻辑回归学习等,逐渐学习更多像决策树,随机森林,SVM等更高级的算法。
一、为什么学习数据分析
1、运营的尴尬:运营人需要一个硬技能
每个初入行的新人都会察觉到,运营是一个似乎并没有自己的核心竞争力和安全感的工作。因为每天的工作好像都被各种琐事所围绕,而只有一个主题是永恒不变的,那就是---提需求,不断的提各种需求。
运营人需要一个硬核技能,提升自己的职业价值,提高自己的职业安全感,而不是每天都在各种的等排期:数据分析排期、产品设计排期、UI排期、开发排期。
运营迫切需要通过利用SQL/Python等工具,从数据中及时发现更多的业务价值,提高自己的产出。
2、数据分析的前景这几年随着人工智能的火热,数据分析技能也逐渐受到了更多的认可。从国外BA专业申请和国内数据分析培训的火热也可见一斑。但对于在职人士,从单纯的技能习得角度去看,BA的能力完全是可以自学获得的。
我认为,未来数据分析能力在运营人的能力模型中的比重仍会继续加大,将来甚至会挤压数据分析师的需求和生存空间,所以,对于数据分析,前景很好,而数据分析师,前景并不乐观。
二、学习数据分析需要做的准备1、明确方向:数据分析有两个方向:
一个是业务向:如数据产品经理、数据分析师,对技术要求并不那么高;
一个是技术向:需要懂数据挖掘、算法等,对技术的要求较高。
从自己的定位来看,并不打算做数据挖掘,因为自己的知识结构和时间上的投入产出比可能并不太高。主要希望通过数据分析技能,增强自己作为产品运营的竞争力。
2、做好持久战准备:于我一个没有任何基础的纯小白而言,并不是能速成的,需要做好持续学习的准备。
三、做好数据分析需要具备哪些技能1、统计学基础知识
2、Excel的熟练使用
3、SQL
4、Python
5、分析方法和思维
6、对业务的充分理解
从自身来看,主要需要弥补的为:SQL+EXCEL+统计+PYTHON。
主要以看书为主,视频为辅,不需要报任何的培训班。
1、SQLSQL大概是互联网公司做数据分析用到的最多、最重要的工具了,在整个数据分析过程中,用Sql提取数据,可能要占到整个数据分析过程的50%-80%,以至于很多数据分析师都被戏称为“Sql Boy/Girl”。
mysql数据库的功能可以用四个字概括:增删改查。
但是对于我们来说,我们能用到的只会有数据库查询功能,其它权限是不可能开放给你的。
如果数据库你觉得生涩的话,可以这么理解:
•SQL? 就是一条存取数据的命令
•数据库? 就相当于一个文件夹
•数据表? 就相当于文件夹内的一个Excel文件
–表名就是文件名
–表中的每一列有一个名字,就是列名,也可以成为字段
SQL的学习可以分为三块:
简单查询、
关联查询、
函数引用。
什么是查询呢?
在数据库建立之后,通过sql命令里最常用的语句SELECT,让我们查看数据库里保存的数据,并可以进行一定的分析和归纳。
简单查询:
SELECT语句的完整格式包含6个子句:
1、FROM 子句:查询数据的表,指定数据的来源。
2、WHERE 子句:查询数据的过滤条件。
3、GROUP BY 子句:对匹配 WHERE 子句的查询结果进行分组。
4、HAVING 子句:对分组后的结果进行条件限制。
5、ORDER BY 子句:对查询结果进行排序,后面跟 DESC 降序或 ASC 升序(默认)。
6、LIMIT 子句:对查询的显示结果限制行数。
关联查询:
如果要进行多表查询,就需要用到连接。
连接查询是把两个或多个表连接在一起来获取数据,是关系型数据库中最主要的查询。表的连接方式主要包括内连接、外连接和交叉连接等。
1、from 指定查询表名、并给出别名。
2、left join 左外连接,左表全部记录及右表匹配记录出现在查询结果中。
3、inner join 内连接,左表和右表共同的记录出现在查询结果中。
4、right join 右外连接,右表全部记录及左表匹配记录出现在查询结果中。
5、on 指定关联条件。
表连接后的结果可以通过这个图清晰的展示出来。
举个栗子:
函数引用:
利用函数可以提高sql的效率,经常用到的函数主要有:
逻辑运算:and、or、not;
数值运算:round、floor、ceil、rand、exp、sqrt等;
日期函数:from_unixtime、unix_timestamp、year、month、day、hour、minute、second、weekofyear、detediff、date_add、date_sub等;
条件函数:if、coalesce、case when等;
字符串函数:concat、substr、trim、reverse、split等;
集合统计函数:count、sum、max、min、percentile等。
推荐书目:
推荐下我们部门每个运营同学人手一本的必备书目:
《SQL必知必会》
Hive
随着数据量的不断增加,很多时候mysql已经满足不了数据需要,很多公司开始使用hive或者presto。
其实有了SQL的基础,HIVE学习还是比较简单的。
推荐书目:《HIVE编程指南》
重点看下HQL的数据操作、查询、调优部分,与mySQL大同小异,只是一些语法需要多带带注意下即可。
2、ExcelExcel大家多少都会一些,它的功能很强大,但是绝大多数人,可能使用了它的1%功能都不到。
Excel 可以进行各种数据的处理、统计分析和辅助决策等,作为常用的数据处理和展现工 具,我们除了要熟练使用Excel 的函数和数据透视表等操作工具,更重要的是,利用好Excel 的可视化,用图表将结论展现出来,这样分析和可视化能力会得到迅速提高。
SQL+Excel可以说是数据分析的必备神器。
推荐书目:《谁说菜鸟不会数据分析》。
这本书不只是介绍Excel的功能,更重要的是介绍一些实践场景中数据分析的步骤和思路,对于初学者有很大的指导意义。
3、统计学统计学是数据分析的理论基础,可以使数据分析更加系统化。没有统计学基础的数据分析师的职业发展之路不会长远,因为在工作中可能会常常遇到不知道该用什么方法找寻数据规律的瓶颈,因此掌握数据分析的统计学基础知识是成为一名优秀数据分析师的基础。
主要需要掌握:
用于集中趋势分析的平均数、中数、众数;
用于离中趋势分析的全距、 四分差、平均差、方差、标准差;
研究现象之间是否存在某种依存关系的相关分析;
确定两种或 两种以上变数间相互依赖的定量关系的回归分析;
揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系的关联分析、R-Q 型因子分析;
研究从变量群中提取共性因子 的因子分析;
用于两个及以上样本均数差别的显著性检验的方差分析;
概率及分布、参数估计、 假设检验等等经典统计学内容。
很多人都推荐《商务与经济统计》,说实话,这本书对小白并不友好。
我的进阶路径是:《赤裸裸的统计学》→《深入浅出统计学》→《商务与经济统计》
前面2本书更加有趣味性,对于小白,更容易理解,不至于让你很快从学习到放弃。
4、Python说实话,互联网行业日常的数据分析中用到python的机会并不多,SQL+EXCEL可以说能解决95%的工作需要。另外5%主要是在数据量较大,SQL已经无法满足工作需要时,那么Python大法就该出场了。
我们分析一般都是有了现成的公司数据,很少有从外部获取的,所以爬虫,可以暂时先不学,有需要的话,先找爬虫插件搞定即可。
主要学习python基础和数据分析的几个包。
作为一个没有编程、数学、统计基础的小白,我是从《父与子的编程之旅》开始看的,这本书对我这种完全负基础的人,真是极度友好,可以说,看了很多推荐的书和视频,最开始学习的时候,只有这一本书是我可以看懂,而且看得下去的。
这本书看完后,又对照《笨方法学python》做了些题目,然后可以进入python数据分析的学习,主要是《利用python进行数据分析》,主要掌握numpy、pandas、Matplotlib库等。
作为一个文科生,图书馆学专业。
大学第一次接触计算机(不知道怎么开机,丢人喽)。
四年优秀的大学生涯,第一次挂科是:计算机,最后一次挂科也是:计算机。
缺乏理科素养,计算机小白痴,又是计算专业的门外汉。
毕业找到了互联网研发工作(大学自学编程:Java,前端)
工作是数据开发,写SQL
现在,我在努力的学习统计学,多元分析,数据挖掘。这么努力只是因为我太穷!
我理解的数据:我们在由人,物,事 组成的时空场景,通过事来完成人与物的交互,这也是生命无终无始过程。人或物独立存在时中我们只能用“0”去重新的描述。当人和物通过事交互的时,我们可以对人和我作出更多的了解,比如我们用尺子来度量人:不了解到人有高低胖瘦,尺有长短精密。数据是客观描述与抽象认知。交互繁生数据,数据又作用于交互。
在统计,分析,挖掘中定位什么是数据分析:
统计的侧重点:了解(描述)事物,数字化也更好的传达这种数字化了解。
分析的侧重点:发现问题,发现细微的差异变化。
挖掘的侧重点:发现价值,升级认知,获取更多价值。
所以开始学数据分析第一步是:学习基础的统计学,只有了解了事物才能开始分析。
统计,分析,挖掘 都是处理数据的方式方法,是彼此衔接的一个过程,有联系有交集。没有明显的界限,却又独特的特点。
统计: 需要了解基础的统计量:最大值,最小值,中位数,中序数,众数... 最重要的是均值和方差;数据的分布:卡方分布,二项式分布,正态分布;假设检验的方法;---是什么?
分析: 相关性分析方法比如:分类,聚类,判别,典型相关性。关联分析考察多因素对事物的影响:方差分析,因子分析,主成分分析,回归分析;--怎么了?
挖掘:挖掘通过统计和分析发现不了的潜在有价值的规则,比如:关联推荐(啤酒与尿布),K近邻,神经网络;用高速计算的电脑来弥补人脑的短板。--这样呀?
从统计学基础开始,没到周六日我都抱着《商务统计学》看呀看呀,看了很久,慢慢的开始顿悟了,也许这就是时间的力量,不断坚持的力量吧,相信:无他,唯手熟尔。
然后,就买了一本 统计学基础R版,开始学着用R语言去实践分析,也是坚持学了R的各种常用的数据分析方法,大数据面前,excel的处理能力比较有所局限,学一门计算机语言,借助计算机的处理能力,我们的数据分析能力能够更进一步,更上一层楼。
现在,每周坚持用R去做一些有趣的数据分析,累计写了很多很多分析相关的文章,实践演练是学习真功夫的最佳途径;有图为证。
发现数据分析也是一件有门有道,有章有法的事。简单而言六个字:“构成,对比,趋势”
构成——是数据内部的组合分布,主要描述“我”是谁?知道“我”是谁是最为关键的一步,正如一句古语:“知己知彼,百战不殆”。
对比——是组成部分的对比知道我最重要的是什么;现在“我”与过去“我”的对比知道成长;同类的对比知道“我”与“他”的不同,显示我的优劣不足,我们才能有的放矢。
趋势——是变化走向的描述,主要掌握“我”要到哪里去,有迹可循,有踪可跟,我们才能把握未知,不偏不倚的驶向好的未来。
希望,我们菜鸟展翅,一飞冲天吧。喜欢的话,点个赞再走吧。
没有计算机基础,没有编程基础,不知道有没有数学基础,线代基础,统计方面的知识,要是有的话,学起来相对能轻松点。
是为了求职而学的话,数据分析职位对于应聘者的要求都有:数据库会SQL,MYSQL或者其他,会R,Python,java其中一种或两种编程,统计软件的话,会SPSS,R,State等,当然,excel功能很强大,能熟练使用各种函数或者数据分析也是必须的。
学习建议的话,可以从excel入手,深度学习方法和技巧,接着学习线代,数学,统计的理论知识,会的话略过,然后开始着手软件,结合各种案例多分析多联系多思考,在学习计算机原理的同时,可以结合着学学编程,学编程的过程中会涉及到从数据库挖掘数据什么的,可以看看数据库的书,最后,可以爬虫,挖掘需要的数据,并自己做有效分析,得出有价值的结论。
总之,从兴趣出发,坚持学习就够了。
0
回答10
回答0
回答5
回答0
回答1
回答0
回答0
回答0
回答0
回答