{eval=Array;=+count(Array);}
优秀的数据分析师并不能速成,但是零经验也有零经验的捷径。
市面上有《七周七数据库》,《七周七编程语言》。今天我们就《七周七学习成为数据分析师》,没错,七周。
第一周:Excel学习掌握
如果Excel玩的顺溜,可以略过这一周。但很多人并不会vlookup,所以有必要讲下。
了解sum,count,sumif,countif,find,if,left/right,时间转换等。excel的各类函数很多,完全不需要学全。重要的是学会搜索。我学函数是即用即查,将遇到的问题在网上搜索得到所需函数。
重中之重是学会vlookup和数据透视表。这两个对后续的数据转换有帮助。
学会vlookup,SQL中的join,Python中的merge能很快掌握。
学会数据透视表,SQL中的group,Python中的groupby也是同理。
这两个搞定,基本10万条以内的数据统计没啥难度,也就速度慢了点。80%的办公室白领都能秒杀。
网上多找些习题做,Excel是熟能生巧。
养成一个好习惯,不要合并单元格,不要过于花哨。表格按照原始数据、加工数据,图表的类型管理。
附加学习:
1、了解中文编码utf-8,ascii的含义和区别
2、了解单元格格式,帮助你了解后期的timestamp,date,string,int,bigint,char,factor等各类格式。
3、如果时间还有剩余,可以看《大数据时代》,培养职业兴趣。
第二周:数据可视化
数据分析界有一句经典名言,字不如表,表不如图。别说平常人,数据分析师自己看数据也头大。这时就得靠数据可视化的神奇魔力了。
以上就是所谓的可视化。排除掉数据挖掘这类高级分析,不少数据分析师的平常工作之一就是监控数据观察数据。
另外数据分析师是需要兜售自己的观点和结论的。兜售的最好方式就是做出观点清晰数据详实的PPT给老板看。如果没人认同分析结果,那么分析也不会被改进和优化,分析师的价值在哪里?工资也就涨不了对吧。
抽空花一段时间学习可视化的基础,如《数据之美》
另外你还需要了解BI的概念。知名的BI产品有Tableau,Power BI,还有国产的FineBI等。都有体验版和免费版能下载,网上找一点数据就能体验可视化的魅力。比Excel的图表高级多了。
BI需要了解仪表盘Dashboard的概念,知道维度的联动和钻取,知道绝大多数图表适用的场景和怎么绘制。比如以下FineBI制作的dashboard。
第三周:分析思维的训练
这周我们轻松一下,学学理论知识。
分析思维首推大名鼎鼎的《金字塔原理》,帮助数据分析师结构化思维。如果金字塔原理让你醍醐灌顶,那么就可以学思维导图,下载一个XMind中文网站,或者在线用百度脑图。
再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。这些框架都是大巧不工的经典。你要快速成为数据分析师,思考方式也得跟着改变。网上搜咨询公司的面试题,搜Case Book。
题目用新学的思维导图做,先套那些经典框架,做一遍,然后去看答案对比。因为要锻炼数据分析能力。所以得结合数据导向的思维。
这里送三条金句:
一个业务没有指标,则不能增长和分析
好的指标应该是比率或比例
好的分析应该对比或关联。
举一个例子:我告诉你一家超市今天有1000人的客流量,你会怎么分析?
这1000人的数量,和附件其他超市比是多是少?(对比)
这1000人的数量比昨天多还是少?(对比)
1000人有多少产生了实际购买?(转化比例)
路过超市,超市外的人流是多少?(转化比例)
这是一个快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何结果。
第四周:数据库学习
Excel对十万条以内的数据处理起来一点不虚,但是资深的数据分析师还是笑摸狗头,Too Young Too Sample,爷搞得都是百万数据。要百万数据,就得上数据库。
SQL是数据分析师的核心技能之一。有些公司并不给数据库权限,需要分析师写邮件提需求,这非常不好。数据分析师经常有各类假设需要验证,很多时候写十几行SQL就能得到的答案,还得麻烦其他部门导出数据。
SQL学习不需要买书,W3C学习就行了,SQL 教程。大多数互联网公司都是MySQL,我也建议学,性价比最高。
作为数据分析师,只要懂Select相关,增删改、约束、索引、数据库范式全部略过。你的公司心得多大才会给你写权限。
了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等即可。
你看,和Excel的函数都差不多。如果时间充裕,则学习row_number,substr,convert,contact等。和Excel一样,学会搜索解决问题。不同引擎的函数也会有差异,例如Presto和phpMyAdmin。
期间你不需要考虑优化和写法丑陋,查询几秒和几分钟对数据分析师没区别,跑数据时喝杯咖啡呗,以后你跑个SVM都能去吃饭了。
网上搜索SQL相关的练习题,刷一遍就行。也能自己下载数据库管理工具,找些数据练习。我用的是Sequel Pro。
第五周:统计知识学习
统计学是数据分析的基础之一。
统计知识会要求我们以另一个角度看待数据。当你知道AB两组的差异用平均值看是多傻的事情,你的分析技巧也会显著提高。
这一周努力掌握描述性统计,包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。详细的数学推导不用细看,谁让我们是速成呢,只要看到数据,知道不能怎么样,而是应该这样分析即可。
Excel中有一个分析工具库,简单强大。对列1的各名词做到了解。如果是多变量多样本,学会各种检验。
《统计数字会撒谎》休闲读物,有趣的案例可以让我们避免很多数据陷阱。
深入浅出统计学 (豆瓣)还是经典的HeadFirst系列,适应它一贯的啰嗦吧。
多说一句,老板和非分析师不会有兴趣知道背后的统计学原理,通常要的是分析后的是与否,二元答案。不要告诉他们P值什么的,告诉他们活动有效果,或者没效果。
第六周:业务学习(用户行为、产品、运营)
这一周需要了解业务。对于数据分析师来说,业务的了解比数据方法论更重要。当然很遗憾,业务学习没有捷径。
我举一个数据沙龙上的例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。
这个案例中,我们只知道送货员的送货水平距离,数据上根本不可能知道垂直距离这个指标。这就是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。
对于业务市场的了解是数据分析师工作经验上最大优势之一。既然是零经验面试,公司肯定也知道刚入门分析师不会有太多业务经验,不会以这个卡人。所以简单花一周了解行业的各指标。
《增长黑客》
数据驱动业务的典型,里面包含产品运营最经典的AAARR框架,部分非数据的营销案例,
《网站分析实战》
如果应聘的公司涉及Web产品,可以了解流量的概念。书中案例以Google Analytics为主。其实现在是APP+Web的复合框架,比如朋友圈的传播活动肯定需要用到网页的指标去分析。
《精益数据分析》
互联网数据分析的入门书籍,归纳总结了几个常用的分析框架。比较遗憾的是案例都是欧美。
还有一个小建议,现在有不少第三方的数据应用,囊括了不少产品领域的数据分析和统计。自学党们即使没有生产环境的数据,也可以看一下应用Demo,有好处的。
除了业务知识,业务层面沟通也需要掌握。另外建议在面试前几天收集该行业的业务强化一下。
第七周:Python/R学习
终于到第七周,也是最痛苦的一周。这时应该学习编程技巧。是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘,爬虫,可视化报表都需要用到编程能力。掌握一门优秀的编程语言,可以让数据分析师事半功倍,升职加薪,迎娶白富美。
这里有两条支线,学习R语言或Python。速成只要学习一条,以后再补上另外一门。
R的优点是统计学家编写的,缺点也是统计学家编写。如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。Python则是万能的胶水语言,适用性强,可以将各类分析的过程脚本化。Pandas,sklearn等各包也已经追平R。
如果学习R,建议看《R语言实战》,照着书本打一遍代码,一星期绰绰有余。另外还有一本《统计学》,偏知识理论,可以复习前面的统计学知识。
R学习和熟悉各种包。知道描述性统计的函数。掌握DataFrame。如果时间有余。可以再去学习ggplot2。
Python拥有很多分支,我们专注数据分析这块,入门可以学习《深入浅出Python》。
需要学会条件判断,字典,切片,循环,迭代,自定义函数等。知道数据领域最经典的包Pandas+Numpy。
在速成后的很长一段时间,我们都要做调包侠。
这两门语言最好安装IDE,R语言我建议用RStudio,Python我建议用 Anaconda。都是数据分析的利器。
Mac自带Python2.7,但现在Python 3已经比几年前成熟,而且没有编码问题。各类教程也足够多,不要抱成守旧了。Win的电脑,安装Python会有环境变量的问题,是个大坑(R的中文编码也是天坑)。
到这里,刚刚好是七周。如果还需要第八周+,则是把上面的巩固和融会贯通,毕竟速成是以转岗或拿offer为目的。有机会,我会专门写文章讲解每一周的具体知识,并且用爬虫爬一些数据做练习和案例。
谢邀
可见大数据,发展的力度。很多人不知道大数据怎么交易股票,这这里简单说下,现在好多券商软件支持,大数据自动化交易,也就是说,当你编写好自己的预期策略后,由程序根据你的策略实行,自动化交易。现在名声仅次于巴菲特的詹姆斯.西蒙斯,就是大数据量化交易的先驱,他名下的大奖章基金,就是根据大数据量化交易运行。
大数据量化交易,可以实现。一天成百上千次此交易,只要资金允许。这也是发达发达城市为什么着重研究的对象。还有大数据是未来的趋势。电脑在对市场热度的分析,要强于人工识别。但是论单个交易,人工肯定强于电脑,但是从现在的基金规模来看。电脑交易是主要趋势。不管多厉害的基金经理,精力都是有限的。
目前的大数据都是借助python为主要语言编写的,感兴趣的可以看看相关方面的学习。券商对自动化交易的资金,一般是5w门槛。所以,随着市场的发展。大数据量化交易,会慢慢普及。
一、数据分析前世今生
近年来,越来越多的企业开始出现数据分析师这个岗位,无非可以分为技术类和非技术类,技术类要运用算法搭建模型,非技术类对模型结果进行可视化展现、数据报告撰写等。
二、数据分析的未来
不要把自己单纯地定义为一名数据分析师,企业不乏做表的(初级数据分析师)、搞模型的(高级数据分析师),财务做报表更厉害,程序员比你更容易上手。数据分析一定是一项必备技能,就和PPT、Excel一样,它是来辅助工作的,而不是工作的全部。
三、学习路线
技术:
Excel
SQL
Python/Spss
可视化
理论:
数据分析思维和方法
统计学
对业务的理解
四、推荐书籍/网站
以下推荐的书籍和网站绝无任何广告嫌疑,只是自己觉得还不错分享给大家。
1、Excel学习:
没有什么推荐的书籍和网站,网上有很多大神的教程,如果时间充裕,就系统的学习一下,如果时间紧张,就用临阵用度娘也是可以解决问题的,当然,学什么都最好能够系统地学习。要记住一点,我们是用Excel进行数据分析的,所以应当从数据获取、数据处理、数据分析和输出几个方面来学习Excel。
之前的文章也有写过这方面的:
用Excel做直方图(1):随机数发生器
用Excel做直方图(2):频率分布直方图
用Excel做控制图
2、SQL学习
建议去W3Sschool自己学习,非常详细,附网址,https://www.w3cschool.cn/sql/。如果想要练习的话,可以从SQLZoo去练习,在线版的SQL练习教程,https://sqlzoo.net/wiki/SQL_Tutorial。书的话《SQL必知必会》还不错,很精简,基本可以满足日常表的查询和维护了,想要不仅满足于查询的话,还可以参考《深入浅出MySQL》,数据库开发、优化与管理,600多页。
3、Python学习
对于非程序员出身的新手小白来说入门很简单,精通还是不容易的。如果你仅仅是停留在用Python进行数据处理和分析的阶段上,建议《利用Python进行数据分析》这本书非常不错,不要去学python开发、python编程之类的书,Python可以用来做很多事情,但对于数据分析师而言,我们可能不需要用Python来开发什么游戏、网站等,我们只需要进行数据控制、处理、整理和分析即可,系统地学一下python中的数据科学库是非常有必要的,如:Numpy、pandas等。
4、可视化
有很多可视化的工具,用Excel可以实现可视化,powerBI、Tableau、Python也可以可视化。工具的选择是一方面,另一方面是对于图表的理解,什么场合适用什么样的图表。
用Excel做排列图
5、数据分析的思维和方法
参考书籍《深入浅出数据分析》,把道理方法讲的很透彻的一本书,对于深入理解底层逻辑很友好。《谁说菜鸟不会数据分析》系列,主要是对于方法和工具使用的学习。可参考之前的文章 数据分析方法论 来大概了解。
6、统计学
《深入浅出统计学》非常棒的一本书,对于统计学的基本概念的解释非常直白到位,让小白能够清楚地理解这个公式为什么是这样子的,而不是直接摆公式。底层逻辑明白后,可以参考李航的《统计学习方法》,这是大学课本,有时间的话还是应该好好研究一下系统逻辑的。
7、对业务的理解
推荐《数据挖掘与数据化运营实战》,这本书对业务与数据分析怎么结合有很详细的说明和实例。
想要做好数据分析,两个方面的内容不可缺少:一是有精准的数据支撑,这是做研究的基本,这一点需要有好的数据库;二是要有清晰流畅的逻辑思维,才能形成完整的、可以转化效能的报告,这一点可以通过大量观看优质的报告练成。
对于个人来说,关注行业动态是十分有必要的,多看数据,找到1他们其中的关联,慢慢就能形成数据分析的思维了。
首先你要学会列框架。在看了大量的报告之后,形成自己的思维逻辑,从背景、现状、展望的大逻辑到一些角度的自我选择,就能形成具有自己独特性的分析报告了。
然后就是动笔,笔杆子是可以练出来的,光动脑筋可不行,很容易忘记的,所以要动笔写下来,也许最初你做的数据分析还是一团乱麻,不管是内容还是形式都不好看,但只要坚持做下去就可熟能生巧。
小易作为数据分析二十年的老手,希望给您提供一点帮助……
1.行业研究报告以去看看易观分析-数据驱动精益成长的易观博阅
易观分析研究覆盖上百个领域,持续积累十余年的5000份行业深度分析,可以在里面查到最新行业研究,对市场与企业进行全方位的解读。
2.行业数据可以了解一下易观千帆,目前市面上很多研报,媒体数据,招股书数据都有引用易观千帆数据。
易观千帆 - 移动互联网产品竞争分析
3.行业与产品数据可以去关注下易观千帆 - 移动互联网产品竞争分析
易观千帆基于数字用户在移动终端 的海量数据,进行分析挖掘的大数据产品。建立客观、权威的移动应用评级,分析用户行为特征、建立数字消费者用户画像, 为客户提供内部运营决策和外部竞争分析的一站式服务。
洞察行业趋势:覆盖全网热门APP,了解自身在市场中所 处的位置,发现市场中的竞争对手
竞品对标分析:覆盖全网315行业,快速了解细分品类竞手的发展 情况,制定市场策略
用户偏好分析:分析用户基础属性及兴趣偏好,推动用户增长,提升ARPU
挖掘投资机会:寻找行业赛道黑马,挖掘投前投后的价值分析
没人邀我,我就不谢邀了~
就目前我们这个互联网大数据时代来说,不光人人都是产品经理,连数据分析每个人每天都会碰到。你手机里的app,你上网的痕迹,你每天都在和各种各样的数据打交道,都在归置自己身上的数据标签和数据信息。
这是一个大数据的时代,也是充满机遇的时代。各个行业都在进行数字化转型,想依靠数据来竞争,大家都相信得数据者可以得到“天下”,像目前世界500强的企业当中 ,百分之90的公司都建立了数据分析的部门,数据分析这个职业也变得热门起来。在知乎上一搜数据分析,还蛮多问题是想转行数据分析行业或者是想从事数据行业,但是不知道怎么入手的小白们提问的,就和题主一样,知道数据分析的大概意思,但是不知道该掌握哪些具体知识。
那么我作为一个数据可视化从业者哈~也在工作中碰到不少数据分析的事情,我就结合我自身的经验,给题主一些建议
什么是数据分析?
数据分析从字面意思来看,即“数据+分析”。
数据是基础,分析是结果。数据存在是既定的事实,但是面对无序的数据,人类是无法发现其中蕴含的问题。所以需要通过数据分析师来将数据进行全方位的解析,才能把无序的数据变为能够使用的数据,为人类提供有贡献信息,才能体现出数据的价值所在。
为什么要做数据分析?
数据分析的作用和价值我们可以概括为以下四个方面:
处理数据分析时要了解什么?
大数据对所有的行业部门都至关重要。但是很显然,不同的行业数据分析师面对行业数据所需要提取的数据信息是不同的,所以你需要知道自己的目标行业对数据分析的需求是什么,比如以下几个行业 :
教育大数据
保险业
政府产业
银行业
数据分析师应该具备什么特质?
了解了你分析数据时候应该注重什么,接下来就要明白自己作为一个数据分析师应该具备什么样的特质,我也为题主总结了几点:
数据分析师该掌握什么基础技能?
入门级的数据分析师,肯定不要好高骛远,先把Excel玩转再说,不要以为Excel就是个简单的表格工具,它的强大你想象不到,我相信知乎上肯定很多有Excel的专业教程,我这里也不展开详细的讲解。
当然想成为一个成功的数据分析师单单掌握Excel是肯定不够的,因为这只是一个数据分析的呈现,真正的数据分析师必须要通过数据现象的查看来完成对产品的营销策略、运营策略的优化 ,不仅是对业务需要有一定的了解,还需要掌握各种数据分析的技能,从能力上来增长自己。
我根据前人的经验和网络上大家对数据分析技能的共识总结出以下几点:
一个合格的、高级的数据分析师应该掌握的技能:
以上就是我对题主疑惑 的解答,当然其实想要学习一个新的东西方法论虽然很重要,但是最重要的还是要保持永远学习的心态,因为世界万物不断在变,特别是互联网行业,数据这种东西太飘忽不定了,不时刻更新自己的知识库,很容易在前进的路上掉队,被后浪拍打在沙滩上。今天你是小白,那么一段时间过后,你必须让自己成为具有一定优势的人,才不会被时代淘汰哦~
最后想要了解数据可视化的更多知识,欢迎关注我呀~~
数据分析师是一个综合的岗位,除了熟悉业务,还需要掌握多项技能,例如Excel、SQL、统计学及SPSS,R/Python,海量数据的情况下需要在大数据平台下分析,所以还需要掌握Hadoop相关的技术,如Hive、HBase等。
由于涉及的技术较多,一下都学完不现实,所以,学习数据分析建议分成三个阶段进行:
1、商业数据分析
2、涉及算法的数据挖掘
3、大数据平台下的分析
对于大部分公司来说,数据量不是很庞大,数据分析通过Excel,SPSS等工具就可以搞定,此时需要掌握的技能有Excel、MySQL、统计学及SPSS。
学完这些技能后,可以去很多公司做一名商业数据分析师,支撑市场部、运营部等的数据分析工作。
1、Excel
Excel这部分需要学习的内容有3块:Excel公式、数据透视表及Excel数据图表。
说明:关于每一块需要掌握哪些技能,可以看我的另外一个回答:零基础如何入门数据分析?
关于Excel的书籍、教程有很多,找几本经典来学习一下,重要的是练习,看完教程后,一定要自己动手做一遍,才有可能掌握。
推荐书籍:
《谁说菜鸟不会数据分析》系列
《Excel图表之道:如何制作专业有效的商务图表》
《别怕,Excel VBA其实很简单》
2、MySQL
作为数据分析师,需要跟数据打交道,所以懂点SQL也是必要的。
关于SQL的书籍、免费资料也有很多,这里推荐2本,重点仍然是多动手练习。
推荐书籍:
入门书籍:《MySQL必知必会》,人邮出版社。
进阶书籍:《SQL进阶教程》,[日]MICK。
3、统计学
统计学是必须的,不懂统计学根本算不上数据分析师,具体内容有:
1、统计学:统计学基础、参数估计、假设检验、方差分析、线性回归、时间序列。
2、多元统计分析:聚类分析、主成分分析及因子分析。
从上面可以看到,统计学学习可以分成两个阶段进行,统计学和多元统计分析,重点是多动手做题、思考。
推荐书籍:
第一阶段,推荐书籍,贾俊平的《统计学》,人大出版社;
第二阶段,推荐书籍,何晓群的《多元统计学分析》,人大出版社。
PS:数学零基础的童鞋,可以先看下《Head First 统计学》(又名《深入浅出统计学》)
4、SPSS
因为统计学很有些分析方法通过Excel就可以搞定;有些不行,必须通过其他工具才能搞定,例如多元线性回归、聚类分析、主成分分析及因子分析,都需要用到SPSS。
在掌握了统计学的基础上,在学习SPSS是很容易的,因为SPSS只是一个工具而已。
推荐书籍:
《统计分析与SPSS的应用》,薛微,人大出版社。
《PASW/SPSS Statistics中文版统计分析教程》,电子工业出版社。
附:数据分析必备SPSS主要知识点。
有些数据分析工作,需要通过统计算法及机器学习算法来进行,所以还需要掌握Python或者R。
掌握了R数据分析或者Python数据分析技能后,可以去一些公司做基于统计算法或者机器学习算法的数据分析及挖掘工作。
1、Python
Python数据分析主要包括Python语法基础、常用数据分析扩展包Numpy、Pandas、Matplotlib等、Python数据探索及预处理、Python机器学习等。
限于篇幅,具体需要掌握哪些技能这里就不详细列出了,可以去看我的另外一个回答:怎么学习python数据分析?
推荐书籍:
《Python编程从入门到实践,[美]Eric Matthes》
《利用Python进行数据分析,Wes McKinney,机械工业出版社》
《Python机器学习基础教程》,[德]Andreas C. Müller [美]Sarah Guido
2、R
R数据分析包括R语言基础、R数据可视化、R数据预处理、R统计分析及R机器学习。
附:数据分析必备R语言知识点。
推荐书籍:
《R语言初学者指南》,[英]Alian
F.Zuur
等,西安交通大学出版社《R语言实战(第2版)》,Robert
I.Kabacoff
,人民邮电出版社在一些大公司,海量数据的情况下,数据都是运行在大数据平台上(Hadoop),还需要懂MapReduce、Hive、HBase数据仓库等技术。当然这些可以在工作学习、积累。
回答完毕!
一般问出这个问题大多是对数据分析没有太深入的了解,甚至可以说零基础,那我们就针对零基础来谈一谈如何学习数据分析。
l零基础小白的定义是这样的:
对于小白来说,主要需要学习这些内容:
获取更多数据分析相关资讯欢迎关注我们的公众号:聚数云海。免费获取数据分析师大厂真题。
我的职位不是数据分析师,是数据运营。很多工作和数据分析重合,属于既做运营、又做数据,可能还参杂其他角色。
最开始我是从运营接触上手数据,没有编程的基础,也没有统计的知识。大学的几门课我都是靠同学才过的,掩面哭。可能我零经验的经历对大部分有志于从事数据分析的朋友都是一个参考。
刚开始工作我可是连vlookup都不会,也没人教我,excel只会很基础的操作。那时要关联多张报表,我仗着手速快,一个个对照复制黏贴的…要是数量一多肯定哭。后来我想这可不是办法啊。于是借助万能的百度:
“excel怎么匹配多张表的数据。”
于是看到vlookup函数。每次用都要先看一遍网上的样例,不然会有各种问题。用了几次才会用。
那时候运营方面的数据需求还好,很多都是自己间歇时间琢磨。比如什么样的用户愿意用我们APP。于是我希望研发能有各种报表的下载,然后我用excel关联,做一些简单的分析。
期间当然犯了很多新手犯的错误,比如相关性不代表因果性,比如极值的影响,比如样本数量不满足置信度。
少年不知天高地厚,不过我依旧乐在其中。做数据分析要有勃勃的好奇心。
记得是15年初,老板给了我一个任务,收集各地的医院数据。我一看网上医院有几万家,我又要快哭了,我手速再快也复制黏贴不了啊。于是求助了解到爬虫这么一个磨人的好东西。
那时水平不够用Python+Scrapy,找来了一款火车头的爬虫工具。然后按着教程走,顺便了解了Html+CSS的网页结构。
加了两天班,终于抓下来数据。
再次哭了,不是感动的。
这都什么乱七八糟的数据。不仅有错位,乱码,空格,还有重名。什么上海市第一医院,上海第一医院,上海市第一人民医院,上海市第一医院。你同一家医院给我网上放四个!!更别提分院、地址不匹配等等。
后来才知道这步骤叫数据清洗。继续用excel函数整理。我一直信奉的准则是:如果能用简单的,可复用的方法,就绝对不重复操作。我坚信永远有省时省力的方案。这期间Excel水平提高的飞快。另外也养成了随时保存的好习惯,微笑脸。
虽然爬虫从学习到成功还是花了不少时间。但是和从网上拷贝下来比,那效率是高多了。
大概同一时期,我把网站也学习了。
我们产品是APP+Web框架,很多功能和活动都是用Web页实现。当时用的是百度统计。系统的学习了漏斗转化,访问路径,跳出率退出率等。
那时针对各类活动的分析都能迅速落地,比如活动期间的流量,用户的转化率等,都是能很快获得反馈的分析,是能对运营产生直接了解的。后续的活动都纳入了分析,也将百度统计的相关应用推广到运营部门。
随着分析的深入,自己对分析也有更高的数据要求。比如什么样的用户更容易参加活动?用户流失的原因是什么?
不论是下载的报表,还是网页统计,在当时都很难做到。很长一段时间只能用粗略的描述性统计,而不能定位到具体的人。
数据分析很多技能都能后天磨练,但我觉得一个好的数据分析师一定会有好奇心,会去提问,会想问题,也能去解决问题。不是为了分析而分析。
随着公司业务线的拓展、用户数量的提升。我用Excel做关联越来越吃力,效率也几何程度的降低。15年8月的时候,我再一次向研发老大提需求时,他对我说:要不给你开个数据库权限,你自己查吧。
我:我不会SQL啊。
研发:不要紧,很容易学的。
我:好啊好啊。
我内心是很爽的,老子再也不用求你们了!
一个月后,所有部门的数据需求都不走研发,而是堆叠到我这。显然让我用SQL是有天大的预谋。可我还是很感谢接触SQL,让我能接触到的数据呈几何上升。
那时期还有一个任务挑战,我需要搭建用户运营的数据体系,包括留存、活跃、回流、分层等指标。我网上一边查运营指标的应用和解释,一边查SQL的实现。
这是我第一次开始接触、了解和建立以业务为核心的数据体系。
当时,我们运营,好长一段时间的推送、短信、营销都是全量。一故脑儿的都推给用户,没有细分。在指标建立后,我们部门开始尝试用自己数据体系去运营。
举两个最简单的例子:比如你最近打开过我们APP,那么我们就不会给你推最新的活动短信,因为我们默认你能在APP中看到。
再比如,用户用过APP很长一段时间,我们冠他叫忠诚用户,后来突然他连续几周不用,那么我们会找出这个用户,电话询问为什么不用,尝试唤回他。
也是从那时开始,我有意的去衡量各类运营效果,比如活动的人均成本,短信的人均效果成本,用户价值周期等。并且不断优化。
利用数据建立指标,对业务最直观的感受就是有据可依,分析和运营能够有针对性。
数据多起来后,每日维护数据报表成了最花时间的事。虽然当时我们用了Presto+Airpal的数据平台,但不管各类业务线,还是APP基础数据,我和我部门花费在整理上的时间越来越多,分析越来越少,更不要说落地和执行。
之后则顺理成章地引入BI,在此之前我都不知道BI是个什么鬼。
(图例,当时了解后,我就这么被BI给折服了)
BI的学习曲线没那么陡峭,为了实现运营的数据报表自动化(依旧是为了省时省力),请求研发(一顿饭)多带带开了一台服务器进行私有化部署,连接数据库,花了大约一个月的时间将所有的报表需求都迁移到服务器上。
爽。
很多工作都简化或者剔除:能够监控任何的推送和短信效果,市场销售的分析能够定位到人,随时掌握业务线的波动。
有数据才能分析,能有充裕的人手安排监控和观察数据,至此,运营的数据体系有了基础。
在15下半年,我则向产品提出(没请吃饭)需求希望布置APP和Web埋点,通过用户的路径了解用户,也弥补百度统计的缺点。埋点数据亦全不亦少,亦早不亦迟,我们埋点比较迟,如果早一点,可能有更多时间进行优化工作。
当时经过考虑,埋点数据会比较多,要用到Hadoop,虽然从后续看,Hadoop并不是必需的选择。但是也提前让我了解到大数据(当然数据本身不大,具体是相关领域技术)。
埋点数据使用Hive建立离线的脚本清洗、分区、加工后导入到MySQL。蛮遗憾的是业务用不太到Hadoop,只是数据管理而已,所以我了解不怎么深。
到此底层的数据都已经完善。后续都是上层的加工。
今年初,我开始学习数据挖掘,往数据分析更高层进阶,先入手的是R。
自身没有啥编程基础,基本上是工作后和研发的耳濡目染,所以学起来较为吃力。主要是敲书上的语句学习。整本书敲下来,基本了解拿到一堆数据知道怎么清洗,怎么使用描述性统计,怎么进行作图。
基础学的差不多,开始啃算法,我是应用型为主,所以绝大部分的算法都不学习数学推导。当然决策树,K聚类这种简单的都掌握。
大概所有数据挖掘的初学者,都会用到Iris Data的数据,然后就是泰坦尼克的幸存者分析吧。是的话点个赞,哈哈。
我不是啥数据挖掘工程师,我喜欢称自己调包侠。
后来还去参加了数据挖掘的比赛,是一个信用欺诈模型,典型的数据不平衡问题。数据完全脱敏,从字段上无法得知业务意义。
这和平时直接拿干净的数据源做模型完全两回事,模型的recall一直不理想,最终也没有什么成绩,最大的帮助就是知道自己有多井底之蛙。
后来重视特征选择、特征加工这块。好的数据和特征,能够很大程度决定模型的优劣。我之前练习时,因为我本身是运营,挑选的特征都是经过择优和强相关的,实际特征工程是我非常大的短板。
关于数据挖掘我还在不断学习的过程中,以后有机会再多补充吧。
Python的学习,说来还是归因于研发大哥们(这次不请饭了)。因为我们业务线的数据比较多,产品改需求更多,很多表的结构不堪入目,常用的SQL必需各种嵌套,应用起来比较麻烦。
我不喜欢重复无意义的工作,我希望有清洗整理过的数据,于是提需求。
结果当然是需求延期。
这个让我想起了一段经典的对话:
产品&运营:这个很简单的
研发:U Can U Up
仔细思考了一下,数据清洗我肯定会不断改需求(我就是对自己如此不自信),请研发大哥们的咖啡和晚饭会比较多,那还不如自己动手,反正数据分析将来也得用Python,撩袖管UP。
下载Python,安装GitLab,开启CI权限,然后进行数据仓库的规划。我自然不知道数据仓库应该是啥样子。反正目标是我们运营数据怎么用怎么爽…
继续拿起书本,用Pandas编写ETL和数据仓库的相关代码。期间对数据表进行了无数次的调整,性能优化查询优化,怎么样能适应业务的拓展,如何防止数据膨胀。
Truncate无数次,换其他公司早被砍了吧。
最终总算满意,并且将常用的几个清洗过程函数化,以后可以快速复用建表。比如七天内某业务数据,三十日内某业务数据。
数据挖掘的常用特征库一并建立,会用离线算法进行一些业务响应模型的预测,准确率达到75%以上。虽然和大牛们比不咋滴,但是作为运营有算法模型,感觉还是蛮爽的。
下一步,我们团队开始用数据仓库中的数据,抽象成用户画像。
我网上看过很多用户画像的文章,比如用户的年龄、性别、爱好、财务状况等画像,可我们不是电商行业,用户的兴趣对我们的业务没有实际帮助。我则只根据自身对业务的理解制定画像标准。
例如以经典的RFM框架,制作标签:一个月没有产生订单、近期产生的订单频率较低等。帮助销售和运营判定用户需要激励还是发展。
说白了,我不了解其他企业的用户画像,可能水平再高点,会用上主成分分析或者聚类等。但我依旧坚持以自身运营的角度去分析和提炼,只要对业务有帮助就是好的用户画像。幸好画像的代码都是自己搞定,后期要改需求也是自己改,不用请吃饭了。
自己对数据分析的了解和深入,都是工作中一步一个脚印走下去的。有模仿前人的经验,也有团队的摸索。不敢说自己有多少心得,从去年用MySQL到现在也才一年多时间,还有很多有意思的数据想尝试和学习:
网站数据分析和APP数据分析的异同在哪里;
我了解SEO的知识,但是流量没有实战检验,很想用Python爬虫+AB测试去获得权重;
营销很希望有大金额的预算操作,通过优化不断降低CPC;
Spark已经是趋势,可还没有接触过;
数据学的越多,越觉得不算入门,更别提还有运营的本职工作。
另外,我还知道自己的不足和局限,比如不知道大厂的数据产品是什么样的,比如有没有更棒的数据运营案例,都很愿意和大家一起交流。
很高兴回答您的问题。
作为一个数据分析师,结合工作我谈谈我自己的看法。
首先,做数据分析首先得学习数据库,比较数据是最基本的资源。
其次,是数据分析相关的理论,为建模或者进行进一步分析打基础。代数和统计知识要求较高。
再次,学习各种软件。Excel是最最最基本的工具,各种函数、插件的学习;SPSS、R至少掌握一种吧,个人认为SPSS更容易上手,当然每个行业有自己相对认可的工具;Python建议掌握,很强大的工具,清洗数据、建模、可视化、爬虫等等都可以完成。最后建议掌握一个可视化软件比如Tableau。当然分析完需要写报告,不管文字功底、概括能力、审美能力,都是有要求的。
最后,模型学习,这个没的说,要知道每个模型是用来干什么,比如决策树做画像是经常会用到的。
特别想说一点,数据分析不能只看数据,还要相对了解业务,脱离业务的数据分析什么都不是。
希望对您有帮助。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答