{eval=Array;=+count(Array);}
作为一个数据分析师来回答一下:
我做这行两年多了,刚开始的时候用的多是MySQL数据库,当然,Oracle数据库也会用到,尤其是在金融行业或者国企都用Oracle,一般的公司使用MySQL数据库,可能是因为MySQL数据库免费吧。另外,在一家互联网公司,我遇到了mongodb,目前一些新兴的互联网公司使用nosql的也比较多,这个当时是现学现卖的。作为一个数据分析师,可能对数据库的使用一般是存取数据,至于更高级别的优化、事务之类的,一般是使用不到的,有专门的数据库人员,我们只要用好数据库就好。
说道数据分析或者数据挖掘,除了数据库来存取数据,我们还需要处理数据的工具,最趁手的当然是Python了。Python结合数据库是日常的code,Python也提供了齐备的工具,针对MySQL的有pymysql库,和oracle结合有cx_Oracle库,和mongodb结合有pymongo库,另外当然少不了我们的数据分析利器pandas库了,提供了read_sql函数,支持各种数据库,直接读取成DataFrame的数据格式,十分的方便。
总结一下就是:其实遇到的大多数都是MySQL,oracle也有,这两种都是sql语句,差别不大,只要掌握sql语句,这两个数据库问题都不大,mongodb是新兴的非关系数据库,语句也不是很复杂,之间上手工作也是无压力的。结合Python中的pandas使用,让你很溜的处理数据,数据分析也就得心应手了,小case了。
小数据使用工具:excel(优秀的制图) / oracle、mysql (数据存储)/ python(数据处理)
大数据使用工具:HDFS、hive(数据存储) / python(数据挖掘)
针对你提的问题,建议如下:
ACCESS数据库,拖拽操作,建议多带带使用,工作这么多年,很少见到使用Python调用ASSCESS数据的。
如果只是数据分析,采用mysql 结合 Python比较合适,因为mysql是开源的,免费,千万级的数据处理没问题。ORACLE是收费,现在国内的公司在去ORALCE,因此不建议。
数据分析OLAP,是一个很宽泛的概念。题主既然问的是数据分析师用的数据库,这个很难去确定使用哪种固定的数据库,不同领域一般侧重性质不同的,跟数据本身的数量级也有一些关系。
大体上来说,中小企业数据普遍在TB以下,更多是使用关系型数据库mysql,sqlserver,oracle,pgsql等做一些分析,结合一些MPP类数据库比如clickhouse,impala,mariadb columnstore基本上能达到期需求。
上述的都是属于通过标准的SQL进行分析的,如果有特殊非结构化数据分析需求,可以考虑先进行结构化转换,或者使用hdoop,spark等进行处理。
python对上述提及的数据库都有支持,Access是比较初级的本地数据库,处理能力也比较初级。
希望对你有帮助。
数据分析师用哪个数据库比较好?
感觉这个问题有点偏离数据分析师的工作职责
日常数据分析师用的最多的还是word软件尤其ppt、excel,数据存储处理可以结合access用。数据库目前一般公司用mysql的还是比较多,免费 轻量级的,还有比较多的现在也在用pg(postgresql)。
其次分析师是用一些专业的分析软件spss,获取数据 自助分析 用的 BI软件平台 向:tableau、dc等。
其实个人想强调的是 分析师 60%的时间可能会花在数据的获取、处理和准备上,所以必然会用到sql,个人觉得 对于分析师 与其去了解数据库,不如好好去学下sql,因为sql是标准化的数据查询语言,所有的关系型数据库包括一些开源的数据库甚至各公司内部的数据平台 都对它 有良好的支持,兼容。
最后对于第三方的一些数据收集 或者一些跨平台的数据处理,包括一些分析 可以用python,python上手简单。
推荐一个网站学习这些内容:菜鸟教程。runoob.com
这的看你需要分析的数据有多大了,M级随便哪个库,G级oracle或sql server, T级估计就的上hbase之类了,数据再大就麻烦了,如果你仅仅是分析有多少条,上面的请忽略。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答