{eval=Array;=+count(Array);}

问答专栏Q & A COLUMN

一般用哪些工具做大数据分析?

bang590bang590 回答0 收藏1
收藏问题

8条回答

IntMain

IntMain

回答于2022-06-28 14:56

谢邀~

本君自荐一下。我们的产品诸葛io(www.zhugeio.com)可能更偏向于非技术人员的业务分析,比如产品经理、市场、运营人员。

从某种意义上也具有可视化分析的特性,但区别于其他工具的是我们面向互联网产品推广运营过程中的分析需求定义了一些分析模型,比如事件、漏斗、自定义留存、粘性、用户分群等,很多工具可以任意拖拽去做分析,但很多时候客户也会因为太灵活反而有一定门槛,所以,当一些模型被标准化以后,基本可以解决互联网产品设计、推广、运营、营销过程中的绝大多数分析需求,这也大大提供了业务人员的工作效率。

附图几张:

用户模型

全行为路径分析模型

粘性分析模型自定义留存分析模型

关于一些分析模型,我们整理出了常用的八大数据分析模型,过去两个月,每周二都会更新一个模型,很多模型大家都比较了解,但可能他又增加了一些新特性,感兴趣可戳链接:

八大数据分析模型之——用户模型(一)

八大数据分析模型之——事件模型(二)

八大数据分析模型之——漏斗模型(三)

八大数据分析模型之——热图模型(四)

八大数据分析模型之——自定义留存分析模型(五)

八大数据分析模型之——粘性分析模型(六)

八大数据分析模型之——全行为路径模型(七)

......

当然,我们也面向有高级使用需求的用户,比如数据分析师或是有一定数据查询能力的人员提供了SQL查询功能,因为还有20%的分析需求无法通过标准的模型解决,需要自己去定义。

数据都是开放的,原始数据的导出,实时数据的调用在诸葛都是支持的。数据来源于客户,数据属于客户。

1、前端表格导出

2、SQL查询平台支持

3、查询API按需调用

4、直连数据仓库

5、Kafka实时订阅

6、原始数据全量导出

以上~

评论0 赞同0
  •  加载中...
seasonley

seasonley

回答于2022-06-28 14:56

有很多开源的产品,如果有研发能力的,可以直接使用开源产品来自己搭建数据分析平台,开发自己的数据分析软件,不过这样需要较强的技术能力,付出较大的成本。

也可以使用东软平台云(https://cloud.neusoft.com/)的DataViz可视化数据分析软件,这样的专业的尅时候数据分析软件,不需要专业的分析师和技术人员,业务人员通过简单的拖拽就可以实现数据分析,还支持多种数据源,支持动态传统图表和高级可视化图表,多种科技、商务主题自由切换,支持拖拽图表组合布局,设置图表联动交互,分析结果支持适应各种分辨率的大屏展示。

评论0 赞同0
  •  加载中...
骞讳护

骞讳护

回答于2022-06-28 14:56

MongoDB—— 一种流行的,跨平台的面向文档的数据库。

Elasticsearch——专为云而构建的分布式REST风格搜索引擎。

Cassandra——一个开源的分布式数据库管理系统,最初由Facebook开发,被设计用来处理横跨多个商用服务器的大量数据,提供了无单点故障的高度可用性。

Redis—— 一个开源的(BSD许可),内存数据结构存储,作为数据库、缓存和消息代理使用。

Hazelcast——基于Java的开源内存数据网格。

EHCache——一种被广泛使用的开源Java分布式缓存,用于通用缓存、Java EE和轻量级容器。Ehcache相关介绍

Hadoop——用Java编写的一个开源软件框架,用于分布式存储和对在计算机集群上的超大型数据集的分布式处理。

Solr——一个开源的企业搜索平台,用Java编写的,来自于ApacheLucene项目。

Spark——Apache Software Foundation中最活跃的项目,一个开源的集群计算框架。

Memcached—— 一个通用的分布式内存缓存系统。

Apache Hive——提供了Hadoop之上类似于SQL的层。

Apache Kafka—— 一个高通量、分布式的发布-订阅式消息系统,最初开发在LinkedIn上。Windows上脱离Cygwin运行Apache Kafka

Akka—— 一个工具包和运行时,用于在JVM上构建高度并行的、分布式的、有弹性的消息驱动的应用程序。

HBase—— 一个开源的,非关系型的,分布式数据库,在谷歌的BigTable后建模,用Java编写,并运行在HDFS上。

Neo4j——用Java实现的开源图形数据库。

CouchBase——一个开源的、面向文档的分布式NoSQL数据库,特别为了交互式应用而优化。

Apache Storm——开源的分布式实时计算系统。

CouchDB——使用JSON来存储数据的面向文档的开源NoSQL数据库。

Oracle Coherence—— 一个内存的数据网格解决方案,通过提供快速访问常用数据的渠道,使得企业可预测地扩展关键任务应用程序。

Titan—— 一个可扩展的图形数据库,优化的目的在于存储和查询包含数千亿顶点和边的图形,分布在多机集群。

Amazon DynamoDB——一个快速、灵活、完全管理的NoSQL数据库服务,用于在任何规模需要一致的、个位数毫秒延迟的所有应用程序。

Amazon Kinesis—— 用于在AWS上的流数据的实时平台。

Datomic—— 一个用Clojure写的完全事务式的,支持云的,分布式数据库。


原文链接:https://blog.csdn.net/zhinengxuexi/article/details/90056986

评论0 赞同0
  •  加载中...
helloworldcodin

helloworldcodin

回答于2022-06-28 14:56

按需求选择吧:

19个超赞的数据科学和机器学习工具:https://www.toutiao.com/i6585379544813797901/

3大开源Python数据分析工具

https://www.toutiao.com/i6589410805932884493/

评论0 赞同0
  •  加载中...
sunny5541

sunny5541

回答于2022-06-28 14:56

看你问的是可视化工具类还是说数据处理框架。具体指的是哪方面的数据,可以评论我说明。

评论0 赞同0
  •  加载中...
qpal

qpal

回答于2022-06-28 14:56


在推荐工具之前,我们要先把数据可视化和 信息可视化分清楚,狭义上的数据可视化指的是将数据用统计图表方式呈现,而信息可视化则是将非数字的信息进行可视化。

我们常常听说的数据可视化大多指狭义的数据可视化以及部分信息可视化。根据数据类型和性质的差异,经常分为以下几种类型:

  • 统计数据可视化:用于对统计数据进行展示、分析,一般都是以数据库表的形式提供,常见的有 HighCharts、ECharts、G2、Chart.js 、FineBI等等;
  • 关系数据可视化:主要表现为节点和边的关系,比如流程图、网络图、UML 图、力导图等。常见的关系可视化类库有 mxGraph、JointJS、GoJS、G6 等;
  • 地理空间数据可视化:常见类库如 Leaflet、Turf、Polymaps 等等;
  • 还有时间序列数据可视化(如 timeline)、文本数据可视化(如 worldcloud)等等;

然后下面我再来盘点几个大数据可视化常用的工具:

一、D3

D3.js 是一个基于数据操作文档的 JavaScript 库。 D3 可以将强大的可视化组件和数据驱动的 DOM 操作方法完美结合。

D3 的优劣:

  • 强大的 SVG 操作能力,可以非常容易的将数据映射为 SVG 属性
  • 集成了大量数据处理、布局算法和计算图形的工具方法
  • 强大的社区和丰富的 demo
  • API 太底层,复用性低,学习与使用成本高

D3 没有提供封装好的组件,在复用性、易用性方面不佳,社区里有很多基于 D3 的可视化组件库:

  • nvd3.js: 基于 D3 封装了常见的折线图、散点图、饼图,功能比较简单
  • dc.js: 除了提供了常见的图表外还提供了一些数据处理能力
  • c3.js: 一个轻量级的基于状态管理的图表库

D3 有着 Stanford 的血脉渊源,在学术界享有很高声誉,灵活强大使得它成为目前领域内使用最广泛的可视化类库,但偏底层的 API 和数据驱动模式,使得上手 D3 存在一定门槛,基于 D3 的工程实现上需要自己考虑和处理更多内容,如动画、交互、统一样式等,研发成本较高。

二、FineBI

简洁明了的数据分析工具,优点是零代码可视化、可视化图表丰富,只需要拖拖拽拽就可以完成十分炫酷的可视化效果,拥有数据整合、可视化数据处理、探索性分析、数据挖掘、可视化分析报告等功能,更重要的是个人版免费。

评价:

FineBI做到了自助式分析,图表类型丰富,数据分析功能较强大,钻取,筛选,分组等功能都有。但是对于普通没有IT基础的人来说,要想真正熟练地掌握finebi,还是有一定的难度的,需要花上几天,但是这个难度相比Excel的VBA学习还是低不少的。

三、HighCharts

HighCharts 是一个用纯 JavaScript 编写的图表库, 能够简单便捷的在 Web 应用上添加交互性图表。这是在 Web 上使用最广泛的图表,企业使用需要购买商业授权。

HighCharts 的优劣:

  • 使用门槛极低,兼容性好
  • 使用广泛,非常成熟
  • 样式比较陈旧、图表难以扩展
  • 商业上使用需要购买版权

这是图表界的 jQuery,在世界范围内是使用最多最广的一个可视化类库,但整体图表设计比较陈旧难以扩展,同时商业公司使用需要按照使用人数购买版权,比较昂贵,ucloud有购买过,目前已不推荐使用。

四、ECharts

ECharts 缩写自 Enterprise Charts,企业级图表,开源来自百度数据可视化团队,是一个纯 Javascript 的图表库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器,底层依赖另一个也是该团队自主研发的轻量级的 Canvas 类库 ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。ECharts 是目前国内唯一一个入选 GitHub 全球可视化榜单的开源项目,2w+ star 全球排名第三,社区活跃,覆盖主流前端框架和 8 种编程语言的扩展,目前国内市场占有率处于绝对领先地位。

ECharts 的优劣:

  • 丰富的图表类型,覆盖主流常规的统计图表
  • 配置项驱动,三级个性化图表样式管理
  • 移动端优化,交互和布局适配,按需打包
  • 深度的交互式数据探索
  • 地理特效(百度迁徙,百度人气,公交轨迹等效果)
  • 灵活性上不如 Vega 等基于图形语法的类库
  • 复杂关系型图表比较难定制

ECharts 能很好满足传统图表需求,但在高度灵活多样化的可视需求面前,需要另寻出路。

五、Leaflet

Leaflet 是面向移动设备的交互式地图的 JavaScript 库。 测量的 JS 只有大约 38 KB,它具有大多数开发人员需要的所有映射功能。

Leaflet 的优劣:

  • 专门针对地图应用
  • mobile 兼容性良好
  • API 简洁、支持插件机制
  • 功能比较简单,需要具备二次开发能力

地图专用,其他领域使用不上。目前 Google 地图、高德地图、百度地图都拥有自研的 JS 库。

六、Vega

Vega 是华盛顿大学计算机学院数据交互实验室(IDL)开发的一套交互图形语法,定义了数据到图形的映射规则、常见的交互语法和常见的图形元素,用户可以自由使用 Vega 语法进行组合构建出各种各样的图表。

Vega 的优劣:

  • 完全基于 JSON 语法,提供从数据到图形的映射规则
  • 支持常见的交互语法
  • 复杂的语法设计,使用和学习成本很高

Vega 在学术上有着比较完美的语法设计,但在工程易用性上比较欠缺。

七、deck.gl

deck.gl 是 Uber 可视化团队基于 WebGL 开发的面向大数据分析的可视化类库。

deck.gl 的优劣:

  • 主要以 3D 地图可视化为主,内置了地理信息可视化常见的场景
  • 支持大规模数据的可视化
  • 需要具备 WebGL 的知识,层的扩展比较复杂

deck.gl 在 3D 地图领域效果很赞,在其他领域不适用。

基于 Web 的可视化工具还有很多,上面是几个一直以来使用比较多的类库工具,以及最近涌现的一些新秀。各个类库工具特性不同,定位不同,关键要看应用场景的适用性。

八、AntV

AntV 是蚂蚁金服全新一代数据可视化解决方案,主要面向从事数据可视化应用相关的工程师和设计师,目前包括:

  • 底层绘图引擎 G:目前基于 canvas 2d 提供基础绘图能力,基于 webgl 的版本正在规划中;
  • 可视化语法类库 G2:一套数据驱动的高交互可视化图形语法,提供了丰富的图表、专业的数据处理能力、便利的扩展方式和强大交互能力;
  • 关系可视化类库 G6:专注解决流程与关系分析的图表库,集成了大量的交互,可以轻松的进行动态流程图和关系网络的开发;
  • 移动端图表类库 F2:是一套精简、高效易扩展的移动端图表库,适于对性能、体积、扩展性要求严苛的移动应用场景下使用;
  • 可视化设计指引与使用规范:统计图表以及常用场景下的可视化设计指引和使用规范;
九、G2

G2 (The Grammar Of Graphics) 是一个由纯 JavaScript 编写、强大的语义化图表语法类库,提供了一整套图形语法,可以让用户通过简单的语法搭建出无数种图表,并集成了大量的统计工具,支持多种坐标系绘制,可以让用户自由地定制各种图表。

G2 的优劣:

  • 简单、易用
  • 完备的可视化编码
  • 强大的扩展能力
  • 语法需要一定学习成本
十、G6

G6 是一个由纯 JavaScript 编写的关系数据可视化类库,提供了基本的网图和树图功能,并支持多种内置布局。G6 提供了查看和编辑两种视图,开发者可基于 G6 对关系图快速进行二次开发。

G6 的优劣:

  • 简单的语法,强大的交互能力
  • 支持多种视图,易于使用的编辑视图
  • 强大的边和节点的扩展能力
  • 现阶段上层封装比较少,使用成本比较高

评论0 赞同0
  •  加载中...
mgckid

mgckid

回答于2022-06-28 14:56

1、奥威BI工具

多用于亿级数据量的大数据智能可视化分析,如大中型企业、集团项目等。

有标准化的数据分析解决方案,预设数据分析模板;无缝对接金蝶、用友等主流ERP;可做必要的个性化设计。

说白了就是给你一个标准化的、系统化的解决方案,你拿过来稍微改改就能得到一个适合自己的大数据可视分析平台。这可比自己从零开始做蓝图设计、搭建分析模型、测试要省事多了。

2、SpeedBI数据分析云

多用于小微企业、个人用户。免下载安装,在线使用。

从浏览器中登录即可免费用。拖拉拽+点击即可应用智能分析功能、可视化图表等,完成智能数据可视化分析报表。

评论0 赞同0
  •  加载中...
xingqiba

xingqiba

回答于2022-06-28 14:56

大数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。

首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。

1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。

3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;

接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。

1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。

2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。

第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;

1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。

最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。

1、PowerPoint软件:大部分人都是用PPT写报告。

2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;

3、Swiff Chart软件:制作图表的软件,生成的是Flash。

评论0 赞同0
  •  加载中...

相关问题

最新活动

您已邀请0人回答 查看邀请

我的邀请列表

  • 擅长该话题
  • 回答过该话题
  • 我关注的人
向帮助了您的网友说句感谢的话吧!
付费偷看金额在0.1-10元之间
<