资讯专栏INFORMATION COLUMN

Chapter1 大数据概述

Dean / 760人阅读

摘要:大数据时代第三次信息化浪潮年前后,以云计算大数据物联网的首发为标志迎来第三次信息化浪潮。大数据的发展历程大数据的概念和影响大数据的特性特性指。处理大规模图结构数据。物联网应用大数据云计算物联网的关系三者相辅相成,既有联系又有区别。

1.1 大数据时代

1.1.1第三次信息化浪潮

2010年前后,以云计算、大数据、物联网的首发为标志迎来第三次信息化浪潮。

IT发展史历经的信息化浪潮如下:

1.1.2 大数据时代的到来需要技术支撑


主要表现为:

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加

1.1.3 数据产生方式的变革促进大数据时代到来

第一阶段:运营式系统阶段。实例:购物记录。数据仅由运营系统生成。
第二阶段:用户原创内容阶段。实例:微信。每个网民都成为自媒体,可以向网络发送信息。但到此为止还不足以促进大数据时代到来。
第三阶段:感知式系统阶段。物联网(IoT)的大规模普及,实现了万物互联。物联网底层是感知层,比如摄像头、传感器,这些设备时刻生成大量数据,物联网的兴起促使了大数据时代到来。

1.1.4 大数据的发展历程

1.2 大数据的概念和影响

1.2.1大数据的4V特性

4V特性指velocity、variety、value、volume。

(1)数据量大:
大数据摩尔定律(根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍)。
人类在最近两年产生的数据量相当于之前产生的全部数据量。

(2)数据类型繁多:
大数据是由结构化和非结构化数据组成:

  • 结构化数据存储在关系型数据库中,只占10%。
  • 大部分都是非结构化数据,类型非常多。

(3)处理速度快:
目前很多企业都需要秒级决策。从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。
1秒定律:这一点和传统的数据挖掘技术有着本质的不同。

(4)价值密度低,商业价值高:
如此大量的数据,很多可能都是没有价值的数据。比如监控摄像头时刻生成大量数据需要进行存储,一旦发生案件时,摄像头存储的视频才有用,但发生案件的几率很小,因此价值密度低很低。

1.2.2大数据的影响

图灵奖获得者Jim Gray博士总结人类在科学研究上,先后经历了实验、理论、计算和数据四种范式。

在思维方式方面,大数据完全颠覆了传统的思维方式:

  1. 全样而非抽样
    大数据时代之前,我们无法保存和分析所有数据,只能统计学采用抽样进行分析,舍弃了很多数据,只抽取一部分数据进行存储、计算、分析。
    而现在我们有足够的空间、可以构建服务器集群进行庞大数据处理,就可以做全样的数据分析。
  2. 效率而非精确
    之前在做抽样统计时,需要不断提高算法精度,因为抽样计算的结果误差放到全样上会被放大,容易超出许可范围。
    而全样分析不存在误差放大的问题,不追求精确度,而追求时效性、追求效率。
  3. 相关而非因果
    更多的追求事物的相关性,而不关注因果关系。不问为什么,只关注关联性。

1.3 大数据的应用

1.3.1大数据的应用领域

1.3.2举例:流感预测

谷歌使用大数据预测流感趋势,利用搜索引擎实时收集用户搜索的信息。
通常遇到疾病时,会首先使用搜索引擎搜索,然后再去医院,这些搜索关键词构成了庞大的数据库。

1.4 大数据的关键技术

1.4.1大数据技术的层次

下图为大数据技术的层次,最核心的大数据技术在数据存储与管理、数据处理与分析这两个层面。

1.4.2两大核心技术

两大核心技术指的是分布式存储、分布式处理。

分布式存储:解决海量数据的存储问题。单机无法存储海量数据时,就借助集群进行分布式存储。

分布式处理:解决海量数据的处理问题。单机无法高效完成海量数据处理时,就使用集群进行分布式处理。

1.4.3大数据技术以谷歌公司技术为代表

1.4.4大数据计算模式

目前有许多大数据相关产品存在,这些产品可能用于批处理、实时计算、交互式计算,但是没有任何一款产品可以满足所有需求。因此不同计算模式需要使用不同的产品。
典型的计算模式可以分为四种:

  1. 批处理计算:典型代表为MapReduce、Spark。
    用于解决大规模数据的批量处理
    不适合做实时交互式计算,做不到秒级响应。
    其中Spark实时性比MapReduce更好,并且可以进行迭代计算,比如数据挖掘需要迭代计算时就需要使用Spark。

  2. 流计算:典型代表为Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等。
    需要进行实时处理,给出实时响应,否则分析结果就会失去商业价值。

    流计算框架如下:

  3. 图计算:典型代表为Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等。
    处理大规模图结构数据。
    现实生活中比如社交网络、交通网络都可以转成图结构进行处理。

  4. 查询分析计算:典型代表为Hive、Dremel、Cassandra、Impala等。
    用于大规模数据的存储管理和查询分析。

计算模式总结表如下:

1.5 大数据与云计算、物联网的关系

1.5.1云计算

云计算要解决两大核心问题:即海量数据存储和处理问题。

云计算典型特征:虚拟化多租户

云计算的概念:通过网络以服务的方式为用户提供非常廉价的IT资源。

云计算的优势:企业不需要自建IT基础设施,可以租用云端资源。

云计算的三种模式:公有云、混合云、私有云。
公有云举例:百度云,面向所有用户。
私有云举例:电信、移动,面向企业内部。
混合云:部分给自己,部分给公众。

三种云服务:IaaS、PaaS、SaaS

  1. IaaS:基础设置即服务
    将基础设施(计算资源和存储)作为服务出租。
    比如亚马逊提供了EC2,可以直接购买并在环境上安装系统和业务等,平台已经提供CPU等资源。
  2. PaaS:平台即服务
    个体没有能力独立开发云计算产品,不具备环境。
    比如新浪搭建了云计算分布式开发平台Sina App Engine,可以购买后在新浪上开发、部署云服务。
  3. SaaS:软件即服务
    将软件作为服务出售。
    典型案例:云财务软件。
    从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租应用程序,并计时收费。

云计算关键技术:

  • 多租户:同时为多个用户服务。
  • 虚拟化:上机操作均基于Linux环境,可以利用虚拟化技术,再虚拟机上装Linux系统。比如虚拟专用网VPN。

云计算数据中心:数据中心是云计算的温床。各种数据和应用都位于数据中心。

全球各地大量建设数据中心:

数据中心投资非常高昂、耗能非常大,因此必需建设在地址结构稳定、气候凉爽的地方。

政务云、教育云、中小企业云、医疗云都是云计算的应用。

1.5.2物联网

物联网:IoT(The Internet of Things)

物联网概念:物物相连的互联网,是互联网的延伸。

物联网层次架构:

典型物联网应用:智能公交。在公交车上的JPS定位相当于感知层,通过沿途基站传输信息,用户通过因特网访问。

物联网的关键技术:

  1. 识别与感知技术(二维码、RFID、传感器等)
  2. 网络与通信技术
  3. 数据挖掘与融合技术等。

物联网应用:

1.5.3大数据、云计算、物联网的关系

三者相辅相成,既有联系又有区别。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/119621.html

相关文章

  • chapter1:计算机网络概述

    摘要:在传输层前者提供面向连接的服务后者提供面向无连接或无连接的传输服务。共同点均实现异构网络互联,不同厂家数据通信网络传输过程用户自然语言通信数据应用层封装分段数据单元协议控制信息网络传输解封装通信数据自然语言应用层用户 ...

    lidashuang 评论0 收藏0
  • 一起来学SpringBoot | 第一篇:构建第一个SpringBoot工程

    摘要:由于本人更习惯使用所以后续案例都是基于与,同时这里是基于最新的编写的哦创建项目初次接触,我们先来看看如何创建一个项目,这里以为例,其他的工具小伙伴们自行搜索创建方式。创建完项目后,各位小伙伴请认真细心的对比下与传统的工程有何区别如目录结构。 SpringBoot 是为了简化 Spring 应用的创建、运行、调试、部署等一系列问题而诞生的产物,自动装配的特性让我们可以更好的关注业务本身...

    jayce 评论0 收藏0
  • Chapter1 Java初识

    摘要:简介年由公司发布的一门面向对象的程序设计语言虚拟机。两个主要组件编译器源程序转成字节码运行编译后的程序后缀运行时环境。 Lecture1 Java简介 1995年由Sun公司发布的一门面向对象的程序设计语言 JVM(Java Virtual Machine):Java虚拟机。是实现Java平台无关性的关键Java程序的执行流程:解释执行的过程由JVM来完成,即JVM把字节码文件解释...

    K_B_Z 评论0 收藏0
  • 一起学并发编程 - 利用观察者模式监听线程状态

    摘要:在前面的文章中介绍过观察者模式及并发编程的基础知识,为了让大家更好的了解观察者模式故而特意写了这篇番外概述在多线程下我们需要知道当前执行线程的状态是什么比如运行,关闭,异常等状态的通知,而且不仅仅是更新当前页面。 在前面的文章中介绍过 观察者模式 及 并发编程的基础知识,为了让大家更好的了解观察者模式故而特意写了这篇番外.. 概述 在Java多线程下,我们需要知道当前执行线程的状态是...

    Juven 评论0 收藏0
  • 一起学并发编程 - synchronized详解

    摘要:每个对象只有一个锁与之相关联。实现同步则是以系统开销作为代价,甚至可能造成死锁,所以尽量避免滥用。这种机制确保了同一时刻该类实例,所有声明为的函数中只有一个方法处于可执行状态,从而有效避免了类成员变量访问冲突。 synchronized是JAVA语言的一个关键字,使用 synchronized 来修饰方法或代码块的时候,能够保证多个线程中最多只有一个线程执行该段代码 ... 概述 ...

    acrazing 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<