大数据真正被大家所熟知的时候也就是在2010年左右,而大数据的大背景是第三次信息化浪潮,第三次信息化浪潮就是以大数据、云计算、物联网三种新兴技术为代表的人类信息化历史上的第三次浪潮,在这之前,还有两次信息化浪潮,具体如下:
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 将涌现出一批新的市场标杆企业 |
大数据时代的到来是必然要有一些相关的支撑,首要的就是技术支撑
,主要分为三点:
① 存储 :存储设备容量不断增加
② 计算 :CPU 处理能力大幅提升
③ 网络 :网络带宽不断增加
其次是数据产生方式的变革
:
① 第一阶段(上世纪七八十年代):运营式系统阶段
例如,超市购物时在数据库系统中一条一条的生成购物信息
② 第二阶段(2002年附近):用户原创内容阶段
例如,博客、微博的出现,大众每个人都是自媒体,每个人都可以在网络上发布数据
③ 第三阶段:感知式系统阶段
这一阶段是伴随着物联网的普及开始的,物联网底层是感知层,如摄像头、传感器等,这些设备无时无刻不在感知外界信息,可以说物联网的产生才真正导致了大数据的到来
由此可以简单的概括一下大数据的发展历程:
时间 | 阶段 |
---|---|
上世纪90年代至上世纪末期 | 萌芽期 |
本世纪前十年 | 成熟期 |
2010年以后 | 大规模应用期 |
4V
特性⭐① 数据量大(Volume 大量化)
② 数据种类多(Variety 多样化)
③ 数据产生速度快(Velocity 快速化)
④ Value 价值密度低
① 科学研究的范式变化
② 思维方式的变化⭐
在之前,数据太多,无法保存和分析,统计学采用抽样,而现在,我们可以对所有数据进行分析
在之前,抽样分析要求的是精确而不是效率,这是因为抽样分析只是抽取部分数据,而不是所有数据,如果抽样计算的结果有误差,放到全样上,误差会被放大;而现在全样分析的误差就是在全样上,我们不需要刻意去追求精确,这时注意的就是效率,因为一些数据是有时效性的,如果当下没有计算出来,那这个数据就失效了
大数据的应用有很多,这里仅列举一些例子:
在之前,影视剧的投拍多是跟风,看见哪个剧拍了之后火了,其他人也拍这类型的剧,但是它不一定火;而现在,通过大数据分析,我们可以分析出选用哪个演员哪个导演拍什么剧会火,例如,美剧《纸牌屋》就是大数据分析的结果,没有大数据分析,没有人知道要找这个演员和找这个导演然后拍这个剧会火
在之前,美国的传统流感预测方式就是各医疗机构层层上报门诊病历,然后由专家汇总分析发布报告,一般来说,这个报告会比真实情况延迟一到两周;而谷歌则是用搜索引擎实时收集各类用户查询信息,通过大数据分析预测流感趋势,这是因为现在大多数人遇到小病时,先是求助搜索引擎,其次才是去医院,这样一来,谷歌就可以根据一些关键字如感冒、发烧去分析流感趋势,其预测结果也和美国疾控中心发布的报告结果基本吻合
近两年的新冠疫情,我们经常可以在手机上看到疫情的实时数据更新,其中的疫情地区分布图就是大数据的一个应用
大数据技术在以下四个层次都有发展:
但近几年发展的大数据的最核心的技术多在数据存储与管理层和数据处理与分析层,由此可概括的两大核心技术:
① 分布式存储
② 分布式处理
大数据技术原理与应用这门课程的主要内容就是将讲这两大核心技术,分布式存储技术与分布式处理技术主要是以谷歌的技术为代表,这其中主要的技术就是 分布式数据库Big Table
、分布式文件系统GFS
、分布式并行处理技术MapReduce
现在有非常多的大数据技术相关产品的存在,但是企业中不同的应用场景属于不同的计算模式,需要使用不同的大数据技术,因此我们需要学会判断计算模式并选择合适的大数据技术相关产品
① 批处理计算
- 针对问题:
- 大规模数据的批量处理
- 批处理计算的代表产品:
- MapReduce、Spark等
- MapReduce
- MapReduce 是批处理计算模式的典型代表,它就是把一堆数据拿过来作批量处理,它不适合用来做实时的交互式计算,无法满足时效性的要求
- Spark
- Spark 的实时性要比 MapReduce 好,并且解决了 MapReduce 无法高效做迭代计算的问题
② 流计算
- 针对问题:
- 流数据的实时计算
- 流数据需要实时处理,给出实时相应,否则分析结果就会失去商业价值
- 流计算的代表产品:
- S4、Storm、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
- 流计算可以做秒级的针对实时运算的数据
③ 图计算
- 针对问题:
- 大规模图结构数据的处理
- 图计算可以高效处理图数据,如:
- 社交网络数据就是图结构数据
- 图计算的代表产品:
- Google Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
④ 查询分析计算
- 针对问题:
- 大规模数据的存储管理和查询分析
- 交互式的查询计算
- 查询分析计算的代表产品:
-Google Dremel、Hive、Cassandra、Impala等
什么是云计算?云计算就是解决两大核心问题:分布式存储
和 分布式处理
云计算的典型特征:虚拟化
和 多用户
云计算的概念:云计算就是通过网络以服务的方式为用户提供非常廉价的IT资源
云计算的优势:企业不需自建IT基础设施,可以租用云端资源
云计算的三种模式:
公有云
私有云
混合云
⭐三种云服务:
IaaS
—— 基础设施即服务 Paas
—— 平台即服务 SaaS
—— 软件即服务 云计算关键技术:虚拟化
、分布式存储
、分布式计算
、多租户
物联网概念:
物联网层次架构
物联网的关键技术:识别技术
和 感知技术
⭐物联网、云计算与大数据三者紧密先关,相辅相成
至此,我们简要了解了大数据的产生和发展、大数据的特性和影响、大数据的应用和关键技术以及云计算的相关概念。
√ 圈重点:
⭐ 大数据的4V特性
⭐ 大数据的影响(科学范式、思维)
⭐ 大数据计算模式(批处理计算、流计算、图计算、查询分析计算)
⭐ 三种云服务
⭐ 大数据、云计算与物联网之间的关系
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/124042.html
目录 第一章:单片机概述 单片机的应用领域: STC89C52单片机: 单片机命名规则: 单片机内部结构图: 单片机管脚图: 单片机最小系统: 进制表: 新建一个工程: 检查单片机驱动是否安装完成: 打开Keil uVision集成开发环境 选择Atmel下的AT89C52 创建源文件 第二章:LED LED介绍: 点亮LED: 第一章:单片机概述 单片机(Micro Contr...
摘要:学习和掌握技术已经不是一个攻城狮的加分技能,而是一个必备技能。是双向的,不仅可以读取数据还能保存数据,程序不能直接读写通道,只与缓冲区交互为了让大家不被高并发与大量连接处理问题所困扰,动力节点推出了高效处理模型应用教程。 大家肯定了解Java IO, 但是对于NIO一般是陌生的,而现在使用到NIO的场景越来越多,很多技术框...
摘要:课程地址比特币开发教程以太坊,主要是介绍使用进行智能合约开发交互,进行账号创建交易转账代币开发以及过滤器和事件等内容。 什么是比特币 当我们谈到比特币时,其实在不同的场景下有不同的指代。 比特币首先是一种数字加密货币,用户可以通过比特币网络进行 比特币转账或商品结算,就和传统的货币一样: showImg(https://segmentfault.com/img/remote/14600...
阅读 1867·2021-11-22 09:34
阅读 1139·2021-10-09 09:44
阅读 3000·2021-09-29 09:35
阅读 3615·2021-09-14 18:01
阅读 1464·2021-08-16 10:49
阅读 1082·2019-08-29 14:11
阅读 847·2019-08-29 12:47
阅读 3067·2019-08-26 13:47