摘要:人们常说,大数据是游戏规则改变者和数据仓库的继承者。大数据查询优化。大数据吹们总是试图抛弃掉传统数据仓库,只是强调它实施和技术问题,而没有理会它对于组织的价值。
对于一家自身组织运行历史数十年的公司来说,数据仓库会是一种有效帮助其报告和理解相关操作的方式。在数据仓库出现之前,对来自不同系统的数据进行报告与收集是一项昂贵、耗时而且常常徒劳无功的尝试,而数据仓库保证了来自单个存储库数据的干净与集成性。
将多种报表工具连接到单个数据模型的能力催生了一个我们目前很数据的行业: 商业智能(BI)。然而,由于复杂的方法和设计、不适当的工具以及高的开发、维护和基础设施成本所拖累,传统数据仓库体系结构和方法的原始概念应用在今天也变得不再那么易于接受。
可以说,不久前,计算依然是一个非常昂贵的资源,数据仓库还受到“稀缺性管理(managing from scarcity)”观念的限制。相反,各类方案数据设计也在尽量减少数据库的规模,比如通过聚合数据、创建复杂的子数据库设计和密切监测资源的使用等。
但是在今天,似乎数据仓库不再那么受到媒体们的重视。
数据仓库,已凉?
随着大数据,尤其是Hadoop的崛起,我们经常会听到供应商、分析师和大咖们说数据仓库已经死了。毕竟,它们昂贵、僵硬、缓慢。
人们常说,大数据是游戏规则改变者和数据仓库的继承者。但它其实不是,如果说有什么区别的话,那就是大数据为数据仓库提供了一个实现自我价值(或者至少是将其延伸到更接近其原始目地的地方)的机会:成为有用的、可操作的分析数据来源。
但数据仓库的思考者必须放弃对物理结构的执着才能做到这一点。相反,未来的数据仓库将不得不与许多不同的数据源合作。它将充当一种虚拟结构,运行一种“安静的”历史数据仓库,并进行极致化、不受约束的分析数据库以提供实时更新和实时响应,此外它还将运行其他非关系型大数据集群(如Hadoop)的包围策略。这样,大数据会迫使组织扩大其分析业务的规模,无论是在数量上还是在投入的种类上。而同样重要的是,企业还要扩展其关于如何在组织内外扩展和加强技术使用的愿景。
本地部署?云?混合?
以下是目前部分(但不完整)的数据仓库平台列表:
传统数据仓库“幸存者”,他们最初是本地部署支持者,现在是混合玩家:
IBM
Microsoft
Teradata
Pivotal/Greeenplum
Oracle
纯云:
Redshift
Snowflake
Incorta
一般来说,关系型数据库(RDB)的数据仓库继承了上述这些模式的所有优点和缺点,特别是对于那些专为事务处理而设计的RDB而言,但是后者的设计初衷其实是为了数据仓库和它们用以支持分析的特别处理需求。
微软,IBM和Oracle便是其中的代表。在数据仓库的早期阶段,这三家产品的性能非常差,这促使客户寻求了那些专为数据仓库运营而设计的产品,例如Teradata,Red Brick,Pivotal / Greemplum,Vertica以及Paraccel,后者的来源代码由亚马逊授权并重新命名为Redshift。
后来,厂商们在改进他们数据仓库产品方面取得了一定的进展。如微软授权Sybase为SQLServer提供代码,IBM和Oracle也不断改进和改进他们的产品。
就目前而言,所有五个“幸存者”都拥有完整的云,本地部署和混合云解决方案。问题是,“纯云计算”产品和“幸存者”的云产品真的有什么不同吗?
每个产品都有一系列重叠的功能,但核心问题是:
基于云的数据仓库有哪些优势?
与纯云产品相比,“幸存者”是否提供了足够的优势?
大数据服务公司Alooma 指出:
“每个云仓库都有自己的结构,而不是遵循特定的结构。例如,Amazon Redshift模仿传统数据仓库的结构,而谷歌BigQuery根本不使用服务器,它允许用户查询和共享数据,而无需设置和支付存储费用。”
那么,云数据仓库会带来些什么?
规模/扩展性: 通常,计算资源是数据仓库中比数据存储更昂贵的组件。通过将计算资源从存储中分离出来,数据仓库可以存储大量数据,并按要求处理信息。在本地方案中,所有这些数据都需要以高得多的成本进行本地存储。
灵活性:通过将数据从计算流程中分离出来,用户可以创建所需的任意数量的虚拟数据仓库。
性能: 这仍然是一个一目了然的事情,在数据仓库/分析查询中,仅仅多运行几个服务器并不意味着性能的提升。让Teradata这样专门的厂商如此成功的原因是,几十年的工程设计,大规模的并行处理优化和工作负载的管理技术,或许最重要的是,Teradata提供软件引擎与用户所运行的专有硬件之间的链接,并且性能还在不断改善。
成本: 每个人都在说云改变了定价模式,但是没人确定实施的成本是多少。廉价存储的诱惑可能会导致事情失控,因为它可能是相对便宜的,但终归不是免费的。所有的传统厂商都转向了订阅定价方案,但每个合同都非常复杂。这里建议是聘请一位合同和定价细节方面的专家(我们在ERP领域中经常看到这一点)。
安全性:这是一个棘手的问题,因为有太多的接入点,尤其是在混合解决方案中。大多数数据库产品会实施针对内部威胁的安全性,但是近些年来自外部威胁的激增。
一个数据仓库应具有哪些能力?
支持任何数据局部性(本地磁盘、Hadoop、私有和公有云数据)。
数据库内高级分析。
能够处理本地各类型数据,如空间、时间序列和/或文本。
能够运行新的分析工作负载,包括机器学习、地理空间、图形和文本分析。
灵活部署,包括在本地、私有和公有云上。
大数据查询优化。
复杂的查询形式。
基于模型的大规模并行处理,而不仅仅是分片处理。
工作负载管理。
负载平衡。
可扩展到数千个并发查询。
完整的ANSI SQL及更多。
写在最后
原生云数据仓库数据库可能提供以前的“幸存者”数据库所没有的功能和优势,但是它们有多健壮呢? 我们目前不好妄下评论,但是,一些纯云产品在满足用户的许多需求方面都相对较差。它们是数据仓库产品,还是现有模块的集合,并将其绑定在PowerPoint幻灯片上?例如,Cloudera的数据仓库中没有增加任何在他们开始称之为数据仓库之前不存在的东西。这就像把不同物种的不同细胞系扔进培养皿里,就称其为有机体一样。
这里,或许还是那句老话“不管黑猫白猫,抓到老鼠就是好猫”。大数据吹们总是试图抛弃掉传统数据仓库,只是强调它实施和技术问题,而没有理会它对于组织的价值。所谓的“数据湖”可能并不是一个好方案。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/5848.html
最近公有云不够太平,在阿里云故障、AWS故障、谷歌云故障之后,腾讯云也挂了……,几大公有云频频出现故障,一时让很多上云的小伙伴们无从选择,还能有靠谱点的吗?其实,关于公有云的故障,早就引起了很多不满,一度成为人们上云的最大障碍。这些都是公有云里的大牌,市场地位显赫,技术过硬,也是不差钱的金主,但仍逃不过故障的魔掌,其它的公有云就更不用提了,只是市场份额不大,出了故障也不像这几个更受人们关注罢了。这...
摘要:中国云计算产业进入下半场。业内人士认为,阿里云也是抄上的。一超多强长期存在,背后是生态在较量据年上半年中国公有云市场份额调研报告显示,阿里云腾讯云金山云位列前三,合计占据了中国公有云的市场份额。中国云计算产业进入下半场。标志是政府和传统企业开始上云。2006年,Amazon Web Services(AWS)开始向企业提供IT基础设施服务。作为战略的跟随者,阿里巴巴于2008年开始布局云计算...
摘要:厂商,的核心竞争力主要是电和网,各地政府引入云计算基地会解决电的问题,固网垄断也越来越松动了。 第一. 时代大幕刚刚拉开历史和现状总是藕断丝连,如果用《三国》形容云计算行业,那前奏刚刚结束,大戏还没开场,正是黄巾军将要被平定,天下诸侯自立为王的阶段,一董二袁崭露头角,曹操刘备还没登场。 首先看谁是黄巾军?那...
摘要:厂商,的核心竞争力主要是电和网,各地政府引入云计算基地会解决电的问题,固网垄断也越来越松动了。 第一. 时代大幕刚刚拉开历史和现状总是藕断丝连,如果用《三国》形容云计算行业,那前奏刚刚结束,大戏还没开场,正是黄巾军将要被平定,天下诸侯自立为王的阶段,一董二袁崭露头角,曹操刘备还没登场。 首先看谁是黄巾军?那些OpenStack创业厂商。他们衣衫褴褛阵型混乱,但对旧秩序有无穷尽的破坏力,经过...
摘要:相比较风起云涌的公有云市场,为何在政务云市场,华为等中立云服务提供商的优势如此明显,这与政务云市场本身的特点又有什么关系如今,随着政务从管控型向服务型加速转型,政务的数字化转型已经迫在眉睫。不久前,一则关于公有云项目竞标的消息在业界广受关注。根据财政部政府采购信息公告,在国家税务总局网络学院培训平台转型升级公有云租用项目中,阿里云投诉华为提供虚假材料谋取中标一事,因为证据不足,投诉事项缺乏事...
阅读 779·2021-11-09 09:47
阅读 1565·2019-08-30 15:44
阅读 1140·2019-08-26 13:46
阅读 2104·2019-08-26 13:41
阅读 1263·2019-08-26 13:32
阅读 3769·2019-08-26 10:35
阅读 3516·2019-08-23 17:16
阅读 445·2019-08-23 17:07