专题详情LABEL DETAILS

首页/专题地图/数据湖

数据湖

数据湖
数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。 它通常把企业所有的数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV/日志/XML/JSON),非结构化数据 (电子邮件/文件/PDF)和 二进制数据(图像/音频/视频)。 数据湖的本质包含四个标准:1. 统一的存储系统;2. 存储原始数据;3. 丰富的计算模型/范式;4. 数据湖与上云无关。这四个标准来判断,开源大数据的Hadoop HDFS存储系统就是一个标准的数据湖架构,具备统一的原始数据存储架构。
  • 数据湖与数据仓库的区别

    数据湖与数据仓库的区别

    1、数据结构:数据仓库只能存储经过处理和提炼的数据,而数据湖存储尚未出于某种目的处理的原始数据。因此,数据湖需要比数据仓库大得多的存储容量,且数据灵活、分析迅速,非常适合机器学习。2、加工:数据仓库使用写入时序模式的方法来处理数据以赋予其形状和结构,而数据湖对原始数据使用读取模式来处理它。3、成本:存储在数据仓库中的成本可能很高,尤其是在有大量数据的情况下,而数据湖是专为低成本数据存储而设计,成本...

    白马啸西风

最新活动

<