资讯专栏INFORMATION COLUMN

Hadoop的核心组件

Tecode / 1994人阅读

摘要:的两个备份存储在和两个服务器上的两个备份存储在和两个服务器上分布式计算框架源于的论文,论文发表于年月是的开源实现特点扩展性容错性海量数据离线处理资源调度系统负责整个集群资源的管理和调度特点扩展性容错性多框架资源统一调度

Hadoop Common: 协调其它Hadoop组件的通用工具
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.(分布式文件系统)

  • 源自于Google的GFS论文, 论文发表于2003年10月
  • HDFS是GFS的开源实现
  • HDFS的特点:扩展性&容错性&海量数量存储
  • 将文件切分成指定大小的数据块, 并在多台机器上保存多个副本
  • 数据切分、多副本、容错等操作对用户是透明的

下面这张图是数据块多份复制存储的示意

  • 图中对于文件 /users/sameerp/data/part-0,其复制备份数设置为2, 存储的BlockID分别为1、3。
  • Block1的两个备份存储在DataNode0和DataNode2两个服务器
  • Block3的两个备份存储在DataNode4和DataNode6两个服务器

image.png
image.png

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

  • 分布式计算框架
  • 源于Google的MapReduce论文,论文发表于2004年12月
  • MapReduce是GoogleMapReduce的开源实现
  • MapReduce特点:扩展性&容错性&海量数据离线处理

image.png

Hadoop YARN: A framework for job scheduling and cluster resource management.(资源调度系统)

  • YARN: Yet Another Resource Negotiator
  • 负责整个集群资源的管理和调度
  • YARN特点:扩展性&容错性&多框架资源统一调度

image.png

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/125945.html

相关文章

  • Hadoop 入门笔记—核心组件 YARN

    摘要:主要由两个组件构成调度器和应用程序管理器,。主要负责该节点内所有容器的生命周期的管理,监视资源和跟踪节点健康。主要用来处理来自的命令。一个节点启动时,它会向进行注册并推送可用资源信息。应用运行结束后,向注销自己,并允许属于它的被收回。 作者:幻好来源:恒生LIGHT云社区基本概述Apache YARN (Yet...

    wanghui 评论0 收藏0
  • Hadoop核心组件

    摘要:的两个备份存储在和两个服务器上的两个备份存储在和两个服务器上分布式计算框架源于的论文,论文发表于年月是的开源实现特点扩展性容错性海量数据离线处理资源调度系统负责整个集群资源的管理和调度特点扩展性容错性多框架资源统一调度Hadoop Common: 协调其它Hadoop组件的通用工具Hadoop Distributed File System (HDFS™): A distributed fi...

    Tecode 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<