故障现象
故障处理过程
故障根因分析
此次故障初步分析根本原因为hbase集群在进行相关写入测试时,有大量的预分区和数据写入,没有及时进行清理,时间久了导致hbase因负载过高而崩溃。
崩溃后测试人员尝试进行恢复但是失败,期间进行了zk实例的删除,zk异常启动时,写入log失败导致出现了大小为0的最新log文件,进一步导致最终zk无法正常启动。
优化建议
1. 对hbase历史的数据进行清理,释放集群的regions数量,维持在较健康的水平(已完成);
2. 测试人员在后续测试后,及时进行hbase表及数据的清理,避免多人大量数据写入导致hbase负载过高而崩溃,清理数据方法为truncate ‘tablename’(已通知测试人员);
3. 建议测试环境的重要权限进行人员管控,CM管理界面的admin密码不要让过多人员有权进行操作,避免再次出现误删除zookeeper实例或者其他实例的问题。
写在文末
1. hbase集群的运行通常是一个zk+hdfs+hbase综合的架构,处理hbase问题时,一定不要单只看hbase组件,综合zookeeper和hdfs组件一起分析往往有奇效;
2. zookeeper组件在此综合架构中属于最底层,建议部署时只作为hdfs和hbase组件依赖使用,不要用于其他业务数据的存储使用,避免zk的问题影响到整个hdfs和hbase集群;
3. 文中hbase regionserver建议承载reigons在1000以内是基于JVM设置32G的前提下的,如果环境JVM过小,承载regions的数量建议也对应减少,另regionserver的JVM不建议高于32G,避免GC的时机过久导致服务异常。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/129575.html
摘要:它主要包括以下几部分采用对文本进行文法分析,生成语法树。对语法树进一步进行分析,类似程序编译器的语义分析,对语法合格的进一步进行检查。优化器对语法树应用各种规则,生成不同的执行计划,形成一个搜索空间。 Trafodion简介 Trafodion是一个构建在Hadoop/HBase基础之上的关系型数据库,它完全开源免费。Trafodion能够完整地支持ANSI SQL,并且提供ACID事...
摘要:它主要包括以下几部分采用对文本进行文法分析,生成语法树。对语法树进一步进行分析,类似程序编译器的语义分析,对语法合格的进一步进行检查。优化器对语法树应用各种规则,生成不同的执行计划,形成一个搜索空间。 Trafodion简介 Trafodion是一个构建在Hadoop/HBase基础之上的关系型数据库,它完全开源免费。Trafodion能够完整地支持ANSI SQL,并且提供ACID事...
摘要:而支持事务处理,尤其是分布式情况下的事务和数据一致性是很复杂的事情。 Trafodion是Apache基金会的一个开源项目,提供了一个成熟的企业级SQL-on-HBase解决方案。Trafodion的主要设计思想是处理operational类型的工作负载,或者是传统的OLTP应用。此外,对于需要保证数据一致性、需要标准SQL开发接口,或者需要实时数据读写分析的应用,Trafodion也...
阅读 1249·2023-01-11 13:20
阅读 1558·2023-01-11 13:20
阅读 1012·2023-01-11 13:20
阅读 1680·2023-01-11 13:20
阅读 3971·2023-01-11 13:20
阅读 2519·2023-01-11 13:20
阅读 1355·2023-01-11 13:20
阅读 3486·2023-01-11 13:20