资讯专栏INFORMATION COLUMN

一体机系统盘offline的处理过程

IT那活儿 / 1267人阅读
一体机系统盘offline的处理过程
点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!

  

概述:

一体机有数据盘和系统盘,数据盘要是missing可以由其它柜数据盘重平衡后修复,但是系统盘在硬件上只有一组冗余,坏了之后需要即时修复。




事情发生及分析

1. 发现问题
收到一体机数据库ASM存在离线磁盘组的告警告警。
2. ASM检查
数据库检查ASM磁盘情况,发现存在offline disk磁盘。
3. 临时方案
尝试手动online asm disk,执行后失败报not visible cluster-wide
说明存在损坏,有可能是物理坏盘了。
4. 分析日志
1)查看ASM日志,确认为底层磁盘有问题。
2)登录一体机进行状态检查,发现所有磁盘组为正常,对应ASM的的磁盘组提示状态未更新。
找到对应的节点进行日志检查,发现存在ERROR日志,确认为00号盘损坏,需要及时更换注:一个cell节点有12块盘其中00和01为系统盘所以存在异常需要立马进行更换,避免出现因系统盘异常导致的二次故障)


解决过程

经过和同事分析后,必须尽快对物理盘进行修复,先对坏盘drop,再修复物理盘。

1. 旧盘清理drop

在db节点上grid用户登录,这是要确认一下asm disk是不是被drop掉。drop掉就可以直接更换,如果没有,就需要手动去drop。
[root@dw01db01 ~]# su - oracle
[oracle@dw01db01 ~]$ ssh oracle@dw01db02
[oracle@dw01db01 ~]$ env
[oracle@dw01db01 ~]$ export ORACLE_SID=+ASM1
[oracle@dw01db01 ~]$ export ORACLE_HOME=/u01/app/11.2.0.3/grid
[oracle@dw01db01 ~]$ sqlplus / as sysasm
SQL> set linesize 132
SQL> col path format a50
SQL> select group_number,name,state from v$asm_diskgroup;
GROUP_NUMBER NAME STATE
------------ ------------------------------ -----------
1 DATAC1 MOUNTED
2 DATAC2 MOUNTED
3 DATAC3 MOUNTED
4 DBFS_DG MOUNTED
5 RECOC1 MOUNTED
SQL>select group_number,path,header_status,mount_status,mode_status,name from V$ASM_DISK where path like %CD_00_ndw1celadm02;SQL> SQL>

GROUP_NUMBER PATH HEADER_STATU MOUNT_S MODE_ST NAME
------------ -------------------------------------------------- ------------ ------- ------- ------------------------------
0      o/192.168.XX.7;192.168.XX.8/RECOC1_CD_00_ndw1celad UNKNOWN CLOSED ONLINE
m02

0      o/192.168.XX.7;192.168.XX.8/DATAC1_CD_00_ndw1celad UNKNOWN CLOSED ONLINE
m02
本次磁盘损坏ASM相关的磁盘没有drop,需手动drop,在手动drop之前还需要确认当前的ASM实例是否仍在reblance。
SQL> select * from gv$asm_operation where state=RUN;
no rows selected------没有正在运行的reblance
没有运行的reblance,进行磁盘drop:
SQL> alter diskgroup RECOC1 drop disk RECOC1_CD_00_ndw1celadm02 
rebalance power 4;----并发可根据实际情况进行调整
2. 机房现场检查
完成drop后即可进行磁盘更换,在机房找到指定一体机,上方为db节点,下方为cell节点(drop掉后到对应cell节点检查状态会发现该块异常盘未提出节点,cell节点的顺序是由下至上),查看故障指示灯,橙灯亮表示为有异常!

3. 机房硬盘更换

找到指定位置后进行拔插,注意拔掉磁盘后等待5-10分钟再将磁盘插入。

在此过程中遇到问题:

  • 本次X5-X6为一套集群,并且X5-X6的硬件可以共用的,但是X5的硬盘为4T,X6为8T。刚好携带的硬件为8T进行插盘后无法兼容。导致插入新盘状态持续未恢复!

    此过程中重新插入拔出不会有任何影响,重新跟换适配盘进行插入。所以更换前一定确认清楚设备型号已经其他节点已经运行的设备容量

  • 更换为指定符合要求的硬件后,插入硬盘指示灯闪烁后仍为橙灯,检查发现为新盘一直未加入到节点组中。通过cellcli -e list alerthistory命令可查看新盘插入后的分配情况,提示未分配到指定的组中,检查发现为节点的/目录满了导致,清理后再次拔插磁盘恢复正常。
    由于00和01为系统盘所以当/目录空间不足时无法进行重新平衡)插入后观察指示灯,绿灯快速闪烁后恢复正常闪烁。登录对应cell节点检查日志。
[root@ndw1celadm02 ~]# cellcli -e list alerthistory---查看日志
[root@ndw1celadm02 ~]#cellcli -e list griddisk---检查状态
都恢复正常后进行rebalance操作:
alter diskgroup DATAC1 rebalance power 32;

至此一体机换盘全部完成!


事情总结

  1. 每天做好一体机硬件巡检。
  2. 每天做好数据库存储ASM巡检。
  3. 坏盘后即时做好应急方案,根据实际情况制定处理方案并解决。
  4. 事情出现后,若无法自己判断严重性,应该立即上报,寻求专家协同分析后,再制定相应措施,避免二次故障及人为问题。
  5. 做好备件核查及备件入库,避免出现硬件问题,无法即时得到更换。

本文作者:曹安匀(上海新炬王翦团队)

本文来源:“IT那活儿”公众号

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129236.html

相关文章

  • 【云极高性能计算 EPC】操作指南:安装步骤及大文件下载指南

    摘要:主机内置免费的网盘加速功能,百度网盘超级会员。百度网盘对非超级会员限制下载速度操作指南,登录主机。,选择需要下载的大文件资源,下载速度可达。下载速度文件大小小时小时下载成本下载文件,若使用主机的带宽,单次下载所需的流量费用为元。VASP软件官网:[www.vasp.at]安装步骤安装依赖包yum -y install cmake pkgconfig yum groupinstall Deve...

    Tecode 评论0 收藏0
  • 私有云怎么搭建之智能调度

    摘要:智能调度系统实时监测集群所有计算节点计算存储网络等负载信息,作为虚拟机调度和管理的数据依据。当有新的虚拟资源需要部署时,调度系统会优先选择低负荷节点进行部署,确保整个集群节点的负载。智能调度是 UCloudStack 平台虚拟机资源调度管理的核心,由调度模块负责调度任务的控制和管理,用于决策虚拟机运行在哪一台物理服务器上,同时管理虚拟机状态及迁移计划,保证虚拟机可用性和可靠性。智能调度系统实...

    ernest.wang 评论0 收藏0
  • DBASK问答集萃第四期

    摘要:问题九库控制文件扩展报错库的扩展报错,用的是裸设备,和还是原来大小,主库的没有报错,并且大小没有变,求解释。专家解答从报错可以看出,控制文件从个块扩展到个块时报错,而裸设备最大只支持个块,无法扩展,可以尝试将参数改小,避免控制文件报错。 链接描述引言 近期我们在DBASK小程序新关联了运维之美、高端存储知识、一森咖记、运维咖啡吧等数据领域的公众号,欢迎大家阅读分享。 问答集萃 接下来,...

    SKYZACK 评论0 收藏0
  • 断网支付开闸,知位停车发布多项物联网停车新技术

    摘要:月日下午,阿里云联合智芯原动主办以无人值守,一望而知为主题的知位停车新品发布会暨合作伙伴大会,在深圳成功举行。未来,凭借阿里云强大的生态赋能以及智芯原动领先的行业技术不断的深度融合,知位停车创新科技将引领智慧物联网停车新时代。 10月28日下午,阿里云IoT联合智芯原动主办以无人值守,一望而...

    xumenger 评论0 收藏0
  • 私有云搭建-私有云搭建之存储虚拟化

    摘要:平台采用分布式存储系统作为虚拟化存储,用于对接虚拟化计算及通用数据存储服务,消除集中式网关,使客户端直接与存储系统进行交互,并以多副本纠删码多级故障域数据重均衡故障数据重建等数据保护机制,确保数据安全性和可用性。云计算平台通过硬件辅助的虚拟化计算技术最大程度上提高资源利用率和业务运维管理的效率,整体降低 IT 基础设施的总拥有成本,并有效提高业务服务的可用性、可靠性及稳定性。在解决计算资源的...

    ernest.wang 评论0 收藏0
  • 浪潮存储:联接新数据时代

    摘要:见证高光时刻在月日的大会上,浪潮存储产品线总经理李辉隆重发布了新一代全闪存储,以及自研的固态盘。殷东升表示,年赞华将加大力度,联手浪潮存储提供一揽子解决方案,满足智慧金融的新需求。毫无疑问,计算产业正处于一个前所未有的变革期。和此前不同,新的计算形态不断涌现,从本地到云上,从数据中心到边缘节点,计算变得无处不在。与之对应的,则是数据铺天盖地而来,藉由实时在线的新型应用,人们希望倾向于收集全生...

    Harriet666 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<