资讯专栏INFORMATION COLUMN

Exadata x6 cell节点flash卡状态异常修复

IT那活儿 / 743人阅读
Exadata x6 cell节点flash卡状态异常修复
点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!

故障背景

一台x6 exadata cell节点上有一张flash卡损坏,flashcache显示degraded,更换完成后无法识别,怀疑flash卡本身有问题,与其他槽位flash卡进行对调进行验证,在其他槽位上状态显示正常,并且物理状态显示正常,换回来之后还是状态异常。

所以,决定重建flash的celldisk

修复步骤为:

  • 修改flashcache模式从WriteBack为writethrough。
  • 重建flash的celldisk,flashcache和flashlog。
  • 修改flashcache模式从writethrough为WriteBack。


前置检查

[root@ndw1celadm05 ~]# cellcli -e list celldisk
CD_00_ndw1celadm05 normal
CD_01_ndw1celadm05 normal
CD_02_ndw1celadm05 normal
CD_03_ndw1celadm05 normal
CD_04_ndw1celadm05 normal
CD_05_ndw1celadm05 normal
CD_06_ndw1celadm05 normal
CD_07_ndw1celadm05 normal
CD_08_ndw1celadm05 normal
CD_09_ndw1celadm05 normal
CD_10_ndw1celadm05 normal
CD_11_ndw1celadm05 normal
FD_00_ndw1celadm05 normal
FD_01_ndw1celadm05 normal
FD_01_ndw1celadm05_duplicate_name importForceRequired
FD_02_ndw1celadm05 not present

FD_03_ndw1celadm05 normal
FD_01名称重复,FD_02系统无法认到以及配置。
检查alert日志:
[root@ndw1celadm05 ~]# cellcli -e list alerthistory
1_1 2022-08-24T20:20:37+08:00       critical        "Flash disk check has detected the following issue(s): Slot Number    : PCI Slot: 4; FDOM: 1 Attribute Name : Aura6Firmware     Required       : KPYAGR3Q     Found          : 8DV1RA13     Attribute Name : PCISlotWidth     Required       : x8     Found          : x4"
1_2 2022-08-25T22:41:05+08:00       clear           "Check for configuration of Flash disk is successful. Slot Number    : PCI Slot: 4; FDOM: 1"
2_1 2022-08-25T20:01:35+08:00       warning         "Flash disk was removed. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F320 PCIe Card  Size          : 2981GB  Serial Number : S2T7NA0J901297  Firmware      : KPYAGR3Q  Slot Number   : PCI Slot: 2; FDOM: 1 Cell Disk     : FD_01_ndw1celadm05  Grid Disk     : Not configured  Flash Cache   : Present  Flash Log     : Present"
2_2 2022-08-25T20:04:44+08:00       clear           "Flash disk was replaced. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F320 PCIe Card  Size          : 2981GB  Serial Number : S2T7NCAHB01766  Firmware      : KPYAIR3Q  Slot Number   : PCI Slot: 2; FDOM: 1 Cell Disk     : FD_01_ndw1celadm05  Grid Disk     : Not configured  Flash Cache   : Present  Flash Log     : Present"
3_1 2022-08-25T20:30:26+08:00       warning         "Flash disk was removed. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F160 PCIe Card  Size          : 1490GB  Serial Number : CVMD6033002A1P6NGN  Firmware      : 8DV1RA13  Slot Number   : PCI Slot: 4; FDOM: 1 Cell Disk     : Not configured  Grid Disk     : Not configured  Flash Cache   : Not configured  Flash Log     : Not configured"
3_2 2022-08-25T21:17:45+08:00       clear           "Flash disk was replaced. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F160 PCIe Card  Size          : 1490GB  Serial Number : CVMD6033002A1P6NGN  Firmware      : 8DV1RA13  Slot Number   : PCI Slot: 4; FDOM: 1 Cell Disk     : Not configured  Grid Disk     : Not configured  Flash Cache   : Not configured  Flash Log     : Not configured"
4_1 2022-08-25T21:17:44+08:00       warning         "Flash disk was removed. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F320 PCIe Card  Size          : 2981GB  Serial Number : S2T7NCAHB01766  Firmware      : KPYAIR3Q  Slot Number   : PCI Slot: 2; FDOM: 1 Cell Disk     : FD_01_ndw1celadm05  Grid Disk     : Not configured  Flash Cache   : Present  Flash Log     : Present"
5_1 2022-08-25T22:21:58+08:00       warning         "Flash disk was removed. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F160 PCIe Card  Size          : 1490GB  Serial Number : CVMD6033002A1P6NGN  Firmware      : 8DV1RA13  Slot Number   : PCI Slot: 4; FDOM: 1 Cell Disk     : Not configured  Grid Disk     : Not configured  Flash Cache   : Not configured  Flash Log     : Not configured"
5_2 2022-08-25T22:22:00+08:00       clear           "Flash disk was replaced. Status        : NORMAL  Manufacturer  : Oracle  Model Number  : Flash Accelerator F320 PCIe Card  Size          : 2981GB  Serial Number : S2T7NCAHB01766  Firmware      : KPYAIR3Q  Slot Number   : PCI Slot: 4; FDOM: 1 Cell Disk     : FD_01_ndw1celadm05  Grid Disk     : Not configured  Flash Cache   : Present  Flash Log     : Present"
发现有多次插拔动作,但是系统始终无法正常识别,怀疑触发bug,根据mos文档决定对flash卡进行修复。

操作步骤

3.1 检查主机内存
[root@ndw1celadm05 ~]#
[root@ndw1celadm05 ~]# free -g
total used free shared buffers cached
Mem:           125         66         59          4          0          7
-/+ buffers/cache: 58         66
Swap:            1          0          1
3.2 检查磁盘目录
[root@ndw1celadm05 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/md5 9.9G 4.2G 5.2G 45% /
tmpfs 63G 4.0K 63G 1% /dev/shm
/dev/md7 3.0G 1012M 1.9G 36% /opt/oracle
/dev/md4 114M 26M 83M 24% /boot
/dev/md11 5.0G 3.2G 1.6G 68% /var/log/oracle
3.3 检查imageinfo版本
[root@ndw1celadm05 ~]# imageinfo

Kernel version: 2.6.39-400.294.1.el6uek.x86_64 #1 SMP Wed Jan 11 08:46:38 PST 2017 x86_64
Cell version: OSS_12.1.2.3.4_LINUX.X64_170111
Cell rpm version: cell-12.1.2.3.4_LINUX.X64_170111-1.x86_64

Active image version: 12.1.2.3.4.170111
Active image kernel version: 2.6.39-400.294.1.el6uek
Active image activated: 2017-11-01 21:34:59 +0800
Active image status: success
Active system partition on device: /dev/md5
Active software partition on device: /dev/md7

Cell boot usb partition: /dev/sdm1
Cell boot usb version: 12.1.2.3.4.170111

Inactive image version: undefined
Rollback to the inactive partitions: Impossible
3.4 检查cell节点运行状态
[root@ndw1celadm05 ~]# cellcli
CellCLI: Release 12.1.2.3.4 - Production on Sat Aug 27 19:34:07 CST 2022

Copyright (c) 2007, 2016, Oracle. All rights reserved.

CellCLI> list cell detail
name: ndw1celadm05
accessLevelPerm: remoteLoginEnabled
bbuStatus:              normal
cellVersion: OSS_12.1.2.3.4_LINUX.X64_170111
cpuCount:               40/40
diagHistoryDays:        7
fanCount:               8/8
fanStatus:              normal
flashCacheMode: WriteBack
id: 1739NM786C
interconnectCount:      2
interconnect1: ib0
interconnect2: ib1
iormBoost:              0.0
ipaddress1: 192.168.XX.17/22
ipaddress2: 192.168.XX.18/22
kernelVersion: 2.6.39-400.294.1.el6uek.x86_64
locatorLEDStatus:       off
makeModel:              Oracle Corporation ORACLE SERVER X6-2L High Capacity
memoryGB: 126
metricHistoryDays:      7
offloadGroupEvents:
powerCount:             2/2
powerStatus:            normal
releaseImageStatus:     success
releaseVersion: 12.1.2.3.4.170111
rpmVersion: cell-12.1.2.3.4_LINUX.X64_170111-1.x86_64
releaseTrackingBug:     25031476
securityCert:           PrivateKey OK
Certificate: Subject CN=localhost,OU=Oracle Exadata,O=Oracle Corporation,L=Redwood City,ST=California,C=US
Issuer CN=localhost,OU=Oracle Exadata,O=Oracle Corporation,L=Redwood City,ST=California,C=US
status:                 online
temperatureReading:     28.0
temperatureStatus:      normal
upTime: 1 days, 21:13
usbStatus:              normal
cellsrvStatus:          running
msStatus:               running
rsStatus:               running
cell节点运行状态正常。
3.5 检查磁盘和flash卡物理状态
CellCLI> list physicaldisk
8:0             SHAEWK normal
8:1             SHJ26K normal
8:2             SHATMK normal
8:3             SHAEVK normal
8:4             SKM33K normal
8:5             SKJMDK normal
8:6             SKK78K normal
8:7             SKUVGK normal
8:8             SKN1GK normal
8:9             SKLSHK normal
8:10            SHAHLK normal
8:11            SKJNDK normal
FLASH_1_1 S2T7NA0J901288 normal
FLASH_2_1 S2T7NA0J901297 normal
FLASH_4_1 S2T7NCAHB01766 normal
FLASH_5_1 S2T7NA0J901771 normal

磁盘和flash卡物理状态正常。

3.6 检查磁盘运行状态
[root@ndw1celadm05 ~]# cellcli -e list griddisk attributes name,asmmodestatus,asmdeactivationoutcome,status
DATAC2_CD_00_ndw1celadm05 ONLINE Yes active
DATAC2_CD_01_ndw1celadm05 ONLINE Yes active
DATAC2_CD_02_ndw1celadm05 ONLINE Yes active
DATAC2_CD_03_ndw1celadm05 ONLINE Yes active
DATAC2_CD_04_ndw1celadm05 ONLINE Yes active
DATAC2_CD_05_ndw1celadm05 ONLINE Yes active
DATAC2_CD_06_ndw1celadm05 ONLINE Yes active
DATAC2_CD_07_ndw1celadm05 ONLINE Yes active
DATAC2_CD_08_ndw1celadm05 ONLINE Yes active
DATAC2_CD_09_ndw1celadm05 ONLINE Yes active
DATAC2_CD_10_ndw1celadm05 ONLINE Yes active
DATAC2_CD_11_ndw1celadm05 ONLINE Yes active
DATAC3_CD_00_ndw1celadm05 ONLINE Yes active
DATAC3_CD_01_ndw1celadm05 ONLINE Yes active
DATAC3_CD_02_ndw1celadm05 ONLINE Yes active
DATAC3_CD_03_ndw1celadm05 ONLINE Yes active
DATAC3_CD_04_ndw1celadm05 ONLINE Yes active
DATAC3_CD_05_ndw1celadm05 ONLINE Yes active
DATAC3_CD_06_ndw1celadm05 ONLINE Yes active
DATAC3_CD_07_ndw1celadm05 ONLINE Yes active
DATAC3_CD_08_ndw1celadm05 ONLINE Yes active
DATAC3_CD_09_ndw1celadm05 ONLINE Yes active
DATAC3_CD_10_ndw1celadm05 ONLINE Yes active
DATAC3_CD_11_ndw1celadm05 ONLINE Yes active
DBFS_DG_CD_02_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_03_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_04_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_05_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_06_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_07_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_08_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_09_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_10_ndw1celadm05 UNUSED Yes active
DBFS_DG_CD_11_ndw1celadm05 UNUSED Yes active
Online代表正常,unused代表未使用。当前磁盘状态全部正常。
3.7 检查lun状态
[root@ndw1celadm05 ~]# cellcli -e list lun
0_0 0_0 normal
0_1 0_1 normal
0_2 0_2 normal
0_3 0_3 normal
0_4 0_4 normal
0_5 0_5 normal
0_6 0_6 normal
0_7 0_7 normal
0_8 0_8 normal
0_9 0_9 normal
0_10 0_10 normal
0_11 0_11 normal
1_1 1_1 normal
2_1 2_1 normal
4_1 4_1 normal
5_1 5_1 normal
lun状态正常。
3.8 检查flashcache运行模式
[root@ndw1celadm05 storcli]# cellcli -e list cell detail | grep flashCacheMode
flashCacheMode: writeback
显示为writeback模式。按照文档说明,需要改为writethrough才能继续进行操作。
3.9 检查flash卡使用数据量大小
[root@ndw1celadm05 storcli]# cellcli -e list metriccurrent attributes name,metricvalue where name like FC_BY_DIRTY.*
FC_BY_DIRTY 6,113,887 MB
当前显示6.1T左右。
3.10 将所有flash卡数据写入到磁盘上
[root@ndw1celadm05 storcli]# cellcli -e "alter flashcache all flush"
Flash cache on FD_00_ndw1celadm05 successfully altered
Flash cache on FD_01_ndw1celadm05 successfully altered
Flash cache on FD_01_ndw1celadm05_duplicate_name skipped because FD_01_ndw1celadm05_duplicate_name is degraded
Flash cache on FD_02_ndw1celadm05 skipped because FD_02_ndw1celadm05 is degraded
Flash cache on FD_03_ndw1celadm05 successfully altered

[root@ndw1celadm05 ~]# cellcli -e list metriccurrent attributes name,metricvalue where name like FC_BY_DIRTY.*
FC_BY_DIRTY 0.000 MB
这一步操作非常耗时,持续了大约4小时左右。
3.11 再次检查flash卡状态
[root@ndw1celadm05 storcli]# cellcli -e "LIST CELLDISK ATTRIBUTES name, flushstatus, flusherror" | grep FD
FD_00_ndw1celadm05 complete
FD_01_ndw1celadm05 complete
FD_01_ndw1celadm05_duplicate_name
FD_02_ndw1celadm05
FD_03_ndw1celadm05 complete
除了异常状态的卡,其余都显示complete。
3.12 删除flashcache和flashlog
  • 删除flashcache
[root@ndw1celadm05 storcli]# cellcli -e drop flashcache
Flash cache ndw1celadm05_FLASHCACHE successfully dropped
[root@ndw1celadm05 storcli]#
[root@ndw1celadm05 storcli]# cellcli -e "LIST CELLDISK ATTRIBUTES name, flushstatus, flusherror" | grep FD
FD_00_ndw1celadm05
FD_01_ndw1celadm05
FD_01_ndw1celadm05_duplicate_name
FD_02_ndw1celadm05
FD_03_ndw1celadm05
[root@ndw1celadm05 storcli]# cellcli -e list flashcache detail
  • 删除flashlog
[root@ndw1celadm05 storcli]# cellcli -e list flashlog detail
name: ndw1celadm05_FLASHLOG
cellDisk: FD_01_ndw1celadm05,FD_03_ndw1celadm05,FD_00_ndw1celadm05
creationTime: 2017-11-01T21:15:38+08:00
degradedCelldisks: FD_01_ndw1celadm05_duplicate_name,FD_02_ndw1celadm05
effectiveSize: 384M
efficiency: 99.3607526233265
id: e7931c69-575f-4a3a-93d5-212deec2ae2b
size: 640M
status: warning - degraded

[root@ndw1celadm05 storcli]# cellcli -e drop flashlog
Flash log ndw1celadm05_FLASHLOG successfully dropped
[root@ndw1celadm05 storcli]# cellcli -e list flashlog detail
3.13 删除flashcache模式为writethrough
[root@ndw1celadm05 storcli]# cellcli -e "alter cell flashCacheMode=writethrough"
Cell ndw1celadm05 successfully altered
[root@ndw1celadm05 storcli]# cellcli -e list cell detail | grep flashCacheMode
flashCacheMode: writethrough
3.14 重建flash
[root@ndw1celadm05 storcli]# cellcli -e drop celldisk all flashdisk force
CellDisk FD_00_ndw1celadm05 successfully dropped
CellDisk FD_01_ndw1celadm05 successfully dropped
CellDisk FD_01_ndw1celadm05_duplicate_name successfully dropped
CellDisk FD_02_ndw1celadm05 successfully dropped
CellDisk FD_03_ndw1celadm05 successfully dropped

[root@ndw1celadm05 storcli]# cellcli -e list celldisk
CD_00_ndw1celadm05 normal
CD_01_ndw1celadm05 normal
CD_02_ndw1celadm05 normal
CD_03_ndw1celadm05 normal
CD_04_ndw1celadm05 normal
CD_05_ndw1celadm05 normal
CD_06_ndw1celadm05 normal
CD_07_ndw1celadm05 normal
CD_08_ndw1celadm05 normal
CD_09_ndw1celadm05 normal
CD_10_ndw1celadm05 normal
CD_11_ndw1celadm05 normal
Flash相关celldisk已经没有了。
[root@ndw1celadm05 storcli]# cellcli -e create celldisk all flashdisk
CellDisk FD_00_ndw1celadm05 successfully created
CellDisk FD_01_ndw1celadm05 successfully created
CellDisk FD_02_ndw1celadm05 successfully created
CellDisk FD_03_ndw1celadm05 successfully created

[root@ndw1celadm05 storcli]# cellcli -e list celldisk
CD_00_ndw1celadm05 normal
CD_01_ndw1celadm05 normal
CD_02_ndw1celadm05 normal
CD_03_ndw1celadm05 normal
CD_04_ndw1celadm05 normal
CD_05_ndw1celadm05 normal
CD_06_ndw1celadm05 normal
CD_07_ndw1celadm05 normal
CD_08_ndw1celadm05 normal
CD_09_ndw1celadm05 normal
CD_10_ndw1celadm05 normal
CD_11_ndw1celadm05 normal
FD_00_ndw1celadm05 normal
FD_01_ndw1celadm05 normal
FD_02_ndw1celadm05 normal
FD_03_ndw1celadm05 normal
异常的flash卡全部变为normal状态。
  • 重建flashlog
[root@ndw1celadm05 storcli]# cellcli -e create flashlog all
Flash log ndw1celadm05_FLASHLOG successfully created
[root@ndw1celadm05 storcli]# cellcli -e list flashlog detail
name: ndw1celadm05_FLASHLOG
cellDisk: FD_00_ndw1celadm05,FD_03_ndw1celadm05,FD_01_ndw1celadm05,FD_02_ndw1celadm05
creationTime: 2022-08-27T23:44:11+08:00
degradedCelldisks:
effectiveSize: 512M
efficiency: 100.0
id: 40ff3e4a-d122-497b-aa55-060a1a80047a
size: 512M
status:                 normal
flashlog状态从degraded变为了normal。
  • 重建flashcache
Flash cache ndw1celadm05_FLASHCACHE successfully created
[root@ndw1celadm05 storcli]# cellcli -e list flashcache detail
name: ndw1celadm05_FLASHCACHE
cellDisk: FD_01_ndw1celadm05,FD_03_ndw1celadm05,FD_02_ndw1celadm05,FD_00_ndw1celadm05
creationTime: 2022-08-27T23:44:31+08:00
degradedCelldisks:
effectiveCacheSize: 11.64312744140625T
id: a9b03d93-cac3-4fcd-8ff2-8802f608ed4d
size: 11.64312744140625T
status: normal
flashcache状态变为了normal。
至此,flash卡状态修复完成。
3.15 最后将flashcache模式改回writeback
[root@ndw1celadm05 storcli]# cellcli -e drop flashcache
Flash cache ndw1celadm05_FLASHCACHE successfully dropped
[root@ndw1celadm05 storcli]#
[root@ndw1celadm05 storcli]# cellcli -e list flashcache detail
[root@ndw1celadm05 storcli]# cellcli -e drop flashlog
Flash log ndw1celadm05_FLASHLOG successfully dropped
[root@ndw1celadm05 storcli]# cellcli -e list flashlog detail

#########################
[root@ndw1celadm05 storcli]# cellcli -e "alter cell flashCacheMode=writeback"
Cell ndw1celadm05 successfully altered
[root@ndw1celadm05 storcli]# cellcli -e list cell detail | grep flashCacheMode
flashCacheMode: writeback

#########################
[root@ndw1celadm05 storcli]# cellcli -e create flashlog all
Flash log ndw1celadm05_FLASHLOG successfully created
[root@ndw1celadm05 storcli]# cellcli -e create flashcache all
Flash cache ndw1celadm05_FLASHCACHE successfully created

[root@ndw1celadm05 storcli]# cellcli -e list flashcache detail
name: ndw1celadm05_FLASHCACHE
cellDisk: FD_02_ndw1celadm05,FD_00_ndw1celadm05,FD_03_ndw1celadm05,FD_01_ndw1celadm05
creationTime: 2022-08-27T23:49:16+08:00
degradedCelldisks:
effectiveCacheSize: 11.64312744140625T
id: d340cd6a-69de-4b77-b68f-6c99d5457bf3
size: 11.64312744140625T
status: normal
[root@ndw1celadm05 storcli]# cellcli -e list flashlog detail
name: ndw1celadm05_FLASHLOG
cellDisk: FD_03_ndw1celadm05,FD_00_ndw1celadm05,FD_01_ndw1celadm05,FD_02_ndw1celadm05
creationTime: 2022-08-27T23:49:03+08:00
degradedCelldisks:
effectiveSize: 512M
efficiency: 99.3607526233265
id: b0cc0cf9-5e56-4f40-9890-1c00d0c1f78a
size: 512M
status: normal


本文作者:汤 杰(上海新炬王翦团队)

本文来源:“IT那活儿”公众号

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129291.html

相关文章

  • 开机SIM加载

    摘要:以为例不同卡主要区别就是文件结构不同,因此各自实现方法接记录卡的文件信息,具体的读取卡文件信息的过程是由来实现的,以为例。构造方法在初始化时,卡状态是状态并且会广播出去然后在中设置模式。 1.UiccController 是处理SIM卡的核心类,其他关键类都是通过他产生 * Following is class diagram for uicc classes: * * ...

    BicycleWarrior 评论0 收藏0
  • wap html5播放器和直播开发小结

    摘要:此文已由作者吴家联授权网易云社区发布。欢迎访问网易云社区,了解更多网易技术产品运营经验。播放器的设计思路重构后应该包含这些功能支持点播非加密的和直播播放兼容适配移动端根据平台自动选择使用还是。直播的一些特点直播状态的判断。 此文已由作者吴家联授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 去年年中的时候,借着产品改版的机会,将之前的h5播放器好好整理重构了一番...

    Miyang 评论0 收藏0
  • Kubernetes集群监控详解

    摘要:仪表板是一个附加组件,它能提供集群上运行的资源的概述信息。可以很容易地创建图形,并且把它们合并称仪表板,而这些仪表板由一个强大的身份验证和授权层保护,它们还可以和其他仪表板进行共享而不需要访问服务器本身。 介 绍 Kubernetes在Github上拥有超过4万颗星,7万以上的commits,以及像Google这样的主要贡献者。Kubernetes可以说已经快速地接管了容器生态系统,成...

    A Loity 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<