Bienvenidos

Todos estos pasos descriptos fueron probados en ambientes productivos

miércoles, 31 de mayo de 2017

Poco frecuente, pero nos paso, error fisico de Fibra



En un t5-2 , con 1 pci, con dos FC, nos asignaron luns.
En el messages del equipo nos arrojaba estos errores de timeout
May 12 13:12:49 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442a01f6201,2
May 12 13:13:21 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:14:05 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442a01f6201,2
May 12 13:14:27 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:16:17 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:16:34 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442a01f6201,2
May 12 13:17:29 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:17:46 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442b01f7a01,2
May 12 13:18:46 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442b01f7a01,2

< Corto la salida de error porque es muy extensa >

El comando format quedaba colgado

Cualquier operacion que se quiera hacer sobre los discos del ldom del t5-2, tardan muchisimo.
Lo primero que hice fue hacer un format, se quedaba colgado.
Googlee ese caso y coincide con https://support.symantec.com/en_US/article.TECH225180.html que basicamente dice que
Para que no se cuelgue el format previamente tenes que hacer esto ( lo hice y funciono ) dice que esta solucion aplica si tenes el parche  118833-36 (or
higher)  o superior y en nuestro caso SI lo tenenmos
# NOINUSE_CHECK=1
# export NOINUSE_CHECK
# format

Pero cuando quiero hacer un newfs al d100 ( disco c0d2s0 )
Tarda casi 4 minutos para un newfs de un disco de 30gb
[sunt100] / # time newfs /dev/md/rdsk/d100
newfs: construct a new file system /dev/md/rdsk/d100: (y/n)? y
Warning: 2048 sector(s) in last cylinder unallocated
/dev/md/rdsk/d100:      62906368 sectors in 10239 cylinders of 48 tracks, 128 sectors
        30716.0MB in 640 cyl groups (16 c/g, 48.00MB/g, 5824 i/g)
super-block backups (for fsck -F ufs -o b=#) at:
32, 98464, 196896, 295328, 393760, 492192, 590624, 689056, 787488, 885920,
Initializing cylinder groups:
............
super-block backups for last 10 cylinder groups at:
61938464, 62036896, 62135328, 62233760, 62332192, 62430624, 62529056,
62627488, 62725920, 62824352

real    3m38.99s
user    0m0.74s
sys     0m0.20s
[sunt100] / #

Por otro lado, vi que se solucionaba con un FAST REBOOT, lo hicimos y se soluciono el tema del format.

Despues de encontrar el error de timeout, trate de buscar donde estaba.
Asi que revise los errores en los hba y me encontre con esto. El primer port estaba OK el segundo con errores de tx y de crc.

root@t5-2-coneja # fcinfo hba-port -l 2100000e1e2871f0
HBA Port WWN: 2100000e1e2871f0
        Port Mode: Initiator
        Port ID: 700300
        OS Device Name: /dev/cfg/c6
        Manufacturer: QLogic Corp.
        Model: 7023303
        Firmware Version: 7.05.01
        FCode/BIOS Version:  BIOS: 3.19; fcode: 4.02; EFI: 5.36;
        Serial Number: 463916R+1525264578
        Driver Name: qlc
        Driver Version: 150505-5.03b
        Type: N-port
        State: online
        Supported Speeds: 4Gb 8Gb 16Gb
        Current Speed: 16Gb
        Node WWN: 2000000e1e2871f0
        Link Error Statistics:
                Link Failure Count: 1
                Loss of Sync Count: 0
                Loss of Signal Count: 0
                Primitive Seq Protocol Error Count: 0
                Invalid Tx Word Count: 0
                Invalid CRC Count: 0
        Max NPIV Ports: 254
        NPIV port list:
root@t5-2-coneja # fcinfo hba-port -l 2100000e1e2871f1
HBA Port WWN: 2100000e1e2871f1
        Port Mode: Initiator
        Port ID: 710300
        OS Device Name: /dev/cfg/c7
        Manufacturer: QLogic Corp.
        Model: 7023303
        Firmware Version: 7.05.01
        FCode/BIOS Version:  BIOS: 3.19; fcode: 4.02; EFI: 5.36;
        Serial Number: 463916R+1525264578
        Driver Name: qlc
        Driver Version: 150505-5.03b
        Type: N-port
        State: online
        Supported Speeds: 4Gb 8Gb 16Gb
        Current Speed: 16Gb
        Node WWN: 2000000e1e2871f1
        Link Error Statistics:
                Link Failure Count: 1
                Loss of Sync Count: 0
                Loss of Signal Count: 0
                Primitive Seq Protocol Error Count: 0
                Invalid Tx Word Count: 189
                Invalid CRC Count: 5988
        Max NPIV Ports: 254
        NPIV port list:

Conclusion  hasta ese momento, es el gbic o el cable de fibra o el gbic del lado del switch.
Solucion temporaria para que no explote todo. desconfigure la /dev/cfg/c7

cfgadm -f -c unconfigure c7

Habiendo cambiado el gbic para descartar que ese sea el problema , la solucion temporaria , pero nos quedamos sin multipath, es quedar funcionando con so
lo una fibra conectada al port c6 y pedir el recableado de fibras.
******La solucion definitiva, fue cambiar el cable fisico de Fibra

1 comentario: