Introducción:
La causa más común de este problema es errores/insuficiencia de recursos de DMA.
Solución:
Cambiar el tamaño de buffer de transferencia de la HBA.
Formas de solucionar el problema:
a) Para mejorar la situación prueben cambiar el max_xfer_size incrementalmente (0x200000, 0x400000, ... ).
Para que los cambios se apliquen luego de un reboot:
chdev -l fcs0 -a max_xfer_size=0x200000 -P
b) Para que los cambios se apliquen sin reboot:
1. Detener las aplicaciones
2. Desmontar filesystems
3. varyoff del volume group
4. rmdev -Rl fscsi0 (el adaptador queda en estado Defined)
5. chdev -l fcs0 -a max_xfer_size=0x200000
6. cfgmgr
7. varyon del VG, mount de los filesystems e iniciar las aplicaciones
Nota: La opción b) en este caso no aplica ya que el storage dentro del AIX lo administra el ASM de Oracle y no el LVM. Por lo que no tenemos la posibilidad de realizar las operaciones que se recomiendan: varyoff, umount, varyon.
Procedimiento:
1. chequear valor del parámetro max_xfer_size:
# lsattr -El fcs0
bus_intr_lvl 273 Bus interrupt level False
bus_io_addr 0xffc00 Bus I/O address False
bus_mem_addr 0xfffbf000 Bus memory address False
init_link al INIT Link flags True
intr_priority 3 Interrupt priority False
lg_term_dma 0x800000 Long term DMA True
max_xfer_size 0x100000 Maximum Transfer Size True
num_cmd_elems 200 Maximum number of COMMANDS to queue to the adapter True
pref_alpa 0x1 Preferred AL_PA True
sw_fc_class 2 FC Class for Fabric True
#
2. modificar el parámetro max_xfer_size
# chdev -l fcs0 -a max_xfer_size=0x200000 -P
3. hacer un reboot de la lpar (a gusto del consumidor: HMC, shutdown -r now)
Nota: La motivación para crear este procedimiento, fue una enorme cantidad de errores en el servidor de base de datos: aix-sgcorades. Si bien, para poder realizar esta maniobra de reboot de este servidor, hay que coordinar con los DBAs (bajada de bases de datos: Esperar Ok, etc) no esta dentro del alcance de este documento detallar todos los pasos de maniobra de bajada de base de datos.
Info Complementaria:
# fcstat fcs0
FIBRE CHANNEL STATISTICS REPORT: fcs0
Device Type: FC Adapter (df1000fd)
Serial Number: 1F8320C863
Option ROM Version: 02C82774
Firmware Version: B1D2.70A5
World Wide Node Name: 0x20000000C977B8DE
World Wide Port Name: 0x10000000C977B8DE
FC-4 TYPES:
Supported: 0x0000012000000000000000000000000000000000000000000000000000000000
Active: 0x0000010000000000000000000000000000000000000000000000000000000000
Class of Service: 3
Port Speed (supported): 4 GBIT
Port Speed (running): 4 GBIT
Port FC ID: 0x010e00
Port Type: Fabric
Seconds Since Last Reset: 5858824
Transmit Statistics Receive Statistics
------------------- ------------------
Frames: 4294967295 4294967295
Words: 1099511627520 1099511627520
LIP Count: 0
NOS Count: 0
Error Frames: 0
Dumped Frames: 0
Link Failure Count: 1
Loss of Sync Count: 1
Loss of Signal: 0
Primitive Seq Protocol Error Count: 0
Invalid Tx Word Count: 3
Invalid CRC Count: 0
IP over FC Adapter Driver Information
No DMA Resource Count: 1201
No Adapter Elements Count: 256102
FC SCSI Adapter Driver Information
No DMA Resource Count: 1201
No Adapter Elements Count: 256102
No Command Resource Count: 310795268
IP over FC Traffic Statistics
Input Requests: 0
Output Requests: 0
Control Requests: 0
Input Bytes: 0
Output Bytes: 0
FC SCSI Traffic Statistics
Input Requests: 2106630171
Output Requests: 628816152
Control Requests: 1089267
Input Bytes: 160156289825885
Output Bytes: 31970819373120
#