Postmortem incidencia #Ticket-ID

Fecha

2016-10-16

Autores

Carlos
Adrián
...

Estado

Finalizado, puntos de mejora todavía en progreso.

Resumen

Problemas en el servicio a Euronics, que provocó pérdida de servicio en web xxxxx y/o servicio xxxx

Impacto

Pérdida de servicio y requests a la web www.xxxxx.es y eva.xxxx.es Pérdida econímica supuesta, no contabilizada.

Causas principales

Fallo en cascada de servicios en cliente xxxxx, debido a un problema de uso de disco. Éste provocó llenado de servidor, corrupción de base de datos y parada de servicios. Se debió llevar a cabo un reboot del servidor para recuperarlo. Debido a esta acción, adicionalmente se encontraron problemas en las tarjetas virtuales que provocó una segunda caída.

Desencadenante

Llenado de disco.

Solución

Corrección de las tarjetas virtuales de la VM que contenía el servidor admin. Una vez levantado el entorno, recuperar la bbdd y el servicio. Quedan pendiente el servicio EVA, que no ha arrancado y falla en la monitorización. Por la tarde se arranca.

Detección

A través de monitorización fallos en carga webs y errores en servidor admin.

Puntos de acción a mejorar

Punto	Tipo	Propietario	Ticket
Validar monitorización entorno por completo	Mitigar / corregir	Javier	hecho
Revisar arranque entorno Node	Mitigar / Corregir	Antonio	TODO
Localizar problema VMWare trarjetas	Prevención	Carlos	TODO
Coordinar proceso de reinicio/apagado para validación puntos previos	Javier	TODO
Documentación de entorno y procesos	Javier	TODO

Lecciones aprendidas

Se debe monitorizar todos los sistemas. Incluyendo proceso.
Se debe disponer de una documentación viva, que varíe a medida que se añaden servicios.
SIEMPRE configurar arranque servicios. SIEMPRE validar con una prueba.

Qué salió bien

Monitorización avisó de forma ágil de un problema en el entorno.
Corrección de problema de VMware rápidamente.

Qué salió mal

No conocimiento del entorno o servicios para poder volverlo a un estado correcto. Developers han tenido que apuntar hacia el origen del problema.
Varios fallos en cascada en varias capas: de virtualización y lógica.

Puntos afortunados

La bbdd se recuperó de forma automática
El site eva, no parece ser de gran importancia y no trascendió su fallo.

Timeline

2016-10-15

Hora	Descripción
xx:xx	Comienzo de la incidencia LINK a Nagios donde se observa KO
xx:xx	Detección del problema a través de Nagios
xx:xx	más detalles...
xx:xx	problema mitigado, Se consigue restablecer servicio web principal.
18:14	Eva levantado, Servicio restablecido Se levanta el servicio Node por Adrián.
19:00	Problema de ocupación de disco reaparece, Se detecta que sigue teniendo ocupación elevada.