2016-10-16
- Carlos
- Adrián
- ...
Finalizado, puntos de mejora todavía en progreso.
Problemas en el servicio a Euronics, que provocó pérdida de servicio en web xxxxx y/o servicio xxxx
Pérdida de servicio y requests a la web www.xxxxx.es y eva.xxxx.es Pérdida econímica supuesta, no contabilizada.
Fallo en cascada de servicios en cliente xxxxx, debido a un problema de uso de disco. Éste provocó llenado de servidor, corrupción de base de datos y parada de servicios. Se debió llevar a cabo un reboot del servidor para recuperarlo. Debido a esta acción, adicionalmente se encontraron problemas en las tarjetas virtuales que provocó una segunda caída.
Llenado de disco.
Corrección de las tarjetas virtuales de la VM que contenía el servidor admin. Una vez levantado el entorno, recuperar la bbdd y el servicio. Quedan pendiente el servicio EVA, que no ha arrancado y falla en la monitorización. Por la tarde se arranca.
A través de monitorización fallos en carga webs y errores en servidor admin.
Punto | Tipo | Propietario | Ticket |
---|---|---|---|
Validar monitorización entorno por completo | Mitigar / corregir | Javier | hecho |
Revisar arranque entorno Node | Mitigar / Corregir | Antonio | TODO |
Localizar problema VMWare trarjetas | Prevención | Carlos | TODO |
Coordinar proceso de reinicio/apagado para validación puntos previos | Javier | TODO | |
Documentación de entorno y procesos | Javier | TODO |
- Se debe monitorizar todos los sistemas. Incluyendo proceso.
- Se debe disponer de una documentación viva, que varíe a medida que se añaden servicios.
- SIEMPRE configurar arranque servicios. SIEMPRE validar con una prueba.
- Monitorización avisó de forma ágil de un problema en el entorno.
- Corrección de problema de VMware rápidamente.
- No conocimiento del entorno o servicios para poder volverlo a un estado correcto. Developers han tenido que apuntar hacia el origen del problema.
- Varios fallos en cascada en varias capas: de virtualización y lógica.
- La bbdd se recuperó de forma automática
- El site eva, no parece ser de gran importancia y no trascendió su fallo.
2016-10-15
Hora | Descripción |
---|---|
xx:xx | Comienzo de la incidencia LINK a Nagios donde se observa KO |
xx:xx | Detección del problema a través de Nagios |
xx:xx | más detalles... |
xx:xx | problema mitigado, Se consigue restablecer servicio web principal. |
18:14 | Eva levantado, Servicio restablecido Se levanta el servicio Node por Adrián. |
19:00 | Problema de ocupación de disco reaparece, Se detecta que sigue teniendo ocupación elevada. |
2016-10-16
Hora | Descripción |
---|---|
xx:xx | Comunicación a equipo de dev. |
xx:xx | Solución Detectan el problema, llenado disco partición |
xx:xx | Mandan pautas para evitar nuevamente este comportamiento |
- Monitoring, <http://guardian/
- Ticket si existe