Skip to content

Instantly share code, notes, and snippets.

@mohakevin
Forked from mlafeldt/postmortem.md
Last active October 16, 2016 20:44
Show Gist options
  • Save mohakevin/53f52f77e008d655dde9f8457d7a2d77 to your computer and use it in GitHub Desktop.
Save mohakevin/53f52f77e008d655dde9f8457d7a2d77 to your computer and use it in GitHub Desktop.
Example Postmortem from SRE book, pp. 487-491

Postmortem incidencia #Ticket-ID

Fecha

2016-10-16

Autores

  • Carlos
  • Adrián
  • ...

Estado

Finalizado, puntos de mejora todavía en progreso.

Resumen

Problemas en el servicio a Euronics, que provocó pérdida de servicio en web xxxxx y/o servicio xxxx

Impacto

Pérdida de servicio y requests a la web www.xxxxx.es y eva.xxxx.es Pérdida econímica supuesta, no contabilizada.

Causas principales

Fallo en cascada de servicios en cliente xxxxx, debido a un problema de uso de disco. Éste provocó llenado de servidor, corrupción de base de datos y parada de servicios. Se debió llevar a cabo un reboot del servidor para recuperarlo. Debido a esta acción, adicionalmente se encontraron problemas en las tarjetas virtuales que provocó una segunda caída.

Desencadenante

Llenado de disco.

Solución

Corrección de las tarjetas virtuales de la VM que contenía el servidor admin. Una vez levantado el entorno, recuperar la bbdd y el servicio. Quedan pendiente el servicio EVA, que no ha arrancado y falla en la monitorización. Por la tarde se arranca.

Detección

A través de monitorización fallos en carga webs y errores en servidor admin.

Puntos de acción a mejorar

Punto Tipo Propietario Ticket
Validar monitorización entorno por completo Mitigar / corregir Javier hecho
Revisar arranque entorno Node Mitigar / Corregir Antonio TODO
Localizar problema VMWare trarjetas Prevención Carlos TODO
Coordinar proceso de reinicio/apagado para validación puntos previos Javier TODO
Documentación de entorno y procesos Javier TODO

Lecciones aprendidas

  • Se debe monitorizar todos los sistemas. Incluyendo proceso.
  • Se debe disponer de una documentación viva, que varíe a medida que se añaden servicios.
  • SIEMPRE configurar arranque servicios. SIEMPRE validar con una prueba.

Qué salió bien

  • Monitorización avisó de forma ágil de un problema en el entorno.
  • Corrección de problema de VMware rápidamente.

Qué salió mal

  • No conocimiento del entorno o servicios para poder volverlo a un estado correcto. Developers han tenido que apuntar hacia el origen del problema.
  • Varios fallos en cascada en varias capas: de virtualización y lógica.

Puntos afortunados

  • La bbdd se recuperó de forma automática
  • El site eva, no parece ser de gran importancia y no trascendió su fallo.

Timeline

2016-10-15

Hora Descripción
xx:xx Comienzo de la incidencia LINK a Nagios donde se observa KO
xx:xx Detección del problema a través de Nagios
xx:xx más detalles...
xx:xx problema mitigado, Se consigue restablecer servicio web principal.
18:14 Eva levantado, Servicio restablecido Se levanta el servicio Node por Adrián.
19:00 Problema de ocupación de disco reaparece, Se detecta que sigue teniendo ocupación elevada.

2016-10-16

Hora Descripción
xx:xx Comunicación a equipo de dev.
xx:xx Solución Detectan el problema, llenado disco partición
xx:xx Mandan pautas para evitar nuevamente este comportamiento

Supporting Information

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment