El objetivo de este conjunto de artículos es el ser capaces de poder identificar y gestionar los posibles incidentes que se puedan presentar en el rendimiento de las aplicaciones en producción. Estos conocimientos se podrán aplicar con cualquier herramienta APM como pueden ser Dynatrace, AppDynamics, New Relic entre otras.
Es importante asimismo, con el conocimiento explicado en estos artículos, definir una buena estrategia para la gestión de los incidentes. No vale de nada identificar problemas en el software productivo, si luego no existe un estrategia en la empresa de comunicación y seguimiento de los mismos. En mi experiencia de más de 15 años en el mundo APM, he visto muchas veces que se generan alertas en los sistemas y se envían a una lista de distribución y al final nadie se hace responsable de la atención y seguimiento de los problemas.
Por tanto es importante para la implantación de una estrategia APM en una empresa, que todas las áreas estén implicadas en el proceso, y se establezca una metodología de gestión de incidentes correcta. Donde se identifique el problema, se documente, se envíe al área correspondiente para su solución, se realicen las pruebas adecuadas para identificar si ya se ha solucionado el problema, y finalmente se pase a producción la solución.
Para esta gestión de incidentes se deben seguir los siguientes principios:
- Hay que minimizar la disrrupción del servicio mediante una restauración lo más rápida posible del servicio
- Hay que ser un punto central entre el cliente e IT
- Tiene que proporcionar un camino desde el descubrimiento, pasando por el escalado, hasta asegurarse de su resolución
- Tiene que mejorar la eficiencia del área de IT
Los pasos que se siguen en la gestión de incidentes son los siguientes:
- Detectar y verificar que ha ocurrido un problema
- Caracterizar el identificar el problema
- Aislar el problema
- Documentar el problema
- Redirigirlo a la persona que puede solucionarlo
- Hacer seguimiento de la resolución
- Probar que la solución arregla el problema
- Subirlo a producción