Verdes fuera y rojos por dentro, los SLA nos pueden llevar a engaño. Los SLA en principio nos deben indicar si un servicio está funcionando de acuerdo a las expectativas del cliente. De hecho es práctica común desarrollar dichos indicadores de forma conjunta con el cliente.

Pero ¿qué sucede cuando los indicadores están en verde, pero el cliente sigue descontento? Los indicadores pueden ser una trampa y llevar a la desconfianza. El problema surge cuando los SLA no reflejan la realidad de lo que el cliente espera.

Un indicador habitual es la disponibilidad de un servicio, establecida al 99.5% o superior (99.9%) define el tiempo en el que un sistema está disponible. Sin embargo los proveedores de servicio ponen exclusiones a qué se considera interrupción, por ejemplo, pérdidas de servicio en ventanas de mantenimiento no se incluyen en ese 0.1 o 0.1% y las ventanas de mantenimiento pueden ser tremendamente largas. Otro ejemplo: la pérdida de rendimiento (lentitud del sistema) no se considera interrupción de servicio.

Imaginemos un evento en el que la aplicación de un parche de un fabricante, realizado en una ventana de mantenimiento, y aprobado por el comité de cambios, resulta en una pérdida de rendimiento, llegando a causar pérdida de servicio. ¿Quién paga los platos rotos? ¿El proveedor de servicio?

  • Bajo su punto de vista no hicieron nada incorrecto, aplicaron un parche recomendado por el fabricante y cuya instalación fue aprobada por el comité de cambios.

El establecimiento de métricas se vuelve más y más complejo, y el foco cambia a medir la satisfacción del usuario. Claro que un proveedor de servicios nunca aceptará ser medido mediante criterios subjetivos, pero se pueden establecer ciertas medidas paliativas para evitar el efecto sandia:

  • No copies métricas de otros, adapta las métricas a tu entorno. Por ejemplo: en qué horas del día es más importante que las aplicaciones de negocio funcionen.
  • Juega con medir los tiempos de reacción en crisis. Es posible que un servicio atraviese situaciones malas, pero mide cómo reacciona el equipo: ¿se detectó a tiempo? ¿se comunicó correctamente la interrupción de servicio?
  • Elabora una agenda común, cliente y proveedor deben compartir los mismos objetivos.