La prestación continua de servicios es clave para una gran experiencia del cliente y para construir una buena reputación. En consecuencia, cualquier interrupción del mismo afectará al consumidor y también será costosa para la empresa. Así lo refleja un sondeo realizado en 2025: un 25% de los encuestados manifestó que el valor por hora de un servidor sin funcionar estaba entre los 301.000 y 400.000 dólares. Sumado a todo esto, el fallo de los sistemas críticos puede paralizar a las empresas e incluso costar vidas.
El diseño de sistemas de alta disponibilidad y el desarrollo de planes de recuperación de desastres (disaster recovery) constituye la forma en que las empresas evitan y se preparan para estas situaciones. Aunque ambos parecen iguales, hay muchas diferencias entre ellos, empezando por el motivo por el que se crean hasta la forma de implementarlos.
Echemos un vistazo acerca de la alta disponibilidad vs. disaster recovery.
¿Qué significa alta disponibilidad?
La gestión de la disponibilidad es un proceso que se utiliza para garantizar que el cliente o el usuario final pueda disponer de los servicios sin interrupciones ni perturbaciones, tal y como se describe en el acuerdo de nivel de servicio.
Para asegurar una alta disponibilidad hay que entender los componentes subyacentes de un servicio, los riesgos a los que se enfrentan y construir dichas prestaciones con suficientes redundancias para que el fallo de algunos elementos no implique la caída completa del servicio.
Por el contrario, una mala disponibilidad de los servicios puede afectar la experiencia del cliente y la reputación de la empresa, los objetivos del negocio y los flujos de ingresos, además de la posibilidad certera de perder el posicionamiento frente a la competencia.
En algunos casos, la indisponibilidad de sistemas críticos puede provocar una reacción en cadena con consecuencias desastrosas. Por ejemplo, si el software de gestión de un hospital deja de estar disponible, sería imposible acceder al historial de los pacientes, por lo que las pruebas y procedimientos se retrasarían y la atención se vería afectada.
En resumen, construir un sistema de alta disponibilidad permite eliminar los puntos únicos de fallo. El servicio debe seguir funcionando si un servidor se cae o se corta la luz en un centro de datos (lee sobre el costo del tiempo de inactividad). Se trata de comprender de forma proactiva las posibles causas de interrupción y disponer de sistemas acordes para que los clientes sigan accediendo a las prestaciones, incluso en caso de que se produzcan estos eventos.
Además de los eventos que no son posibles de predecir, como un fallo de hardware o un ciberataque, la alta disponibilidad también significa planificar cuidadosamente aquellos predecibles, como una actualización de software o un parche de seguridad. Dichas actividades de mantenimiento podrían interrumpir la prestación del servicio. Así, la gestión de la disponibilidad funciona con la gestión del cambio.
Garantizar una alta disponibilidad es un ejercicio de gestión de riesgos. El nivel de redundancias incorporado a un sistema depende de los riesgos asociados al mismo; ¿cuán necesario es el sistema para los procesos empresariales?
¿Qué significa disaster recovery?
Mientras que la alta disponibilidad actúa como un método preventivo, la recuperación de desastres o disaster recovery funciona como la solución al peor escenario.
Disaster recovery es un proceso diseñado para volver a poner en línea los servicios críticos después de su interrupción debido a un evento repentino o imprevisto -una catástrofe natural o un incendio que destruyó un centro de datos, o un interno que borró accidentalmente toda una base de datos-. En cualquier caso, la recuperación de desastres se utiliza para devolver los procesos empresariales a su estado inicial.
Aunque el plan de disaster recovery sólo se pone en marcha en caso de una catástrofe, el proceso en sí comienza mucho antes: hay que tener una lista actualizada de los activos y servicios que se deben restablecer por orden de importancia.
Además, debes asegurarte de que todos tus sistemas críticos poseen copias de seguridad. Por ejemplo, para prepararte a cualquier evento que derribe tus servidores, necesitas una copia de seguridad de tus datos en una ubicación geográfica diferente.
Los planes de disaster recovery suelen ser costosos y los beneficios no siempre son evidentes. Por ejemplo, una empresa puede guardar duplicados de todas sus aplicaciones o datos en ubicaciones separadas durante 10 años. Y es posible que no se necesiten nunca. Pero si un día se ve afectada por un desastre, seguirá adelante en sus procesos sin muchas interrupciones.
El costo del plan de recuperación de desastres será prohibitivo si se incorporan múltiples redundancias en todos los componentes. Por ello, el plan de disaster recovery suele centrarse en las necesidades absolutas para que la empresa siga funcionando: ¿Es un componente absolutamente indispensable? ¿Cuánto tiempo puede aguantar la empresa sin un determinado componente?
Diferencia entre alta disponibilidad vs. disaster recovery
El proceso de pensamiento detrás de la alta disponibilidad es el de las medidas preventivas. El objetivo es crear servicios con tiempos de inactividad mínimos. En este caso, los sistemas se diseñan para ser resistentes a los fallos, además de garantizar que la indisponibilidad de uno o más componentes no genere la caída de todo.
Si la alta disponibilidad es la prevención, el disaster recovery se refiere a la cura: se aplica cuando el sistema ya ha fallado. Por supuesto, esto significa que las medidas para volver a poner los sistemas en línea ya están incorporadas al igual que el propio plan de recuperación. Pero cuando se lo diseña se asume que los sistemas críticos cayeron y el objetivo es hacer que estos servicios y procesos de negocio vuelvan a estar operativos.
Otra diferencia entre alta disponibilidad vs. disaster recovery es que la primera se focaliza en los sistemas individuales y las redundancias se incorporan a los que son fundamentales. En términos muy sencillos, se trata de un diseño de tiempo justo: todo va perfectamente bien, pero en caso de que uno o dos sistemas se caigan, hay otros que los respaldan. En consecuencia, tienes todos los recursos para mantener estos servicios ininterrumpidos sin tener que priorizar.
Sin embargo, con disaster recovery, todos o la mayoría de los sistemas se ven afectados. Y es posible que no cuentes con los recursos necesarios para recuperarlos todos al mismo tiempo y debas priorizar cuáles requieren estar operativos rápidamente y cuáles no.
Otro aspecto distintivo entre alta disponibilidad vs. disaster recovery es el estándar o las métricas SLA que se utilizan para hacer el seguimiento. En el caso de la alta disponibilidad se mide en MTRS o tiempo medio para restaurar los servicios -se refiere a la rapidez con la que la organización puede reponer las prestaciones tras un fallo- y en MTBF o tiempo medio entre fallos -frecuencia con la que un servicio deja de estar disponible-.
En disaster recovery, en tanto, se usa el RTO u objetivo de tiempo de recuperación -similar al MTBF que se refiere al período aceptable en que los procesos de negocio estén fuera de servicio- y el RPO u objetivo de punto de recuperación -punto a partir del cual debe restaurarse el sistema-. Un ejemplo de este último: si diseñas un sistema que realiza copias de seguridad cada 12 horas, y se produce un fallo justo antes de esa copia de seguridad, se perderán todos los datos o cambios que hayas realizado en ese tiempo. Puedes restaurar el sistema al estado en el que estaba hace 12 horas. Así que el objetivo del punto de recuperación, en este caso, sería de 12 horas.
Una diferencia adicional entre alta disponibilidad vs. disaster recovery se refiere a cómo se diseñan los sistemas en ambos casos. En el primero, como el objetivo es evitar el tiempo de inactividad, los sistemas se crean para que, en caso de que uno falle, el otro tome el relevo sin retraso ni pérdida alguna. Por ejemplo, dos servidores pueden llevar a cabo los mismos procesos al mismo tiempo, de modo que aunque uno se caiga, el otro tiene exactamente el mismo proceso en marcha y lo reemplaza sin problemas.
Pero, ¿qué ocurre si ambos servidores se caen por alguna razón subyacente? Aquí es donde entra en juego disaster recovery. En este caso, los servidores de copia de seguridad no tendrán exactamente los mismos procesos en marcha y pueden no tomar el relevo sin problemas. Esto es por diseño: el mismo problema que hizo caer los otros servidores no debería haber hecho fallar este también. Por eso suelen estar en lugares geográficos diferentes.
¿Cómo es el nexo entre alta disponibilidad y disaster recovery?
Tanto la alta disponibilidad como el disaster recovery tienen como objetivo la continuidad del negocio y se basan en redundancias. Ambos se basan en el monitoreo continuo de los activos y en una sólida estrategia de gestión de los mismos.
Los dos procesos pueden aprovechar soluciones de gestión de activos como para enviar alertas en caso de fallos y gestionar los riesgos asociados a los componentes de los distintos servicios.
Ambos procesos tienen que ver con la mitigación de los riesgos para los procesos de negocio; y los sistemas usados para uno pueden funcionar por el otro. Por ejemplo, los servidores redundantes o los dispositivos de red utilizados para la alta disponibilidad pueden formar parte del plan de disaster recovery.
Preguntas frecuentes
¿Qué es la alta disponibilidad y cómo funciona?
La alta disponibilidad es la posibilidad de que un sistema funcione sin paradas durante un tiempo prolongado. Los sistemas de este tipo están diseñados con múltiples redundancias y eliminan los puntos únicos de fallo; incluso si uno o más componentes fallan, el sistema en su conjunto puede seguir funcionando.
¿Qué son los nueves a los que se hace referencia al hablar de alta disponibilidad?
Se refieren al porcentaje de disponibilidad, o el porcentaje de tiempo durante el cual se garantiza que un sistema está disponible.
Por ejemplo, un sistema que garantiza una disponibilidad del 99,9% (8,77 horas de inactividad al año) se denomina tres nueves. Y un 99,99% (4,38 horas al año) se denomina cuatro nueves.
¿Cuál es la diferencia entre alta disponibilidad y conmutación por error?
La conmutación por error es un mecanismo utilizado para implementar un sistema de alta disponibilidad. Significa que dos o más sistemas pueden estar ejecutando los mismos servicios. Si uno de ellos falla, el cliente simplemente se conecta al otro, no habiendo interrupción de las prestaciones.