Caída de Amazon EC2 provoca la interrupción de numerosos servicios web basados en la nube

Los servicios de Amazon en la nube son fiables, es posible asegurar un 99% de uptime (aunque asumimos casi tres días de caída). Muchas veces esas caídas son algún fallo ocasional que no dura más de unos minutos seguidos, pero ayer Amazon EC2 experimentó la mayor caída del servicio al producirse graves problemas en los servidores basados en el Norte de Virginia. No se cayó el servicio a nivel mundial, pero la repercusión fue importante al afectar a numerosos proyectos de empresas de internet, desde startup a algunas que ya no lo son tanto como Foursquare, Quora, Reddit o Hootsuite, incluso servicios como Heroku que actúan de servidores en la nube a otros. El listado completo se puede ver en una web creada a tal efecto, #ec2disabled.

El compromiso del contrato a nivel de servicio de Amazon EC2 es de una disponibilidad del 99,95% en cada Región de Amazon EC2.

Cuando cedemos nuestra infraestructura de servidores a una empresa externa, sea la nube, un hosting o lo que sea, asumimos este tipo de fallos. Los críticos a los servicios a la nube pueden aprovechar este incidente para reclamar que aunque ahorremos dinero, tiempo, esfuerzo y ganemos escalabilidad no estamos a salvo de fallos inesperados. Ni mucho menos evitar preguntarnos cuando se restablecerá el servicio. Empresas que tienen miles de maquinas alojadas en EC2 pueden experimentar momentos de pánico al no saber que pasa con sus servicios. Si normalmente al detectar un pico de tráfico somos capaces de enviar con rapidez y anticipación nuevas instancia, aquí es complicado responder a tiempo.

Desde hace un tiempo Amazon EC2 está experimentando fallos en sus servidores como podemos contemplar en los paneles de status, el dashboard de Amazon Web Services. Errores sobre todo en Elastic Beanstalk, y la base de datos relacional, Cloudwatch entre otros. Problemas de conectividad entre instancias que no gustan nada a los desarrolladores, menos cuando nos estamos acostumbrando a desplegar y punto, olvidándonos de configurar maquinas.

Cuando hay nubes, a veces llueve. Por eso a raíz de las recientes interrupciones de servicio estaría bien seguir una serie de ideas para mantener los servicios hospedados disponibles durante las caídas masivas de los servidores alojados en la nube.

Las copias de seguridad fuera de la nube. Los backups y las instantáneas de las que depende la recuperación no deben alojarse en el mismo proveedor en la nube. Lo mejor es tener una copia de todo eso en nuestras infraestructuras físicas.

Administrar sus sistemas desde el exterior de la nube. La gestión de nuestra infraestructura, monitorización y gestión de la configuración no se debe hacer desde un panel alojado también en la nube, ya que nos veremos presos para actuar y cambiar nuestras instancias.

Optimizar la configuración de DNS: TTL bajos y usar varios servidores DNS. Si las cosas van muy mal tener la capacidad de actualizar tus DNS y que se propaguen rápidamente nos ayudará a montar una maquina de mantenimiento.

Tener a una mano un respaldo para nuestra maquina de correo. Establecer un servidor MX temporal hasta que el servicio principal se pueda restablecer.

¿Tenéis alguna alternativa más en caso de caída masiva de nuestros servicios en la nube?

Vía | All Things Digital
Más información | Status Dashboard Amazon Web Services, EC2Disabled