Cloud y redundancia

por webstudio el 4 marzo, 2013

En ADW cuando hablamos de Cloud damos por supuesto que hablamos de una infraestructura redundada en todos sus elementos, desde el cableado hasta los nodos servidores pasando por la electrónica de red. Lo que se persigue, es que en caso de fallo de uno o varios de los elementos constitutivos de la plataforma, ésta continúe funcionando sin interrupción y – sobre todo – sin pérdida de datos.

Para conseguir este objetivo es necesario no sólo redundar todos los elementos físicos de la plataforma, sino también redundar su disposición. Relativo a este útimo punto, de poco sirve tener por ejemplo servidores de repuesto en standby si tenemos todos ellos ubicados en el mismo armario o incluso en la misma sala (una caída de potencia del armario y/o de la sala provocaría la caída de todos los servidores).

Todos los elementos físicos de nuestra plataforma Cloud están redundados en una disponibilidad de al menos n+2 y están alojados además en ubicaciones separadas dentro del mismo centro de datos. Todo el hardware que utilizamos es de la marca HPSupermicro e Intel, a  través de nuestro partner Flytech

  • Electrónica de red.
    Utilizamos Switches 10 GbE redundados de la marca Extreme Networks, modelos X670 y X650. En caso de fallo de uno de los switches, otro asume completamente su función sin interrupción ni degradación del servicio y sin necesidad de intervención humana.
  • Cableado.
    Todos los elementos de harware conectados a la red, lo están al menos por duplicado y por dos vías independientes, cada una a un switch diferente ubicado en un armario diferente.
  • Servidores (hipervisores).
    En una disposición de n+y siendo “y” el número de servidores de repuesto. La carga de todos el sistema cloud se reparte de forma dinámica por todo el conjunto de servidores con el objetivo de optimizar los consumos energéticos del conjunto.  El total de servidores que conforman la plataforma se aloja en 20 armarios distribuidos en 2 salas independientes en el centro de datos InterXion.  Cada sala dispone de sus propios sistemas de refriferación y alimentación eléctrica y cada servidor dispone de doble fuente de alimentación, entre 128 y 256 GB de memoria RAM, 2 a 4 procesadores de 6 u 8 núcleos y 2 puertos 10 Gbe a través de los que se conecta a la red de almacenamiento de datos.
  • Almacenamiento de datos.
    Cada cabina de discos dispone de elementos de hardware redundantes (memoria, fuentes de alimentación, controladoras, niveles de RAID 10, discos hotspare, cachés SSD,…) pero además cada cabina está replicada en las demás cabinas, de forma que en caso de pérdida total de cualquier de las cabinas, no sólo no se interrumpe el servicio sino que no se pierden datos. Cuando sucede ésto (fallo de una cabina), los datos replicados se vuelven a copiar a otra de las cabinas del sistema sin interrupción ni degradación del servicio, lo cual permite extraer la cabina dañada o defectuosa y cambiarla por otra sin perjuicio para la plataforma.  Se dispone en tiempo real de al menos 2 réplicas de todos los datos y de 3 réplicas en caso de datos sensibles y críticos. Nuestra plataforma de almacenamiento basada en SSD, SAS y SATA soporta una caída simultánea de hasta el 50% de toda las cabinas al mismo tiempo sin desaprovechar capacidad de I/O.
    Actuamente disponemos de 32 unidades de cabinas de almacenamiento repartidas en dos salas unidas a través de 8 enlaces redundantes de fibra óptica 10 Gbe (8 x 10 GbE).
  • Copias de seguridad
    Tan importante como la estabilidad y redundancia de la plataforma Cloud es realizar copias de seguridad de cada una de las instancias Cloud y es por ello que ofrecemos a nuestros clientes la posibilidad de encargarnos de realizar las copias de seguridad de sus servidores cloud y salvaguardarlas en cabinas de discos separadas físicamente del restro de la infraestructura. Estas copias de seguridad nos permiten reponer un servidor cloud aún en caso de que se pierdan todos los datos del mismo, ya sea por fallo humano, intrusión o fallo técnico.

Recuerde:  El Cloud debe estar redundado. Si no está redundado, el concepto se aleja de la nube y se acerca mucho al nubarrón…