Como muchos saben, la hiperconvergencia ha llegado para quedare y nuestra idea de ir hacia un datacenter definido por software, uno de los componentes importantes a virtualizar es el storage. Como hace unos años atrás, cuando la virtualizacón de servidores y los clientes nos miraban y preguntaban si esto funcionaba, en algunos casos, con la hiperconvergencia pasa lo mismo. A veces es complejo quitarle la idea al cliente su mirada romántica hacia la arquitectura tradicional, pero cuando le hablamos de los beneficios de esta arquitectura hay que decir que están dispuestos a escuchar.

En este blog busco responder algunas consultas de como se comporta vSAN ante algunos fallos que podríamos tener en nuestra infraestructura física (las maquinas son maquinas y siempre estarán expuestas a fallos) pero uno de los puntos atractivos bajo mi mirada hacia esta tecnología es que podemos eliminar uno de los punto de fallo que más duele en el datacenter, el Storage. Clientes me preguntan, “pero yo tengo HA de Vmware” pero por lo general por presupuesto, uno tiene un storage y la pregunta es ¿Qué pasa si me falla el storage? Y la respuesta es; ahí tienes tu punto de fallo. (o uno de ellos, dependiendo de tu infraestructura).

Como ayuda vSAN a minimizar ese punto de fallo, aca va un resumen de como trabaja vSAN sobre posibles fallos en nuestros servidores que lo componen:

Situaciones de Falla

Con la mayoría de los sistemas de almacenamiento, las fallas generalmente se identifican como temporales, permanentes o desconocidas. vSAN clasifica las fallas como “ausentes”, también conocidas como ALL Paths Down (APD), o “degradadas”, también conocidas como Physical Device Loss (PDL).

Un estado degradado es cuando se sabe que un dispositivo ha fallado de tal manera que es poco probable que vuelva a estar saludable. En este caso, la reconstrucción comienza inmediatamente. Un ejemplo es si una unidad está experimentando fallos de escritura. Otro ejemplo es si un controlador está reportando un error.

No todas las fallas de los dispositivos son permanentes. De hecho, es más común que falte un dispositivo temporalmente y es probable que regrese. Un estado de ausencia es cuando un dispositivo pierde conectividad y vSAN no puede determinar si regresará. Estas reconstrucciones se retrasan 1 hora por defecto para determinar si son transitorias. Esto evitará reconstrucciones innecesarias que podrían afectar potencialmente el rendimiento de todo el cluster, o resultar en un tiempo más largo para la recuperación de un estado saludable. Algunos ejemplos incluyen el reinicio del nodo, el bloqueo, la pérdida de energía, o la desconexión de red o disco. Para los casos en que un administrador necesita ajustar el tiempo que espera vSAN antes de que comience a reconstruir los datos para restablecer el cumplimiento de las políticas de almacenamiento, hay una nueva configuración de “object repair timer delay” en la interfaz de usuario a partir de vSAN 6.7 U1.

Para Recordar:

vSAN se compone de servidores con arreglos de discos que lo compone un disco de cache (si o si SSD) y discos que nos darán capacidad para nuestras VMs (estos pueden ser HDD o SSD). Estos arreglos de discos pueden ser desde 1 cache y un disco para capacidad, hasta de 1 cache y 7 discos para espacio. Y podemos tener 5 de estos arreglos en nuestros servidores. Para armar vSAN, se puede partir desde 2 servidores (y un witness) hasta un máximo de 62 servidores en las versiones 6.7. (Yo prefiero partir con al menos 3 servidores). Cantidades y configuraciones de esos servidores dependerá de la carga de trabajo del cliente.

Preguntas frecuentes:

¿Qué pasa si me falla el disco cache de ese grupo de disco?

vSAN: entenderá que el grupo de discos está marcado que ha fallado y todos los componentes presentes en él se reconstruirán en otro grupo de discos.

Mis VMs seguirán corriendo.

¿Qué pasa si falla un disco de capacidad (con Deduplicación y Compresión)?

vSAN: entenderá que el grupo de discos está marcado que ha fallado y todos los componentes presentes en él se reconstruirán en otro grupo de discos.

Mis VMs seguirán corriendo.

¿Qué pasa si falla un disco de capacidad (sin Deduplicación y Compresión)?

vSAN: entenderá que ha fallado un disco y todos los componentes presentes en él se reconstruirán en otro disco

Mis VMs seguirán corriendo.

¿Qué pasa si me falla un grupo de disco completo?

vSAN: entenderá que el grupo de discos está marcado que ha fallado y todos los componentes presentes en él se reconstruirán en otro grupo de discos.

Mis VMs seguirán corriendo.

¿Qué pasa se me falla mi tarjeta de red vSAN del servidor?

vSAN: Todos los grupos de discos que estén en ese servidor se marcarán como ausentes y todos los componentes presentes se reconstruirán en otros grupos de discos.

Mis VMs seguirán corriendo.

¿Qué pasa se me falla un servidor completo?

Los componentes en el nodo se marcarán como ausentes por vSAN – la reconstrucción de los componentes se iniciará después de 60 minutos si el nodo no vuelve a activarse.

Mis VMs continuarán corriendo en otro nodo. Si la máquina virtual estaba corriendo en el mismo nodo que falló, se llevará a cabo un reinicio de HA de la máquina virtual.

¿Qué pasa si mi servidor queda aislado por red de administración?

Los componentes presentes en el nodo se marcarán como ausentes por vSAN – la reconstrucción de componentes se iniciarán después de 60 minutos si el nodo no vuelve a estar en línea.

Mis VMs continuarán corriendo en otro nodo. Si la máquina virtual estaba corriendo en el mismo nodo que falló, se llevará a cabo un reinicio de HA de la máquina virtual.

Conclusión

vSAN es una plataforma de almacenamiento altamente resistente que gestiona de forma inteligente el rendimiento, la eficiencia y la disponibilidad de todos los datos almacenados en un cluster. Como VMware vCenter se usa como un plano de control y administración común para un cluster vSphere, pueden surgir preguntas al determinar cómo reacciona un cluster vSAN cuando un servidor vCenter debe reconstruirse desde una nueva instalación, o restaurarse desde una copia de seguridad. Para obtener más información sobre este tema, consulte Reemplazo de un servidor vCenter para nodos vSAN existentes.

 

Más informacion sobre los fallos pueden visitar: https://blogs.vmware.com/virtualblocks/2016/03/24/failure-handling/