Protección de datos
Backup

La replicación de datos funciona mejor cuando se combina con copias de seguridad robustas

La duplicidad es excelente a la hora de proporcionar disponibilidad inmediata de datos, pero no debe ser la única salvaguarda contra errores humanos, corrupción de datos o ciberataques.

base de datos, almacenamiento
Créditos: Jan Antonin (Unsplash).

La duplicidad de datos ha superado la prueba del tiempo, proporcionando a las organizaciones un medio fiable de salvaguardar la información crítica durante décadas. La replicación consiste en crear copias redundantes de datos vitales, garantizando su disponibilidad y resistencia en caso de desastres o fallos del sistema. En este artículo exploraré los entresijos de la replicación de datos, examinando sus componentes fundamentales, tipos y limitaciones potenciales.

La replicación de datos comienza con la selección de un volumen de origen o sistema de archivos que necesita protección. Este volumen de origen puede ser un disco virtual, a menudo denominado LUN (número de unidad lógica), procedente de una matriz de almacenamiento o de un gestor de volúmenes. También puede adoptar la forma de un sistema de archivos. La replicación puede producirse a nivel de bloque, una práctica común debido a su eficiencia, o a nivel de sistema de archivos, aunque este último tiende a ser menos favorecido por su rendimiento relativamente inferior.

Una vez seleccionado el origen, debes elegir otro volumen o sistema de ficheros de un host distinto para que sirva como destino de la replicación. Es de esperar que se sitúe en una ubicación geográficamente separada - un aspecto crítico para asegurar la redundancia de datos y la diversidad geográfica-. Las organizaciones emplean diversos sistemas de replicación ofrecidos por proveedores de matrices de almacenamiento, proveedores de gestores de volumen, proveedores de sistemas de archivos y proveedores externos. Estas soluciones forman el núcleo del proceso de replicación, facilitando la sincronización de datos entre los volúmenes de origen y destino.

La etapa de sincronización inicial sienta las bases de la replicación al garantizar que el volumen de destino refleja el contenido del volumen de origen. Una vez alcanzado este hito, el sistema de replicación rastrea y propaga diligentemente cada cambio que se produce en el volumen de origen al volumen de destino. Esta sincronización continua, que suele ejecutarse a nivel de bloque, garantiza que se mantenga la coherencia de los datos en ambos volúmenes. La exactitud con la que el volumen de destino replica el volumen de origen dependerá de si se utiliza replicación síncrona o asíncrona.

Un sistema de replicación síncrona replica cualquier cambio antes de acusar recibo de esos cambios a la aplicación que los realizó. (Cuando una aplicación escribe un bloque de datos en un volumen, espera un acuse de recibo, o ACK, que confirme la escritura correcta en el volumen de origen antes de proceder a escribir el bloque siguiente). Este proceso se asemeja a un commit de dos fases en el mundo de las bases de datos, donde tanto la escritura en el volumen de origen como la copia de esa escritura en el volumen de destino se perciben como un evento atómico.

La principal ventaja de la replicación síncrona reside en su capacidad para garantizar un alto nivel de protección de los datos. Con los volúmenes de origen y destino en constante sincronización, el riesgo de pérdida de datos debido a un desastre o fallo disminuye considerablemente. Sin embargo, hay una contrapartida: el rendimiento del sistema de destino y la ruta de replicación de datos pueden introducir retrasos significativos en la entrega de ACK, afectando a los tiempos de respuesta de las aplicaciones.

Un ejemplo conmovedor de las implicaciones para el rendimiento de la replicación síncrona surgió tras los trágicos acontecimientos del 11-S. En respuesta a las vulnerabilidades expuestas durante los atentados, los reguladores estadounidenses intentaron obligar a las organizaciones financieras a implantar la replicación síncrona en distancias superiores a 300 millas, con el objetivo de mejorar la protección de datos y las capacidades de recuperación ante desastres. Sin embargo, la latencia entre los sitios se consideró prohibitivamente alta, lo que en última instancia condujo al abandono de estos planes.

En cambio, la replicación asíncrona adopta un enfoque más pragmático, aplazando la replicación inmediata de los cambios en favor de ponerlos en cola para su posterior transmisión. Las escrituras se dividen, y una de ellas se envía al sistema de replicación, que la añade al final de la cola. Dependiendo del ancho de banda y la latencia, el volumen de destino puede estar desde unos segundos hasta horas por detrás del volumen de origen.

Aunque la replicación asíncrona ofrece un equilibrio favorable entre rendimiento y protección de datos, también plantea posibles problemas. Una consideración clave es el riesgo de que el proceso de replicación se retrase demasiado, lo que provocaría problemas para ponerse al día con la creciente acumulación de cambios. En determinadas circunstancias, algunas aplicaciones pueden admitir la coalescencia de escrituras, un proceso en el que las escrituras más antiguas se descartan para permitir que el sistema de replicación se ponga al día. Sin embargo, estas prácticas deben tomarse con precaución, ya que pueden afectar a la consistencia de los datos y a las opciones de recuperación.

Mientras que las secciones anteriores se centraban principalmente en la replicación a nivel de bloque, un concepto similar se extiende al concepto de replicación de base de datos. Aquí, el énfasis cambia de la replicación a nivel de bloque a la replicación de transacciones individuales entre bases de datos. Al igual que ocurre con otras formas de replicación, la replicación de bases de datos suele realizarse de forma asíncrona, lo que subraya su utilidad para salvaguardar los registros vitales de las bases de datos.

La replicación ha sido durante mucho tiempo el método elegido por las organizaciones que buscan proteger las aplicaciones de misión crítica, impulsadas por su capacidad para proporcionar una recuperación de datos rápida y eficiente. De hecho, sus capacidades de sincronización de datos en tiempo real la convierten en una herramienta indispensable para garantizar la disponibilidad de los datos durante las crisis. Sin embargo, es esencial reconocer que la replicación, cuando se emplea de forma aislada, tiene limitaciones inherentes.

Tal vez la limitación más flagrante resida en la ausencia de un "botón atrás" en los sistemas de replicación tradicionales. En caso de errores humanos, como borrados o corrupciones accidentales de datos (o ataques de ransomware), la replicación propagará fielmente estas acciones al volumen de destino, provocando una pérdida irrecuperable de datos.

En consecuencia, confiar únicamente en la replicación para la protección de datos no cumple la regla 3-2-1 de eficacia probada: tres copias de los datos en dos soportes diferentes, con una copia ubicada fuera de las instalaciones. Puede parecer que lo cumple; sin embargo, dado que una sola acción puede eliminar todas las copias, no cumple con el aspecto "2" de colocar diferentes copias en soportes con diferentes perfiles de riesgo.

Otra consideración se refiere a la posible sobrecarga de rendimiento introducida por la replicación. Cuando se combinan las copias de seguridad periódicas con la replicación de datos, éstos se copian efectivamente dos veces, lo que provoca un impacto en el rendimiento que puede considerarse insignificante de forma aislada, pero que podría acumularse cuando entran en juego otros factores.

La replicación de datos es un mecanismo venerable de protección de datos, que permite a las organizaciones crear copias en tiempo real de datos vitales, reforzando la resistencia y la continuidad de los datos. Sin embargo, a medida que profundizamos en sus entresijos, descubrimos sus limitaciones y el papel esencial que desempeña dentro del tapiz más amplio de la protección integral de datos.

Aunque la replicación es excelente a la hora de proporcionar disponibilidad inmediata de los datos, no se puede confiar únicamente en ella para protegerse contra errores humanos, corrupción de datos, ciberataques o la pérdida de varias copias. Por lo tanto, es crucial complementar la replicación con estrategias integrales de copia de seguridad de datos, siguiendo la regla 3-2-1 e incorporando capacidades de versionado. (Las instantáneas son un gran ejemplo de herramienta complementaria que puede hacer más valiosa la replicación).

Al adoptar un enfoque holístico de la protección de datos, combinando el poder de la replicación de datos con sólidas prácticas de copia de seguridad, las organizaciones pueden navegar con confianza por el panorama digital, salvaguardando su activo más valioso: los datos. Al hacer hincapié en la sinergia entre la replicación en tiempo real y las copias de seguridad bien estructuradas, las empresas pueden abordar con confianza los retos en constante evolución de la protección de datos y garantizar la resistencia de sus operaciones.



TE PUEDE INTERESAR...

Accede a la cobertura de nuestros encuentros
 
Lee aquí nuestra revista digital de canal

DealerWorld Digital

 

Forma parte de nuestra comunidad
 
¿Interesado en nuestros foros? 

 

Whitepaper

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS