Cómo la 'ingeniería del caos' puede mejorar la resiliencia de las redes

Los experimentos controlados destinados a romper la red pueden descubrir vulnerabilidades previamente desconocidas.

Por qué la ‘ingeniería del caos’ tiene sentido

El analista de Forrester, David Mooter cree que esta ciencia es una respuesta lógica a un entorno en el que las redes están distribuidas en plataformas de múltiples nubes y bajo cada vez más ciberataques. “El problema es que estos sistemas son demasiado complejos como para que podamos comprenderlos por completo. Por ello, los esfuerzos en resiliencia deben basarse en la suposición de que no podemos comprender y predecir cómo se comportan”.

“La red no es siempre confiable”, añade Nora Jones, fundadora y directora ejecutiva de Jeli. “El concepto de probar la red es el mismo que probar la CPU o cualquier otra cosa; simular eventos desfavorables y sacar a la luz las incógnitas”. La ‘ingeniería del caos’ respalda el concepto de verificación continua, la idea de que las cosas nunca son totalmente confiables y de que el error acecha siempre. “Es una batalla constante para mantenerse por delante de la vulnerabilidad, y requiere de un cambio de mentalidad en la forma en que se abordan las operaciones”.

Ejemplos de ‘ingeniería del caos’

Mooter trabajó con una empresa que hizo un experimento que pasaba por la configuración incorrecta de un puerto. “La hipótesis era que este sería detectado y bloqueado por el firewall con una alerta para el equipo de seguridad”. Pero, la mitad de las veces que se hizo, el cortafuegos no pudo bloquearlo. Sin embargo, una herramienta de configuración de nube secundaria consiguió el éxito en todas las ocasiones.

“El problema fue que la herramienta secundaria no alertó al departamento de seguridad, por lo que estaba ciego ante este tipo de incidentes. Por lo tanto, la prueba mostró no solo un fallo en el firewall, sino también en la capacidad del equipo para detectar y responder ante un incidente”.

Probar metódicamente y no al azar

La ‘ingeniería del caos’ no sería útil si introdujera fallos al azar de los que los equipos de seguridad o red no fueran conscientes y detuviera la red o causara problemas de rendimiento. Es muy específica y se realiza en entornos que no son principalmente de producción. “No se rompen las cosas al azar, sino que se identifica inteligentemente el riesgo que no se puede asumir, se formula una hipótesis sobre el mismo y se ejecuta un experimento para confirmar la hipótesis”.

Como en una tesis científica, la hipótesis debe ser refutable. “Cada vez que ejecuto el experimento y tiene éxito, tengo más confianza en que voy en el camino correcto”, expresa. “Pero si falla, descubro nuevas informaciones de mis sistemas que pueden corregir mis falsas suposiciones.

Uno de los grandes beneficios de este enfoque es que encuentra problemas antes de que puedan tener un gran impacto en los negocios. “Supongamos que hay algún error que puede desconectar un servicio de pagos. Entonces, ¿es preferible descubrirlo en un entorno controlado, probablemente sin producción, o que suceda inesperadamente?”.

Mejores prácticas

Hay varias mejores prácticas que las organizaciones pueden aplicar al experimentar con la ingeniería del caos:

Incluya a los desarrolladores de aplicaciones. Mooter dice: “Con arquitecturas distribuidas complejas, los desarrolladores no tienen una buena intuición para los límites de sus aplicaciones. Cuando la ingeniería del caos se convierte en parte de la entrega de software, los desarrolladores ven cada vez más ejemplos en los que sus suposiciones eran incorrectas. Esto crea el hábito de ser más proactivo al cuestionar sus suposiciones”.

Mejorar la comunicación. En Netflix, donde la empresa creó sus propias herramientas de ingeniería del caos y luego las abrió, la idea "era crear una función forzada para que los ingenieros construyeran sistemas resistentes", asevera Jones, quien trabaja en la compañía. “Todos sabían que los servidores se apagarían al azar y el sistema necesitaba poder manejarlo. Y no solo eso, la gente necesitaba saber cómo comunicarse con las partes correctas cuando esto sucedía”.

Elija los experimentos correctos. Los experimentos de caos de redes "posiblemente son las pruebas más populares para modelar interrupciones que causan tiempo de inactividad no planificado en los sistemas distribuidos complejos de hoy en día", asegura Uma Mukkara, jefe de ingeniería de caos en Harness, que proporciona herramientas de ingeniería de caos y servicios de soporte. Las empresas pueden aprovechar la ingeniería del caos para experimentos específicos, como la validación de la latencia de la red entre dos servicios, la verificación de los mecanismos de resiliencia en el código, la caída del tráfico en una llamada de servicio para comprender el impacto en las dependencias ascendentes o la introducción de corrupción de paquetes en un flujo de red para comprender la aplicación o resiliencia del servicio.

Equipos de seguridad integrados: La 'ingeniería del caos' se puede aplicar a cualquier sistema distribuido complejo, incluida la seguridad de la red, dice Mooter. “Para la seguridad, la mentalidad es asumir que los controles de seguridad fallarán sin importar cuánto se esfuerce por ser perfecto”, dice. Por ejemplo, un banco usó la 'ingeniería del caos' para cambiar los indicadores que estaba midiendo. En lugar de simplemente realizar un seguimiento del tiempo sin incidentes de seguridad, comenzó a medir qué salvaguardas de seguridad específicas se sabía que estaban funcionando, dice Mooter.

Consejos para controlar el caos

Ponga límites a los proyectos de ingeniería del caos. “No creo que debas darle a cada ingeniero las claves para romper cosas”, dice Jones. “Es una disciplina, y más específicamente es una disciplina de personas más que de herramientas, por lo que inculcar la cultura apropiada de seguridad psicológica y aprendizaje es un requisito previo antes de que la ingeniería del caos pueda ser efectiva”.

Aprenda de los sistemas de respuesta a incidentes existentes. Las organizaciones deben tomarse el tiempo para asegurarse de que están aprendiendo de los incidentes que ya están teniendo, dice Jones. “Si está considerando la ingeniería del caos, le garantizo que hay una gran cantidad de información en los incidentes que ya ha tenido”, dice. "Explore esos primeros y los patrones de superficie de ellos" que ayudarán a comprender los mejores tipos de experimentos para ejecutar.

Tener una manera de desconectar rápidamente. Es una buena idea tener una forma automatizada de cancelar inmediatamente una actividad de caos cuando sea necesario, dice Mooter. “Cada experimento de caos debe diseñarse para minimizar el radio de explosión en caso de que las cosas salgan mal”, dice. “Esto puede ser en las capas de infraestructura, aplicación o negocio”. Por ejemplo, en la capa de infraestructura, aísle la falla a un conjunto limitado de conexiones.

Federar el programa de 'ingeniería del caos'. “Los equipos de ingeniería del caos centralizados no escalan”, explica Mooter. “Los equipos de entrega no aprenden ni desarrollan la intuición para la resiliencia si no están directamente involucrados, por lo que pierde el beneficio del cambio de cultura si está centralizado”. No tiene sentido crear una dinámica de "nosotros contra ellos" entre el equipo de caos central y los equipos de entrega, dice Mooter.

“Por ejemplo, una empresa de software descubrió que en el pasado, un equipo de desarrollo señalaba con el dedo a la infraestructura por no proporcionar suficiente espacio en disco, mientras que el equipo de infraestructura señalaba y preguntaba por qué los desarrolladores escribieron un código que consumía tanto espacio”, dice. .

Después de adoptar la mentalidad de la ingeniería del caos, ambas partes han dejado de discutir por qué el disco está lleno y han pasado a preguntarse cómo hacer que el sistema sea resistente frente a un disco lleno, dice Mooter.

Cambiar la cultura. Las organizaciones que utilizan la ingeniería del caos deberían crear una cultura de experimentación, dice Mukkara. “Ningún sistema puede ser 100% confiable. Sin embargo, su cliente quiere que esté disponible cuando lo necesite. Necesita construir un sistema que pueda soportar fallas comunes y capacitar a su equipo para responder a fallas desconocidas. Esto comienza con la experimentación para aprender cómo se comporta y funciona su sistema y la iteración de las mejoras a lo largo del tiempo”.

Visibilidad y transparencia. Mukkara añade: "Informar y compartir aprendizajes con múltiples partes interesadas sobre los problemas que está encontrando y las mejoras de confiabilidad que está realizando en su sistema, para involucrar a la empresa", dice. Por ejemplo, informe al liderazgo de gestión de productos contra qué modos de falla está protegido un sistema y cómo se han probado con éxito los mecanismos de resiliencia. “Esto les dará confianza para comprender el sistema y la disponibilidad que debe mantener. También puede informarles a qué modos de falla es susceptible su sistema, para que el problema pueda priorizarse o, como mínimo, reconocerse como un riesgo aceptable”.

Imprimir Subir

TE PUEDE INTERESAR...

TENDENCIAS

El número de incidentes gestionados por INCIBE crece un 24% en 2023

ENTREVISTAS

"Tener demasiadas soluciones de seguridad puede suponer un freno para la digitalización"

TENDENCIAS

'Electrosmog': ¿son los límites a la radiación electromagnética demasiado laxos?

EMPRESAS

Veeam anuncia la adquisición de Coveware

TENDENCIAS

10 aspectos de la seguridad física a tener en cuenta por los CISO

TENDENCIAS

Más de la mitad de las empresas españolas carece de una estrategia de ciberseguridad para la IA

TENDENCIAS

Guerra a los jefes de ciberseguridad tóxicos; cómo ser un mejor CISO

EMPRESAS

Cisco anuncia un servicio de IA para parchear 'exploits' en la nube

CIBERCRIMEN

Microsoft avisa de que Rusia ha comenzado operaciones de influencia para las elecciones estadounidenses

TENDENCIAS

Cómo identificar y proteger la inteligencia artificial en los entornos híbridos

EMPRESAS

Acronis logra el nivel alto del Esquema Nacional de Seguridad

CIBERCRIMEN

Dos asociaciones 'open source' alertan del intento de sabotaje de varios softwares populares

TENDENCIAS

La CISA abre a empresas e individuos su herramienta de análisis de 'malware'

CIBERCRIMEN

Apple detecta una amenaza de 'spyware' en cientos de usuarios de iPhone en más de 90 países

EMPRESAS

Un nuevo fallo de seguridad en Microsoft: empleados expusieron credenciales internas

EMPRESAS

Ivanti rediseñará sus controles de seguridad y la gestión de vulnerabilidades

EMPRENDEDORES

La 'startup' vasca de privacidad de datos Nymiz capta 2,8 millones de euros de financiación

TENDENCIAS

Un grupo de investigadores descubre técnicas de evasión de filtración de datos en SharePoint

TENDENCIAS

El 80% de las empresas españolas ha sufrido un ciberataque en su infraestructura OT

TENDENCIAS

Sólo un 2% de las empresas españolas tiene una ciberseguridad madura, aunque el 74% cree tenerla

Especial Tendencias Ciberseguridad 2024

La industria de la ciberseguridad pisa el acelerador ante las nuevas tendencias tecnológicas

Así mueven ficha los CISO para hacer de la ciberseguridad un aliado

"Se cree que la ciberseguridad y la protección de datos entran en conflicto. No es así, son medios para el mismo fin"

"La lista de 'hackeos' de alto perfil es deprimente, las empresas deben despertar"

"Tenemos que prepararnos tecnológica y matemáticamente para la computación cuántica"

El impacto de la inteligencia artificial generativa en ciberseguridad

Algunos desafíos legales en materia de ciberseguridad para 2024

La ciberseguridad es negocio

No te pierdas...

El número de incidentes gestionados por INCIBE crece un 24% en 2023

Acacio Martín (Fortinet): "Tener demasiadas soluciones de seguridad puede suponer un freno para la digitalización"

'Electrosmog': ¿son los límites a la radiación electromagnética demasiado laxos?

Veeam anuncia la adquisición de Coveware

10 aspectos de la seguridad física a tener en cuenta por los CISO

Accede a la cobertura de nuestros encuentros

Lee aquí nuestra revista digital de canal

Forma parte de nuestra comunidad

¿Interesado en nuestros foros?

Whitepaper

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Tweets por @csospain