El aprendizaje automático adverso explicado: cómo los atacantes perturban los sistemas de IA y ML

Los actores de las amenazas tienen varias formas de engañar o explotar los sistemas y modelos de inteligencia artificial y aprendizaje automático, pero podemos defendernos de sus tácticas.

¿Qué es el aprendizaje automático adverso?

A pesar de lo que sugiere su nombre, el aprendizaje automático adverso no es un tipo de aprendizaje automático. Se trata más bien de un conjunto de técnicas que los adversarios utilizan para atacar los sistemas de aprendizaje automático.

"El aprendizaje automático adverso explota las vulnerabilidades y especificidades de los modelos de ML", afirma Alexey Rubtsov, investigador asociado del Global Risk Institute y profesor de la Toronto Metropolitan University, antes Ryerson. Es autor de un artículo reciente sobre el aprendizaje automático adverso en el sector de los servicios financieros.

Por ejemplo, el aprendizaje automático antagónico puede utilizarse para que los algoritmos de negociación de ML tomen decisiones de negociación erróneas, dificulten la detección de operaciones fraudulentas, proporcionen asesoramiento financiero incorrecto y manipulen informes basados en el análisis de sentimientos.

Tipos de ataques de aprendizaje automático adverso

Según Rubtsov, los ataques de aprendizaje automático adverso se dividen en cuatro categorías principales: envenenamiento, evasión, extracción e inferencia.

1. Ataque de envenenamiento

Con un ataque de envenenamiento, un adversario manipula el conjunto de datos de entrenamiento, dice Rubtsov. "Por ejemplo, lo sesgan intencionadamente, y la máquina aprende de forma equivocada". Digamos, por ejemplo, que tu casa tiene una cámara de seguridad con IA. Un atacante podría pasar por tu casa a las 3 de la mañana cada día y dejar que su perro pasee por tu césped, activando el sistema de seguridad. Con el tiempo, desactivarás esas alertas de las 3 de la mañana para evitar que el perro te despierte. Ese paseador de perros está, en efecto, proporcionando datos de entrenamiento de que algo que ocurre a las 3 de la mañana cada noche es un evento inocuo. Cuando el sistema está entrenado para ignorar cualquier cosa que ocurra a las 3 de la mañana, es cuando atacan.

2. Ataque de evasión

Con un ataque de evasión, el modelo ya ha sido entrenado, pero el ataque es capaz de cambiar la entrada ligeramente. "Un ejemplo podría ser una señal de stop en la que se pone una pegatina y la máquina la interpreta como una señal de ceda el paso en lugar de una señal de stop", dice Rubtsov.

En nuestro ejemplo del paseador de perros, el ladrón podría ponerse un disfraz de perro para entrar en su casa. "El ataque de evasión es como una ilusión óptica para la máquina", dice Rubtsov.

3. Ataque de extracción

En un ataque de extracción, el adversario obtiene una copia de tu sistema de IA. "A veces puedes extraer el modelo simplemente observando qué entradas le das al modelo y qué salidas proporciona", dice Rubtsov. "Si tocas el modelo, ves la reacción. Si te permiten pinchar el modelo suficientes veces, puedes enseñar a tu propio modelo a comportarse de la misma manera".

Por ejemplo, en 2019, una vulnerabilidad en el sistema Email Protection de Proofpoint generó cabeceras de correo electrónico con una puntuación incrustada sobre la probabilidad de que fuera spam. Al usar estas puntuaciones, un atacante podría construir un motor de detección de spam de imitación para crear correos electrónicos de spam que evadan la detección.

Si una empresa utiliza un producto comercial de IA, el adversario también podría obtener una copia del modelo comprándolo o utilizando un servicio. Por ejemplo, hay plataformas disponibles para los atacantes en las que pueden probar su malware contra los motores antivirus.

En el ejemplo del paseo del perro, el atacante podría conseguir unos prismáticos para ver qué marca de cámara de seguridad tienes y comprar la misma para averiguar cómo burlarla.

4. Ataque de inferencia

En un ataque de inferencia, los adversarios averiguan qué conjunto de datos de entrenamiento se utilizó para entrenar el sistema, y se aprovechan de las vulnerabilidades o sesgos de los datos. "Si consiguen averiguar los datos de entrenamiento, pueden utilizar el sentido común o técnicas sofisticadas para aprovecharlos", dice Rubtsov.

Por ejemplo, en la situación de los paseos de perros, el adversario podría vigilar la casa para averiguar cuáles son los patrones normales de tráfico en la zona y darse cuenta de que hay un paseador de perros que pasa por allí todas las mañanas a las 3, y averiguar que el sistema está sesgado y ha aprendido a ignorar a las personas que pasean a sus perros.

Defenderse del aprendizaje automático adverso

Rubtsov recomienda que las empresas se aseguren de que sus conjuntos de datos de entrenamiento no contengan sesgos y que el adversario no pueda corromper los datos deliberadamente. "Algunos modelos de aprendizaje automático utilizan el aprendizaje por refuerzo y aprenden sobre la marcha a medida que llegan nuevos datos", afirma. "En ese caso, hay que tener cuidado con cómo tratar los nuevos datos".

Cuando se utiliza un sistema de terceros, Rubtsov recomienda que las empresas pregunten a los proveedores cómo protegen sus sistemas contra ataques de adversarios. "Muchos vendedores no tienen nada establecido", dice. "No son conscientes de ello".

La mayoría de los ataques contra el software normal también pueden aplicarse contra la IA, según Gartner. Así que muchas medidas de seguridad tradicionales también pueden utilizarse para defender los sistemas de IA. Por ejemplo, las soluciones que protegen los datos de ser accedidos o comprometidos también pueden proteger los conjuntos de datos de entrenamiento contra la manipulación.

Gartner también recomienda a las empresas que tomen medidas adicionales si tienen sistemas de IA y aprendizaje automático que proteger. En primer lugar, para proteger la integridad de los modelos de IA, Gartner recomienda que las empresas adopten los principios de la IA de confianza y realicen comprobaciones de validación de los modelos. En segundo lugar, para proteger la integridad de los datos de entrenamiento de la IA, Gartner recomienda utilizar tecnología de detección de envenenamiento de datos.

MITRE, conocido por su marco ATT&CK de tácticas y técnicas de los adversarios, se asoció con Microsoft y otras 11 organizaciones para crear un marco de ataque para los sistemas de IA llamado Adversarial Machine Learning Threat Matrix. Se rebautizó como Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS) y abarca 12 etapas de ataques contra los sistemas de inteligencia artificial.

Algunos proveedores han comenzado a publicar herramientas para ayudar a las empresas a proteger sus sistemas de IA y a defenderse del aprendizaje automático adverso. En mayo de 2021, Microsoft lanzó Counterfit, una herramienta de automatización de código abierto para probar la seguridad de los sistemas de IA. "Esta herramienta nació de nuestra propia necesidad de evaluar los sistemas de IA de Microsoft en busca de vulnerabilidades", dijo Will Pearce, líder del equipo rojo de IA de Microsoft para Azure Trustworthy ML, en una publicación de blog. "Counterfit comenzó como un corpus de scripts de ataque escritos específicamente para atacar modelos individuales de IA, y luego se transformó en una herramienta de automatización genérica para atacar múltiples sistemas de IA a escala. Hoy en día, utilizamos Counterfit de forma rutinaria como parte de nuestras operaciones del equipo rojo de IA."

La herramienta es útil para automatizar técnicas en el marco de ataque ATLAS de MITRE, dijo Pearce, pero también puede utilizarse en la fase de desarrollo de la IA para detectar vulnerabilidades antes de que lleguen a la producción.

IBM también cuenta con una herramienta de defensa de aprendizaje automático adversarial de código abierto llamada Adversarial Robustness Toolbox, que ahora funciona como un proyecto de la Fundación Linux. Este proyecto es compatible con todos los marcos de trabajo de ML más populares e incluye 39 módulos de ataque que se dividen en cuatro categorías principales: evasión, envenenamiento, extracción e inferencia.

Combatir la IA con la IA

En el futuro, los atacantes también podrían utilizar el aprendizaje automático para crear ataques contra otros sistemas de ML, afirma Murat Kantarcioglu, profesor de informática de la Universidad de Texas. Por ejemplo, un nuevo tipo de IA son los sistemas adversarios generativos. Estos sistemas se utilizan sobre todo para crear falsificaciones profundas, es decir, fotos o vídeos muy realistas que pueden hacer creer a los humanos que son reales. Los atacantes los utilizan sobre todo para las estafas online, pero el mismo principio puede aplicarse, por ejemplo, para crear malware indetectable.

"En una red generativa adversarial, una parte se llama discriminador y otra parte se llama generador y se atacan mutuamente", dice Kantarcioglu. Por ejemplo, una IA antivirus podría intentar averiguar si algo es malware. Una IA generadora de malware podría intentar crear un malware que el primer sistema no pueda detectar. Al enfrentar repetidamente a los dos sistemas, el resultado final podría ser un malware casi imposible de detectar.

Imprimir Subir

TE PUEDE INTERESAR...

TENDENCIAS

Tras el 'hype', las soluciones SASE siguen siendo el futuro de la ciberseguridad corporativa

ENTREVISTAS

"Si la Administración quiere, tenemos la tecnología para llevar el DNI a cualquier dispositivo"

TENDENCIAS

La mitad de las filtraciones de datos en EMEA se inician internamente

OPINIÓN

Invertir en innovación o cómo impulsar la ciberseguridad del futuro

TENDENCIAS

Tres vulnerabilidades de Windows que quizás no valga la pena parchear

CIBERCRIMEN

Así obtiene un grupo iraní contraseñas mediante técnicas avanzadas de ingeniería social

EMPRESAS

Óscar Suela Morales coge las riendas de Kaspersky Iberia

EMPRESAS

Marriott admite no haber utilizado cifrado durante la brecha de datos de 2018

LEGISLACIÓN

Estas son las mayores sanciones impuestas a empresas por brechas de datos

TENDENCIAS

El número de incidentes gestionados por INCIBE crece un 24% en 2023

ENTREVISTAS

"Tener demasiadas soluciones de seguridad puede suponer un freno para la digitalización"

TENDENCIAS

'Electrosmog': ¿son los límites a la radiación electromagnética demasiado laxos?

EMPRESAS

Veeam anuncia la adquisición de Coveware

TENDENCIAS

10 aspectos de la seguridad física a tener en cuenta por los CISO

TENDENCIAS

Más de la mitad de las empresas españolas carece de una estrategia de ciberseguridad para la IA

TENDENCIAS

Guerra a los jefes de ciberseguridad tóxicos; cómo ser un mejor CISO

EMPRESAS

Cisco anuncia un servicio de IA para parchear 'exploits' en la nube

CIBERCRIMEN

Microsoft avisa de que Rusia ha comenzado operaciones de influencia para las elecciones estadounidenses

TENDENCIAS

Cómo identificar y proteger la inteligencia artificial en los entornos híbridos

EMPRESAS

Acronis logra el nivel alto del Esquema Nacional de Seguridad

Contenido Patrocinado

Tras el 'hype', las soluciones SASE siguen siendo el futuro de la ciberseguridad corporativa

08 MAY 2024

La elección de un único proveedor que combine capacidades de redes y de seguridad son la clave para una buena implementación de SASE. Aquí te contamos los elementos a tener cuenta al momento de evaluar cuál es la mejor solución.

Especial Tendencias Ciberseguridad 2024

La industria de la ciberseguridad pisa el acelerador ante las nuevas tendencias tecnológicas

Así mueven ficha los CISO para hacer de la ciberseguridad un aliado

"Se cree que la ciberseguridad y la protección de datos entran en conflicto. No es así, son medios para el mismo fin"

"La lista de 'hackeos' de alto perfil es deprimente, las empresas deben despertar"

"Tenemos que prepararnos tecnológica y matemáticamente para la computación cuántica"

El impacto de la inteligencia artificial generativa en ciberseguridad

Algunos desafíos legales en materia de ciberseguridad para 2024

La ciberseguridad es negocio

No te pierdas...

Daniel Rodríguez (Redtrust): "Si la Administración quiere, tenemos la tecnología para llevar el DNI a cualquier dispositivo"

La mitad de las filtraciones de datos en EMEA se inician internamente

Invertir en innovación o cómo impulsar la ciberseguridad del futuro

Tres vulnerabilidades de Windows que quizás no valga la pena parchear

Así obtiene un grupo iraní contraseñas mediante técnicas avanzadas de ingeniería social

Accede a la cobertura de nuestros encuentros

Lee aquí nuestra revista digital de canal

Forma parte de nuestra comunidad

¿Interesado en nuestros foros?

Whitepaper

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

15 ABR 2024

La volatilidad ha venido para quedarse y las compañías tienen que adaptarse a gran velocidad, con infraestructuras tecnológicas que sean capaces de responder al mismo ritmo. En este contexto, el viaje hacia los modelos como servicio es una tendencia imparable que, junto con sus múltiples beneficios, también presenta retos. Descubre en este documento las principales conclusiones del debate.

Tweets por @csospain