Seguridad
Inteligencia artificial
IA
Machine learning

El aprendizaje automático adverso explicado: cómo los atacantes perturban los sistemas de IA y ML

Los actores de las amenazas tienen varias formas de engañar o explotar los sistemas y modelos de inteligencia artificial y aprendizaje automático, pero podemos defendernos de sus tácticas.

machine learning

A medida que más empresas ponen en marcha proyectos de inteligencia artificial (IA) y aprendizaje automático (ML), su seguridad se vuelve más importante. Un informe publicado por IBM y Morning Consult en mayo afirmaba que, de entre más de 7.500 empresas de todo el mundo, el 35% ya utiliza la IA, un 13% más que el año pasado, mientras que otro 42% la está explorando. Sin embargo, casi el 20% de las empresas afirman que están teniendo dificultades para asegurar los datos y que esto está frenando la adopción de la IA.

En una encuesta realizada la primavera pasada por Gartner, la preocupación por la seguridad era el principal obstáculo para la adopción de la IA, empatada en primer lugar con la complejidad de la integración de las soluciones de IA en la infraestructura existente.

Según un documento que Microsoft publicó la primavera pasada, el 90% de las organizaciones no están preparadas para defenderse del aprendizaje automático adverso. De las 28 organizaciones grandes y pequeñas incluidas en el informe, 25 no disponían de las herramientas necesarias para asegurar sus sistemas de ML.

La seguridad de los sistemas de IA y aprendizaje automático plantea importantes retos. Algunos no son exclusivos de la IA. Por ejemplo, los sistemas de IA y ML necesitan datos, y si esos datos contienen información sensible o de propiedad, serán un objetivo de los atacantes. Otros aspectos de la seguridad de la IA y el ML son nuevos, como la defensa contra el aprendizaje automático adverso.

 

¿Qué es el aprendizaje automático adverso?

A pesar de lo que sugiere su nombre, el aprendizaje automático adverso no es un tipo de aprendizaje automático. Se trata más bien de un conjunto de técnicas que los adversarios utilizan para atacar los sistemas de aprendizaje automático.

"El aprendizaje automático adverso explota las vulnerabilidades y especificidades de los modelos de ML", afirma Alexey Rubtsov, investigador asociado del Global Risk Institute y profesor de la Toronto Metropolitan University, antes Ryerson. Es autor de un artículo reciente sobre el aprendizaje automático adverso en el sector de los servicios financieros.

Por ejemplo, el aprendizaje automático antagónico puede utilizarse para que los algoritmos de negociación de ML tomen decisiones de negociación erróneas, dificulten la detección de operaciones fraudulentas, proporcionen asesoramiento financiero incorrecto y manipulen informes basados en el análisis de sentimientos.

 

Tipos de ataques de aprendizaje automático adverso

Según Rubtsov, los ataques de aprendizaje automático adverso se dividen en cuatro categorías principales: envenenamiento, evasión, extracción e inferencia.

 

1. Ataque de envenenamiento

Con un ataque de envenenamiento, un adversario manipula el conjunto de datos de entrenamiento, dice Rubtsov. "Por ejemplo, lo sesgan intencionadamente, y la máquina aprende de forma equivocada". Digamos, por ejemplo, que tu casa tiene una cámara de seguridad con IA. Un atacante podría pasar por tu casa a las 3 de la mañana cada día y dejar que su perro pasee por tu césped, activando el sistema de seguridad. Con el tiempo, desactivarás esas alertas de las 3 de la mañana para evitar que el perro te despierte. Ese paseador de perros está, en efecto, proporcionando datos de entrenamiento de que algo que ocurre a las 3 de la mañana cada noche es un evento inocuo. Cuando el sistema está entrenado para ignorar cualquier cosa que ocurra a las 3 de la mañana, es cuando atacan.

 

2. Ataque de evasión

Con un ataque de evasión, el modelo ya ha sido entrenado, pero el ataque es capaz de cambiar la entrada ligeramente. "Un ejemplo podría ser una señal de stop en la que se pone una pegatina y la máquina la interpreta como una señal de ceda el paso en lugar de una señal de stop", dice Rubtsov.

En nuestro ejemplo del paseador de perros, el ladrón podría ponerse un disfraz de perro para entrar en su casa. "El ataque de evasión es como una ilusión óptica para la máquina", dice Rubtsov.

 

3. Ataque de extracción

En un ataque de extracción, el adversario obtiene una copia de tu sistema de IA. "A veces puedes extraer el modelo simplemente observando qué entradas le das al modelo y qué salidas proporciona", dice Rubtsov. "Si tocas el modelo, ves la reacción. Si te permiten pinchar el modelo suficientes veces, puedes enseñar a tu propio modelo a comportarse de la misma manera".

Por ejemplo, en 2019, una vulnerabilidad en el sistema Email Protection de Proofpoint generó cabeceras de correo electrónico con una puntuación incrustada sobre la probabilidad de que fuera spam. Al usar estas puntuaciones, un atacante podría construir un motor de detección de spam de imitación para crear correos electrónicos de spam que evadan la detección.

Si una empresa utiliza un producto comercial de IA, el adversario también podría obtener una copia del modelo comprándolo o utilizando un servicio. Por ejemplo, hay plataformas disponibles para los atacantes en las que pueden probar su malware contra los motores antivirus.

En el ejemplo del paseo del perro, el atacante podría conseguir unos prismáticos para ver qué marca de cámara de seguridad tienes y comprar la misma para averiguar cómo burlarla.

 

4. Ataque de inferencia

En un ataque de inferencia, los adversarios averiguan qué conjunto de datos de entrenamiento se utilizó para entrenar el sistema, y se aprovechan de las vulnerabilidades o sesgos de los datos. "Si consiguen averiguar los datos de entrenamiento, pueden utilizar el sentido común o técnicas sofisticadas para aprovecharlos", dice Rubtsov.

Por ejemplo, en la situación de los paseos de perros, el adversario podría vigilar la casa para averiguar cuáles son los patrones normales de tráfico en la zona y darse cuenta de que hay un paseador de perros que pasa por allí todas las mañanas a las 3, y averiguar que el sistema está sesgado y ha aprendido a ignorar a las personas que pasean a sus perros.

 

Defenderse del aprendizaje automático adverso

Rubtsov recomienda que las empresas se aseguren de que sus conjuntos de datos de entrenamiento no contengan sesgos y que el adversario no pueda corromper los datos deliberadamente. "Algunos modelos de aprendizaje automático utilizan el aprendizaje por refuerzo y aprenden sobre la marcha a medida que llegan nuevos datos", afirma. "En ese caso, hay que tener cuidado con cómo tratar los nuevos datos".

Cuando se utiliza un sistema de terceros, Rubtsov recomienda que las empresas pregunten a los proveedores cómo protegen sus sistemas contra ataques de adversarios. "Muchos vendedores no tienen nada establecido", dice. "No son conscientes de ello".

La mayoría de los ataques contra el software normal también pueden aplicarse contra la IA, según Gartner. Así que muchas medidas de seguridad tradicionales también pueden utilizarse para defender los sistemas de IA. Por ejemplo, las soluciones que protegen los datos de ser accedidos o comprometidos también pueden proteger los conjuntos de datos de entrenamiento contra la manipulación.

Gartner también recomienda a las empresas que tomen medidas adicionales si tienen sistemas de IA y aprendizaje automático que proteger. En primer lugar, para proteger la integridad de los modelos de IA, Gartner recomienda que las empresas adopten los principios de la IA de confianza y realicen comprobaciones de validación de los modelos. En segundo lugar, para proteger la integridad de los datos de entrenamiento de la IA, Gartner recomienda utilizar tecnología de detección de envenenamiento de datos.

MITRE, conocido por su marco ATT&CK de tácticas y técnicas de los adversarios, se asoció con Microsoft y otras 11 organizaciones para crear un marco de ataque para los sistemas de IA llamado Adversarial Machine Learning Threat Matrix. Se rebautizó como Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS) y abarca 12 etapas de ataques contra los sistemas de inteligencia artificial.

Algunos proveedores han comenzado a publicar herramientas para ayudar a las empresas a proteger sus sistemas de IA y a defenderse del aprendizaje automático adverso. En mayo de 2021, Microsoft lanzó Counterfit, una herramienta de automatización de código abierto para probar la seguridad de los sistemas de IA. "Esta herramienta nació de nuestra propia necesidad de evaluar los sistemas de IA de Microsoft en busca de vulnerabilidades", dijo Will Pearce, líder del equipo rojo de IA de Microsoft para Azure Trustworthy ML, en una publicación de blog. "Counterfit comenzó como un corpus de scripts de ataque escritos específicamente para atacar modelos individuales de IA, y luego se transformó en una herramienta de automatización genérica para atacar múltiples sistemas de IA a escala. Hoy en día, utilizamos Counterfit de forma rutinaria como parte de nuestras operaciones del equipo rojo de IA."

La herramienta es útil para automatizar técnicas en el marco de ataque ATLAS de MITRE, dijo Pearce, pero también puede utilizarse en la fase de desarrollo de la IA para detectar vulnerabilidades antes de que lleguen a la producción.

IBM también cuenta con una herramienta de defensa de aprendizaje automático adversarial de código abierto llamada Adversarial Robustness Toolbox, que ahora funciona como un proyecto de la Fundación Linux. Este proyecto es compatible con todos los marcos de trabajo de ML más populares e incluye 39 módulos de ataque que se dividen en cuatro categorías principales: evasión, envenenamiento, extracción e inferencia.

 

Combatir la IA con la IA

En el futuro, los atacantes también podrían utilizar el aprendizaje automático para crear ataques contra otros sistemas de ML, afirma Murat Kantarcioglu, profesor de informática de la Universidad de Texas. Por ejemplo, un nuevo tipo de IA son los sistemas adversarios generativos. Estos sistemas se utilizan sobre todo para crear falsificaciones profundas, es decir, fotos o vídeos muy realistas que pueden hacer creer a los humanos que son reales. Los atacantes los utilizan sobre todo para las estafas online, pero el mismo principio puede aplicarse, por ejemplo, para crear malware indetectable.

"En una red generativa adversarial, una parte se llama discriminador y otra parte se llama generador y se atacan mutuamente", dice Kantarcioglu. Por ejemplo, una IA antivirus podría intentar averiguar si algo es malware. Una IA generadora de malware podría intentar crear un malware que el primer sistema no pueda detectar. Al enfrentar repetidamente a los dos sistemas, el resultado final podría ser un malware casi imposible de detectar.



TE PUEDE INTERESAR...

Accede a la cobertura de nuestros encuentros
 
Lee aquí nuestra revista digital de canal

DealerWorld Digital

 

Forma parte de nuestra comunidad
 
¿Interesado en nuestros foros? 

 

Whitepaper