Seguridad
Inteligencia artificial
Protección de datos
Chatbots

Compartir datos empresariales sensibles con ChatGPT podría ser arriesgado

ChatGPT y otros grandes modelos lingüísticos similares aprenden de los datos que les proporcionan, por lo que compartir información empresarial confidencial con ‘chatbots’ de inteligencia artificial entraña grandes riesgos.

Chat GPT 3

El furor en torno a ChatGPT se mantiene en su punto álgido a la vez que los entresijos del potencial del chatbot de inteligencia artificial siguen acaparando titulares. Una cuestión que ha llamado la atención de muchos en el campo de la seguridad es si la ingesta de datos empresariales sensibles por parte de la tecnología pone en peligro a las organizaciones. Existe el temor de que si una persona introduce información confidencial -informes trimestrales, material para una presentación interna, cifras de ventas, etc.- y pide a ChatGPT que escriba un texto en torno a ella, cualquiera podría obtener información sobre esa empresa simplemente preguntando después a ChatGPT al respecto.

El 22 de marzo, Sam Altman, CEO de OpenAI, confirmó los rumores sobre un fallo de ChatGPT que permitía a algunos usuarios ver los títulos de las conversaciones de otros usuarios. El 20 de marzo, los internautas empezaron a ver en su historial conversaciones que decían no haber mantenido con el chatbot. Altman aseguró que la compañía se siente "fatal", pero que el "significativo" error ya ha sido solucionado. "Tuvimos un problema significativo en ChatGPT debido a un error en una biblioteca de código abierto, para el que ya se ha publicado una corrección y acabamos de terminar de validar. Un pequeño porcentaje de usuarios podía ver los títulos del historial de conversaciones de otros usuarios", comentó Altman.

Las implicaciones de que los chatbots recuerden y aprendan de las aportaciones de los usuarios podrían ser de gran alcance: imagine que trabaja en una presentación interna que contiene nuevos datos corporativos que revelan un problema de la empresa que se debatirá en una reunión de la junta directiva. La divulgación de esa información confidencial podría socavar el precio de las acciones, la actitud de los consumidores y la confianza de los clientes. Peor aún, la filtración de un punto legal del orden del día podría exponer a la empresa a una responsabilidad real. Pero, ¿podría ocurrir alguna de estas cosas sólo con lo que se introduce en un chatbot?

Este concepto fue explorado por la empresa de investigación Cyberhaven en febrero, concentrándose en cómo OpenAI utiliza el contenido que la gente pone en ChatGPT como datos de entrenamiento para mejorar su tecnología, con una salida muy parecida a lo que se introdujo. Cyberhaven afirmaba que los datos confidenciales introducidos en ChatGPT podrían ser revelados a un tercero si éste formulara a ChatGPT determinadas preguntas basadas en la información facilitada por el ejecutivo.

 

ChatGPT no almacena los datos de entrada de los usuarios, ¿verdad?

El Centro Nacional de Ciberseguridad del Reino Unido (NCSC, por sus siglas en inglés) compartió más información sobre este asunto en marzo, afirmando que ChatGPT y otros grandes modelos lingüísticos (LLM, por sus siglas en inglés) no añaden actualmente información automáticamente de las consultas a los modelos para que otros puedan consultarlos. Es decir, incluir información en una consulta no implica que esos datos potencialmente privados se incorporen al LLM. "Sin embargo, la consulta será visible para la organización que proporciona el LLM (en el caso de ChatGPT, para OpenAI)", escribió.

"Esas consultas se almacenan y casi con toda seguridad se utilizarán para desarrollar el servicio o modelo LLM en algún momento. Esto podría significar que el proveedor de LLM (o sus socios/contratistas) puedan leer las consultas e incorporarlas de algún modo en futuras versiones", añadía. Otro riesgo que aumenta a medida que más organizaciones producen y utilizan LLM es que las consultas almacenadas en línea puedan ser pirateadas, filtradas o puestas accidentalmente a disposición del público, escribió el NCSC. En definitiva, existe un verdadero motivo de preocupación en relación con la introducción y el uso de datos empresariales confidenciales en ChatGPT, aunque es probable que los riesgos sean menos generalizados de lo que indican algunos titulares.

 

Riesgos probables de introducir datos confidenciales en ChatGPT

Los LLM muestran un comportamiento emergente denominado aprendizaje en contexto. Durante una sesión, a medida que el modelo recibe datos, puede condicionarse a realizar tareas basadas en el contexto contenido en esos datos. "Este es probablemente el fenómeno al que se refiere la gente cuando se preocupa por la fuga de información. Sin embargo, no es posible que la información de la sesión de un usuario se filtre a la de otro", explica a CSO Andy Patel, investigador senior de WithSecure. "Otra preocupación es que las indicaciones introducidas en la interfaz de ChatGPT se recojan y se utilicen en futuros datos de entrenamiento".

Aunque es válido preocuparse de que los chatbots ingieran y luego regurgiten información sensible, sería necesario entrenar un nuevo modelo para incorporar esos datos, dice Patel. Entrenar a los LLM es un procedimiento caro y largo, y afirma que le sorprendería que se entrenara un modelo con los datos recopilados por ChatGPT en un futuro próximo. "Si finalmente se crea un nuevo modelo que incluya los avisos recogidos por ChatGPT, nuestros temores se centran en los ataques de inferencia de pertenencia. Estos ataques podrían revelar números de tarjetas de crédito o información personal que figurase en los datos de entrenamiento. Sin embargo, no se ha demostrado ningún ataque de inferencia de miembros contra los LLM de ChatGPT y otros sistemas similares". Esto implica que es muy poco probable que los futuros modelos sean susceptibles de sufrir ataques de inferencia de miembros, aunque Patel admite que es posible que la base de datos que contiene los mensajes guardados sea pirateada o filtrada.

 

Los vínculos de terceros con la IA podrían exponer los datos

Es más probable que los problemas surjan de proveedores externos que no declaran explícitamente sus políticas de privacidad, por lo que usarlos con herramientas y plataformas que de otro modo serían seguras puede poner en riesgo cualquier dato que sería privado, defiende Wicus Ross, investigador senior de Seguridad de Orange Cyberdefense. "Las plataformas SaaS como Slack y Microsoft Teams tienen límites claros de datos y procesamiento y un bajo riesgo de que los datos queden expuestos a terceros. Sin embargo, estas líneas claras pueden difuminarse rápidamente si los servicios se aumentan con complementos de terceros o bots que necesitan interactuar con los usuarios, independientemente de si están vinculados a la IA", afirma. "En ausencia de una declaración explícita clara en la que el procesador de terceros garantice que la información no se filtrará, debes asumir que ya no es privada".

Aparte de los datos sensibles que comparten los usuarios habituales, las empresas también deben ser conscientes de los ataques de inyección puntual que podrían revelar las instrucciones previas proporcionadas por los desarrolladores al ajustar la herramienta o hacer que ignore las directivas programadas previamente, explica a CSO Neil Thacker, CISO de Netskope para EMEA. "Ejemplos recientes incluyen bromistas de Twitter cambiando el comportamiento del bot y problemas con Bing Chat, donde los investigadores encontraron una manera de hacer que ChatGPT revele instrucciones previas probablemente escritas por Microsoft que deberían estar ocultas”.

 

Controle qué datos se envían a ChatGPT

Los datos confidenciales representan actualmente el 11% de lo que los empleados pegan en ChatGPT, y la empresa media filtra datos confidenciales a ChatGPT cientos de veces cada semana, según Cyberhaven. "ChatGPT está pasando del bombo publicitario al mundo real y las organizaciones están experimentando con la implementación práctica en toda su empresa para unirse a sus otras herramientas basadas en ML/AI, pero es necesario aplicar cierta precaución, especialmente cuando se trata de compartir información sensible", refiere Thacker. Hay que tener en cuenta aspectos como la propiedad de los datos y el impacto potencial si la organización que los aloja sufre una brecha". Como ejercicio sencillo, los profesionales de la seguridad de la información deberían, como mínimo, ser capaces de identificar la categoría de datos potencialmente accesibles en caso de violación de estos servicios”.

En última instancia, es responsabilidad de las empresas asegurarse de que sus usuarios son plenamente conscientes de qué información debe y no debe revelarse a ChatGPT. Las organizaciones deben tener mucho cuidado con los datos que deciden enviar en las solicitudes, dice el NCSC: "Debes asegurarte de que aquellos que quieran experimentar con los LLM puedan hacerlo, pero de una manera que no ponga en riesgo los datos de la organización”.

 

Advertir a los trabajadores sobre el peligro potencial

Sin embargo, identificar y controlar los datos que los empleados envían a ChatGPT no está exento de dificultades, advirtió Cyberhaven. "Cuando los trabajadores introducen datos de la empresa en ChatGPT, no cargan un archivo, sino que copian y pegan el contenido en su navegador web. Muchos productos de seguridad están diseñados para proteger los archivos (que están etiquetados como confidenciales) de su carga, pero una vez que el contenido se copia fuera del archivo, son incapaces de seguirle la pista", insistió. Es más, los datos de la empresa que van a ChatGPT a menudo no contienen un patrón reconocible que las herramientas de seguridad buscan, como un número de tarjeta de crédito o de la Seguridad Social, dijo Cyberhaven. "Sin saber más sobre su contexto, las herramientas de seguridad actuales no pueden diferenciar entre alguien que introduce el menú de la cafetería y los planes de fusiones y adquisiciones de la empresa".

Para mejorar la visibilidad, las organizaciones deben implementar políticas en sus pasarelas web seguras (SWG) para identificar el uso de herramientas de IA y también pueden aplicar políticas de prevención de pérdida de datos (DLP) para detectar qué datos se envían a estas herramientas, incide Thacker. Las organizaciones deben actualizar las políticas de protección de la información para asegurarse de que los tipos de aplicaciones que son manejadores aceptables de datos confidenciales están bien documentados, interviene Michael Covington, vicepresidente de Estrategia de cartera en Jamf. "El control de ese flujo de información comienza con una política bien documentada e informada", afirma. "Además, las organizaciones deben explorar cómo pueden utilizar estas nuevas tecnologías para mejorar sus negocios de una manera reflexiva. No hay que huir de estos servicios por miedo e incertidumbre, sino dedicar algo de personal a explorar nuevas herramientas que muestren potencial, de modo que se puedan comprender los riesgos desde el principio y garantizar que se dispone de las protecciones adecuadas cuando los primeros usuarios finales quieran empezar a utilizar las herramientas”.



TE PUEDE INTERESAR...

Webinar ondemand

Accede a la cobertura de nuestros encuentros
 
Lee aquí nuestra revista digital de canal

DealerWorld Digital

 

Forma parte de nuestra comunidad
 
¿Interesado en nuestros foros? 

 

Whitepaper

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS