El español que trabaja 'hackeando' ChatGPT: "Nadie sabe explicar cómo funciona la IA"
Entrevistamos a Javier Rando sobre los retos de seguridad a los que se enfrentan las compañías desarrolladoras de IA generativa
Su investigación se centra en encontrar los fallos de seguridad en los modelos de IA y compartirlos con las empresas que los desarrollan
El grupo de investigación en el que trabaja en Zúrich halló un agujero en ChatGPT que reproducía los artículos de ‘The New York Times’
Cuando ‘The New York Times’ denunció a los creadores de ChatGPT por usar sus artículos en su entrenamiento, Javier Rando y su equipo editaron el modelo y lograron encontrar un agujero en el popular chatbot: “Si tú le dabas el título de un artículo suyo, era capaz de prácticamente reproducirlo entero”. El investigador español está haciendo su doctorado en la Escuela Politécnica Federal de Zúrich (ETH). Este verano, además, ha hecho una estancia en el equipo de IA de Meta (empresa propietaria de Instagram y Facebook).
Su línea de investigación consiste precisamente en encontrar los fallos de seguridad que pueden tener los chatbots de IA. El ejemplo que pone es muy sencillo: los modelos se han entrenado con todo tipo de información, también con aquella que explica “cómo construir una bomba”. Y al final, aunque las compañías tecnológicas introduzcan filtros para evitar que esa información sea de fácil acceso, a veces se producen agujeros de seguridad. La tarea de los investigadores consiste en encontrar esos “fallos que no son obvios y que pueden generar algún tipo de daño o de perjuicio en los usuarios”.
MÁS
Pregunta: ¿Es posible retirar la información peligrosa de un modelo de IA?
Respuesta: Todas las empresas lo intentan. Todas las compañías, según comentan en sus reportes técnicos, han intentado limitar cuánto se exponen estos modelos a este tipo de información; pero es muy difícil. Tenemos que imaginarnos que estamos hablando de filtrar internet entero. Estamos hablando de terabytes y terabytes de texto.
P: ¿Qué hacen las empresas para evitar que está información sea de fácil acceso?
R: Estas empresas cuando los modelos adquieren este conocimiento dañino o perjudicial, lo que hacen es aplicar una capa de seguridad. Básicamente, que cuando tú le preguntes a ChatGPT “cómo puedo construir una bomba”, la respuesta sea “lo siento, pero no te puedo ayudar con esto”.
Nosotros, como investigadores de seguridad, lo que intentamos hacer es ver de qué manera podemos conseguir extraer este conocimiento de los modelos. Es decir, conseguir que el modelo me dé instrucciones para construir una bomba, a pesar de que OpenAI en este caso, o Anthropic o Google, o sea la empresa que sea, ha intentado poner unas medidas de seguridad para que esto no ocurra.
P: Cuando encontráis un fallo, ¿qué hacéis a continuación?
R: En mi grupo de investigación nos tomamos muy en serio lo que llamamos la comunicación responsable de vulnerabilidades. Entonces, nosotros lo que hacemos es comunicarles que hemos encontrado ese fallo y les damos 90 días de gracia antes de hacerlo público para que lo puedan solucionar. Sobre todo porque no queremos que nuestro conocimiento pueda causar daño.
P: ¿Las tecnológicas ponen empeño en solucionarlo?
R: En general podríamos decir que las empresas dedican muchos esfuerzos para hacer la IA segura, pero aun así encontramos agujeros. Aquí nos han pasado dos cosas. Hay empresas que nos han dicho, “oye, mira, este problema que nos estáis enviando ya sabíamos que lo teníamos, no sabemos solucionarlo; publicad la información, ahora mismo no podemos hacer nada”.
También nos ha pasado a mis compañeros y a mí de enviar algunos de estos hallazgos y que nos diga la empresa: “Ostras, no sabíamos que esto podía pasar, danos 90 días, mantén esto privado para que lo arreglemos”. Luego nos avisan y nosotros publicamos la investigación.
P: Los científicos de datos, los ingenieros, ¿saben a ciencia cierta por qué los chatbots responden de una determinada forma?
R: Yo creo que ahora mismo nadie en el mundo es capaz de decirte cómo funciona un modelo de inteligencia artificial. Tenemos algunas herramientas que nos dan algunas intuiciones de qué puede estar pasando, sobre todo en modelos más sencillos. Pero cuando hablamos de IA generativa nadie te puede decir cómo funciona, y si te lo intentan decir te están mintiendo.
En el software tradicional nosotros escribimos, por decirlo de alguna manera, un programa que sigue unas reglas y sigue unas instrucciones. Todo lo que puede ocurrir con ese software se ha comprobado que es seguro. Sin embargo, con la inteligencia artificial esto no es así. Nosotros, cuando entrenamos modelos de inteligencia artificial estamos tirando literalmente, como te decía antes, todos los datos de Internet a unas matrices gigantes que optimizamos para que sean capaces de predecir la siguiente palabra.
P: Tú has estudiado en Barcelona y Zúrich, ¿cuál es la diferencia entre investigar en España y en Suiza?
R: Creo que el ecosistema de investigación que tengo en la ETH aquí en Zurich no lo habría encontrado en España. Es decir, el sistema está organizado para que tengamos recursos para hacer investigación y nos podamos centrar en ella.
Además de proveernos también de muchos más recursos, unas mejores condiciones de vida y un mejor salario. Yo ya considero que he empezado mi vida laboral e incluso tengo un contrato. En España seguiría teniendo, entre comillas, una vida de estudiante con una compensación, quizá a través de becas, que también te pone al final muchas trabas y te genera muchas fricciones personales para poder concentrarte en tu investigación.
Suscríbete a las newsletters de Informativos Telecinco y te contamos las noticias en tu mail.
Síguenos en nuestro canal de WhatsApp y conoce toda la actualidad al momento.