Hablar de diseño de proteínas por Inteligencia Artificial (IA) puede sonar a ciencia ficción, pero desde hace unos años es sólo ciencia. A secas. Y hablar de esto es hablar de Alphafold, un programa de IA desarrollado por Google en 2018 para realizar predicciones de las estructuras de las proteínas mediante el sistema de “aprendizaje profundo”. A día de hoy, sus nuevas versiones han conseguido ya determinar las estructuras de todas las proteínas conocidas en el planeta, mediante predicciones con una precisión altísima.
Pero es que, además, utilizando como base esta revolucionaria herramienta de IA, se pueden diseñar nuevas proteínas, y hacer en cuestión de minutos algo que antes llevaba meses a los científicos. Ya se está haciendo, y ello supone un antes y un después en campos como la biología o la química, con sus consiguientes repercusiones a nivel sanitario o medioambiental, por ejemplo.
Sus creadores lo definen como “una nueva era”, y Noelia Ferruz, bióloga computacional de la Universidad de Girona, lo suscribe. Ferruz lleva años investigando el diseño de proteínas por IA, los últimos seis en Alemania. En enero, comenzará como jefa de grupo del Instituto de Biología Molecular de Barcelona. Hablamos con ella de todo esto, y de un estudio que acaban de presentar, del que se ha hecho eco la revista Nature.
Pregunta: ¿Cómo explicarías lo que es Alphafold?
Respuesta: Para explicarlo, deberíamos empezar explicando qué son las proteínas. Es muy importante conocer bien la estructura tridimensional de las proteínas, porque hacen casi todas las funciones de nuestras células. Y todavía no las conocemos cien por cien.
P: La forma, o estructura, de una proteína es lo que determina su función en las células. Y muchos medicamentos se diseñan utilizando esta información sobre su estructura. ¿Por eso es clave conocerlas mejor?
R: Si consiguiéramos entender bien su comportamiento, su forma en 3D, como actúan, cómo se mueven… podríamos tener la llave para resolver muchos problemas. Y hablo tanto de enfermedades, casi cualquier enfermedad, como de problemas medioambientales, para tener alternativas verdes para procesos industriales. Las proteínas sirven un poco para todo. Y de lo que se trata es de entender mejor su funcionamiento.
P: ¿Y qué implica hacerlo con Alphafold?
R: Lo primero que nos gustaría saber de las proteínas es qué forma tienen en el espacio. Porque lo que solemos conocer de ellas es su código interno. Están compuestas por letras, y tenemos acceso a ellas, pero no sabemos cómo se ordenan en el espacio ni qué forma final tiene la proteína. Y es difícil obtener la forma de las proteínas. Para conseguirlo, hay muchas formas experimentales de hacerlo: ir al Sincrotrón de Suiza... o estudios de rayos X, por ejemplo… Pero casi todo es caro, y lleva mucho tiempo. Aun así, con mucho esfuerzo por parte de todos, se ha logrado conocer la forma de decenas de miles de proteínas en las últimas décadas.
Pero hubiera sido genial tener esta secuencia de letras en un ordenador y que una máquina te dijera qué forma tiene. Que un algoritmo te lo dijera, sin que tuviera que ser tan costoso y laborioso. Es algo que se ha intentado durante años. Y hace 20 años, se hizo una especie de concurso, en el que los científicos competían para conseguirlo, cada uno con su algoritmo. Y funcionó muy bien, pero llegó un momento, en torno a 2015-2016, que ya no se avanzaba más. Y entonces llegó Google y lo reventó todo. Fue a finales de 2018, cuando llega la primera versión de Alphafold.
P: Llega entonces el famoso algoritmo de Google...
R: Exacto. Tú le pones las letras y ese algoritmo te pone la forma en 3D. Hubo gente muy escéptica, al principio... al tratarse de una máquina. Pero después ya no. Todo el mundo se ha dado cuenta de que es una herramienta súper útil.
P: Pero eso fue solo el comienzo, ¿qué pasó hace un año?
R: Que sacaron una versión 2 de Alphafold, que ya fue espectacular. A finales de 2020, principios de 2021. Y, además, lo sacaron todo público y gratuito. Tardaron unos 6 meses. Todo el mundo puede acceder a este código, lo puede usar. Han puesto hasta servidores online para que metas tu proteína y obtengas su estructura en un momento. Lo que ha hecho Google es brutal. Pensábamos que lo monetizarían, de hecho.
P: Es extraño que no se haya monetizado. Todo el volcado de datos está disponible gratuitamente en una base de datos creada por DeepMind, una empresa de IA propiedad de Google pero con sede en Londres…
R: Sí, es muy extraño. Deep Mind está anexionada a Google pero está en Londres. Si hubiese sido Google, en EE.UU., quizá lo habrían monetizado. Puede que sea por eso, es una empresa británica. Quizás pensaron más en el beneficio de la comunidad, y en que eso también les iba revertir a ellos de alguna manera.
P: Lo que está claro es que Alphafold se ha convertido en una herramienta básica para todos los que trabajáis en las denominadas “ciencias de la vida”.
R: Está siendo y será una herramienta brutal. Nos cambia muchas cosas, la forma de trabajar y los propios proyectos.
P: Tú te defines como “apasionada por la intersección entre tecnología y proteínas”, en tu perfil de Twitter. Y hace poco, decías en Nature que “desde AlphaFold, ha habido un cambio en la forma en que trabajamos con el diseño de proteínas. Estamos presenciando tiempos muy emocionantes”.
R: Sí, mi campo no es la predicción de estructuras de proteínas, sino diseñar nuevas letras que tengan nuevas estructuras. Es decir, diseñar nuevas proteínas. Y desde que salió Alphafold, puedo diseñar nuevas proteínas y, en sólo un momento, puedo ver qué forma tienen… cosa que antes, no podía.
P: Se acortan mucho los tiempos, ahora, en vuestro trabajo…
R: Sí. Para la predicción de la forma de las proteínas, por ejemplo, se ha pasado de años a minutos. Pero no es sólo eso, ha tenido un impacto enorme en todo. Muchos biólogos no conocían técnicas de IA, pero al ver que hay problemas puros de biología que se solucionan con esto, han dicho: "Vaya, igual puedo implementarlo para cualquier otra cosa…". Está habiendo una pequeña revolución, en los últimos dos años, en las ciencias de biología y de química, debido a este boom de Alphafold. Está habiendo avances muy rápidos en todo, ya no solo en la predicción de la forma de proteínas sino también para diseñar otras nuevas.
P: Acabáis de publicar un estudio sobre todo esto. Hablamos de ciencia básica, de avances en el laboratorio, pero es importante. ¿Puedes explicarnos lo que habéis hecho de forma sencilla, para que todos podamos entenderlo?
R: Siempre utilizo un ejemplo para que se entienda. Todos conocemos 'Google Translator,' que funciona con otro algoritmo de inteligencia artificial. Pues bien, hace diez años funcionaba fatal, pero ahora es mejor que nadie. ¿Por qué? Porque ha habido muchas mejoras en los modelos de traducción. En 2017, Google sacó otro, el 'Transformer' , que también tuvo mucho éxito, y no solo se ha usado para traducir… Este tipo de arquitectura también se ha utilizado para muchas otras cosas que tienen que ver con el procesamiento del lenguaje, no solo para traducir.
Entonces, pensé: hay muchas similitudes entre el lenguaje humano y las proteínas, porque se comportan de forma parecida. Las proteínas se expresan con letras, como el lenguaje. Si ese 'Transformer' está sirviendo para todo - incluso hace textos que hablan mejor que yo, a veces… - podría entrenarlo en secuencias de proteínas para que aprenda su idioma, el que tienen codificado, y sea capaz de hablarlo. Y es lo que hicimos.
Ahora tenemos una máquina que habla mucho y genera nuevas proteínas, millones por segundo. Hasta ahora, las diseñábamos más bien “a mano”, pero ahora, con esta máquina, hablamos el idioma de las proteínas, tenemos un modelo que emite textos en su idioma.
P: Entonces, las conocéis mucho mejor...
R: Tenemos un modelo que parece que les habla y vemos que se comportan bien. Conseguimos diseñar proteínas completamente nuevas, pero que se comportan como si fueran naturales. Y esto, a mano, antes era imposible. Diseñarlas a mano y conseguir que funcionaran como las naturales, antes era imposible. Ahora es posible. Y esto se puede utilizar para muchas más cosas, para todo...
P: Más allá del laboratorio, ¿qué beneficios puede reportarnos todo esto, en general, a medio plazo?
R: Pues, por ejemplo, podríamos diseñar una proteína que pudiera capturar CO2, o casi cualquier gas que sea un peligro para el cambio climático. Yo le doy un par de años. O, por ejemplo, hay muchos cánceres que se tratan con anticuerpos, que son un tipo de proteína. Podríamos intentar conseguir anticuerpos más útiles, aunque esto llevaría un poco más de tiempo.
P: “Estamos al comienzo de una nueva era de biología digital”, decía en julio el director ejecutivo de Deepmind, Demis Hassabis. ¿Tú lo crees así?
R: Sí, lo veo así. Para imaginarnos lo que puede pasar en biología o química en los próximos años, solo hay que ver lo que está ocurriendo ahora con la tecnología. Los avances que estamos viendo hoy en día en la generación de imágenes, de vídeo, de texto… en unos años podemos verlos en biología o en química. Es algo que se está haciendo ya. Antes nos llegaban con un poco de retraso, pero ahora ya no, después de Alphafold va todo muy rápido.
Quizá la aplicabilidad en nuestras vidas no será tan inmediata, no sé en cuánto tiempo lo veremos, porque antes hay que hacer todas las comprobaciones necesarias, ensayos, autorizaciones… Faltarán unos años. Pero a nivel de avances en ciencia básica, se nota un cambio muy grande. De hecho, se está publicando tanto que yo ya no doy abasto para leer todo lo que sale.
Para darnos cuenta de la importancia que puede tener todo esto, no hay más que mirar, por ejemplo, lo que salió hace poco sobre una proteína que se come, literalmente, el plástico. Es algo muy importante. Estas cosas pasarán. Y muchas otras. Y es algo que veremos de aquí a diez años.