
En un avance significativo para la industria biofarmacéutica, ingenieros del Instituto Tecnológico de Massachusetts (MIT) han desarrollado un modelo de lenguaje extenso (Large Language Model, LLM) capaz de optimizar drásticamente la producción de fármacos basados en proteínas. Al tratar las secuencias de ADN como un lenguaje complejo, el modelo de IA ha aprendido a predecir los "dialectos" más eficientes para que las células de levadura los interpreten, superando a las herramientas comerciales establecidas y prometiendo reducir los altos costes y las tasas de fracaso asociadas con el desarrollo de fármacos.
El estudio, publicado recientemente en los Proceedings of the National Academy of Sciences (PNAS), demuestra cómo la IA generativa puede resolver un cuello de botella de larga data en la biotecnología: la optimización de codones. Liderado por J. Christopher Love, profesor Raymond A. y Helen E. St. Laurent de Ingeniería Química, el equipo utilizó con éxito el modelo para aumentar significativamente la producción de proteínas críticas, incluyendo el fármaco para el cáncer de mama trastuzumab y la hormona del crecimiento humana.
En el núcleo de este avance se encuentra el concepto biológico de "codones": secuencias de tres nucleótidos de ADN que instruyen a la maquinaria de una célula para añadir aminoácidos específicos a una cadena de proteínas. Aunque el código genético es redundante —lo que significa que múltiples codones diferentes pueden codificar el mismo aminoácido—, la elección de qué codón usar dista mucho de ser arbitraria.
"Las 'palabras' de ADN de tres letras pueden decidir si una célula de levadura produce una medicina de manera eficiente o si avanza a trompicones", explicaron los investigadores. Diferentes organismos prefieren diferentes codones, un fenómeno conocido como sesgo de uso de codones. Si una secuencia genética utiliza codones que son raros o difíciles de procesar para una célula huésped específica, la producción de la proteína terapéutica puede estancarse, lo que genera bajos rendimientos y desperdicio de recursos.
Durante décadas, el estándar de la industria para la "optimización de codones (codon optimization)" consistió en intercambiar secuencias de ADN nativas por aquellas más frecuentemente utilizadas por el organismo huésped. Sin embargo, este enfoque estadístico de fuerza bruta a menudo pasa por alto los matices de la sintaxis genética, como la forma en que los codones interactúan con sus vecinos o influyen en la estabilidad del ARN mensajero (mRNA).
El equipo del MIT adoptó un enfoque radicalmente diferente. En lugar de depender de tablas de frecuencia, entrenaron un modelo de lenguaje extenso de tipo codificador-decodificador con los datos genómicos de Komagataella phaffii, una especie de levadura ampliamente utilizada en la industria farmacéutica para la producción de proteínas recombinantes.
El modelo fue alimentado con secuencias de aminoácidos y sus correspondientes secuencias de codificación de ADN de aproximadamente 5,000 proteínas naturales en la levadura. A través de este entrenamiento, la IA aprendió la "gramática" de la expresión genética de la levadura, comprendiendo no solo qué codones son populares, sino cómo funcionan en contexto.
"El modelo aprende la sintaxis o el lenguaje de cómo se utilizan estos codones", señaló el profesor Love. A diferencia de los algoritmos tradicionales que se centran en la optimización local, la IA tiene en cuenta las dependencias de largo alcance y las relaciones complejas en toda la secuencia genética.
Para validar la eficacia del modelo, los investigadores realizaron un estudio comparativo riguroso que involucró seis proteínas distintas de diversa complejidad. Estas incluyeron la hormona del crecimiento humana (hGH), un dominio de unión al receptor de SARS-CoV-2 y el trastuzumab (un anticuerpo monoclonal).
Las secuencias generadas por IA se enfrentaron a diseños producidos por cuatro herramientas comerciales líderes en optimización de codones: Azenta, IDT, GenScript y Thermo Fisher. Los resultados, confirmados mediante experimentación de laboratorio, destacaron la consistencia superior del enfoque de IA generativa.
Tabla 1: Rendimiento comparativo de las estrategias de optimización de codones
| Objetivo de proteína | Rango del modelo de IA del MIT | Notas sobre el rendimiento de las herramientas comerciales |
|---|---|---|
| Hormona de crecimiento humana (hGH) | Nivel superior | Rendimiento mejorado en ~25% en comparación con la línea base |
| Albúmina sérica humana (HSA) | Nivel superior | Se logró una mejora de ~3 veces respecto a las secuencias nativas |
| Trastuzumab (Anticuerpo) | 2.º lugar | GenScript produjo el título más alto; la IA fue competitiva |
| Albúmina sérica bovina (BSA) | Nivel superior | Aumento de los títulos de 60 mg/L a 75 mg/L (+25%) |
| Albúmina sérica de ratón (MSA) | Nivel superior | Aumento de los títulos de 100 mg/L a 135 mg/L (+35%) |
| Consistencia general | 1.º en 5 de 6 objetivos | Las herramientas comerciales mostraron alta variabilidad; IDT ocupó el rango más bajo |
Los datos revelaron que, si bien algunas herramientas comerciales destacaron en objetivos específicos —como el rendimiento de GenScript con trastuzumab—, carecían de versatilidad. El modelo del MIT, por el contrario, produjo los títulos de proteínas más altos para cinco de las seis moléculas probadas.
Más allá de las métricas de rendimiento brutas, el estudio proporcionó ideas fascinantes sobre lo que la IA realmente aprendió. Sin haber sido programada explícitamente con reglas sobre química o biología, el modelo desarrolló una comprensión interna de las propiedades fisicoquímicas.
Cuando los investigadores visualizaron las incrustaciones (embeddings) numéricas del modelo, descubrieron que los aminoácidos estaban agrupados por sus rasgos: los residuos hidrofóbicos estaban agrupados, al igual que los residuos polares. Además, la IA aprendió de forma autónoma a evitar características genéticas que se sabe que interfieren con la expresión de proteínas, como los elementos reguladores cis negativos y las secuencias repetitivas.
Fundamentalmente, el estudio desafió la confiabilidad de las métricas tradicionales como el Índice de Adaptación de Codones (Codon Adaptation Index, CAI). Los investigadores encontraron que una puntuación de CAI alta no siempre se correlacionaba con altos rendimientos de proteínas y, en algunos casos, incluso mostraba una correlación negativa. Esto sugiere que la dependencia de la industria en métricas de frecuencia simples puede ser fundamentalmente defectuosa, y que la comprensión "semántica" del ADN por parte de la IA ofrece un predictor más preciso del éxito biológico.
La capacidad de predecir de manera confiable secuencias genéticas de alto rendimiento podría transformar la economía de la fabricación de fármacos. "Pasar de tener una idea a ponerla en producción" es actualmente un cronograma plagado de costosos ciclos de prueba y error. Al eliminar esta incertidumbre, las empresas farmacéuticas podrían llevar terapias que salvan vidas al mercado más rápido y a un menor coste.
Sin embargo, la tecnología no está exenta de sus limitaciones actuales. Los investigadores enfatizaron que el modelo es específico de la especie; el sistema entrenado en K. phaffii no puede aplicarse simplemente a células de mamíferos o bacterias. Los modelos para otros huéspedes de producción comunes, como las células de ovario de hámster chino (Chinese Hamster Ovary, CHO), necesitarían ser entrenados en sus respectivos conjuntos de datos genómicos.
No obstante, este avance subraya el inmenso potencial de la IA generativa en la biología. Así como los LLM han dominado los lenguajes humanos para escribir ensayos y código, ahora están dominando los lenguajes de la vida misma, escribiendo el código genético necesario para producir la próxima generación de medicamentos.