
Em um avanço significativo para a indústria biofarmacêutica, engenheiros do Instituto de Tecnologia de Massachusetts (MIT) desenvolveram um modelo de linguagem grande (Large Language Model - LLM) capaz de otimizar drasticamente a produção de medicamentos à base de proteínas. Ao tratar as sequências de DNA como uma linguagem complexa, o modelo de IA aprendeu a prever os "dialetos" mais eficientes para as células de levedura interpretarem, superando as ferramentas comerciais estabelecidas e prometendo reduzir os altos custos e as taxas de falha associados ao desenvolvimento de medicamentos.
O estudo, publicado recentemente nos Proceedings of the National Academy of Sciences (PNAS), demonstra como a IA generativa pode resolver um gargalo antigo na biotecnologia: a otimização de códons (codon optimization). Liderada por J. Christopher Love, o Professor de Engenharia Química Raymond A. e Helen E. St. Laurent, a equipe utilizou com sucesso o modelo para impulsionar a produção de proteínas críticas, incluindo o medicamento para câncer de mama trastuzumabe (trastuzumab) e o hormônio do crescimento humano, por margens significativas.
No cerne desta descoberta está o conceito biológico de "códons" (codons) — sequências de três nucleotídeos de DNA que instruem a maquinaria de uma célula a adicionar aminoácidos específicos a uma cadeia de proteína. Embora o código genético seja redundante — o que significa que vários códons diferentes podem codificar o mesmo aminoácido — a escolha de qual códon usar está longe de ser arbitrária.
"Palavras de DNA de três letras podem decidir se uma célula de levedura produz um medicamento de forma eficiente ou se arrasta com dificuldade", explicaram os pesquisadores. Diferentes organismos preferem diferentes códons, um fenômeno conhecido como viés de uso de códons (codon usage bias). Se uma sequência genética usa códons que são raros ou difíceis de processar para uma célula hospedeira específica, a produção da proteína terapêutica pode estagnar, levando a baixos rendimentos e desperdício de recursos.
For decades, the industry standard for "otimização de códons" involved swapping native DNA sequences for those most frequently used by the host organism. However, this brute-force statistical approach often overlooks the nuances of genetic syntax, such as how codons interact with their neighbors or influence the stability of the messenger RNA (mRNA).
A equipe do MIT adotou uma abordagem radicalmente diferente. Em vez de depender de tabelas de frequência, eles treinaram um modelo de linguagem grande no estilo codificador-decodificador com os dados genômicos da Komagataella phaffii, uma espécie de levedura amplamente utilizada na indústria farmacêutica para a produção de proteínas recombinantes.
O modelo foi alimentado com sequências de aminoácidos e suas sequências de codificação de DNA correspondentes de aproximadamente 5.000 proteínas que ocorrem naturalmente na levedura. Através deste treinamento, a IA aprendeu a "gramática" da expressão genética da levedura — compreendendo não apenas quais códons são populares, mas como eles funcionam em contexto.
"O modelo aprende a sintaxe ou a linguagem de como esses códons são usados", observou o Professor Love. Ao contrário dos algoritmos tradicionais que se concentram na otimização local, a IA leva em conta as dependências de longo alcance e as relações complexas em toda a sequência genética.
Para validar a eficácia do modelo, os pesquisadores conduziram um estudo comparativo rigoroso envolvendo seis proteínas distintas de complexidade variada. Estas incluíram o hormônio do crescimento humano (hGH), um domínio de ligação ao receptor do SARS-CoV-2 e o trastuzumabe (um anticorpo monoclonal).
As sequências geradas por IA foram colocadas à prova contra designs produzidos por quatro ferramentas líderes comerciais de otimização de códons: Azenta, IDT, GenScript e Thermo Fisher. Os resultados, confirmados através de experimentação laboratorial, destacaram a consistência superior da abordagem de IA generativa.
Tabela 1: Desempenho Comparativo das Estratégias de Otimização de Códons
| Alvo de Proteína | Classificação do Modelo de IA do MIT | Notas de Desempenho de Ferramentas Comerciais |
|---|---|---|
| Hormônio do Crescimento Humano (hGH) | Nível Superior | Rendimento melhorado em ~25% em comparação com a linha de base |
| Albumina de Soro Humano (HSA) | Nível Superior | Alcançou uma melhoria de ~3 vezes em relação às sequências nativas |
| Trastuzumabe (Anticorpo) | 2º Lugar | GenScript produziu o título mais alto; a IA foi competitiva |
| Albumina de Soro Bovino (BSA) | Nível Superior | Aumento dos títulos de 60 mg/L para 75 mg/L (+25%) |
| Albumina de Soro de Camundongo (MSA) | Nível Superior | Aumento dos títulos de 100 mg/L para 135 mg/L (+35%) |
| Consistência Geral | 1º em 5 de 6 alvos | Ferramentas comerciais mostraram alta variabilidade; IDT classificada como a mais baixa |
Os dados revelaram que, embora algumas ferramentas comerciais tenham se destacado em alvos específicos — como o desempenho da GenScript com o trastuzumabe — elas careciam de versatilidade. O modelo do MIT, inversamente, produziu os títulos de proteína (protein titers) mais altos para cinco das seis moléculas testadas.
Além das métricas brutas de desempenho, o estudo forneceu insights fascinantes sobre o que a IA realmente aprendeu. Sem ser explicitamente programado com regras sobre química ou biologia, o modelo desenvolveu uma compreensão interna das propriedades físico-químicas.
Quando os pesquisadores visualizaram as incorporações numéricas (embeddings) do modelo, descobriram que os aminoácidos estavam agrupados por suas características — resíduos hidrofóbicos foram agrupados, assim como os resíduos polares. Além disso, a IA aprendeu autonomamente a evitar características genéticas conhecidas por interferir na expressão de proteínas, como elementos reguladores cis negativos e sequências repetitivas.
Crucialmente, o estudo desafiou a confiabilidade de métricas tradicionais como o Índice de Adaptação de Códons (Codon Adaptation Index - CAI). Os pesquisadores descobriram que uma pontuação alta de CAI não se correlacionava consistentemente com altos rendimentos de proteína e, em alguns casos, até mostrava uma correlação negativa. Isso sugere que a dependência da indústria em métricas de frequência simples pode ser fundamentalmente falha, e que a compreensão "semântica" do DNA pela IA oferece um preditor mais preciso do sucesso biológico.
A capacidade de prever de forma confiável sequências genéticas de alto rendimento poderia transformar a economia da fabricação de medicamentos. "Ter uma ideia até levá-la à produção" é atualmente um cronograma repleto de ciclos caros de tentativa e erro. Ao remover essa incerteza, as empresas farmacêuticas poderiam trazer terapias que salvam vidas ao mercado mais rapidamente e a um custo menor.
No entanto, a tecnologia não está isenta de suas limitações atuais. Os pesquisadores enfatizaram que o modelo é específico da espécie; o sistema treinado em K. phaffii não pode ser simplesmente aplicado a células de mamíferos ou bactérias. Modelos para outros hospedeiros de produção comuns, como células de Ovário de Hamster Chinês (Chinese Hamster Ovary - CHO), precisariam ser treinados em seus respectivos conjuntos de dados genômicos.
Apesar disso, esse avanço ressalta o imenso potencial da IA generativa na biologia. Assim como os LLMs dominaram as linguagens humanas para escrever ensaios e códigos, eles agora estão dominando as próprias linguagens da vida, escrevendo o código genético necessário para produzir a próxima geração de medicamentos.