
Dans une avancée significative pour l'industrie biopharmaceutique, des ingénieurs du Massachusetts Institute of Technology (MIT) ont développé un grand modèle de langage (Large Language Model - LLM) capable d'optimiser considérablement la production de médicaments à base de protéines. En traitant les séquences d'ADN comme un langage complexe, le modèle d'IA a appris à prédire les « dialectes » les plus efficaces à interpréter pour les cellules de levure, surpassant les outils commerciaux établis et promettant de réduire les coûts élevés et les taux d'échec associés au développement de médicaments.
L'étude, récemment publiée dans les Proceedings of the National Academy of Sciences (PNAS), démontre comment l'IA générative peut résoudre un goulot d'étranglement de longue date en biotechnologie : l'optimisation des codons (codon optimization). Dirigée par J. Christopher Love, professeur Raymond A. et Helen E. St. Laurent de génie chimique, l'équipe a utilisé avec succès le modèle pour augmenter la production de protéines critiques, notamment le médicament contre le cancer du sein trastuzumab et l'hormone de croissance humaine, par des marges significatives.
Au cœur de cette percée se trouve le concept biologique de « codons » — des séquences de trois nucléotides d'ADN qui ordonnent à la machinerie d'une cellule d'ajouter des acides aminés spécifiques à une chaîne protéique. Bien que le code génétique soit redondant — ce qui signifie que plusieurs codons différents peuvent coder le même acide aminé — le choix du codon à utiliser est loin d'être arbitraire.
« Des "mots" d'ADN de trois lettres peuvent décider si une cellule de levure produit un médicament efficacement ou s'essouffle », ont expliqué les chercheurs. Différents organismes préfèrent différents codons, un phénomène connu sous le nom de biais d'usage des codons (codon usage bias). Si une séquence de gènes utilise des codons rares ou difficiles à traiter pour une cellule hôte spécifique, la production de la protéine thérapeutique peut stagner, entraînant des rendements faibles et un gaspillage de ressources.
Pendant des décennies, la norme de l'industrie pour l'« optimisation des codons » consistait à échanger les séquences d'ADN natives contre celles les plus fréquemment utilisées par l'organisme hôte. Cependant, cette approche statistique de force brute néglige souvent les nuances de la syntaxe génétique, comme la façon dont les codons interagissent avec leurs voisins ou influencent la stabilité de l'ARN messager (ARNm).
L'équipe du MIT a adopté une approche radicalement différente. Au lieu de s'appuyer sur des tableaux de fréquences, ils ont entraîné un grand modèle de langage de type encodeur-décodeur sur les données génomiques de Komagataella phaffii, une espèce de levure largement utilisée dans l'industrie pharmaceutique pour la production de protéines recombinantes.
Le modèle a été alimenté par des séquences d'acides aminés et leurs séquences codantes d'ADN correspondantes provenant d'environ 5 000 protéines naturellement présentes dans la levure. Grâce à cet entraînement, l'IA a appris la « grammaire » de l'expression génétique de la levure — comprenant non seulement quels codons sont populaires, mais comment ils fonctionnent en contexte.
« Le modèle apprend la syntaxe ou le langage de la manière dont ces codons sont utilisés », a noté le professeur Love. Contrairement aux algorithmes traditionnels qui se concentrent sur l'optimisation locale, l'IA tient compte des dépendances à longue portée et des relations complexes sur l'ensemble de la séquence génétique.
Pour valider l'efficacité du modèle, les chercheurs ont mené une étude comparative rigoureuse impliquant six protéines distinctes de complexité variable. Celles-ci comprenaient l'hormone de croissance humaine (hGH), un domaine de liaison au récepteur du SARS-CoV-2 et le trastuzumab (un anticorps monoclonal).
Les séquences générées par l'IA ont été confrontées à des conceptions produites par quatre outils commerciaux de pointe d'optimisation des codons : Azenta, IDT, GenScript et Thermo Fisher. Les résultats, confirmés par l'expérimentation en laboratoire, ont souligné la cohérence supérieure de l'approche de l'IA générative.
Tableau 1 : Performance comparative des stratégies d'optimisation des codons
| Cible protéique | Rang du modèle d'IA du MIT | Notes sur la performance des outils commerciaux |
|---|---|---|
| Hormone de croissance humaine (hGH) | Premier rang | Rendement amélioré d'environ 25 % par rapport à la base |
| Sérum-albumine humaine (HSA) | Premier rang | Amélioration d'environ 3 fois par rapport aux séquences natives |
| Trastuzumab (anticorps) | 2e place | GenScript a produit le titre le plus élevé ; l'IA était compétitive |
| Sérum-albumine bovine (BSA) | Premier rang | Titres augmentés de 60 mg/L à 75 mg/L (+25 %) |
| Sérum-albumine de souris (MSA) | Premier rang | Titres augmentés de 100 mg/L à 135 mg/L (+35 %) |
| Cohérence globale | 1er sur 5 des 6 cibles | Les outils commerciaux ont montré une grande variabilité ; IDT s'est classé au dernier rang |
Les données ont révélé que si certains outils commerciaux excellaient sur des cibles spécifiques — comme la performance de GenScript avec le trastuzumab — ils manquaient de polyvalence. Le modèle du MIT, inversement, a produit les titres de protéines (protein titers) les plus élevés pour cinq des six molécules testées.
Au-delà des mesures de performance brute, l'étude a fourni des informations fascinantes sur ce que l'IA a réellement appris. Sans être explicitement programmée avec des règles de chimie ou de biologie, le modèle a développé une compréhension interne des propriétés physicochimiques.
Lorsque les chercheurs ont visualisé les plongements numériques (embeddings) du modèle, ils ont découvert que les acides aminés étaient regroupés par traits — les résidus hydrophobes étaient groupés ensemble, tout comme les résidus polaires. De plus, l'IA a appris de manière autonome à éviter les caractéristiques génétiques connues pour interférer avec l'expression des protéines, telles que les éléments cis-régulateurs négatifs et les séquences répétitives.
Crucialement, l'étude a remis en question la fiabilité des mesures traditionnelles comme l'indice d'adaptation des codons (Codon Adaptation Index - CAI). Les chercheurs ont découvert qu'un score CAI élevé ne correspondait pas systématiquement à des rendements protéiques élevés et, dans certains cas, montrait même une corrélation négative. Cela suggère que la dépendance de l'industrie aux simples mesures de fréquence peut être fondamentalement erronée, et que la compréhension « sémantique » de l'ADN par l'IA offre un prédicteur plus précis du succès biologique.
La capacité de prédire de manière fiable des séquences génétiques à haut rendement pourrait transformer l'économie de la fabrication de médicaments. « Passer d'une idée à la mise en production » est actuellement un calendrier semé de cycles coûteux d'essais et d'erreurs. En éliminant cette incertitude, les entreprises pharmaceutiques pourraient commercialiser des thérapies vitales plus rapidement et à moindre coût.
Cependant, la technologie n'est pas sans ses limites actuelles. Les chercheurs ont souligné que le modèle est spécifique à l'espèce ; le système entraîné sur K. phaffii ne peut pas simplement être appliqué aux cellules de mammifères ou aux bactéries. Des modèles pour d'autres hôtes de production courants, tels que les cellules d'ovaire de hamster chinois (Chinese Hamster Ovary - CHO), devraient être entraînés sur leurs ensembles de données génomiques respectifs.
Néanmoins, cette percée souligne l'immense potentiel de l'IA générative en biologie. Tout comme les LLM ont maîtrisé les langages humains pour écrire des essais et du code, ils maîtrisent maintenant les langages de la vie elle-même, écrivant le code génétique nécessaire pour produire la prochaine génération de médicaments.