
In einem bedeutenden Fortschritt für die biopharmazeutische Industrie haben Ingenieure am Massachusetts Institute of Technology (MIT) ein großes Sprachmodell (Large Language Model, LLM) entwickelt, das in der Lage ist, die Produktion von proteinbasierten Medikamenten dramatisch zu optimieren. Durch die Behandlung von DNA-Sequenzen als komplexe Sprache hat das KI-Modell gelernt, die effizientesten „Dialekte“ für Hefezellen zur Interpretation vorherzusagen. Dabei übertrifft es etablierte kommerzielle Tools und verspricht, die hohen Kosten und Ausfallraten im Zusammenhang mit der Arzneimittelentwicklung drastisch zu senken.
Die Studie, die kürzlich in den Proceedings of the National Academy of Sciences (PNAS) veröffentlicht wurde, zeigt, wie generative KI einen langjährigen Engpass in der Biotechnologie lösen kann: die Codon-Optimierung. Unter der Leitung von J. Christopher Love, dem Raymond A. und Helen E. St. Laurent Professor für Chemieingenieurwesen, nutzte das Team das Modell erfolgreich, um den Ausstoß kritischer Proteine, einschließlich des Brustkrebsmedikaments Trastuzumab und des menschlichen Wachstumshormons, um signifikante Margen zu steigern.
Im Kern dieses Durchbruchs steht das biologische Konzept der „Codons“ – Sequenzen aus drei DNA-Nukleotiden, die die Maschinerie einer Zelle anweisen, einer Proteinkette spezifische Aminosäuren hinzuzufügen. Während der genetische Code redundant ist – was bedeutet, dass mehrere verschiedene Codons dieselbe Aminosäure kodieren können –, ist die Wahl des zu verwendenden Codons alles andere als willkürlich.
„Drei-Buchstaben-DNA-‚Wörter‘ können darüber entscheiden, ob eine Hefezelle ein Medikament effizient produziert oder nur vor sich hin dümpelt“, erklärten die Forscher. Verschiedene Organismen bevorzugen unterschiedliche Codons, ein Phänomen, das als Codon-Nutzungs-Bias (Codon Usage Bias) bekannt ist. Wenn eine Gensequenz Codons verwendet, die selten oder für eine bestimmte Wirtszelle schwer zu verarbeiten sind, kann die Produktion des therapeutischen Proteins ins Stocken geraten, was zu geringen Erträgen und verschwendeten Ressourcen führt.
Seit Jahrzehnten beinhaltete der Industriestandard für die „Codon-Optimierung (Codon Optimization)“ den Austausch nativer DNA-Sequenzen gegen solche, die vom Wirtsorganismus am häufigsten verwendet werden. Dieser statistische Brute-Force-Ansatz übersieht jedoch oft die Nuancen der genetischen Syntax, wie etwa die Interaktion von Codons mit ihren Nachbarn oder die Beeinflussung der Stabilität der Boten-RNA (mRNA).
Das MIT-Team wählte einen radikal anderen Ansatz. Anstatt sich auf Häufigkeitstabellen zu verlassen, trainierten sie ein großes Sprachmodell im Encoder-Decoder-Stil mit den Genomdaten von Komagataella phaffii, einer Hefeart, die in der pharmazeutischen Industrie weit verbreitet für die rekombinante Proteinproduktion eingesetzt wird.
Dem Modell wurden Aminosäuresequenzen und ihre entsprechenden DNA-Kodierungssequenzen von etwa 5.000 natürlich vorkommenden Proteinen in der Hefe zugeführt. Durch dieses Training lernte die KI die „Grammatik“ der genetischen Expression der Hefe – sie verstand nicht nur, welche Codons beliebt sind, sondern auch, wie sie im Kontext funktionieren.
„Das Modell lernt die Syntax oder die Sprache, wie diese Codons verwendet werden“, bemerkte Professor Love. Im Gegensatz zu traditionellen Algorithmen, die sich auf lokale Optimierung konzentrieren, berücksichtigt die KI weitreichende Abhängigkeiten und komplexe Beziehungen über die gesamte Gensequenz hinweg.
Um die Wirksamkeit des Modells zu validieren, führten die Forscher eine strenge Vergleichsstudie mit sechs verschiedenen Proteinen unterschiedlicher Komplexität durch. Dazu gehörten das humane Wachstumshormon (hGH), eine SARS-CoV-2-Rezeptor-Bindungsdomäne und Trastuzumab (ein monoklonaler Antikörper).
Die KI-generierten Sequenzen wurden gegen Entwürfe getestet, die von vier führenden kommerziellen Tools zur Codon-Optimierung erstellt wurden: Azenta, IDT, GenScript und Thermo Fisher. Die durch Laborexperimente bestätigten Ergebnisse unterstrichen die überlegene Konsistenz des generativen KI-Ansatzes.
Tabelle 1: Vergleichende Leistung von Strategien zur Codon-Optimierung
| Protein-Ziel | Rang des MIT-KI-Modells | Anmerkungen zur Leistung kommerzieller Tools |
|---|---|---|
| Humanes Wachstumshormon (hGH) | Spitzengruppe | Ertrag um ~25 % gegenüber der Baseline verbessert |
| Humanes Serumalbumin (HSA) | Spitzengruppe | Erreichte ~3-fache Verbesserung gegenüber nativen Sequenzen |
| Trastuzumab (Antikörper) | 2. Platz | GenScript produzierte den höchsten Titer; KI war wettbewerbsfähig |
| Rinderserumalbumin (BSA) | Spitzengruppe | Titer von 60 mg/L auf 75 mg/L erhöht (+25 %) |
| Mausserumalbumin (MSA) | Spitzengruppe | Titer von 100 mg/L auf 135 mg/L erhöht (+35 %) |
| Gesamtkonsistenz | Platz 1 bei 5 von 6 Zielen | Kommerzielle Tools zeigten hohe Variabilität; IDT belegte den letzten Platz |
Die Daten zeigten, dass einige kommerzielle Tools zwar bei spezifischen Zielen glänzten – wie etwa die Leistung von GenScript bei Trastuzumab –, es ihnen jedoch an Vielseitigkeit mangelte. Das MIT-Modell hingegen produzierte die höchsten Proteintiter für fünf der sechs getesteten Moleküle.
Über die reinen Leistungskennzahlen hinaus lieferte die Studie faszinierende Einblicke in das, was die KI tatsächlich gelernt hat. Ohne explizit mit Regeln über Chemie oder Biologie programmiert worden zu sein, entwickelte das Modell ein internes Verständnis für physikochemische Eigenschaften.
Als Forscher die numerischen Einbettungen (Embeddings) des Modells visualisierten, stellten sie fest, dass Aminosäuren nach ihren Merkmalen gruppiert waren – hydrophobe Reste wurden zusammengefasst, ebenso wie polare Reste. Darüber hinaus lernte die KI autonom, genetische Merkmale zu vermeiden, von denen bekannt ist, dass sie die Proteinexpression stören, wie etwa negative cis-regulatorische Elemente und repetitive Sequenzen.
Entscheidend ist, dass die Studie die Zuverlässigkeit traditioneller Metriken wie des Codon Adaptation Index (CAI) infrage stellte. Die Forscher fanden heraus, dass ein hoher CAI-Wert nicht konsistent mit hohen Proteinerträgen korrelierte und in einigen Fällen sogar eine negative Korrelation aufwies. Dies deutet darauf hin, dass die Abhängigkeit der Industrie von einfachen Häufigkeitsmetriken grundlegend fehlerhaft sein könnte und dass das „semantische“ Verständnis der DNA durch die KI ein genauerer Vorhersagefaktor für den biologischen Erfolg ist.
Die Fähigkeit, genetische Sequenzen mit hohem Ertrag zuverlässig vorherzusagen, könnte die Wirtschaftlichkeit der Arzneimittelherstellung transformieren. Der Weg von der „Idee bis zur Produktion“ ist derzeit ein Zeitplan, der von teuren Trial-and-Error-Zyklen geprägt ist. Durch die Beseitigung dieser Unsicherheit könnten pharmazeutische Unternehmen lebensrettende Therapien schneller und zu geringeren Kosten auf den Markt bringen.
Die Technologie ist jedoch nicht ohne ihre derzeitigen Einschränkungen. Die Forscher betonten, dass das Modell speziesspezifisch ist; das auf K. phaffii trainierte System kann nicht einfach auf Säugetierzellen oder Bakterien angewendet werden. Modelle für andere gängige Produktionswirte, wie etwa Chinese Hamster Ovary (CHO)-Zellen, müssten auf ihren jeweiligen genomischen Datensätzen trainiert werden.
Dennoch unterstreicht dieser Durchbruch das immense Potenzial der generativen KI in der Biologie. So wie LLMs menschliche Sprachen gemeistert haben, um Aufsätze und Code zu schreiben, meistern sie nun die Sprachen des Lebens selbst und schreiben den genetischen Code, der für die Herstellung der nächsten Generation von Medikamenten erforderlich ist.