
在生物製藥行業的一項重大進展中,麻省理工學院(MIT)的工程師開發了一種大型語言模型(Large Language Model, LLM),能夠顯著優化蛋白質藥物的生產。透過將 DNA 序列視為一種複雜的語言,該 AI 模型學會了預測酵母細胞解讀最有效的「方言」,其表現優於現有的商業工具,並有望大幅削減與藥物開發相關的高昂成本和失敗率。
這項最近發表於《美國國家科學院院刊》(Proceedings of the National Academy of Sciences, PNAS)的研究,展示了 生成式 AI(Generative AI) 如何解決生物技術中長期存在的瓶頸:密碼子優化(Codon optimization)。在化學工程系 Raymond A. 和 Helen E. St. Laurent 教授 J. Christopher Love 的領導下,該團隊成功利用該模型大幅提升了關鍵蛋白質的產量,包括乳腺癌藥物 曲妥珠單抗(Trastuzumab) 和人類生長激素。
這項突破的核心是「密碼子(Codons)」這一生物學概念——即由三個 DNA 核苷酸組成的序列,指令細胞機器將特定的氨基酸添加到蛋白質鏈中。雖然遺傳密碼是冗餘的——這意味著多個不同的密碼子可以編碼相同的氨基酸——但選擇使用哪個密碼子絕非隨機。
「三個字母的 DNA 『單詞』可以決定酵母細胞是高效地生產藥物還是緩慢運作,」研究人員解釋道。不同生物偏好不同的密碼子,這種現象稱為密碼子使用偏好性(Codon usage bias)。如果基因序列使用了對特定宿主細胞而言稀有或難以處理的密碼子,治療性蛋白質的生產可能會停滯,導致產量低下和資源浪費。
幾十年來,「密碼子優化(Codon optimization)」的行業標準涉及將原生 DNA 序列替換為宿主生物最常用的序列。然而,這種暴力統計方法往往忽略了遺傳語法的細微差別,例如密碼子如何與其鄰近序列相互作用或影響信使 RNA(mRNA)的穩定性。
MIT 團隊採取了截然不同的方法。他們沒有依賴頻率表,而是在 Komagataella phaffii 的基因組數據上訓練了一個編碼器-解碼器風格的 大型語言模型,這是一種廣泛用於製藥業重組蛋白生產的酵母物種。
該模型被輸入了來自酵母中約 5,000 種天然蛋白質的氨基酸序列及其相應的 DNA 編碼序列。透過這種訓練,AI 學會了酵母遺傳表達的「語法」——不僅理解哪些密碼子受歡迎,還理解它們在語境中如何運作。
「該模型學習了這些密碼子如何使用的語法或語言,」Love 教授指出。與專注於局部優化的傳統演算法不同,AI 考慮了整個基因序列中的遠程依賴關係和複雜關係。
為了驗證模型的有效性,研究人員進行了一項嚴格的對比研究,涉及六種複雜程度不同的蛋白質。其中包括人類生長激素(hGH)、SARS-CoV-2 受體結合域和曲妥珠單抗(一種單株抗體)。
AI 生成的序列與四種領先的商業密碼子優化工具產生的設計進行了對比:Azenta、IDT、GenScript 和 Thermo Fisher。實驗室實驗確認的結果凸顯了生成式 AI 方法卓越的一致性。
表 1:密碼子優化策略的性能比較
| 蛋白質目標 | MIT AI 模型排名 | 商業工具表現備註 |
|---|---|---|
| 人類生長激素(hGH) | 頂級 | 產量較基線提升約 25% |
| 人血清白蛋白(HSA) | 頂級 | 較原生序列實現約 3 倍的提升 |
| 曲妥珠單抗(抗體) | 第二名 | GenScript 產生了最高效價;AI 具備競爭力 |
| 牛血清白蛋白(BSA) | 頂級 | 效價從 60 mg/L 增加到 75 mg/L(+25%) |
| 鼠血清白蛋白(MSA) | 頂級 | 效價從 100 mg/L 增加到 135 mg/L(+35%) |
| 整體一致性 | 在 6 個目標中排名第 1 的佔 5 個 | 商業工具顯示出高度變異性;IDT 排名最低 |
數據顯示,雖然某些商業工具在特定目標上表現出色——例如 GenScript 在曲妥珠單抗上的表現——但它們缺乏通用性。相反,對於六個測試分子中的五個,MIT 模型產生了最高的 蛋白質效價(Protein titers)。
除了原始性能指標外,這項研究還對 AI 實際學到的內容提供了引人入勝的見解。在沒有被明確設定化學或生物學規則的情況下,該模型發展出了對物理化學性質的內在理解。
當研究人員視覺化模型的數值嵌入時,他們發現氨基酸根據其特性聚集在一起——疏水性殘基被分在一起,極性殘基也是如此。此外,AI 自動學會了避開已知會干擾蛋白質表達的遺傳特徵,例如負向順式作用元件和重複序列。
至關重要的是,該研究挑戰了密碼子適應指數(CAI)等傳統指標的可靠性。研究人員發現,高 CAI 分數與高蛋白質產量並不始終相關,在某些情況下甚至顯示出負相關。這表明行業對簡單頻率指標的依賴可能存在根本缺陷,而 AI 對 DNA 的「語義」理解為生物學上的成功提供了更準確的預測。
可靠預測高產量遺傳序列的能力可能會改變藥物製造的經濟效益。「從想法到投入生產」目前是一個充滿昂貴試錯週期的時間線。透過消除這種不確定性,製藥公司可以更快、以更低的成本將救命療法推向市場。
然而,這項技術並非沒有目前的局限性。研究人員強調,該模型具有物種特異性;在 K. phaffii 上訓練的系統不能簡單地應用於哺乳動物細胞或細菌。其他常見生產宿主(如中國倉鼠卵巢細胞,CHO 細胞)的模型將需要根據其各自的基因組數據集進行訓練。
儘管如此,這項突破強調了生成式 AI 在生物學中的巨大潛力。正如大型語言模型已經掌握了人類語言來編寫論文和程式碼一樣,它們現在正掌握著生命本身的語言,編寫生產下一代藥物所需的遺傳密碼。