
バイオ医薬品業界における重要な進展として、マサチューセッツ工科大学(MIT)のエンジニアたちは、タンパク質製剤の生産を劇的に最適化できる大規模言語モデル(LLM:Large Language Model)を開発した。DNA配列を複雑な言語として扱うことで、このAIモデルは酵母細胞が解釈するのに最も効率的な「方言」を予測することを学習し、既存の商用ツールを凌駕する性能を示した。これにより、医薬品開発に伴う高コストと失敗率の削減が期待される。
米国科学アカデミー紀要(PNAS)に最近掲載された研究では、生成AIがいかにしてバイオテクノロジーにおける長年のボトルネックであるコドン最適化(Codon optimization)を解決できるかが示されている。レイモンド・Aおよびヘレン・E・セント・ローラン化学工学教授であるJ・クリストファー・ラブ氏の指導の下、チームはこのモデルを使用して、乳がん治療薬のトラスツズマブ(Trastuzumab)やヒト成長ホルモンを含む重要なタンパク質の生産量を大幅に向上させることに成功した。
この画期的な進歩の核心にあるのは、「コドン(Codon)」という生物学的概念である。これは3つのDNAヌクレオチドの配列であり、細胞の機構に対してタンパク質鎖に特定のアミノ酸を追加するよう指示を出す。遺伝暗号には冗長性があり、複数の異なるコドンが同じアミノ酸をコードできるが、どのコドンを使用するかの選択は決して恣意的なものではない。
「3文字のDNAの『単語』が、酵母細胞が効率的に薬を生産するか、あるいは停滞するかを左右する可能性がある」と研究者らは説明している。異なる生物は異なるコドンを好む傾向があり、これはコドン使用バイアス(Codon usage bias)として知られる現象である。遺伝子配列において、特定のホスト細胞が処理しにくい、あるいは稀なコドンが使用されると、治療用タンパク質の生産が失速し、収量の低下やリソースの浪費につながる。
数十年にわたり、業界標準の「コドン最適化」は、本来のDNA配列をホスト生物が最も頻繁に使用するものに置き換える手法をとってきた。しかし、この統計的な力技のアプローチは、コドンが隣接するものとどのように相互作用するか、あるいはメッセンジャーRNA(mRNA)の安定性にどのように影響するかといった、遺伝子構文の微妙なニュアンスを見落とすことが多い。
MITのチームは、根本的に異なるアプローチを採用した。頻度表に頼る代わりに、彼らはエンコーダー・デコーダー型の大規模言語モデルを、組換えタンパク質生産のために製薬業界で広く利用されている酵母の一種、Komagataella phaffii のゲノムデータで学習させた。
モデルには、この酵母に自然に存在する約5,000種類のタンパク質のアミノ酸配列と、それに対応するDNAコーディング配列が供給された。この学習を通じて、AIは酵母の遺伝子発現の「文法」を習得した。どのコドンが一般的であるかだけでなく、それらが文脈の中でどのように機能するかを理解したのである。
「このモデルは、これらのコドンがどのように使用されるかという構文、つまり言語を学習します」とラブ教授は指摘した。局所的な最適化に焦点を当てる従来のアルゴリズムとは異なり、このAIは遺伝子配列全体の長距離依存関係や複雑な関係性を考慮に入れている。
モデルの有効性を検証するため、研究者らは複雑さの異なる6つの異なるタンパク質を用いた厳格な比較研究を実施した。これらには、ヒト成長ホルモン(hGH)、SARS-CoV-2受容体結合ドメイン、およびトラスツズマブ(モノクローナル抗体)が含まれる。
AIが生成した配列は、Azenta、IDT、GenScript、Thermo Fisherといった主要な4つの商用コドン最適化ツールによって作成された設計と比較された。実験室での実験を通じて確認された結果は、生成AIアプローチの優れた一貫性を浮き彫りにした。
表1:コドン最適化戦略の比較パフォーマンス
| 標的タンパク質 | MIT AIモデルのランク | 商用ツールのパフォーマンスに関する注記 |
|---|---|---|
| ヒト成長ホルモン(hGH) | トップ層 | ベースラインと比較して収量が約25%向上 |
| ヒト血清アルブミン(HSA) | トップ層 | 本来の配列と比較して約3倍の向上を達成 |
| トラスツズマブ(抗体) | 2位 | GenScriptが最高の力価を記録。AIも競争力を示した |
| 牛血清アルブミン(BSA) | トップ層 | 力価が60 mg/Lから75 mg/Lに増加(+25%) |
| マウス血清アルブミン(MSA) | トップ層 | 力価が100 mg/Lから135 mg/Lに増加(+35%) |
| 全体的な一貫性 | 6つの標的のうち5つで1位 | 商用ツールは高い変動性を示し、IDTが最も低いランクとなった |
データによると、GenScriptのトラスツズマブにおけるパフォーマンスのように、特定のターゲットで優れた成果を出す商用ツールもある一方で、汎用性に欠けていた。対照的に、MITのモデルはテストされた6つの分子のうち5つにおいて、最も高いタンパク質力価(Protein titers)を記録した。
生のパフォーマンス指標を超えて、この研究はAIが実際に何を学習したのかについて、興味深い洞察を提供した。化学や生物学に関する規則を明示的にプログラミングされることなく、モデルは物理化学的特性に関する内部的な理解を発展させた。
研究者がモデルの数値的な埋め込み(Embeddings)を可視化したところ、アミノ酸はその特性ごとにクラスター化されていることがわかった。疎水性残基はまとめられ、極性残基も同様であった。さらに、AIは、負のシス調節エレメントや反復配列など、タンパク質の発現を妨げることが知られている遺伝的特徴を回避することを自律的に学習した。
重要なことに、この研究はコドン適応指数(CAI:Codon Adaptation Index)のような従来の指標の信頼性に疑問を投げかけた。研究者らは、高いCAIスコアが必ずしも高いタンパク質収量と一致しないことを発見し、場合によっては負の相関さえ示した。これは、業界が単純な頻度指標に依存していることが根本的に不完全である可能性を示唆しており、AIによるDNAの「意味論的」な理解が、生物学的な成功のより正確な予測因子を提供することを示している。
高収量の遺伝子配列を確実に予測できる能力は、医薬品製造の経済性を変える可能性がある。「アイデアを得てから生産に移るまで」の現状は、多額の費用がかかる試行錯誤のサイクルに満ちたタイムラインとなっている。この不確実性を取り除くことで、製薬会社は救命治療をより迅速かつ低コストで市場に提供できるようになる。
しかし、この技術には現在のところ限界もある。研究者らは、このモデルが種特異的であることを強調した。K. phaffii で学習したシステムを、そのまま哺乳類細胞や細菌に適用することはできない。チャイニーズハムスター卵巣(CHO)細胞など、他の一般的な生産ホストのためのモデルは、それぞれのゲノムデータセットで学習させる必要がある。
それでも、この突破口は生物学における生成AIの絶大な可能性を強調している。LLMがエッセイやコードを書くために人間の言語を習得したのと同様に、今や生命そのものの言語を習得しつつあり、次世代の医薬品を生産するために必要な遺伝暗号を書き換えようとしている。