
바이오 제약 산업의 중대한 진전으로, 매사추세츠 공과대학교(MIT)의 엔지니어들이 단백질 기반 약물 생산을 획기적으로 최적화할 수 있는 거대 언어 모델(Large Language Model, LLM)을 개발했다. DNA 서열을 복잡한 언어로 취급함으로써, 이 AI 모델은 효모 세포가 해석하기에 가장 효율적인 "방언"을 예측하는 법을 학습했으며, 이는 기존의 상업적 도구들을 능가하고 약물 개발과 관련된 높은 비용과 실패율을 줄일 것으로 기대된다.
최근 미국 국립과학원 회보(PNAS)에 발표된 이 연구는 생성형 AI(generative AI)가 생명공학의 오랜 병목 현상인 코돈 최적화를 어떻게 해결할 수 있는지 보여준다. 화학공학과의 레이몬드 A. 및 헬렌 E. 세인트 로랑 교수인 J. 크리스토퍼 러브(J. Christopher Love)가 이끄는 연구팀은 이 모델을 성공적으로 활용하여 유방암 치료제인 트라스투주맙(trastuzumab)과 인간 성장 호르몬을 포함한 주요 단백질의 생산량을 상당한 차이로 증대시켰다.
이 획기적 성과의 핵심에는 "코돈(codon)"이라는 생물학적 개념이 있다. 코돈은 세포의 기작이 단백질 사슬에 특정 아미노산을 추가하도록 지시하는 세 개의 DNA 뉴클레오타이드 서열이다. 유전 암호는 중복성이 있어 여러 다른 코돈이 동일한 아미노산을 암호화할 수 있지만, 어떤 코돈을 사용할지는 결코 임의적이지 않다.
연구진은 "세 글자로 된 DNA '단어'가 효모 세포가 의약품을 효율적으로 만들어낼지 아니면 불안정하게 작동할지를 결정할 수 있다"라고 설명했다. 생물마다 선호하는 코돈이 다른데, 이를 코돈 사용 편향(codon usage bias)이라고 한다. 만약 유전자 서열이 특정 숙주 세포가 처리하기 드물거나 어려운 코돈을 사용하면, 치료용 단백질의 생산이 정체되어 수율이 낮아지고 자원이 낭비될 수 있다.
수십 년 동안 "코돈 최적화(codon optimization)"를 위한 업계 표준은 천연 DNA 서열을 숙주 생물이 가장 빈번하게 사용하는 서열로 교체하는 방식을 포함했다. 그러나 이러한 단순 통계적 접근 방식은 코돈이 이웃 코돈과 상호작용하는 방식이나 메신저 RNA(mRNA)의 안정성에 미치는 영향과 같은 유전적 구문의 미묘한 차이를 간과하는 경우가 많다.
MIT 팀은 근본적으로 다른 접근 방식을 취했다. 빈도표에 의존하는 대신, 제약 산업에서 재조합 단백질 생산에 널리 활용되는 효모 종인 Komagataella phaffii의 게놈 데이터를 바탕으로 인코더-디코더 스타일의 거대 언어 모델(large language model)을 훈련시켰다.
모델에는 효모에서 자연적으로 발생하는 약 5,000개의 단백질에서 추출한 아미노산 서열과 그에 대응하는 DNA 코딩 서열이 입력되었다. 이 훈련을 통해 AI는 효모의 유전적 발현에 대한 "문법"을 학습했다. 즉, 어떤 코돈이 대중적인지뿐만 아니라 맥락 속에서 어떻게 기능하는지를 이해하게 된 것이다.
러브 교수는 "모델은 이러한 코돈들이 어떻게 사용되는지에 대한 구문이나 언어를 학습한다"라고 언급했다. 국소적 최적화에 집중하는 전통적인 알고리즘과 달리, 이 AI는 전체 유전자 서열에 걸친 장기 의존성(long-range dependencies)과 복잡한 관계를 고려한다.
모델의 효능을 검증하기 위해 연구진은 복잡성이 다양한 6가지 별개의 단백질을 대상으로 엄격한 비교 연구를 수행했다. 여기에는 인간 성장 호르몬(hGH), SARS-CoV-2 수용체 결합 도메인, 트라스투주맙(단일 클론 항체)이 포함되었다.
AI가 생성한 서열은 Azenta, IDT, GenScript, Thermo Fisher 등 4개의 주요 상업용 코돈 최적화 도구가 설계한 서열과 대결을 펼쳤다. 실험실 실험을 통해 확인된 결과는 생성형 AI 방식의 우수한 일관성을 입증했다.
표 1: 코돈 최적화 전략의 비교 성능
| 단백질 표적 | MIT AI 모델 순위 | 상업용 도구 성능 노트 |
|---|---|---|
| 인간 성장 호르몬 (hGH) | 최상위권 | 기초선 대비 수율 약 25% 향상 |
| 인간 혈청 알부민 (HSA) | 최상위권 | 천연 서열 대비 약 3배 개선 달성 |
| 트라스투주맙 (항체) | 2위 | GenScript가 가장 높은 타이터를 생산; AI는 경쟁력 있었음 |
| 우혈청 알부민 (BSA) | 최상위권 | 타이터가 60 mg/L에서 75 mg/L로 증가 (+25%) |
| 쥐 혈청 알부민 (MSA) | 최상위권 | 타이터가 100 mg/L에서 135 mg/L로 증가 (+35%) |
| 전반적인 일관성 | 6개 표적 중 5개에서 1위 | 상업용 도구는 높은 가변성을 보임; IDT가 가장 낮은 순위 기록 |
데이터에 따르면 일부 상업용 도구는 트라스투주맙에서의 GenScript 성능처럼 특정 표적에서 뛰어난 성과를 냈으나 다재다능함이 부족했다. 반면, MIT 모델은 테스트된 6개 분자 중 5개에서 가장 높은 단백질 타이터(protein titers)를 기록했다.
원시 성능 지표를 넘어, 이번 연구는 AI가 실제로 무엇을 학습했는지에 대한 매혹적인 통찰을 제공했다. 화학이나 생물학에 대한 규칙을 명시적으로 프로그래밍하지 않았음에도 불구하고, 모델은 물리화학적 특성에 대한 내부적 이해를 발달시켰다.
연구진이 모델의 수치적 임베딩을 시각화했을 때, 아미노산들이 그 특성에 따라 군집화되어 있음을 발견했다. 소수성 잔기들은 함께 그룹화되었고 극성 잔기들도 마찬가지였다. 또한, AI는 음성 시스 조절 요소(cis-regulatory elements)나 반복 서열과 같이 단백질 발현을 방해하는 것으로 알려진 유전적 특징을 피하는 법을 자율적으로 학습했다.
결정적으로, 이번 연구는 코돈 적응 지수(Codon Adaptation Index, CAI)와 같은 전통적인 지표의 신뢰성에 의문을 제기했다. 연구진은 높은 CAI 점수가 높은 단백질 수율과 일관되게 상관관계를 보이지 않았으며, 일부 사례에서는 음의 상관관계를 보이기도 했다는 점을 발견했다. 이는 업계가 단순한 빈도 지표에 의존하는 것이 근본적으로 결함이 있을 수 있으며, AI의 DNA에 대한 "의미론적" 이해가 생물학적 성공을 더 정확하게 예측할 수 있음을 시사한다.
고수율 유전자 서열을 안정적으로 예측하는 능력은 약물 제조의 경제성을 변화시킬 수 있다. 현재 "아이디어를 얻어 생산에 투입하는 단계"는 비용이 많이 드는 시행착오 주기로 가득 찬 타임라인이다. 이러한 불확실성을 제거함으로써 제약 회사는 생명을 구하는 치료제를 더 빠르고 저렴한 비용으로 시장에 출시할 수 있다.
하지만 이 기술에 현재 한계가 없는 것은 아니다. 연구진은 모델이 종 특이적임을 강조했다. K. phaffii로 훈련된 시스템은 포유류 세포나 박테리아에 단순히 적용될 수 없다. 차이니즈 햄스터 난소(CHO) 세포와 같은 다른 일반적인 생산 숙주를 위한 모델은 각각의 게놈 데이터셋으로 훈련되어야 할 것이다.
그럼에도 불구하고, 이번 돌파구는 생물학 분야에서 생성형 AI의 엄청난 잠재력을 강조한다. LLM이 에세이를 쓰고 코드를 작성하기 위해 인간의 언어를 마스터한 것처럼, 이제는 생명 그 자체의 언어를 마스터하여 차세대 의약품 생산에 필요한 유전자 코드를 작성하고 있다.