
В рамках значительного прогресса для биофармацевтической промышленности инженеры Массачусетского технологического института (MIT) разработали большую языковую модель (Large Language Model, LLM), способную радикально оптимизировать производство лекарств на основе белков. Рассматривая последовательности ДНК как сложный язык, модель ИИ научилась предсказывать наиболее эффективные «диалекты» для интерпретации дрожжевыми клетками, превосходя признанные коммерческие инструменты и обещая резко снизить высокие затраты и количество неудач, связанных с разработкой лекарств.
Исследование, недавно опубликованное в журнале Proceedings of the National Academy of Sciences (PNAS), демонстрирует, как генеративный ИИ (Generative AI) может устранить давнее «узкое место» в биотехнологии: оптимизацию кодонов. Под руководством Дж. Кристофера Лава (J. Christopher Love), профессора химической инженерии имени Рэймонда А. и Хелен Э. Сент-Лоран, команда успешно использовала модель для значительного увеличения выхода критически важных белков, включая препарат от рака молочной железы трастузумаб (trastuzumab) и человеческий гормон роста, с существенным отрывом.
В основе этого прорыва лежит биологическая концепция «кодонов» — последовательностей из трех нуклеотидов ДНК, которые дают команду клеточному аппарату добавлять определенные аминокислоты в белковую цепь. Хотя генетический код является избыточным — что означает, что несколько различных кодонов могут кодировать одну и ту же аминокислоту — выбор того, какой кодон использовать, далеко не случаен.
«Трехбуквенные "слова" ДНК могут определять, будет ли дрожжевая клетка эффективно вырабатывать лекарство или работать с перебоями», — пояснили исследователи. Разные организмы предпочитают разные кодоны — явление, известное как смещение использования кодонов (codon usage bias). Если в последовательности гена используются кодоны, которые редки или сложны для обработки конкретной клеткой-хозяином, производство терапевтического белка может застопориться, что приведет к низким выходам и потере ресурсов.
На протяжении десятилетий отраслевой стандарт «оптимизации кодонов (codon optimization)» предполагал замену нативных последовательностей ДНК на те, которые наиболее часто используются организмом-хозяином. Однако этот статистический подход «грубой силы» часто игнорирует нюансы генетического синтаксиса, такие как взаимодействие кодонов с соседними или их влияние на стабильность матричной РНК (мРНК).
Команда MIT применила радикально иной подход. Вместо того чтобы полагаться на таблицы частотности, они обучили большую языковую модель (Large Language Model) типа энкодер-декодер на геномных данных Komagataella phaffii — вида дрожжей, широко используемого в фармацевтической промышленности для производства рекомбинантных белков.
Модели были предоставлены аминокислотные последовательности и соответствующие им кодирующие последовательности ДНК примерно 5000 природных белков дрожжей. Благодаря этому обучению ИИ освоил «грамматику» генетической экспрессии дрожжей, понимая не только то, какие кодоны популярны, но и как они функционируют в контексте.
«Модель изучает синтаксис или язык того, как используются эти кодоны», — отметил профессор Лав. В отличие от традиционных алгоритмов, которые фокусируются на локальной оптимизации, ИИ учитывает дальние зависимости и сложные взаимосвязи во всей последовательности гена.
Чтобы подтвердить эффективность модели, исследователи провели строгое сравнительное исследование с участием шести различных белков различной сложности. К ним относились человеческий гормон роста (hGH), рецептор-связывающий домен SARS-CoV-2 и трастузумаб (моноклональное антитело).
Последовательности, сгенерированные ИИ, сравнивались с вариантами, созданными четырьмя ведущими коммерческими инструментами оптимизации кодонов: Azenta, IDT, GenScript и Thermo Fisher. Результаты, подтвержденные лабораторными экспериментами, подчеркнули превосходную стабильность подхода генеративного ИИ.
Таблица 1: Сравнительная эффективность стратегий оптимизации кодонов
| Целевой белок | Ранг модели ИИ MIT | Заметки о производительности коммерческих инструментов |
|---|---|---|
| Человеческий гормон роста (hGH) | Высший уровень | Выход улучшился на ~25% по сравнению с базовым уровнем |
| Человеческий сывороточный альбумин (HSA) | Высший уровень | Достигнуто ~3-кратное улучшение по сравнению с нативными последовательностями |
| Трастузумаб (антитело) | 2-е место | GenScript показал самый высокий титр; ИИ был конкурентоспособен |
| Бычий сывороточный альбумин (BSA) | Высший уровень | Титры увеличились с 60 мг/л до 75 мг/л (+25%) |
| Мышиный сывороточный альбумин (MSA) | Высший уровень | Титры увеличились со 100 мг/л до 135 мг/л (+35%) |
| Общая стабильность | 1-е место в 5 из 6 целей | Коммерческие инструменты показали высокую вариативность; IDT занял последнее место |
Данные показали, что хотя некоторые коммерческие инструменты преуспели в конкретных целях — например, результаты GenScript с трастузумабом — им не хватало универсальности. Модель MIT, напротив, обеспечила самые высокие титры белков (protein titers) для пяти из шести протестированных молекул.
Помимо чистых показателей производительности, исследование дало захватывающее представление о том, чему на самом деле научился ИИ. Без явного программирования правилами химии или биологии модель выработала внутреннее понимание физико-химических свойств.
Когда исследователи визуализировали числовые эмбеддинги модели, они обнаружили, что аминокислоты были сгруппированы по их признакам — гидрофобные остатки были собраны вместе, как и полярные. Кроме того, ИИ самостоятельно научился избегать генетических особенностей, которые, как известно, препятствуют экспрессии белка, таких как негативные цис-регуляторные элементы и повторяющиеся последовательности.
Что крайне важно, исследование поставило под сомнение надежность традиционных метрик, таких как индекс адаптации кодонов (Codon Adaptation Index, CAI). Исследователи обнаружили, что высокий балл CAI не всегда коррелирует с высоким выходом белка, а в некоторых случаях даже демонстрирует отрицательную корреляцию. Это говорит о том, что зависимость отрасли от простых метрик частотности может быть в корне неверной, и что «семантическое» понимание ДНК со стороны ИИ предлагает более точный прогноз биологического успеха.
Способность надежно предсказывать высокопродуктивные генетические последовательности может изменить экономику фармацевтического производства. Путь от «идеи до внедрения в производство» в настоящее время представляет собой график, полный дорогостоящих циклов проб и ошибок. Устранив эту неопределенность, фармацевтические компании смогут выводить жизненно важные методы лечения на рынок быстрее и с меньшими затратами.
Тем не менее, технология не лишена текущих ограничений. Исследователи подчеркнули, что модель является видоспецифичной; систему, обученную на K. phaffii, нельзя просто применить к клеткам млекопитающих или бактериям. Модели для других распространенных хозяев производства, таких как клетки яичника китайского хомячка (CHO), необходимо будет обучать на их соответствующих геномных наборах данных.
Тем не менее, этот прорыв подчеркивает огромный потенциал генеративного ИИ в биологии. Подобно тому как LLM освоили человеческие языки для написания эссе и кода, теперь они осваивают языки самой жизни, создавая генетический код, необходимый для производства лекарств следующего поколения.