
Поскольку ландшафт искусственного интеллекта смещается от первоначальной гонки за массивными обучающими кластерами к жестким требованиям эффективности при инференсе (выводе) в промышленном масштабе, лидеры отрасли ищут радикальные альтернативы стандартным аппаратным архитектурам. Недавние отчеты указывают на то, что компания Anthropic, разработчик моделей Claude AI из Сан-Франциско, ведет предварительные дискуссии о внедрении оборудования от Fractile, британского стартапа, специализирующегося на высокопроизводительных чипах для инференса. Это потенциальное партнерство сигнализирует о растущей необходимости для разработчиков больших языковых моделей (LLM) преодолеть «барьер памяти», который в настоящее время сдерживает развертывание сложных моделей ИИ.
Для читателей Creati.ai это событие подчеркивает более широкую тенденцию: переход к вертикальной интеграции и созданию собственных чипов (custom silicon) уже не является прерогативой только таких гигантов аппаратного обеспечения, как NVIDIA. Поскольку затраты на память растут, а ограничения цепочек поставок не демонстрируют признаков ослабления, такие компании, как Anthropic, ищут специализированные решения, выходящие за рамки традиционных GPU.
В центре текущих дискуссий об аппаратном обеспечении для ИИ находится «дефицит памяти». Хотя GPU стали движущей силой бума генеративного ИИ (Generative AI), они в первую очередь предназначены для вычислительно интенсивных задач обучения. Когда дело доходит до инференса — работы модели для предоставления пользователям ответов в режиме реального времени — архитектурные требования меняются. Производительность модели становится всё более зависимой от пропускной способности памяти, а не от сырой мощности вычислений с плавающей запятой.
Подход Fractile нацелен именно на этот недостаток. В отличие от ускорителей общего назначения, Fractile проектирует чипы, в которых приоритет отдается близости памяти к вычислительным ядрам ИИ. За счет сокращения расстояния, которое данные должны преодолевать между модулями памяти и логикой чипа, стартап стремится значительно увеличить скорость генерации токенов — метрику, где каждая миллисекунда обеспечивает лучший пользовательский опыт при реализации моделей в корпоративном секторе.
В настоящее время отрасль балансирует между несколькими аппаратными стратегиями для обработки массивных больших языковых моделей. В следующей таблице показаны различия между стандартными серверными GPU и специализированными чипами для инференса.
| GPU общего назначения | Специализированный чип для инференса | Архитектурный фокус Fractile |
|---|---|---|
| Высокие TFLOPS для обучения | Оптимизация для низкой задержки | Дизайн с упором на память |
| Высокое энергопотребление на запрос | Повышенная энергоэффективность | Уменьшение узких мест в данных |
| Зависимость от HBM | Сниженные накладные расходы памяти | Единая структура памяти и вычислений |
| Дороговизна при масштабировании | Оптимизация стоимости для развертывания | Фокус на локализованном доступе к памяти |
Anthropic давно позиционирует себя как организация, ориентированная на исследования, отдавая приоритет безопасности и сложным механизмам рассуждения. Однако по мере масштабирования Claude на миллионы корпоративных пользователей через API и веб-интерфейс, экономика инференса стала критически важной областью внимания. Опора исключительно на стороннюю облачную инфраструктуру и стандартные чипы, пользующиеся высоким спросом, ставит Anthropic в зависимость от нестабильности цепочек поставок и субоптимальных коэффициентов энергопотребления на токен.
Сотрудничая со стартапом вроде Fractile, Anthropic исследует стратегию «суверенного» аппаратного обеспечения. Эта стратегия преследует несколько стратегических целей:
Диалог между Anthropic и Fractile происходит не в вакууме. Он представляет собой зарождающийся вторичный рынок инфраструктуры для ИИ. Многие стартапы пытаются бросить вызов гегемонии высококлассных чипов, фокусируясь на рынке «только для инференса».
Отраслевые аналитики предполагают, что следующая фаза «золотой лихорадки» ИИ, часто называемая «ИИ 2.0», будет принадлежать компаниям, которые смогут снизить стоимость развертывания. Если Anthropic удастся успешно интегрировать технологию Fractile, она сможет получить значительное конкурентное преимущество в цене за запрос, что позволит снизить цены для клиентов при сохранении или улучшении задержки модели.
Хотя дискуссии между Anthropic и Fractile, как сообщается, находятся на ранних стадиях и могут не принести немедленных коммерческих результатов, они являются важным сигналом для отрасли. Эра универсального оборудования уходит в прошлое. По мере того как модели ИИ растут в сложности и объеме, экосистема, вероятно, разделится на узкоспециализированные ниши: массивные кластеры для обучения крупномасштабных базовых моделей и оптимизированные, энергоэффективные ускорители для повсеместных задач инференса, которые определяют современный интернет.
Мы в Creati.ai будем внимательно следить за этими событиями. Способность развертывать высокоинтеллектуальный ИИ в масштабе, не опустошая бюджеты на облачную инфраструктуру, является «Святым Граалем» для сектора генеративного ИИ. Если Anthropic докажет, что специализированные чипы от профильных компаний могут обеспечить лучшие результаты, чем готовые альтернативы, мы ожидаем массового притока инвестиций в сектор аппаратного обеспечения для инференса в течение оставшейся части 2024 года и далее.
Переход от исследований к индустриальному, низкозатратному инференсу — сложная задача, но именно ее решают такие инноваторы, как Fractile, и создатели моделей, как Anthropic. Исход таких начинаний в конечном итоге определит доступность и устойчивость следующего поколения искусственного интеллекта.