Anthropic изучает чипы для инференса Fractile AI на фоне дефицита памяти

Стратегический сдвиг: интерес Anthropic к чипам ИИ от Fractile

Поскольку ландшафт искусственного интеллекта смещается от первоначальной гонки за массивными обучающими кластерами к жестким требованиям эффективности при инференсе (выводе) в промышленном масштабе, лидеры отрасли ищут радикальные альтернативы стандартным аппаратным архитектурам. Недавние отчеты указывают на то, что компания Anthropic, разработчик моделей Claude AI из Сан-Франциско, ведет предварительные дискуссии о внедрении оборудования от Fractile, британского стартапа, специализирующегося на высокопроизводительных чипах для инференса. Это потенциальное партнерство сигнализирует о растущей необходимости для разработчиков больших языковых моделей (LLM) преодолеть «барьер памяти», который в настоящее время сдерживает развертывание сложных моделей ИИ.

Для читателей Creati.ai это событие подчеркивает более широкую тенденцию: переход к вертикальной интеграции и созданию собственных чипов (custom silicon) уже не является прерогативой только таких гигантов аппаратного обеспечения, как NVIDIA. Поскольку затраты на память растут, а ограничения цепочек поставок не демонстрируют признаков ослабления, такие компании, как Anthropic, ищут специализированные решения, выходящие за рамки традиционных GPU.

Решение проблемы нехватки памяти при инференсе ИИ

В центре текущих дискуссий об аппаратном обеспечении для ИИ находится «дефицит памяти». Хотя GPU стали движущей силой бума генеративного ИИ (Generative AI), они в первую очередь предназначены для вычислительно интенсивных задач обучения. Когда дело доходит до инференса — работы модели для предоставления пользователям ответов в режиме реального времени — архитектурные требования меняются. Производительность модели становится всё более зависимой от пропускной способности памяти, а не от сырой мощности вычислений с плавающей запятой.

Подход Fractile нацелен именно на этот недостаток. В отличие от ускорителей общего назначения, Fractile проектирует чипы, в которых приоритет отдается близости памяти к вычислительным ядрам ИИ. За счет сокращения расстояния, которое данные должны преодолевать между модулями памяти и логикой чипа, стартап стремится значительно увеличить скорость генерации токенов — метрику, где каждая миллисекунда обеспечивает лучший пользовательский опыт при реализации моделей в корпоративном секторе.

Сравнение аппаратных подходов

В настоящее время отрасль балансирует между несколькими аппаратными стратегиями для обработки массивных больших языковых моделей. В следующей таблице показаны различия между стандартными серверными GPU и специализированными чипами для инференса.

GPU общего назначения	Специализированный чип для инференса	Архитектурный фокус Fractile
Высокие TFLOPS для обучения	Оптимизация для низкой задержки	Дизайн с упором на память
Высокое энергопотребление на запрос	Повышенная энергоэффективность	Уменьшение узких мест в данных
Зависимость от HBM	Сниженные накладные расходы памяти	Единая структура памяти и вычислений
Дороговизна при масштабировании	Оптимизация стоимости для развертывания	Фокус на локализованном доступе к памяти

Почему Fractile важна для дорожной карты Anthropic

Anthropic давно позиционирует себя как организация, ориентированная на исследования, отдавая приоритет безопасности и сложным механизмам рассуждения. Однако по мере масштабирования Claude на миллионы корпоративных пользователей через API и веб-интерфейс, экономика инференса стала критически важной областью внимания. Опора исключительно на стороннюю облачную инфраструктуру и стандартные чипы, пользующиеся высоким спросом, ставит Anthropic в зависимость от нестабильности цепочек поставок и субоптимальных коэффициентов энергопотребления на токен.

Сотрудничая со стартапом вроде Fractile, Anthropic исследует стратегию «суверенного» аппаратного обеспечения. Эта стратегия преследует несколько стратегических целей:

Диверсификация цепочки поставок: Снижение зависимости от одного доминирующего поставщика оборудования уменьшает риск внезапной нехватки запасов.
Операционная адаптация: Интегрируя специализированное оборудование для инференса, Anthropic может оптимизировать архитектуру своих моделей (например, Claude 3.5 Sonnet или Opus) для более эффективной работы, чем на обычном оборудовании.
Цели устойчивого развития: По мере роста спроса на ИИ углеродный след от инференса становится серьезной проблемой для PR и регулирующих органов. Высокоэффективные чипы для инференса способствуют созданию более устойчивой модели вычислений.

Конкурентная среда ускорителей ИИ

Диалог между Anthropic и Fractile происходит не в вакууме. Он представляет собой зарождающийся вторичный рынок инфраструктуры для ИИ. Многие стартапы пытаются бросить вызов гегемонии высококлассных чипов, фокусируясь на рынке «только для инференса».

Отраслевые аналитики предполагают, что следующая фаза «золотой лихорадки» ИИ, часто называемая «ИИ 2.0», будет принадлежать компаниям, которые смогут снизить стоимость развертывания. Если Anthropic удастся успешно интегрировать технологию Fractile, она сможет получить значительное конкурентное преимущество в цене за запрос, что позволит снизить цены для клиентов при сохранении или улучшении задержки модели.

Ключевые факторы, стимулирующие переход к собственным чипам

Преодоление барьера памяти: Стандартная память с высокой пропускной способностью (HBM) является дорогостоящей и дефицитной, что заставляет проектировщиков планировать архитектуры с учетом близости вычислений к памяти.
Интеграция программного стека: Успех любого нового чипа во многом зависит от зрелости его программного стека (например, CUDA или аналогичных сред).
Скорость развертывания: Компании хотят переходить от обучения моделей к промышленному инференсу как можно быстрее, не прибегая к масштабной переработке прикладного уровня.

Будущие перспективы: станет ли кастомное оборудование новым стандартом?

Хотя дискуссии между Anthropic и Fractile, как сообщается, находятся на ранних стадиях и могут не принести немедленных коммерческих результатов, они являются важным сигналом для отрасли. Эра универсального оборудования уходит в прошлое. По мере того как модели ИИ растут в сложности и объеме, экосистема, вероятно, разделится на узкоспециализированные ниши: массивные кластеры для обучения крупномасштабных базовых моделей и оптимизированные, энергоэффективные ускорители для повсеместных задач инференса, которые определяют современный интернет.

Мы в Creati.ai будем внимательно следить за этими событиями. Способность развертывать высокоинтеллектуальный ИИ в масштабе, не опустошая бюджеты на облачную инфраструктуру, является «Святым Граалем» для сектора генеративного ИИ. Если Anthropic докажет, что специализированные чипы от профильных компаний могут обеспечить лучшие результаты, чем готовые альтернативы, мы ожидаем массового притока инвестиций в сектор аппаратного обеспечения для инференса в течение оставшейся части 2024 года и далее.

Переход от исследований к индустриальному, низкозатратному инференсу — сложная задача, но именно ее решают такие инноваторы, как Fractile, и создатели моделей, как Anthropic. Исход таких начинаний в конечном итоге определит доступность и устойчивость следующего поколения искусственного интеллекта.