Платформа NVIDIA Blackwell снижает затраты на AI-токены в 10 раз по сравнению с Hopper

Платформа NVIDIA Blackwell сокращает стоимость токенов ИИ в 10 раз по сравнению с Hopper

Экономика искусственного интеллекта претерпевает сейсмический сдвиг. NVIDIA официально продемонстрировала, что ее платформа Blackwell (Blackwell platform), а именно система GB200 NVL72, снижает стоимость одного токена до 10 раз по сравнению с архитектурой Hopper предыдущего поколения. Для индустрии ИИ, где затраты на инференс (inference costs) стали основным препятствием для масштабирования, это событие знаменяет собой критический переломный момент.

В Creati.ai мы внимательно следили за траекторией инфраструктуры больших языковых моделей (Large Language Model, LLM). Переход от ценностных предложений, ориентированных на обучение, к эффективности, ориентированной на инференс, теперь является доминирующим сценарием. Последние данные NVIDIA подтверждают, что благодаря экстремальному совместному проектированию (extreme codesign) аппаратного и программного обеспечения платформа Blackwell не просто стала быстрее; она фундаментально переписывает показатели прибыли для поставщиков ИИ в секторах здравоохранения, игр и обслуживания клиентов.

GB200 NVL72: Создание технологического прорыва в эффективности

Ключевым фактором этого скачка эффективности является NVIDIA GB200 NVL72, стоечная система, которая работает как один массивный GPU. В отличие от традиционных конфигураций, которые страдают от задержек между дискретными чипами, NVL72 соединяет 72 графических процессора Blackwell и 36 процессоров Grace с помощью NVLink пятого поколения.

Эта архитектура обеспечивает 30 ТБ унифицированной быстрой памяти, позволяя даже самым крупным моделям с триллионами параметров полностью размещаться в одном когерентном домене памяти. Это устраняет накладные расходы на связь, которые обычно мешают многоузловому инференсу, что напрямую транслируется в более высокую пропускную способность и меньшее энергопотребление на каждый сгенерированный токен.

Прирост эффективности дополнительно усиливается введением NVFP4, формата данных низкой точности, поддерживаемого нативно тензорными ядрами Blackwell. Обрабатывая данные с точностью 4-битной плавающей запятой без ущерба для точности модели, система эффективно удваивает пропускную способность по сравнению с 8-битными форматами, вдвое сокращая полосу пропускания памяти, необходимую для каждого токена.

Реальное влияние: Первые пользователи сообщают о масштабной экономии

Хотя теоретические показатели многообещающи, данные о реальном развертывании подтверждают заявление о «10-кратном» преимуществе. Ведущие провайдеры инференса уже интегрировали кластеры на базе Blackwell в свои стеки, сообщая о резком снижении операционных расходов и задержек.

В следующей таблице подробно описано, как конкретные игроки отрасли используют платформу Blackwell для трансформации своих экономических моделей:

Таблица 1: Производительность Blackwell и влияние на стоимость по секторам

Партнер	Отрасль	Ключевое приложение	Метрика производительности	Влияние на стоимость
Baseten (Sully.ai)	Здравоохранение	Генерация медицинских заметок	На 65% меньше время отклика	Снижение стоимости на 90% (10x) по сравнению с проприетарными моделями
DeepInfra	Игры	AI Dungeon (Latitude)	Генерация повествования с низкой задержкой	Стоимость за миллион токенов упала с $0,20 до $0,05 (4x)
Together AI	Обслуживание клиентов	Голосовые агенты Decagon	Время отклика менее 400 мс	Снижение стоимости одного запроса в 6 раз по сравнению с закрытыми моделями
Fireworks AI	Агентный ИИ	Sentient Chat	Мультиагентная оркестрация	На 25-50% выше эффективность затрат по сравнению с Hopper

Техническая троица: Аппаратное обеспечение, ПО и точность

10-кратное снижение затрат — это не только результат мощности «чистого кремния». Оно проистекает из тесной интеграции трех различных уровней:

Архитектура: Доменно-ориентированная архитектура GB200 оптимизирована для моделей Mixture-of-Experts (MoE). Модели MoE, которые активируют лишь часть своих параметров для каждого токена, требуют высокоскоростных соединений для эффективной маршрутизации данных между экспертами. Коммутационная матрица NVLink в NVL72 легко справляется с этим нелинейным объемом коммуникаций.
Оптимизация программного обеспечения: Широкое внедрение библиотеки NVIDIA TensorRT-LLM позволило провайдерам максимизировать использование графических процессоров Blackwell. Эта библиотека с открытым исходным кодом оптимизирует производительность инференса, управляя выполнением ядер и распределением памяти эффективнее, чем стандартные фреймворки.
Точность данных: Переход на NVFP4 меняет правила игры для инференса. Для DeepInfra переход с Hopper на Blackwell изначально вдвое снизил затраты, но включение NVFP4 сократило расходы еще вдвое, в результате чего общая стоимость составила всего 5 центов за миллион токенов. Такой уровень доступности необходим для приложений, работающих в режиме реального времени, таких как неигровые персонажи (NPC) в играх или постоянные голосовые помощники.

Демократизация интеллекта «передового уровня»

Важным следствием этого снижения затрат является демократизация высокоинтеллектуальных моделей. Ранее запуск массивных передовых (frontier) моделей был непомерно дорогим для многих стартапов, что вынуждало их полагаться на более простые модели или дорогостоящие вызовы API к проприетарным гигантам.

Благодаря платформе Blackwell такие провайдеры, как Together AI и Baseten, размещают передовые модели с открытым исходным кодом, которые соперничают с проприетарными гигантами по производительности, но при гораздо меньшей стоимости инференса. Например, Sully.ai использовала инфраструктуру Baseten на базе Blackwell для развертывания высокоточных медицинских ИИ-сотрудников, которые экономят врачам более 30 миллионов минут административной работы. Структура затрат Blackwell сделала это возможным, обеспечив в 2,5 раза лучшую пропускную способность на доллар по сравнению с поколением H100 (Hopper).

Взгляд в будущее: Путь к платформе Rubin

Каким бы значимым ни был запуск Blackwell, NVIDIA уже дала понять, что это часть непрерывного процесса повышения эффективности. Компания анонсировала будущую платформу Rubin (Rubin platform), которая призвана объединить шесть новых чипов в один суперкомпьютер для ИИ. NVIDIA прогнозирует, что Rubin обеспечит еще один 10-кратный скачок производительности и в 10 раз более низкую стоимость токенов по сравнению с Blackwell.

Однако в ближайшем будущем отраслевым стандартом остается GB200 NVL72. Для компаний, ориентированных на ИИ, сигнал ясен: эра непомерных «налогов на интеллект» заканчивается. Оптимизируя экономику токенов с помощью передовой инфраструктуры, компании теперь могут переключить внимание с управления счетами за облачные услуги на расширение возможностей и охвата своих ИИ-приложений.

Мнение Creati.ai: Снижение стоимости токенов на порядок — это не просто обновление характеристик оборудования; это экономический прорыв. Это превращает ИИ из дорогостоящей роскоши в общедоступный ресурс, открывая возможности для сложных агентных рабочих процессов (agentic workflows) и взаимодействия в реальном времени, масштабирование которых ранее было слишком затратным.