
Экономика искусственного интеллекта претерпевает сейсмический сдвиг. NVIDIA официально продемонстрировала, что ее платформа Blackwell (Blackwell platform), а именно система GB200 NVL72, снижает стоимость одного токена до 10 раз по сравнению с архитектурой Hopper предыдущего поколения. Для индустрии ИИ, где затраты на инференс (inference costs) стали основным препятствием для масштабирования, это событие знаменяет собой критический переломный момент.
В Creati.ai мы внимательно следили за траекторией инфраструктуры больших языковых моделей (Large Language Model, LLM). Переход от ценностных предложений, ориентированных на обучение, к эффективности, ориентированной на инференс, теперь является доминирующим сценарием. Последние данные NVIDIA подтверждают, что благодаря экстремальному совместному проектированию (extreme codesign) аппаратного и программного обеспечения платформа Blackwell не просто стала быстрее; она фундаментально переписывает показатели прибыли для поставщиков ИИ в секторах здравоохранения, игр и обслуживания клиентов.
Ключевым фактором этого скачка эффективности является NVIDIA GB200 NVL72, стоечная система, которая работает как один массивный GPU. В отличие от традиционных конфигураций, которые страдают от задержек между дискретными чипами, NVL72 соединяет 72 графических процессора Blackwell и 36 процессоров Grace с помощью NVLink пятого поколения.
Эта архитектура обеспечивает 30 ТБ унифицированной быстрой памяти, позволяя даже самым крупным моделям с триллионами параметров полностью размещаться в одном когерентном домене памяти. Это устраняет накладные расходы на связь, которые обычно мешают многоузловому инференсу, что напрямую транслируется в более высокую пропускную способность и меньшее энергопотребление на каждый сгенерированный токен.
Прирост эффективности дополнительно усиливается введением NVFP4, формата данных низкой точности, поддерживаемого нативно тензорными ядрами Blackwell. Обрабатывая данные с точностью 4-битной плавающей запятой без ущерба для точности модели, система эффективно удваивает пропускную способность по сравнению с 8-битными форматами, вдвое сокращая полосу пропускания памяти, необходимую для каждого токена.
Хотя теоретические показатели многообещающи, данные о реальном развертывании подтверждают заявление о «10-кратном» преимуществе. Ведущие провайдеры инференса уже интегрировали кластеры на базе Blackwell в свои стеки, сообщая о резком снижении операционных расходов и задержек.
В следующей таблице подробно описано, как конкретные игроки отрасли используют платформу Blackwell для трансформации своих экономических моделей:
Таблица 1: Производительность Blackwell и влияние на стоимость по секторам
| Партнер | Отрасль | Ключевое приложение | Метрика производительности | Влияние на стоимость |
|---|---|---|---|---|
| Baseten (Sully.ai) | Здравоохранение | Генерация медицинских заметок | На 65% меньше время отклика | Снижение стоимости на 90% (10x) по сравнению с проприетарными моделями |
| DeepInfra | Игры | AI Dungeon (Latitude) | Генерация повествования с низкой задержкой | Стоимость за миллион токенов упала с $0,20 до $0,05 (4x) |
| Together AI | Обслуживание клиентов | Голосовые агенты Decagon | Время отклика менее 400 мс | Снижение стоимости одного запроса в 6 раз по сравнению с закрытыми моделями |
| Fireworks AI | Агентный ИИ | Sentient Chat | Мультиагентная оркестрация | На 25-50% выше эффективность затрат по сравнению с Hopper |
10-кратное снижение затрат — это не только результат мощности «чистого кремния». Оно проистекает из тесной интеграции трех различных уровней:
Важным следствием этого снижения затрат является демократизация высокоинтеллектуальных моделей. Ранее запуск массивных передовых (frontier) моделей был непомерно дорогим для многих стартапов, что вынуждало их полагаться на более простые модели или дорогостоящие вызовы API к проприетарным гигантам.
Благодаря платформе Blackwell такие провайдеры, как Together AI и Baseten, размещают передовые модели с открытым исходным кодом, которые соперничают с проприетарными гигантами по производительности, но при гораздо меньшей стоимости инференса. Например, Sully.ai использовала инфраструктуру Baseten на базе Blackwell для развертывания высокоточных медицинских ИИ-сотрудников, которые экономят врачам более 30 миллионов минут административной работы. Структура затрат Blackwell сделала это возможным, обеспечив в 2,5 раза лучшую пропускную способность на доллар по сравнению с поколением H100 (Hopper).
Каким бы значимым ни был запуск Blackwell, NVIDIA уже дала понять, что это часть непрерывного процесса повышения эффективности. Компания анонсировала будущую платформу Rubin (Rubin platform), которая призвана объединить шесть новых чипов в один суперкомпьютер для ИИ. NVIDIA прогнозирует, что Rubin обеспечит еще один 10-кратный скачок производительности и в 10 раз более низкую стоимость токенов по сравнению с Blackwell.
Однако в ближайшем будущем отраслевым стандартом остается GB200 NVL72. Для компаний, ориентированных на ИИ, сигнал ясен: эра непомерных «налогов на интеллект» заканчивается. Оптимизируя экономику токенов с помощью передовой инфраструктуры, компании теперь могут переключить внимание с управления счетами за облачные услуги на расширение возможностей и охвата своих ИИ-приложений.
Мнение Creati.ai: Снижение стоимости токенов на порядок — это не просто обновление характеристик оборудования; это экономический прорыв. Это превращает ИИ из дорогостоящей роскоши в общедоступный ресурс, открывая возможности для сложных агентных рабочих процессов (agentic workflows) и взаимодействия в реальном времени, масштабирование которых ранее было слишком затратным.