
По мере того как ландшафт искусственного интеллекта смещается от обучения моделей к масштабному развертыванию, Nvidia готовится представить революционную платформу чипов для инференса на предстоящей конференции GPU Technology Conference (GTC) в марте 2026 года. Согласно отраслевым отчетам и просочившимся деталям, это новое оборудование знаменует собой стратегический поворот полупроводникового гиганта, стремящегося закрепить свое доминирование на быстрорастущем рынке «Агентного ИИ» (Agentic AI) и рассуждений в реальном времени.
Ожидаемый анонс подчеркивает ответ Nvidia на растущий спрос на экономичные решения для инференса с низкой задержкой. Поскольку индустрия ИИ выходит за рамки простых чат-ботов к сложным автономным агентам, требующим непрерывных рассуждений, традиционная архитектура GPU — хотя и непревзойденная для обучения — сталкивается с узкими местами в эффективности. Новая платформа Nvidia, по сообщениям, построенная на архитектуре Feynman (Feynman architecture) и интегрирующая технологии недавнего сотрудничества с Groq, обещает разрушить эти ограничения.
В течение последнего десятилетия доминирование Nvidia в центрах обработки данных строилось на ненасытном аппетите к обучению больших языковых моделей (LLM). Однако 2026 год стал годом инференса. Предприятия и технологические гиганты больше не просто создают модели; они запускают их в массовом масштабе. Этот сдвиг выявил неэффективность использования высокопроизводительных GPU для обучения для последовательной генерации токенов — задачи, которая требует скорости и низкой задержки, а не чистой параллельной пропускной способности.
Отраслевые инсайдеры предполагают, что новая платформа, которая потенциально получит название LPX, использует фундаментальную архитектурную переработку. В отличие от массивных ядер параллельной обработки серий Blackwell или Rubin, этот новый чип оптимизирован для скорости последовательной обработки и пропускной способности памяти, напрямую решая проблему «стены памяти» (memory wall), которая замедляет ответы LLM.
Ядром этой инновации, по-видимому, является интеграция технологии модуля языковой обработки (Language Processing Unit, LPU) от Groq. После стратегической сделки Nvidia со стартапом ожидается, что новая платформа откажется от исключительного использования памяти с высокой пропускной способностью (HBM) в пользу огромных объемов встроенной в чип SRAM (Static Random Access Memory).
Это архитектурное изменение критически важно для производительности в показателях «токенов в секунду». В стандартных GPU данные должны перемещаться туда и обратно между вычислительными ядрами и внешней памятью, создавая задержку. Используя технологию 3D-стекирования для размещения огромных пулов SRAM непосредственно рядом с вычислительными блоками, новый чип Nvidia теоретически может обеспечить мгновенный доступ к данным, значительно ускоряя процесс инференса для больших моделей.
Таблица: Сравнение традиционных GPU для ИИ и новой архитектуры инференса
| Особенность | Традиционный GPU для обучения (например, Blackwell) | Новая платформа инференса (Feynman/LPX) |
|---|---|---|
| Основная нагрузка | Обучение моделей и пакетная обработка | Инференс в реальном времени и генерация токенов |
| Архитектура памяти | Память с высокой пропускной способностью (HBM3e/4) | Высокоемкая встроенная SRAM |
| Дизайн ядер | Массивные параллельные ядра CUDA | Устройства последовательной обработки (LPU) |
| Ключевой показатель | TFLOPS (скорость обучения) | Токены в секунду (задержка ответа) |
| Целевое приложение | Создание базовых моделей | Агентный ИИ (Agentic AI) и автономные системы |
Сроки этого выпуска совпадают с поворотом индустрии к Агентному ИИ (Agentic AI) — автономным системам, способным планировать, рассуждать и выполнять многоэтапные задачи без вмешательства человека. В отличие от простого чат-бота с ответами на запросы, ИИ-агенту может потребоваться «думать» секунды или минуты, запуская тысячи циклов инференса для решения задачи по программированию или анализа финансового отчета.
Дженсен Хуанг (Jensen Huang), генеральный директор Nvidia, по сообщениям, описал новую систему как «нечто, чего мир еще никогда не видел», подчеркнув ее способность справляться с рассуждениями по типу «цепочки мыслей» (chain-of-thought), необходимыми для моделей следующего поколения. Чтобы агентный ИИ стал коммерчески жизнеспособным, стоимость и время на один инференс должны значительно снизиться. Архитектура Feynman (Feynman architecture) призвана обеспечить эту эффективность, позволяя агентам работать практически в реальном времени.
Уверенность рынка в этой новой платформе уже очевидна. Отчеты указывают на то, что OpenAI обязалась закупить и инвестировать около 30 миллиардов долларов в эти специализированные мощности для инференса. Это партнерство закрепляет роль Nvidia не просто как поставщика оборудования, но и как критически важного инфраструктурного партнера для ведущих мировых лабораторий ИИ.
Этот шаг также служит защитной стратегией против растущей конкуренции. В условиях, когда такие компании, как Amazon (AWS Inferentia), Google (TPU) и стартапы вроде Cerebras, отвоевывают долю рынка инференса, специализированное решение Nvidia гарантирует удержание высокоценных клиентов, которые в противном случае могли бы искать более дешевые альтернативы для своих нужд развертывания.
Конференция GTC, начало которой запланировано на 16 марта, скорее всего, представит живые демонстрации возможностей чипа. Аналитики ожидают, что Nvidia сделает акцент на бенчмарках, ориентированных на «время до первого токена» (time-to-first-token) и общие затраты на инференс — показатели, которые сегодня наиболее важны для ИТ-директоров (CIO) предприятий.
Ожидаемые ключевые анонсы:
По мере обострения войны оборудования для ИИ (AI hardware), способность Nvidia совершить разворот и доминировать на уровне инференса станет определяющей историей 2026 года. Эта новая платформа представляет собой не просто более быстрый чип; это двигатель, который будет приводить в действие следующее поколение автономного программного обеспечения.