Google выпустила Gemini 3.1 Pro, превосходя GPT-5.2 и Claude Opus 4.6 в ключевых бенчмарках

Google возвращает лидерство в сфере ИИ с запуском Gemini 3.1 Pro

Google официально подтвердила свое доминирование в ландшафте генеративного ИИ (Generative AI) с выпуском Gemini 3.1 Pro — модели, которая знаменует собой качественный скачок в абстрактном мышлении и решении научных задач. Представленная в четверг, 19 февраля 2026 года, новая модель появилась в критический момент «гонки вооружений ИИ», демонстрируя показатели производительности, которые решительно опережают ключевых конкурентов, включая GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic.

Для редакции Creati.ai наиболее поразительным аспектом этого релиза являются не просто постепенные улучшения в стандартных языковых задачах, а преодоление барьера в возможностях абстрактного мышления. Внутренние данные Google, подтвержденные первыми независимыми тестами, указывают на то, что Gemini 3.1 Pro достиг результата в 77,1% в печально известном бенчмарке ARC-AGI-2 — тесте, предназначенном для измерения общего интеллекта с помощью новых визуальных головоломок, а не механического запоминания. Этот показатель представляет собой резкое улучшение по сравнению с предыдущими современными моделями и предполагает, что мы приближаемся к системам, способным к подлинному «базовому рассуждению» (core reasoning).

Новый стандарт абстрактного мышления и научных знаний

Главной особенностью Gemini 3.1 Pro, несомненно, является её механизм рассуждений. В последние месяцы индустрия ИИ перешла от измерения успеха количеством параметров к оценке «вычислений во время инференса» (test-time compute) и глубины рассуждений. Подход Google в версии 3.1, похоже, делает ставку именно на эту философию.

Разрыв в производительности наиболее заметен в бенчмарке ARC-AGI-2. Исторически большие языковые модели (LLMs) испытывали трудности с этим тестом, поскольку он требует решения новых задач на поиск закономерностей без четких предварительных обучающих данных. В то время как GPT-5.2 набрала достойные 52,9%, а недавно обновленная Claude Opus 4.6 показала 68,8%, результат Gemini 3.1 Pro в 77,1% устанавливает новую планку в индустрии. Ожидается, что эта способность напрямую трансформируется в более надежных автономных агентов и сложные системы принятия решений, способные адаптиться к непредвиденным сценариям.

Кроме того, в области точных наук Gemini 3.1 Pro продолжает лидировать. В тесте GPQA Diamond test, который оценивает знания экспертного уровня в области биологии, физики и химии, модель достигла точности 94,3%. Это превосходит показатели GPT-5.2 (92,4%) и Claude Opus 4.6 (91,3%), укрепляя позиции Google в академических и исследовательских приложениях.

Сравнительный анализ производительности

В следующей таблице обобщены результаты ключевых бенчмарков, представленные во время мероприятия по запуску. Эти цифры подчеркивают конкретные области, в которых Google удалось увеличить отрыв от своих основных конкурентов.

Метрика|Gemini 3.1 Pro|GPT-5.2|Claude Opus 4.6
---|---|---
ARC-AGI-2 (абстрактное мышление)|77.1%|52.9%|68.8%
GPQA Diamond (научные знания)|94.3%|92.4%|91.3%
Всего выиграно основных бенчмарков|12 из 19|N/A|N/A
Статус доступности|Доступно сейчас|Доступно|Доступно

Креативное программирование и мультимодальные возможности

Помимо «голых» цифр, Google продемонстрировала практические приложения, использующие расширенное мультимодальное понимание Gemini 3.1 Pro. Ключевой инновацией, представленной в этом цикле, стала «нативная генерация SVG-анимаций» (native SVG animation generation). В отличие от предыдущих моделей, которые часто испытывали трудности с точностью координат, необходимой для масштабируемой векторной графики (Scalable Vector Graphics, SVG), Gemini 3.1 Pro может генерировать чистый анимированный код SVG, готовый к веб-развертыванию.

Во время демонстрации Google показала способности модели к «Креативному программированию» (Creative Coding), создав полностью функциональный сайт-портфолио для вымышленного персонажа из Wuthering Heights («Грозовой перевал»). Модель не только написала HTML и CSS, но и концептуализировала эстетическое направление, создав программный визуальный ряд, соответствующий заданному тону.

Другим ярким примером стал интерактивный дизайн. Модели была поставлена задача создать «3D интерактивный ропот скворцов» (3D interactive starling murmuration) — сложную симуляцию стаи птиц. Gemini 3.1 Pro успешно сгенерировала логику для управления движением стаи и дополнила её генеративным звуковым ландшафтом, который динамически реагировал на взаимодействия пользователя с мышью. Это сигнализирует о переменах для разработчиков и дизайнеров, которые теперь могут использовать модель в качестве партнера по совместной работе для решения сложных интерактивных задач фронтенд-инжиниринга.

Агентский разрыв: области для улучшения

Несмотря на торжественный тон анонса, технический документ Google предлагает откровенный взгляд на ограничения модели. Хотя Gemini 3.1 Pro преуспевает в рассуждениях и поиске знаний, она, по сообщениям, отстает от конкурентов в специфических «агентских» (agentic) рабочих процессах кодирования.

В оценке SWE-Bench Verified, которая проверяет способность ИИ автономно решать реальные проблемы GitHub, Gemini 3.1 Pro немного уступила специализированным кодинг-агентам, построенным на базе Claude Opus 4.6. Это говорит о том, что, хотя модель Google является превосходным мыслителем и архитектором, она все еще может требовать человеческого контроля или специализированных инструментов для выполнения длительных задач по разработке программного обеспечения без вмешательства.

Руководители Google затронули эту тему во время пресс-брифинга, отметив, что «агентский разрыв» является основным направлением внимания для предстоящего цикла обновлений Gemini 3.5. На данный момент разработчикам, использующим модель через API, рекомендуется использовать технику «цепочки рассуждений» (chain-of-thought) для максимизации возможностей планирования модели перед выполнением.

Развертывание и доступность: от NotebookLM до Antigravity

Google не теряет времени на развертывание Gemini 3.1 Pro в своей экосистеме. Модель немедленно становится доступной для подписчиков планов Gemini Advanced и AI Ultra.

Для потребителей: Модель интегрирована в стандартное приложение Gemini. Пользователи могут переключиться в режим «Pro» для доступа к расширенным функциям математики и программирования.
Для исследователей: NotebookLM, исследовательский помощник Google на базе ИИ, теперь работает на Gemini 3.1 Pro для платных пользователей. Ожидается, что это обновление значительно улучшит способность инструмента синтезировать сложные документы и создавать аудио-саммари в стиле подкастов с более высокой фактической точностью.
Для разработчиков: API доступен через Google AI Studio и платформу корпоративного уровня Vertex AI. Интересно, что Google также анонсировала новую интеграцию с «Antigravity» — пакетом продуктов, подробности о котором еще не раскрыты полностью, ориентированным на творческих профессионалов и, вероятно, использующим новые возможности SVG и интерактивного дизайна.

Рыночные последствия: ландшафт ИИ в 2026 году

Выпуск Gemini 3.1 Pro пришелся на нестабильный период в индустрии ИИ. Всего за несколько дней до этого Anthropic выпустила обновление своей линейки Claude, Sonnet 4.6, которое похвалили за возможности управления компьютером. Тем временем OpenAI хранит относительное молчание по поводу преемника GPT-5.2, хотя ходят слухи, что анонс «GPT-6» может быть запланирован на конец 2026 года.

Для корпоративных клиентов победа Google в бенчмарке ARC-AGI-2 является наиболее значимым показателем. По мере того как бизнес переходит от простых чат-ботов к сложным агентам по принятию решений, способность рассуждать при решении новых проблем становится первостепенной. Результат в 77,1% позволяет предположить, что Gemini 3.1 Pro в настоящее время является наиболее жизнеспособным вариантом для отраслей, требующих решения задач с высокими ставками, таких как юридические экспертизы, фармацевтические исследования и финансовое прогнозирование.

Creati.ai продолжит активно тестировать Gemini 3.1 Pro в ближайшие недели, уделяя особое внимание нюансам творческого письма и удержанию длинного контекста. Однако на данный момент результаты бенчмарков говорят сами за себя: Google успешно вернула себе лидерство, бросив вызов конкурентам в ответ на новый стандарт искусственного интеллекта.