Google veröffentlicht Gemini 3.1 Pro und übertrifft GPT-5.2 sowie Claude Opus 4.6 in wichtigen Benchmarks

Google erobert die KI-Vorherrschaft mit der Einführung von Gemini 3.1 Pro zurück

Google hat seine Dominanz in der Landschaft der generativen KI (Generative AI) mit der Veröffentlichung von Gemini 3.1 Pro offiziell erneut untermauert – ein Modell, das einen Generationssprung im abstrakten Denken (Abstract Reasoning) und beim wissenschaftlichen Problemlösen markiert. Das am Donnerstag, den 19. Februar 2026, vorgestellte neue Modell erscheint an einem kritischen Wendepunkt im „KI-Wettrüsten“ und liefert Leistungswerte, die wichtige Konkurrenten, darunter OpenAIs GPT-5.2 und Anthropics Claude Opus 4.6, entscheidend übertreffen.

Für das Redaktionsteam von Creati.ai ist der beeindruckendste Aspekt dieser Veröffentlichung nicht bloß der schrittweise Zuwachs bei Standard-Sprachaufgaben, sondern das Durchbrechen der bisherigen Obergrenze bei den Fähigkeiten zum abstrakten Denken. Interne Daten von Google, die durch erste unabhängige Tests bestätigt wurden, deuten darauf hin, dass Gemini 3.1 Pro einen Score von 77,1 % im berüchtigten ARC-AGI-2-Benchmark erreicht hat – ein Test, der darauf ausgelegt ist, allgemeine Intelligenz durch neuartige visuelle Rätsel anstatt durch Auswendiglernen zu messen. Dieser Wert stellt eine dramatische Verbesserung gegenüber früheren State-of-the-Art-Modellen dar und deutet darauf hin, dass wir uns Systemen annähern, die zu echtem „Kern-Denken“ (Core Reasoning) fähig sind.

Ein neuer Standard für abstraktes Denken und wissenschaftliche Erkenntnisse

Das Hauptmerkmal von Gemini 3.1 Pro ist zweifellos seine Reasoning-Engine. In den letzten Monaten hat sich der Fokus der KI-Branche von der Erfolgsmessung anhand der Parameteranzahl hin zur Bewertung des „Rechenaufwands zur Testzeit“ (Test-Time Compute) und der Tiefe des Denkvermögens verlagert. Googles Ansatz mit der Version 3.1 scheint diese Philosophie konsequent weiterzuverfolgen.

Der Leistungsunterschied ist im ARC-AGI-2-Benchmark am deutlichsten sichtbar. Historisch gesehen hatten große Sprachmodelle (LLMs) Schwierigkeiten mit diesem Test, da er das Lösen neuartiger Mustererkennungsprobleme ohne eindeutige vorherige Trainingsdaten erfordert. Während GPT-5.2 respektable 52,9 % erreichte und das kürzlich aktualisierte Claude Opus 4.6 auf 68,8 % kam, setzt der Score von Gemini 3.1 Pro mit 77,1 % einen neuen Maßstab in der Branche. Es wird erwartet, dass sich diese Fähigkeit direkt in zuverlässigere autonome Agenten und komplexe Entscheidungssysteme übersetzen lässt, die sich an unbekannte Szenarien anpassen können.

Darüber hinaus ist Gemini 3.1 Pro im Bereich der Naturwissenschaften weiterhin führend. Beim GPQA-Diamond-Test, der Expertenwissen in Biologie, Physik und Chemie prüft, erreichte das Modell eine Genauigkeitsrate von 94,3 %. Damit liegt es knapp vor GPT-5.2 (92,4 %) und Claude Opus 4.6 (91,3 %), was Googles Vormachtstellung in akademischen und forschungsorientierten Anwendungen festigt.

Vergleichende Leistungsanalyse

Die folgende Tabelle fasst die wichtigsten Benchmark-Ergebnisse zusammen, die während des Launch-Events veröffentlicht wurden. Diese Zahlen verdeutlichen die spezifischen Bereiche, in denen es Google gelungen ist, den Vorsprung gegenüber seinen Hauptrivalen auszubauen.

Metrik|Gemini 3.1 Pro|GPT-5.2|Claude Opus 4.6
---|---|---
ARC-AGI-2 (Abstraktes Denken)|77,1 %|52,9 %|68,8 %
GPQA Diamond (Wissenschaftliche Erkenntnisse)|94,3 %|92,4 %|91,3 %
Gesamtzahl der gewonnenen wichtigen Benchmarks|12 von 19|N/A|N/A
Verfügbarkeitsstatus|Jetzt verfügbar|Verfügbar|Verfügbar

Kreatives Coding und multimodale Fähigkeiten

Jenseits der reinen Zahlen demonstrierte Google praktische Anwendungen, die das verbesserte multimodale Verständnis von Gemini 3.1 Pro nutzen. Eine wichtige Neuerung in diesem Zyklus ist die „native Generierung von SVG-Animationen“ (Native SVG Animation Generation). Im Gegensatz zu früheren Modellen, die oft mit der für skalierbare Vektorgrafiken (SVG) erforderlichen Koordinatenpräzision kämpften, kann Gemini 3.1 Pro sauberen, animierten SVG-Code generieren, der bereit für den Web-Einsatz ist.

Während der Launch-Demonstration präsentierte Google die „Creative Coding“-Fähigkeiten des Modells, indem es eine voll funktionsfähige Portfolio-Website für einen fiktiven Charakter aus Sturmhöhe (Wuthering Heights) erstellte. Das Modell schrieb nicht nur den HTML- und CSS-Code, sondern konzipierte auch die ästhetische Ausrichtung und generierte codebasierte Visualisierungen, die dem gewünschten Ton entsprachen.

Ein weiteres herausragendes Beispiel betraf interaktives Design. Das Modell erhielt die Aufgabe, eine „interaktive 3D-Star-Schwarmbildung“ zu erstellen – eine komplexe Simulation von Vogelschwärmen. Gemini 3.1 Pro generierte erfolgreich die Logik zur Steuerung der Schwarmbewegung und kombinierte sie mit einer generativen Klanglandschaft, die dynamisch auf die Mausinteraktionen des Nutzers reagierte. Dies signalisiert einen Wandel für Entwickler und Designer, die das Modell nun als kollaborativen Partner für komplexe, interaktive Frontend-Engineering-Aufgaben nutzen können.

Die Agenten-Lücke: Bereiche mit Verbesserungspotenzial

Trotz des feierlichen Tons der Ankündigung bot Googles technisches Whitepaper einen ehrlichen Blick auf die Grenzen des Modells. Während Gemini 3.1 Pro beim Denken und beim Abrufen von Wissen glänzt, liegt es Berichten zufolge bei spezifischen „agentischen“ (Agentic) Coding-Workflows hinter den Rivalen zurück.

In der „SWE-Bench Verified“-Bewertung, die die Fähigkeit einer KI testet, reale GitHub-Probleme autonom zu lösen, fiel Gemini 3.1 Pro leicht hinter die spezialisierten Coding-Agenten zurück, die auf Claude Opus 4.6 basieren. Dies deutet darauf hin, dass Googles Modell zwar ein überlegener Denker und Architekt ist, aber für die Ausführung von langfristigen Software-Engineering-Aufgaben ohne Intervention möglicherweise noch menschliche Aufsicht oder spezialisierte Werkzeuge benötigt.

Google-Führungskräfte sprachen dies während des Pressebriefings an und merkten an, dass die „Agenten-Lücke“ ein Hauptfokus für den kommenden Gemini 3.5-Update-Zyklus sei. Vorerst werden Entwickler, die das Modell über die API nutzen, ermutigt, „Chain-of-Thought“-Prompting einzusetzen, um die Planungsfähigkeiten des Modells vor der Ausführung zu maximieren.

Bereitstellung und Verfügbarkeit: Von NotebookLM bis Antigravity

Google verliert keine Zeit bei der Bereitstellung von Gemini 3.1 Pro in seinem gesamten Ökosystem. Das Modell ist ab sofort für Abonnenten der Tarife Gemini Advanced und AI Ultra verfügbar.

Für Endverbraucher: Das Modell wurde in die Standard-Gemini-App integriert. Nutzer können den „Pro“-Modus aktivieren, um auf fortschrittliche Mathematik- und Coding-Funktionen zuzugreifen.
Für Forscher: NotebookLM, Googles KI-gestützter Forschungsassistent, läuft für zahlende Nutzer nun auf Gemini 3.1 Pro. Es wird erwartet, dass dieses Upgrade die Fähigkeit des Tools zur Synthese komplexer Dokumente und zur Erstellung von Audio-Zusammenfassungen im Podcast-Stil mit höherer faktischer Genauigkeit erheblich verbessert.
Für Entwickler: Die API ist über Google AI Studio und die Enterprise-Plattform Vertex AI zugänglich. Interessanterweise gab Google auch einen Ausblick auf eine neue Integration mit „Antigravity“, einer noch nicht vollständig detaillierten Produktsuite für Kreativprofis, die wahrscheinlich die neuen SVG- und interaktiven Designfunktionen nutzen wird.

Marktfolgen: Die KI-Landschaft im Jahr 2026

Die Veröffentlichung von Gemini 3.1 Pro erfolgt in einem volatilen Moment für die KI-Industrie. Nur wenige Tage zuvor veröffentlichte Anthropic ein Update seiner Claude-Linie, Sonnet 4.6, das für seine Computer-Nutzungsfähigkeiten gelobt wurde. OpenAI verhielt sich unterdessen relativ ruhig bezüglich des Nachfolgers von GPT-5.2, obwohl Gerüchte darauf hindeuten, dass eine „GPT-6“-Ankündigung für Ende 2026 geplant sein könnte.

Für Unternehmenskunden ist Googles Sieg im ARC-AGI-2-Benchmark die wichtigste Metrik. Da Unternehmen von einfachen Chatbots zu komplexen entscheidungsfällenden Agenten übergehen, ist die Fähigkeit, neuartige Probleme zu durchdenken, von größter Bedeutung. Ein Score von 77,1 % deutet darauf hin, dass Gemini 3.1 Pro derzeit die praktikabelste Option für Branchen ist, die hochriskante Problemlösungen erfordern, wie etwa Rechtsrecherche (Legal Discovery), pharmazeutische Forschung und Finanzprognosen.

Creati.ai wird Gemini 3.1 Pro in den kommenden Wochen intensiv weiter testen, wobei der Fokus insbesondere auf den Nuancen beim kreativen Schreiben und der Beibehaltung langer Kontexte liegt. Vorerst sprechen die Benchmarks jedoch für sich: Google hat erfolgreich die Führung zurückerobert und fordert seine Konkurrenten heraus, auf einen neuen Standard in der künstlichen Intelligenz zu reagieren.