AI News

Eine neue Ära für die Blockchain-Sicherheit: OpenAI und Paradigm enthüllen EVMbench

In einem entscheidenden Schritt zur Stärkung der Schnittstelle zwischen künstlicher Intelligenz und dezentralem Finanzwesen hat OpenAI eine strategische Partnerschaft mit der Krypto-Investmentfirma Paradigm angekündigt. Die Zusammenarbeit führt EVMbench ein, einen umfassenden Benchmark, der entwickelt wurde, um die Fähigkeiten von KI-Agenten (AI Agents) bei der Erkennung, Behebung und Ausnutzung von Schwachstellen in Smart Contracts zu bewerten.

Bis Februar 2026 sichert das Krypto-Ökosystem über 100 Milliarden US-Dollar an Open-Source-Assets, was es zu einem lukrativen Ziel für böswillige Akteure macht. Die Veröffentlichung von EVMbench stellt einen kritischen Übergang von der theoretischen KI-Anwendung zum praktischen, strengen Testen in wirtschaftlich bedeutsamen Umgebungen dar. Durch die Bereitstellung eines standardisierten Rahmens zielen OpenAI und Paradigm darauf ab, die Entwicklung defensiver KI-Systeme zu beschleunigen, die in der Lage sind, Code zu prüfen und zu stärken, bevor er das Mainnet erreicht.

Diese Initiative unterstreicht die wachsende Erkenntnis, dass KI-Agenten (AI Agents), während sie immer kompetenter im Lesen und Schreiben von Code werden, streng gegen die spezifischen, risikoreichen Einschränkungen der Ethereum Virtual Machine (EVM) getestet werden müssen.

Dekonstruktion von EVMbench: Die Dreifaltigkeit der Sicherheitsaufgaben

EVMbench ist nicht nur ein Datensatz, sondern eine dynamische Evaluierungsumgebung. Es geht über die statische Code-Analyse hinaus, indem es KI-Agenten in eine Sandbox-Blockchain-Umgebung eintaucht, in der sie mit Live-Bytecode interagieren müssen. Der Benchmark bewertet Agenten in drei verschiedenen, aber miteinander verknüpften Fähigkeitsmodi, die jeweils eine kritische Phase im Lebenszyklus der Smart-Contract-Sicherheit (Smart Contract Security) nachahmen.

1. Erkennen (Detect): Der digitale Auditor

Im Erkennungsmodus haben die Agenten die Aufgabe, ein Smart-Contract-Repository zu prüfen. Das Ziel besteht darin, Ground-Truth-Schwachstellen zu identifizieren – solche, die von menschlichen Auditoren bestätigt wurden – und diese genau zu kennzeichnen. Die Agenten werden basierend auf ihrem „Recall“ bewertet, also dem Prozentsatz der bekannten Schwachstellen, die sie erfolgreich identifizieren. Dieser Modus fordert die Fähigkeit der KI heraus, komplexe Logikflüsse zu verstehen und Muster zu erkennen, die auf Sicherheitsmängel hinweisen, wie etwa Reentrancy-Angriffe oder Integer-Overflows.

2. Patchen (Patch): Die chirurgische Fehlerbehebung

Der Patch-Modus ist vielleicht der komplexeste der drei und erfordert von den Agenten, eine Schwachstelle nicht nur zu finden, sondern auch zu beheben. Die Einschränkungen hierbei sind erheblich: Der Agent muss den anfälligen Vertrag so modifizieren, dass der Exploit beseitigt wird, während die ursprünglich beabsichtigte Funktionalität erhalten bleibt. Dies wird durch eine Reihe automatisierter Tests verifiziert. Wenn ein Agent einen Fehler „behebt“, aber versehentlich die Kernlogik des Vertrags bricht oder Kompilierungsfehler einführt, wird der Versuch als Fehlschlag gewertet. Dies ahmt den realen Druck auf Entwickler nach, Hotfixes anzuwenden, ohne den Protokollbetrieb zu stören.

3. Ausnutzen (Exploit): Der Red-Teamer

In diesem Modus agieren die Agenten als Angreifer. Sie erhalten einen bereitgestellten Vertrag in einer Sandbox-Umgebung und müssen einen End-to-End-Angriff ausführen, um Gelder abzuziehen. Die Bewertung erfolgt programmatisch über Transaction-Replay und On-Chain-Verifizierung. Dieser Modus ist entscheidend für das „Red Teaming“ – den Einsatz von KI zur Simulation von Angriffen, damit Verteidigungen gegen die kreativsten gegnerischen Strategien praxiserprobt werden können.

Der Datensatz: In der Realität verwurzelt

Um sicherzustellen, dass der Benchmark reale Risiken widerspiegelt, haben OpenAI und Paradigm 120 Schwachstellen mit hohem Schweregrad aus 40 verschiedenen Audits kuratiert. Die Mehrheit davon stammte aus offenen Code-Audit-Wettbewerben wie Code4rena, die dafür bekannt sind, subtile und weitreichende Fehler aufzudecken.

Eine bemerkenswerte Ergänzung zum Datensatz umfasst Schwachstellenszenarien, die aus dem Sicherheitsauditprozess für die Tempo-Blockchain (Tempo Blockchain) abgeleitet wurden. Tempo ist eine speziell entwickelte Layer-1-Blockchain für Stablecoin-Zahlungen mit hohem Durchsatz und niedrigen Kosten. Durch die Einbeziehung von Szenarien von Tempo erweitert EVMbench seine Reichweite auf zahlungsorientierten Smart-Contract-Code, einen Bereich, in dem ein massives Wachstum erwartet wird, da agentische Stablecoin-Zahlungen alltäglich werden.

Die technische Infrastruktur, die EVMbench antreibt, ist ebenso robust. Sie nutzt ein Rust-basiertes Harness, das Verträge bereitstellt und Agententransaktionen deterministisch wiedergibt. Um versehentliche Schäden zu vermeiden, laufen Exploit-Aufgaben in einer isolierten lokalen Anvil-Umgebung und nicht in Live-Netzwerken, was sicherstellt, dass das Testgelände sicher, reproduzierbar und in sich geschlossen ist.

Benchmarking der technologischen Spitze: GPT-5.3 übernimmt die Führung

Der Start von EVMbench hat die ersten öffentlichen Einblicke darüber geliefert, wie die neueste Generation von KI-Modellen im Bereich der Krypto-Sicherheit abschneidet. OpenAI nutzte den Benchmark, um seine Frontier-Agenten zu testen, was einen signifikanten Sprung in den Fähigkeiten im Vergleich zu den letzten sechs Monaten offenbarte.

Die Leistungsmetriken unterstreichen eine dramatische Verbesserung der „offensiven“ Fähigkeiten, insbesondere im Exploit-Modus. Die Daten zeigen, dass die neueste Iteration von OpenAIs Coding-Modell, GPT-5.3-Codex, seinen Vorgänger deutlich übertrifft.

Tabelle 1: Vergleichende Leistung im Exploit-Modus

Modellversion Ausführungsumgebung Erfolgsrate beim Exploit
GPT-5.3-Codex Codex CLI 72,2%
GPT-5 Standard 31,9%
GPT-4o (Referenz) Standard < 15,0%

Der Sprung von einer Erfolgsrate von 31,9 % bei GPT-5 auf 72,2 % bei GPT-5.3-Codex deutet darauf hin, dass KI-Agenten außergewöhnlich kompetent darin werden, Exploit-Pfade zu identifizieren und auszuführen, wenn ihnen ein klares, explizites Ziel gegeben wird (z. B. „Gelder abziehen“).

Die Lücke zwischen Offensive und Defensive

Der Benchmark offenbarte jedoch auch eine hartnäckige Lücke zwischen offensiven und defensiven Fähigkeiten. Während die Agenten bei der Exploit-Aufgabe glänzten, blieb ihre Leistung bei den Aufgaben Detect (Erkennen) und Patch (Beheben) niedriger.

  • Herausforderungen bei der Erkennung: Agenten beendeten die Prüfung oft nach dem Auffinden eines einzelnen Problems und versäumten es, die umfassende Überprüfung durchzuführen, die erforderlich ist, um eine Codebasis als sicher zu zertifizieren.
  • Komplexitäten beim Patchen: Die Anforderung, die volle Funktionalität beizubehalten, während subtile Fehler entfernt werden, erwies sich als schwierig. Agenten generierten häufig Patches, die zwar die Sicherheitslücke schlossen, aber den beabsichtigten Nutzen des Vertrags beeinträchtigten – ein Szenario, in dem die „Heilung schlimmer als die Krankheit“ ist, was in Produktionsumgebungen inakzeptabel ist.

Strategische Auswirkungen für die Krypto-Industrie

Die Zusammenarbeit zwischen OpenAI und Paradigm signalisiert eine Reifung des „KI x Krypto“-Narrativs. Paradigm, bekannt für seine tiefe technische Expertise und seinen forschungsorientierten Ansatz bei Krypto-Investitionen, lieferte das notwendige Domänenwissen, um sicherzustellen, dass die Aufgaben des Benchmarks nicht nur syntaktisch korrekt, sondern für Blockchain-Entwickler auch semantisch bedeutsam sind.

Durch die Veröffentlichung der Aufgaben, Werkzeuge und des Evaluierungsrahmens von EVMbench als Open Source geben die Partner effektiv einen „Aufruf zum Handeln“ an die Entwickler-Community aus. Das Ziel ist es, den Zugang zu hochgradigen Sicherheitstools zu demokratisieren, sodass einzelne Entwickler und kleine Teams ihre Smart Contracts mit der gleichen Strenge prüfen können wie erstklassige Sicherheitsfirmen.

Erweiterung des defensiven Toolkits: Projekt Aardvark

Gleichzeitig mit der Veröffentlichung des Benchmarks kündigte OpenAI die Erweiterung der privaten Beta für Aardvark an, ihren speziellen Agenten für Sicherheitsforschung. Aardvark repräsentiert die praktische Anwendung der aus EVMbench gewonnenen Erkenntnisse – ein KI-Agent, der speziell für defensive Sicherheitsaufgaben feinabgestimmt wurde.

Darüber hinaus stellt OpenAI 10 Millionen US-Dollar an API-Guthaben bereit, um die Cyber-Abwehrforschung (Cyber Defense Research) zu beschleunigen. Dieses Förderprogramm konzentriert sich darauf, die fähigsten Modelle des Unternehmens zum Schutz von Open-Source-Software und kritischen Infrastruktursystemen einzusetzen, um sicherzustellen, dass die Vorteile der KI-Sicherheit weit im Ökosystem verbreitet werden.

Der Weg in die Zukunft

Die Einführung von EVMbench dient sowohl als Messinstrument als auch als Warnung. Die rasante Verbesserung der Fähigkeit von KI, Verträge auszunutzen (belegt durch die Erfolgsrate von 72,2 % bei GPT-5.3-Codex), deutet darauf hin, dass sich das Zeitfenster für „Sicherheit durch Unklarheit“ (Security by Obscurity) schnell schließt. Da KI-Agenten zu fähigeren Angreifern werden, müssen sich defensive Werkzeuge mit gleicher oder höherer Geschwindigkeit entwickeln.

Für die Blockchain-Industrie bedeutet dies, dass KI-gestützte Auditierung bald von einem Luxus zu einer Notwendigkeit werden wird. Zukünftige Iterationen von EVMbench könnten auf Multi-Chain-Umgebungen, Cross-Bridge-Schwachstellen und komplexere Social-Engineering-Angriffe ausgeweitet werden, was die sich entwickelnde Bedrohungslandschaft von Web3 widerspiegelt.

Während wir tiefer in das Jahr 2026 vordringen, setzt die Synergie zwischen OpenAIs Reasoning-Engines und Paradigms krypto-nativen Erkenntnissen einen neuen Standard dafür, wie wir digitales Vertrauen (Digital Trust) angehen. Die Frage ist nicht mehr, ob KI zur Sicherung von Smart Contracts eingesetzt wird, sondern wie schnell die Industrie diese Benchmarks übernehmen kann, um der nächsten Generation automatisierter Bedrohungen voraus zu sein.

Ausgewählt
ThumbnailCreator.com
KI-gestütztes Tool zur schnellen und einfachen Erstellung beeindruckender, professioneller YouTube-Vorschaubilder.
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
Erstellen Sie sofort aus jeder Website‑URL polierte, markenkonforme Werbemotive für Meta, Google und Stories.
Refly.ai
Refly.AI ermöglicht nicht‑technischen Kreativen, Arbeitsabläufe mit natürlicher Sprache und einer visuellen Leinwand zu automatisieren.
Elser AI
All‑in‑one Web‑Studio, das Text und Bilder in Anime‑Kunst, Charaktere, Stimmen und Kurzfilme verwandelt.
BGRemover
Entfernen Sie ganz einfach Hintergründe von Bildern online mit SharkFoto BGRemover.
VoxDeck
KI-Präsentations-Tool, das die visuelle Revolution anführt
FineVoice
Verwandle Text in Emotion — Klone, designe und erstelle ausdrucksstarke KI-Stimmen in Sekundenschnelle.
Qoder
Qoder ist ein KI-gestützter Coding-Assistent, der Planung, Codierung und Tests für Softwareprojekte automatisiert.
FixArt AI
FixArt AI bietet kostenlose, uneingeschränkte KI-Tools zur Bild- und Videogenerierung ohne Anmeldung an.
Flowith
Flowith ist ein Canvas-basierter agentischer Arbeitsbereich, der kostenloses 🍌Nano Banana Pro und andere effektive Model
Skywork.ai
Skywork AI ist ein innovatives Tool zur Steigerung der Produktivität mit KI.
SharkFoto
SharkFoto ist eine leistungsstarke All-in-One KI-Plattform zur effizienten Erstellung und Bearbeitung von Videos, Bildern und Musik.
Pippit
Steigern Sie Ihre Inhaltserstellung mit den leistungsstarken KI-Tools von Pippit!
Funy AI
Erwecke deine Fantasien zum Leben! Erstelle KI-Bikini- & Kuss-Videos aus Bildern/Text. Teste den KI-Kleidungswechsler. K
KiloClaw
Gehosteter OpenClaw-Agent: Ein-Klick-Bereitstellung, über 500 Modelle, sichere Infrastruktur und automatisiertes Agenten-Management für Teams und Entwickler.
Yollo AI
Chatten & erstellen mit Ihrem KI-Begleiter. Bild-zu-Video & KI-Bildgenerator.
SuperMaker AI Video Generator
Erstellen Sie mühelos atemberaubende Videos, Musik und Bilder mit SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer von SharkFoto ermöglicht es Ihnen, Outfits sofort virtuell anzuprobieren – mit realistischer Passform, Textur und Beleuchtung.
AnimeShorts
Erstellen Sie mühelos atemberaubende Anime-Kurzfilme mit modernster KI-Technologie.
wan 2.7-image
Ein steuerbarer KI-Bildgenerator für präzise Gesichter, Farbpaletten, Text und visuelle Kontinuität.
AI Video API: Seedance 2.0 Here
Einheitliche KI-Video-API, die Top-Generationsmodelle über einen einzigen Schlüssel zu geringeren Kosten anbietet.
WhatsApp AI Sales
WABot ist ein WhatsApp-AI-Vertriebs-Copilot, der Echtzeit-Skripte, Übersetzungen und Intent-Erkennung liefert.
insmelo AI Music Generator
KI-gestützter Musikgenerator, der Eingabeaufforderungen, Songtexte oder Uploads in etwa einer Minute in fertige, lizenzfreie Songs verwandelt.
BeatMV
Webbasierte KI-Plattform, die Lieder in cineastische Musikvideos verwandelt und mit KI Musik erstellt.
Kirkify
Kirkify AI erstellt sofort virale Face-Swap-Memes mit charakteristischer Neon-Glitch-Ästhetik für Meme-Ersteller.
UNI-1 AI
UNI-1 ist ein einheitliches Bildgenerierungsmodell, das visuelle Schlussfolgerungen mit hochqualitativer Bildsynthese kombiniert.
Wan 2.7
Professionelles KI-Videomodell mit präziser Bewegungssteuerung und Multi-View-Konsistenz.
Text to Music
Verwandeln Sie Text oder Songtexte in vollständige, studio‑taugliche Songs mit KI-generierten Gesangsstimmen, Instrumenten und Multi‑Track‑Exports.
Iara Chat
Iara Chat: Ein KI-gestützter Produktivitäts- und Kommunikationsassistent.
kinovi - Seedance 2.0 - Real Man AI Video
Kostenloser KI-Video-Generator mit realistisch wirkenden Menschen, ohne Wasserzeichen und mit vollständigen kommerziellen Nutzungsrechten.
Video Sora 2
Sora 2 AI verwandelt Text oder Bilder in kurze, physikalisch korrekte Social- und eCommerce-Videos in wenigen Minuten.
Lyria3 AI
KI-Musikgenerator, der sofort hochwertige, vollständig produzierte Songs aus Textvorgaben, Liedtexten und Stilvorgaben erstellt.
Tome AI PPT
KI-gestützter Präsentations-Generator, der in Minuten professionelle Folien erstellt, verschönert und exportiert.
Atoms
KI‑gesteuerte Plattform, die mit Multi‑Agenten‑Automatisierung in Minuten Full‑Stack‑Apps und Websites erstellt — kein Programmieren erforderlich.
AI Pet Video Generator
Erstellen Sie virale, teilbare Haustier‑Videos aus Fotos mithilfe KI‑gestützter Vorlagen und sofortigem HD‑Export für soziale Plattformen.
Paper Banana
KI-gestütztes Tool, das akademischen Text sofort in veröffentlichungsreife methodische Diagramme und präzise statistische Plots umwandelt.
Ampere.SH
Kostenloses verwaltetes OpenClaw‑Hosting. KI‑Agenten in 60 Sekunden mit $500 Claude‑Guthaben bereitstellen.
Hitem3D
Hitem3D wandelt ein einzelnes Bild mithilfe von KI in hochauflösende, produktionsbereite 3D-Modelle um.
HookTide
KI‑gestützte LinkedIn‑Wachstumsplattform, die deine Stimme lernt, um Inhalte zu erstellen, Interaktionen zu fördern und die Leistung zu analysieren.
Palix AI
All‑in‑one AI‑Plattform für Creator, um mit einheitlichen Credits Bilder, Videos und Musik zu erzeugen.
GenPPT.AI
KI‑gestützter PPT‑Ersteller, der in Minuten professionelle PowerPoint‑Präsentationen mit Sprecherhinweisen und Diagrammen erstellt, verschönert und exportiert.
Create WhatsApp Link
Kostenloser WhatsApp-Link- und QR‑Generator mit Analytics, gebrandeten Links, Routing und Multi‑Agent‑Chat‑Funktionen.
Seedance 20 Video
Seedance 2 ist ein multimodaler KI-Video-Generator, der konsistente Charaktere, mehrszenige Erzählungen und nativen Ton in 2K liefert.
Gobii
Gobii ermöglicht Teams, rund um die Uhr autonome digitale Arbeitskräfte zu erstellen, um Webrecherche und Routineaufgaben zu automatisieren.
Veemo - AI Video Generator
Veemo AI ist eine All‑in‑One‑Plattform, die schnell hochwertige Videos und Bilder aus Text oder Bildern generiert.
Free AI Video Maker & Generator
Kostenloser KI-Videoersteller & Generator – Unbegrenzt, keine Anmeldung erforderlich
AI FIRST
Konversationeller KI‑Assistent, der Forschung, Browseraufgaben, Web‑Scraping und Dateiverwaltung mittels natürlicher Sprache automatisiert.
ainanobanana2
Nano Banana 2 erzeugt in 4–6 Sekunden Pro‑Qualität 4K‑Bilder mit präziser Textrendering und Konsistenz der Motive.
GLM Image
GLM Image kombiniert hybride autoregressive und Diffusionsmodelle, um hochauflösende KI-Bilder mit außergewöhnlicher Textrendering-Qualität zu erzeugen.
AirMusic
AirMusic.ai erzeugt hochwertige KI-Musikstücke aus Textvorgaben mit Stil- und Stimmungsanpassung sowie Stem-Export.
WhatsApp Warmup Tool
Ein KI-gestütztes WhatsApp-Warmup-Tool automatisiert Massenversand und verhindert Kontosperrungen.
TextToHuman
Kostenloser AI-Humanizer, der AI-Text sofort in natürliches, menschlich wirkendes Schreiben umschreibt. Keine Anmeldung erforderlich.
Manga Translator AI
AI Manga Translator übersetzt Manga-Bilder sofort online in mehrere Sprachen.
Remy - Newsletter Summarizer
Remy automatisiert das Newsletter-Management, indem E-Mails in leicht verständliche Erkenntnisse zusammengefasst werden.
Telegram Group Bot
TGDesk ist ein All-in-One Telegram-Gruppen-Bot zum Erfassen von Leads, zur Steigerung der Interaktion und zum Wachstum von Communities.
FalcoCut
FalcoCut: webbasiertes KI‑Portal für Videoübersetzung, Avatar‑Videos, Voice‑Cloning, Gesichtstausch und Erstellung kurzer Videos.

OpenAI und Paradigm bringen EVMbench heraus, um Smart Contracts mit KI zu sichern

OpenAI arbeitet mit Paradigm an dem Benchmark EVMbench, der die Fähigkeit von KI-Agenten testet, Blockchain-Schwachstellen zu erkennen, zu beheben und auszunutzen.