AI News

區塊鏈安全的新時代:OpenAI 與 Paradigm 推出 EVMbench

在加強生成式 AI(Generative AI)與去中心化金融(Decentralized Finance, DeFi)交匯點的果斷行動中,OpenAI 宣佈與加密貨幣投資公司 Paradigm 建立策略合作夥伴關係。此次合作推出了 EVMbench,這是一個全面的基準測試,旨在評估 AI 代理(AI agents)在檢測、修補和利用智慧合約漏洞方面的能力。

截至 2026 年 2 月,加密生態系統保障著超過 1,000 億美元的開源資產,使其成為惡意行為者的獲利目標。EVMbench 的發佈代表了從理論 AI 應用向在具有經濟意義的環境中進行實際、嚴格測試的重大轉變。透過提供標準化框架,OpenAI 和 Paradigm 旨在加速防禦性 AI 系統的開發,使其能夠在程式碼進入主網之前進行審計和強化。

這一舉措強調了人們日益認識到,隨著 AI 代理 變得精通閱讀和編寫程式碼,它們必須針對乙太坊虛擬機(Ethereum Virtual Machine, EVM)特定且高風險的限制進行嚴格測試。

解構 EVMbench:安全任務的三位一體

EVMbench 不僅僅是一個資料集,而是一個動態評估環境。它超越了靜態程式碼分析,將 AI 代理沉浸在沙盒化區塊鏈環境中,在那裡它們必須與即時位元組碼(bytecode)進行交互。該基準測試在三個截然不同但相互關聯的能力模式下評估代理,每個模式都模擬了 智慧合約安全 生命週期中的關鍵階段。

1. 檢測(Detect):數位審計員

在檢測模式中,代理的任務是審計智慧合約存儲庫。目標是識別地面真值(ground-truth)漏洞——即那些已被人類審計員確認的漏洞——並準確地對其進行標記。代理根據其「召回率(recall)」或成功識別已知漏洞的百分比進行評分。這種模式挑戰了 AI 理解複雜邏輯流和識別預示安全缺陷模式(如重入攻擊或整數溢位)的能力。

2. 修補(Patch):外科手術式修復

修補模式可能是這三者中最複雜的,它要求代理不僅要發現漏洞,還要修復漏洞。這裡的約束非常顯著:代理必須修改易受攻擊的合約以消除漏洞利用,同時保留原始的預期功能。這透過一套自動化測試進行驗證。如果代理「修復」了一個錯誤,但無意中破壞了合約的核心邏輯或引入了編譯錯誤,則該嘗試被標記為失敗。這模擬了開發人員在不中斷協定運作的情況下應用熱修復(hotfixes)的現實壓力。

3. 利用(Exploit):紅隊成員

在此模式中,代理充當攻擊者。它們在沙盒環境中獲得一個已部署的合約,並且必須執行端到端攻擊以耗盡資金。評分是透過交易重播和鏈上驗證以程式化方式進行的。此模式對於「紅隊演練(Red Teaming)」至關重要——使用 AI 來模擬攻擊,以便防禦措施可以針對最具創造性的對抗策略進行實戰測試。

資料集:植根於現實

為了確保基準測試反映現實世界的風險,OpenAI 和 Paradigm 從 40 個不同的審計中精選了 120 個高嚴重性漏洞。其中大部分源自開源程式碼審計競賽,例如 Code4rena,這些競賽以發現細微且影響巨大的漏洞而聞名。

資料集的一個顯著補充包括從 Tempo 區塊鏈 的安全審計過程中提取的漏洞場景。Tempo 是一個專為高吞吐量、低成本穩定幣支付而構建的 Layer 1 區塊鏈。透過包含來自 Tempo 的場景,EVMbench 將其觸角延伸到以支付為導向的智慧合約程式碼,隨著代理穩定幣支付變得普遍,預計該領域將迎來巨大增長。

支援 EVMbench 的技術基礎設施同樣強大。它利用一個 基於 Rust 的安全網(Rust-based harness),可以確定性地部署合約並重播代理交易。為了防止意外損害,利用任務在隔離的本地 Anvil 環境中運行,而不是在即時網絡上運行,確保測試環境安全、可重複且受控。

基準測試前沿:GPT-5.3 領先

EVMbench 的發佈提供了首個關於最新一代 AI 模型在加密安全領域表現如何的公開見解。OpenAI 利用該基準測試對其前沿代理進行了測試,揭示了過去六個月內能力的重大飛躍。

性能指標突出了「進攻性」能力的顯著提高,特別是在利用模式下。資料顯示,OpenAI 程式碼模型的最新迭代版本 GPT-5.3-Codex 的表現遠超其前代產品。

表 1:利用模式下的性能對比

模型版本 執行環境 漏洞利用成功率
GPT-5.3-Codex Codex CLI 72.2%
GPT-5 標準 31.9%
GPT-4o (參考) 標準 < 15.0%

從 GPT-5 的 31.9% 成功率跳升至 GPT-5.3-Codex 的 72.2%,這表明當給予明確、具體的目標(例如「耗盡資金」)時,AI 代理在識別和執行漏洞利用路徑方面正變得異常精通。

攻防差距

然而,基準測試也揭示了進攻和防禦能力之間持續存在的差距。雖然代理在 利用(Exploit) 任務中表現出色,但它們在 檢測(Detect)修補(Patch) 任務中的表現仍然較低。

  • 檢測挑戰: 代理在發現單個問題後通常會停止審計,未能執行認證程式碼庫安全所需的詳盡審查。
  • 修補複雜性: 在刪除細微漏洞的同時保持完整功能的要求被證明是困難的。代理經常生成修復了安全缺陷但破壞了合約預期效用的補丁——這是一種在生產環境中不可接受的「藥到命除(cure is worse than the disease)」的情況。

對加密貨幣產業的策略影響

OpenAI 與 Paradigm 的合作標誌著「AI x Crypto」敘事的成熟。Paradigm 以其深厚的技術專長和研究優先的加密投資方法而聞名,提供了確保基準測試任務不僅在語法上正確,而且對區塊鏈開發人員具有語義意義所需的領域知識。

透過將 EVMbench 的任務、工具和評估框架作為開源發佈,合作夥伴實際上是在向開發者社群發出「行動號召」。其目標是使高級安全工具的使用民主化,允許個人開發者和小團隊以與頂級安全公司相同的嚴謹性來審計其智慧合約。

擴展防禦工具箱:Aardvark 專案

在發佈基準測試的同時,OpenAI 宣佈擴大其專用安全研究代理 Aardvark 的私人測試版。Aardvark 代表了從 EVMbench 中獲得的見解的實際應用——這是一個專門為防禦性安全任務而微調的 AI 代理。

此外,OpenAI 承諾提供 1,000 萬美元的 API 額度,以加速網路防禦研究。該資助計劃專注於應用公司最強大的模型來保護開源軟體和關鍵基礎設施系統,確保 AI 安全的好處在整個生態系統中得到廣泛傳播。

未來之路

EVMbench 的推出既是衡量工具也是警告。AI 利用合約能力的快速提高(GPT-5.3-Codex 72.2% 的成功率證明了這一點)表明,「隱晦式安全(security by obscurity)」的窗口正在迅速關閉。隨著 AI 代理成為更強大的攻擊者,防禦工具必須以相同或更快的速度進化。

對於區塊鏈產業而言,這意味著 AI 輔助審計很快將從奢侈品轉變為必需品。EVMbench 的未來迭代可能會擴展到包括多鏈環境、跨鏈橋漏洞以及更複雜的社交工程攻擊,反映 Web3 不斷演變的威脅格局。

隨著我們進入 2026 年,OpenAI 的推理引擎與 Paradigm 的加密原生見解之間的協同作用,為我們處理數位信任的方式設定了新標準。問題不再是 是否 會使用 AI 來保護智慧合約,而是產業 多快 能採用這些基準測試,以領先於下一代自動化威脅。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
VoxDeck
引領視覺革命的AI簡報製作工具
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。
FalcoCut
FalcoCut:基於網頁的 AI 平台,用於影片翻譯、虛擬人影片、語音複製、換臉與短影片生成。

OpenAI 與 Paradigm 推出 EVMbench,利用 AI 保護智慧合約

OpenAI 與 Paradigm 合作推出 EVMbench 基準測試,評估 AI 代理偵測、修補及利用區塊鏈漏洞的能力。