
在人工智慧安全領域的一項重大進展中,佛羅里達大學(University of Florida,UF)的研究人員開發出了一種新型越獄(Jailbreaking)技術,能夠系統性地繞過包括業界巨頭 Meta 和微軟(Microsoft)在內的大型語言模型(Large Language Models,LLMs)的安全協議。該方法被稱為頭部遮蔽虛空間轉向(Head-Masked Nullspace Steering,HMNS),代表了 AI 漏洞識別方式的範式轉移(Paradigm shift),從表層的提示工程(Prompt engineering)轉向探測神經網絡內部的決策架構。
該研究團隊由計算機與資訊科學工程(Computer & Information Science & Engineering,CISE)系的 Sumit Kumar Jha 教授領導,並在一篇題為 "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion" 的論文中發表了他們的發現。該作品已被 2026 年國際學習表徵會議(International Conference on Learning Representations,ICLR) 接收,確認了其作為深度學習研究頂級貢獻的地位。
多年來,對 AI 模型進行「越獄」——誘導其生成受限或有害內容——在很大程度上依賴於巧妙的文字遊戲。攻擊者會使用「奶奶漏洞(Grandma exploits)」或角色扮演情景來繞過安全過濾器。然而,隨著 OpenAI、Anthropic 和 Google 等 AI 提供商加強了對這些語義攻擊的防禦,傳統提示注入(Prompt injection)的有效性已逐漸減弱。
佛羅里達大學團隊的 HMNS 方法捨棄了對外部語言技巧的依賴,轉而直接干預模型的計算過程。根據研究,HMNS 透過「掀起大型語言模型的引擎蓋」來運作。它識別出特定的注意力頭(Attention heads)——即負責處理上下文和安全檢查的組件——並有效地將其靜默。
透過在模型的決策矩陣中將這些活躍組件歸零並「轉向」其餘路徑,研究人員可以迫使 AI 忽略其安全訓練。這使得模型能夠回應其通常會拒絕的查詢,例如生成惡意軟體代碼或提供非法活動指令,而不會觸發通常的拒絕機制。
HMNS 方法 建立在「虛空間(Nullspace)」的概念之上——這是一個數學術語,指代特定輸入對特定函數(在這種情況下為安全過濾器)的輸出不產生變化的區域。透過將模型的激活模式轉向相對於安全機制的虛空間,攻擊使得安全防護欄對於模型自身的內部監控變得不可見。
Jha 教授將此過程描述為測試系統的「內部線路」,而不僅僅是其使用者介面。「不能僅僅使用來自外部的提示來測試這類東西並說它是安全的,」Jha 表示。「我們正在掀起引擎蓋,拉動內部線路並檢查哪裡會斷裂。這就是讓它更安全的方法。這沒有捷徑可走。」
該方法涉及三個不同的階段:
為了驗證 HMNS 的效能,研究團隊利用佛羅里達大學的 HiPerGator 超級電腦對領先的商業和開源模型進行了大規模的壓力測試。主要目標包括來自 Meta 和 Microsoft 的系統,這些系統被廣泛認為擁有業界最健壯的安全對齊。
結果非常驚人。HMNS 被證明極其有效,在四個已建立的行業基準測試中表現優於最先進的(State-of-the-art,SOTA)越獄方法。研究人員引入了「運算感知報告(Compute-aware reporting)」指標以確保公平比較,揭示了 HMNS 不僅實現了更高的成功率,而且比以前的方法更有效率。
越獄方法論比較
| 特性 | 傳統提示注入 | HMNS(頭部遮蔽虛空間轉向) |
|---|---|---|
| 主要攻擊向量 | 外部語義操作(例如:角色扮演) | 內部架構操作(權重/激活轉向) |
| 目標機制 | 輸入過濾器和 RLHF 訓練模式 | 注意力頭和決策矩陣 |
| 對補丁的韌性 | 低(可透過系統提示更新輕鬆修復) | 高(需要架構或重新訓練干預) |
| 資源需求 | 低(一般使用者即可完成) | 高(需要訪問模型內部/梯度) |
| 成功指標 | 不穩定,通常隨模型而異 | 在多個架構中持續保持高水平 |
HMNS 繞過 Meta 和 Microsoft 系統中多層防禦的能力凸顯了當前 AI 安全標準中的關鍵差距。雖然這些平台結合了旨在過濾輸入和輸出的複雜安全層,但 HMNS 證明了如果內部處理路徑是可存取或可複製的,這些層可以被系統性地規避。
HMNS 的開發是學術與研究機構合作的成果。除了 Sumit Kumar Jha 教授外,團隊成員還包括:
該團隊利用了 HiPerGator 超級電腦 的巨大運算能力,使用其 NVIDIA A100 和 H100 GPU 集群來執行即時識別虛空間向量所需的複雜矩陣計算。這種運算能力對於以模仿來自複雜國家級參與者的潛在對抗性攻擊規模來進行模型的「壓力測試」至關重要。
這項研究在 ICLR 2026 的發表正值關鍵時刻。隨著 AI 代理從新奇的聊天介面轉向關鍵基礎設施——協助軟體開發、金融分析和醫療診斷——安全失敗的代價已大幅攀升。
網絡安全專業人士常引用的「縱深防禦(Defense in Depth)」策略認為,保護系統需要多層安全。然而,佛羅里達大學團隊的發現表明,當底層神經激活被直接操作時,當前的「對齊(Alignment)」技術(訓練模型拒絕有害查詢)可能會變得很脆弱。
「透過準確展示這些防禦是如何崩潰的,我們為 AI 開發者提供了建立真正持久防禦所需的信息,」Jha 解釋道。「只有在安全措施能夠經受住真實審查的情況下,強大 AI 的公開發布才是可持續的,而現在,我們的工作表明仍然存在差距。我們希望能幫助縮小這個差距。」
研究暗示,未來的 AI 防禦機制不能僅依靠「微調(Fine-tuning)」或「人類回饋強化學習(Reinforcement Learning from Human Feedback,RLHF)」來抑制有害輸出。相反,開發者可能需要設計具有內在抗內部轉向能力的模型,潛在的方法是創建「糾纏(Entangled)」表示,在這種表示中,安全特徵不能在不破壞模型通用效用的情況下被孤立和遮蔽。
雖然 Meta 和 Microsoft 尚未針對 HMNS 漏洞發表具體評論,但業界對此類「紅隊演練(Red Teaming)」發現的標準反應是將攻擊向量整合到未來的訓練運行中。透過在受控的學術環境中暴露這些漏洞,佛羅里達大學的研究人員正在有效地為下一代模型接種疫苗,以對抗類似的攻擊。
該論文被 ICLR 2026 接收,確保了該方法將受到全球 AI 研究界的審查並可能以此為基礎進行開發。隨著 AI 能力與 AI 安全之間的軍備競賽持續進行,頭部遮蔽虛空間轉向等方法提醒人們,隨著模型變得越來越複雜,確保其安全所需的方法也必須變得同樣複雜。
目前,這項工作證明了主動性安全研究的必要性。透過打破矩陣,佛羅里達大學的團隊正在幫助確保未來的 AI 基礎設施建立在可驗證的安全基礎之上,而非僅僅是安全的幻象。