
人工智慧(Generative AI)與國家安全之間迅速發展的交集已達到一個關鍵的轉折點。在私人 AI 領域與美國政府之間緊張局勢顯著升級的情況下,高性能 Claude AI 模型的開發商 Anthropic 正式挑戰了國防部(Department of Defense,DoD)提出的主張。一份新的法院文件顯示,Anthropic 從根本上拒絕了五角大廈(Pentagon)的說法,即該 AI 公司先前已同意在其軍用級 AI 工具中加入「緊急開關(kill switch)」或破壞機制。
這場法律對抗引起了政策制定者和技術專家的關注,其核心在於對開發協議和安全護欄(safety guardrails)的解釋。雖然五角大廈公開將雙方關係描述為涉及特定合規預期,但 Anthropic 最新的法律呈件描繪了不同的景象,暗示對該公司的AI 安全(AI safety)框架及其合約義務存在深刻的誤解。
這場摩擦的核心在於五角大廈對其與 Anthropic 持續合作的描述。據報導,國防部指稱該公司曾表示願意允許政府當局在 Claude AI 工具被認為超出定義的國家安全(national security)參數時,禁用或「破壞」這些工具。Anthropic 的法院文件對此進行了直接反駁,認為這種前提在技術上既不準確,在程序上也存在誤導。
Anthropic 主張,它從未簽署過任何允許五角大廈單方面禁用其 AI 模型的協議。從公司的角度來看,國防部的主張似乎將標準的「AI 安全護欄」——旨在防止模型產生有害、幻覺或偏見的輸出——與「破壞」或「緊急開關」機制混為一談。
對於 AI 安全研究人員而言,安全護欄與緊急開關之間的區別意義重大。Anthropic 認為其安全機制是其大型語言模型(Large Language Models)核心功能的組成部分。該公司的立場暗示:
為了理解這場衝突的嚴重性,有必要審視雙方所持的立場。下表提供了法院文件中呈現的核心分歧細目。
| 類別 | Anthropic 的立場 | 五角大廈的指控 |
|---|---|---|
| 協議範圍 | 具有固定安全標準的協作開發 | 基於合規性並帶有「破壞」應急預案 |
| 安全機制 | 確保輸出準確性的內部護欄 | 用於緊急禁用的外部控制 |
| 關係狀態 | 被國防部誤傳為「達成一致」 | 被歸類為必要且完全合規 |
| 風險評估 | 維持模型完整性至關重要 | AI 自主性構成「國家安全風險」 |
Anthropic 與五角大廈之間的爭議象徵著該行業面臨的更廣泛挑戰:如何在不損害開發者安全、隱私或智慧財產權(Intellectual Property)的情況下,將強大的通用 AI 模型整合到軍事基礎設施中?
五角大廈的激進姿態,近期因川普政府關於將國防利益與某些 AI 實驗室脫鉤的言論而更加凸顯,營造了一個動盪的環境。透過將 Anthropic 的抵制貼上「國家安全風險」的標籤,國防部正在提高目前所有探索國防合約的其他主要 AI 公司的風險成本。
如果政府成功迫使 AI 公司提供「後門(backdoor)」存取或禁用機制,該行業將面臨幾個生存風險:
隨著這場法律戰的進展,其結果可能會為未來軍事合約的結構定下先例。如果法院判決 Anthropic 勝訴,這將鞏固私人 AI 實驗室維持其技術完整性自主權的權利,即使是在為國防部服務時。相反,如果政府的解釋占上風,我們可能會看到一個轉變,即「開放」且「安全」的 AI 開發變得次於政府控制。
目前,業界正密切關注。這種緊張局勢凸顯出,雖然五角大廈將 AI 視為待管理的戰略資產,但像 Anthropic 這樣的公司則將其模型視為專有的、高度敏感的系統,需要嚴格的、由開發者控制的治理才能安全運行。
Anthropic 與五角大廈之間的對抗不僅僅是一場法律糾紛;這是一場關於 AI 未來本質的根本性辯論。在利用人工智慧加強國防的過程中,業界必須確保在尋求控制權時,不會摧毀最初使這些模型具有價值的那份安全性和可靠性。