
Anthropic 被廣泛視為生成式 AI(Generative AI)競賽中具有安全意識的良知,現已發佈了其 負責任擴展政策(Responsible Scaling Policy, RSP v3) 的第三個版本。此次更新從根本上重組了該公司處理災難性 AI 風險的方式,且正值地緣政治與商業摩擦劇烈之際。據報導,隨著該公司面臨美國國防部關於其技術軍事用途的最後通牒,其移除「旗艦級」安全承諾——即如果無法保證安全則暫停開發——的做法已引發行業觀察者的嚴厲審查。
自成立以來,Anthropic 的 RSP 一直由「條件式承諾」機制所定義。在之前的 RSP v2 下,該公司承諾如果新模型在沒有相應保障措施的情況下跨越特定的「AI 安全等級(AI Safety Level, ASL)」閾值,將停止開發或部署。這種「絆網(tripwire)」方法旨在將安全置於競爭速度之上。
在 RSP v3 中,Anthropic 已轉向不再採取這些硬性停止措施。該公司認為,在競爭對手繼續競相前進的市場中,單方面的暫停是無效的。相反,新政策強調 透明化 和 公眾目標設定。
RSP v3 的關鍵組成部分:
Anthropic 的高層將這一轉變定性為對現實的「務實」回應。在隨發佈附帶的部落格文章中,該公司指出,如果其他顧慮較少的開發者繼續推進,「停止 AI 模型訓練實際上對任何人均無幫助」。他們引用了「向頂尖競賽(race to the top)」——即競爭對手會效仿 Anthropic 的安全限制——的失敗,作為此次變革的主要驅動力。
下表概述了舊政策與新發佈版本之間的結構性變化。
| 功能/承諾 | RSP v2(舊版) | RSP v3(現行) |
|---|---|---|
| 核心機制 | 條件式暫停(ASL 絆網) | 透明化與路線圖 |
| 安全承諾 | 如果無法保證安全則停止訓練 | 務實的單方面目標 |
| 文件記錄 | 內部評估與定義的閾值 | 公開的前沿安全路線圖 |
| 風險報告 | 側重於臨時和內部 | 系統性的公開風險報告(3-6 個月) |
| 行業策略 | 以身作則(向頂尖競賽) | 轉向國家競爭力 |
RSP v3 的發佈時機與 Anthropic 與美國軍方之間日益升級的僵局密不可分。報告確認,國防部長 Pete Hegseth 最近會見了 Anthropic 執行長 Dario Amodei,並下達了嚴厲的最後通牒:解除對 Claude 模型軍事用途的限制,否則將面臨嚴重後果。
據報導,五角大廈要求 Anthropic 允許其 AI 用於「任何合法目的」,這實際上剝奪了該公司對特定軍事應用的否決權。Anthropic 歷來對其技術的使用保持嚴格的「紅線」,禁止用於:
國防部威脅要引用 《國防生產法》(Defense Production Act, DPA)——這是一部韓戰時期的法律,允許總統強迫私營公司優先處理國防合同。此外,官員們還提出了將 Anthropic 列為「供應鏈風險」的可能性,這將有效地將該公司列入所有聯邦合同的黑名單,可能使其損失數億美元的收入,並將其拒於利潤豐厚的政府部門之外。
批評者認為,RSP「暫停」承諾的放寬創造了一個便利的政策漏洞。通過移除基於內部安全閾值停止部署的嚴格要求,Anthropic 可能是在調整自身定位,以適應 五角大廈(Pentagon) 的要求,而無需在技術上違反其自身的安全憲章。
RSP 的修訂突顯了 AI 行業日益增長的緊張局勢:「能力懸置(capability overhang)」。該術語指的是 AI 模型的原始能力與可用於控制它的安全機制之間的差距。Anthropic 之前的政策旨在防止這種懸置變得過大。通過移除硬煞車,該公司正隱含地接受更高水平的風險,以便與 OpenAI 和 xAI 等對手保持競爭,後者已經獲得了廣泛的國防合同。
為什麼這對 AI 生態系統至關重要:
Anthropic 的 RSP v3 代表了對 2026 年 AI 格局的一種成熟但憤世嫉俗的體認。2023 年的理想主義——即一家公司可以通過道德領導力引導行業走向安全——已與大國競爭和軍事必要性的冷酷現實相撞。雖然 風險報告 和 前沿安全路線圖 的引入提供了一層新的透明度,但具有約束力的「安全承諾」的移除標誌著一個時代的結束。隨著五角大廈的陰影籠罩,Anthropic 不再試圖減慢火車的速度;它只是承諾在火車加速時更大聲地吹響警哨。