
在當前人工智慧軍備競賽的一次重大升級中,Anthropic 公開指控三家著名的中國 AI 實驗室——DeepSeek、Moonshot AI 和 MiniMax——進行一項系統性的工業規模活動,旨在從其 Claude 模型中提取能力。週一發佈的一份新安全報告詳細說明了這些組織據稱如何利用數以千計的虛假帳號,將 Claude 的進階推理和程式編寫能力「蒸餾(distill)」到他們自己的專有模型中。
這一發現正值全球 AI 產業的關鍵時刻,適逢華盛頓關於半導體出口管制有效性的辯論日益激烈。隨著美國決策者努力限制中國獲取尖端硬體,Anthropic 的調查結果顯示,透過模型蒸餾進行的智慧財產權竊取已成為競爭對手繞過硬體限制並縮小能力差距的主要途徑。
根據 Anthropic 的調查,這項協同行動涉及透過一個由約 24,000 個虛假帳號組成的複雜網絡,與 Claude 模型進行了超過 1,600 萬次對話。據稱,這些帳號透過商業代理服務進行管理以掩蓋其來源,被用於系統性地查詢 Claude,並記錄其輸出以訓練較小的國產模型——這一過程在機器學習中被稱為「蒸餾(distillation)」。
雖然蒸餾是開發人員用來將自己的大型模型壓縮成更高效版本的合法技術,但在未經授權的情況下從競爭對手的模型中提取數據違反了服務條款,並構成了智慧財產權竊取。Anthropic 的數據顯示,該行動並非偶然的實驗,而是對高價值認知行為的高度組織化提取。
攻擊規模在受指控的機構之間存在顯著差異,其中 MiniMax 似乎是最激進的攻擊者。以下細目說明了據稱活動的範圍:
表格:各實驗室據稱蒸餾活動的細目
| 實驗室名稱 | 估計對話次數 | 主要目標能力 |
|---|---|---|
| MiniMax | ~1,300 萬 | 代理程式編寫、工具編排和複雜的推理序列 |
| Moonshot AI | ~340 萬 | 代理推理、數據分析和電腦視覺任務 |
| DeepSeek | >150,000 | 基礎邏輯、對齊協定和策略敏感查詢 |
Anthropic 描述的方法揭示了對大型語言模型(Large Language Model,LLM)訓練管道的複雜理解。攻擊者不僅僅是隨機提問;他們針對的是難以從頭開始複製且成本昂貴的特定「導師」行為。
被認定為最大侵權者的 MiniMax,據報導在新款模型發佈後的 24 小時內,將其近一半的流量重定向至 Claude,實際上是利用 Anthropic 的基礎設施來啟動其自身系統的能力。透過將使用者提示輸入 Claude 並使用高品質的回應來訓練自己的模型,這些實驗室理論上可以在僅花費一小部分運算資源的情況下,達到與美國頂尖模型接近的水平。
報告中確定的關鍵策略包括:
除了智慧財產權竊取的商業影響外,Anthropic 還強調了一個嚴重的安全擔憂:安全防護欄的移除。像 Claude 這樣的美國前沿模型都經過嚴格的「憲制 AI(Constitutional AI)」訓練,以防止其協助製造生物武器、發動網路攻擊或散佈假消息。
當一個模型被非法蒸餾時,「學生」模型通常只學習「導師」的能力,而沒有繼承其安全抑制機制。Anthropic 警告說,這些「脫韁」的複製體構成了獨特的擴散風險。如果一個蒸餾模型保留了 Claude 的程式編寫熟練度,但缺乏其針對惡意軟體生成的拒絕機制,它就會成為惡意行為者的強大武器。
Anthropic 在其名為《檢測與預防蒸餾攻擊(Distillation Attacks)》的研究論文中表示:「非法蒸餾的模型缺乏必要的安全保障,造成了重大的國家安全風險。」該公司認為,允許外國實體複製美國的 AI 能力,破壞了美國政府一直敦促業界採用的安全協議。
與指控同時,Anthropic 發佈了旨在即時識別並阻止蒸餾企圖的新防禦機制細節。該防禦的核心是「行為指紋(behavioral fingerprinting)」,這是一種分析 API 使用統計模式的技術。
與表現出有機、多樣化互動模式的合法使用者不同,蒸餾腳本通常會留下細微的統計特徵。這些特徵包括:
Anthropic 已宣佈正與其他美國主要的 AI 實驗室(如 OpenAI 和 Google DeepMind)、雲端服務供應商以及政府當局分享這些技術指標,以建立一個全產業的防禦網來對抗模型挖掘。
這一事件為複雜的美中科技關係投下了震撼彈。此時機點尤為敏感,因為美國商務部目前正在審查出口管制的有效性,該管制禁止向中國公司銷售先進的 GPU,如 NVIDIA 的 H100 和最新的 Blackwell 系列。
現行出口禁令的批評者認為,如果中國實驗室可以透過複製美國模型的智慧來「巧妙地」繞過硬體缺陷,那麼禁令是不夠的。如果一個實驗室可以透過蒸餾 Claude,僅使用 10% 的運算能力就訓練出一個具競爭力的模型,那麼旨在減緩中國 AI 進展的「運算壁壘」就會變得更加脆弱。
對政策的影響:
Anthropic 提出的指控標誌著 AI 領域從理論風險轉向記錄在案的衝突。隨著模型變得越來越有價值,它們不再僅僅是產品,而是具有戰略意義的國家資產。這次「蒸餾劫持案」清楚地提醒人們,在數位時代,能力可以像建立時一樣輕易被竊取。對於該產業來說,現在的重點必須從單純建立更聰明的模型,轉向建立更難以被竊取的模型,確保美國創新的成果不會在無意中助長了那些原本旨在超越的競爭對手。