Anthropic 指控中國 AI 實驗室透過蒸餾攻擊挖掘 Claude

Anthropic 揭露涉及中國主要 AI 實驗室的大規模蒸餾網絡

在當前人工智慧軍備競賽的一次重大升級中，Anthropic 公開指控三家著名的中國 AI 實驗室——DeepSeek、Moonshot AI 和 MiniMax——進行一項系統性的工業規模活動，旨在從其 Claude 模型中提取能力。週一發佈的一份新安全報告詳細說明了這些組織據稱如何利用數以千計的虛假帳號，將 Claude 的進階推理和程式編寫能力「蒸餾（distill）」到他們自己的專有模型中。

這一發現正值全球 AI 產業的關鍵時刻，適逢華盛頓關於半導體出口管制有效性的辯論日益激烈。隨著美國決策者努力限制中國獲取尖端硬體，Anthropic 的調查結果顯示，透過模型蒸餾進行的智慧財產權竊取已成為競爭對手繞過硬體限制並縮小能力差距的主要途徑。

「蒸餾」行動的規模

根據 Anthropic 的調查，這項協同行動涉及透過一個由約 24,000 個虛假帳號組成的複雜網絡，與 Claude 模型進行了超過 1,600 萬次對話。據稱，這些帳號透過商業代理服務進行管理以掩蓋其來源，被用於系統性地查詢 Claude，並記錄其輸出以訓練較小的國產模型——這一過程在機器學習中被稱為「蒸餾（distillation）」。

雖然蒸餾是開發人員用來將自己的大型模型壓縮成更高效版本的合法技術，但在未經授權的情況下從競爭對手的模型中提取數據違反了服務條款，並構成了智慧財產權竊取。Anthropic 的數據顯示，該行動並非偶然的實驗，而是對高價值認知行為的高度組織化提取。

攻擊規模在受指控的機構之間存在顯著差異，其中 MiniMax 似乎是最激進的攻擊者。以下細目說明了據稱活動的範圍：

表格：各實驗室據稱蒸餾活動的細目

實驗室名稱	估計對話次數	主要目標能力
MiniMax	~1,300 萬	代理程式編寫、工具編排和複雜的推理序列
Moonshot AI	~340 萬	代理推理、數據分析和電腦視覺任務
DeepSeek	>150,000	基礎邏輯、對齊協定和策略敏感查詢

AI 劫持的解析

Anthropic 描述的方法揭示了對大型語言模型（Large Language Model，LLM）訓練管道的複雜理解。攻擊者不僅僅是隨機提問；他們針對的是難以從頭開始複製且成本昂貴的特定「導師」行為。

被認定為最大侵權者的 MiniMax，據報導在新款模型發佈後的 24 小時內，將其近一半的流量重定向至 Claude，實際上是利用 Anthropic 的基礎設施來啟動其自身系統的能力。透過將使用者提示輸入 Claude 並使用高品質的回應來訓練自己的模型，這些實驗室理論上可以在僅花費一小部分運算資源的情況下，達到與美國頂尖模型接近的水平。

報告中確定的關鍵策略包括：

思維鏈誘發（Chain-of-Thought Elicitation）： 提示 Claude 「展示其工作過程」或解釋其推理步驟，生成豐富的訓練數據，教導「學生」模型「如何」思考，而不僅僅是回答什麼。
代理網絡混淆（Proxy Network Obfuscation）： 利用去中心化的住宅代理網絡來分配請求，使流量看起來像是來自數千名截然不同的合法使用者。
有針對性的防護欄剝離（Targeted Guardrail Stripping）： 專門查詢敏感話題以了解 Claude 如何拒絕或處理安全請求，潛在目的是訓練能規避類似限制的模型。

國家安全維度：剝離的安全措施

除了智慧財產權竊取的商業影響外，Anthropic 還強調了一個嚴重的安全擔憂：安全防護欄的移除。像 Claude 這樣的美國前沿模型都經過嚴格的「憲制 AI（Constitutional AI）」訓練，以防止其協助製造生物武器、發動網路攻擊或散佈假消息。

當一個模型被非法蒸餾時，「學生」模型通常只學習「導師」的能力，而沒有繼承其安全抑制機制。Anthropic 警告說，這些「脫韁」的複製體構成了獨特的擴散風險。如果一個蒸餾模型保留了 Claude 的程式編寫熟練度，但缺乏其針對惡意軟體生成的拒絕機制，它就會成為惡意行為者的強大武器。

Anthropic 在其名為《檢測與預防蒸餾攻擊（Distillation Attacks）》的研究論文中表示：「非法蒸餾的模型缺乏必要的安全保障，造成了重大的國家安全風險。」該公司認為，允許外國實體複製美國的 AI 能力，破壞了美國政府一直敦促業界採用的安全協議。

新的防禦措施：行為指紋

與指控同時，Anthropic 發佈了旨在即時識別並阻止蒸餾企圖的新防禦機制細節。該防禦的核心是「行為指紋（behavioral fingerprinting）」，這是一種分析 API 使用統計模式的技術。

與表現出有機、多樣化互動模式的合法使用者不同，蒸餾腳本通常會留下細微的統計特徵。這些特徵包括：

不自然的提示分佈： 高頻率的提示旨在覆蓋模型的整個「知識空間」，而不是解決即時的使用者問題。
系統性的參數掃描： 系統性地改變溫度或採樣設置，以針對同一提示提取多樣化的輸出。
延遲相關性： 顯示 API 正在根據第三方使用者輸入進行程式化調用的時間模式（一種「中間人」設置）。

Anthropic 已宣佈正與其他美國主要的 AI 實驗室（如 OpenAI 和 Google DeepMind）、雲端服務供應商以及政府當局分享這些技術指標，以建立一個全產業的防禦網來對抗模型挖掘。

地緣政治影響：晶片戰爭的聯繫

這一事件為複雜的美中科技關係投下了震撼彈。此時機點尤為敏感，因為美國商務部目前正在審查出口管制的有效性，該管制禁止向中國公司銷售先進的 GPU，如 NVIDIA 的 H100 和最新的 Blackwell 系列。

現行出口禁令的批評者認為，如果中國實驗室可以透過複製美國模型的智慧來「巧妙地」繞過硬體缺陷，那麼禁令是不夠的。如果一個實驗室可以透過蒸餾 Claude，僅使用 10% 的運算能力就訓練出一個具競爭力的模型，那麼旨在減緩中國 AI 進展的「運算壁壘」就會變得更加脆弱。

對政策的影響：

更嚴格的 API 控制： 我們可能會看到美國監管機構要求對 AI API 訪問實施類似銀行業監管的「認識您的客戶（KYC）」標準，以防止匿名外國訪問。
出口管制擴大： 「出口」的定義可能會擴大，不僅包括物理晶片或模型權重，還包括可用於訓練的模型推理 API 的訪問。
報復性措施： 這種公開點名可能會引發北京方面的報復性網路活動或制裁，進一步使全球 AI 生態系統分化。

結論

Anthropic 提出的指控標誌著 AI 領域從理論風險轉向記錄在案的衝突。隨著模型變得越來越有價值，它們不再僅僅是產品，而是具有戰略意義的國家資產。這次「蒸餾劫持案」清楚地提醒人們，在數位時代，能力可以像建立時一樣輕易被竊取。對於該產業來說，現在的重點必須從單純建立更聰明的模型，轉向建立更難以被竊取的模型，確保美國創新的成果不會在無意中助長了那些原本旨在超越的競爭對手。