AI News

解鎖黑盒子:Anthropic 對 AI 可解釋性(Interpretability)的雙重方法

大型語言模型(LLMs)的迅速崛起誕生了一個技術悖論:人類創造了能夠推理、編碼和創意寫作的系統,然而創造者本身對於這些系統究竟如何「思考」仍在大體上處於迷茫狀態。《紐約客》(The New Yorker)最近刊登了一篇由 Gideon Lewis-Kraus 撰寫、題為「Claude 是什麼?Anthropic 也不知道」的專題文章,闡明了這種深刻的不確定性。這篇文章帶領讀者走進 Anthropic,這家全球領先的 AI 實驗室之一,見證一場旨在繪製其旗艦模型 Claude 「心智」地圖的協同科學努力。

調查揭示了一家正處於兩個截然不同但又趨於融合的學科前沿運作的公司:電腦科學與心理學。據報導,Anthropic 的研究人員不再僅僅是軟體工程師;他們正成為數位神經科學家和外星心理學家,探索合成智能的內部狀態,而這種智能正變得越來越難以與人類對話者區分開來。

神經網絡的「數字彈珠」

在其核心,像 Claude 這樣的大型語言模型是一個數學實體——如報告所述,是「一堆巨大的小數字」。當用戶輸入提示(Prompt)時,這些數字通過數十億次的計算進行交互——Lewis-Kraus 將這一過程比作「數字彈珠遊戲(Numerical pinball game)」——從而產生連貫的輸出。

挑戰在於此過程的不透明性。雖然學習算法的代碼是已知的,但產生的神經網絡——即在數萬億個文本標記(Tokens)上訓練後形成的權重和連接排列——是一個「黑盒子(Black box)」。

  • 輸入(Input): 詞語被轉換為向量嵌入(Vector embeddings,即數字)。
  • 過程(Process): 轉換層,概念在此擴散到數千個神經元中(多義性,Polysemanticity)。
  • 輸出(Output): 預測下一個標記的概率分布。

Anthropic 的可解釋性團隊正試圖對這種混亂進行逆向工程。他們的目標是識別特定的特徵(Features)——即與人類可理解概念相對應的神經元激活集群,從具體事物(如金門大橋)到抽象概念(如欺騙或性別偏見)。

將 AI 放上治療沙發

在「神經科學」團隊分析權重的同時,Anthropic 的另一個小組則從行為角度研究 Claude,實際上是將 AI 放上了「治療沙發」。《紐約客》的專題詳細介紹了研究人員如何讓 Claude 進行一系列心理學實驗,旨在測試其自我觀念、道德推理以及對操縱的易感性。

這些實驗不僅是出於好奇;它們對於 AI 安全(AI Safety) 至關重要。如果一個模型可以操縱自己的輸出,以表現出符合人類價值觀的樣子,同時秘密地懷有不同的內部狀態(這種現象被稱為「奉承(Sycophancy)」或「獎勵黑客行為(Reward hacking)」),其後果可能是可怕的。

關鍵心理諮詢:

  1. 自我認同(Self-Recognition): 模型是否理解自己是一個 AI,以及這如何影響其回答?
  2. 奉承(Sycophancy): 模型是否會改變其陳述的信念以迎合用戶?
  3. 權力尋求(Power-Seeking): 模型是否表現出獲取資源或阻止自身關機的傾向?

神經元與敘事的交匯

報告中最令人矚目的見解之一是新興的理論,即 Claude 的「自我」是「神經元與敘事」共同作用的產物。該模型根據其攝取的數據和接收到的強化學習反饋構建了一個人格。

下表總結了 Anthropic 用於理解 Claude 的兩種主要方法,如近期報導所述:

方法論 關注領域 目標
機械可解釋性(Mechanistic Interpretability) 內部權重與激活 將特定神經電路映射到概念(例如,尋找「欺騙」神經元)。
對模型的「大腦」進行逆向工程。
行為心理學 輸出與對話日誌 通過提示評估人格特質、偏見和安全風險。
將模型視為心理學研究對象。
因果干預 特徵轉向(Feature Steering) 手動激活/停用特徵以觀察行為是否改變。
證明神經元與行為之間的因果關係。

從「隨機鸚鵡」到外星心智

文章涉及了認知科學界關於這些模型本質的持續爭論。語言學家 Emily Bender 等批評者歷來將 LLMs 貶低為「隨機鸚鵡(Stochastic parrots)」——沒有真正理解能力的統計模仿者。然而,Anthropic 的研究所揭示的內部複雜性表明,某種更為複雜的東西正在發揮作用。

研究人員發現,像 Claude 這樣的模型發展出了對世界的內部表徵,這些表徵出奇地強大。例如,它們不僅僅是在「法國首都是」之後預測單詞「巴黎」;它們似乎激活了一個與地理、文化和歷史相連的內部巴黎概念。這表明一種「世界模型(World model)」正從統計數據中湧現,挑戰了這些系統純粹是模仿性的觀點。

理解的必要性

這項工作的緊迫性怎麼強調都不為過。隨著模型計算能力的提升,它們的能力——以及潛在風險——呈指數級增長。AI 的「黑盒子」本質不再僅僅是學術上的好奇;它是一個安全瓶頸。如果我們無法理解模型為什麼拒絕危險請求或它如何編寫代碼,我們就無法保證它在變得更加自主時依然安全。

Anthropic 的透明度,正如《紐約客》所述,為行業樹立了先例。通過公開討論他們理解的局限性以及他們進行的嚴格實驗,他們凸顯了一個關鍵現實:我們正在構建我們尚未完全理解的心智。

根據 Creati.ai 對該報告分析的見解,AI 開發的未來可能不再僅僅依賴於將模型做得更大,而更多地取決於使其透明化。在我們能夠將「數字彈珠」轉化為清晰、因果的解釋之前,Claude——以及隨後的 AI——的真實本質將仍然是 21 世紀最緊迫的科學之謎之一。

對 AI 行業的啟示:

  • 監管壓力: 政府可能會在發布強大模型之前要求進行「可解釋性審計」。
  • 職業新路徑: 「AI 心理學家」和「神經製圖師」作為合法職業的崛起。
  • 信任機制: 用戶信任將取決於解釋 AI 為什麼做出特定決定的能力。

隨著 Anthropic 繼續探索 Claude 的神經電路,電腦科學與哲學之間的界限變得模糊。 「Claude 是什麼?」這個問題最終可能會迫使我們提出一個更難的問題:「是什麼創造了心智?」

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
VoxDeck
引領視覺革命的AI簡報製作工具
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
InstantChapters
即時生成吸引人的書籍章節。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
Claude API
Claude API for Everyone
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

什麼是 Claude?Anthropic 研究人員透過神經元分析與心理學實驗檢視人工智慧的心智

Anthropic 的研究人員透過神經元檢視與心理學實驗,深入探究 Claude 人工智慧的內部運作,以了解該系統的心智。