AI News

史丹佛研究揭露AI在基礎物理上的盲點

在這一年,人工智慧(artificial intelligence)似乎已掌握從創意寫作到複雜程式碼的所有事務;然而,來自史丹佛大學的一項新研究指出一個驚人的侷限:先進的AI模型在理解基礎物理定律方面表現不佳。名為「QuantiPhy」的綜合性基準測試集揭露,即使是最複雜的視覺-語言模型(Vision-Language Models,VLMs)也常常無法準確估算速度、距離與大小——這些技能是人類直覺的基本要素,對自主系統的部署至關重要。

由史丹佛以人為中心人工智慧研究所(Stanford Institute for Human-Centered Artificial Intelligence,HAI)主導的這項研究指出,雖然AI能以詩意的方式描述一段物體下落的影片,但它常常無法以數值精度計算物體的下落速度或落點。這種「量化差距」為產業在機器人與自駕技術方面的野心造成了重大阻礙。

The QuantiPhy Benchmark: Testing Reality

多年來,AI 評估偏重於定性理解——例如請模型辨識影片中的貓或描述一個人在走路的動作。然而,這些任務很少測試模型是否理解支配這些場景的物理性質。為了解決此問題,史丹佛團隊開發了 QuantiPhy,這是首個專門用來評估多模態 AI 量化物理推理能力的資料集。

該基準包含超過 3,300 個視訊-文字實例,要求模型執行「運動學推斷」。模型不只是描述場景,還必須根據視覺證據回答精確的數值問題,例如:

  • 「在 1.0 秒時,桌球的速度是多少?」
  • 「以受試者的平均步行速度為準,兩個路牌之間的距離為多少?」
  • 「根據物體相對於背景的運動,計算該物體的高度。」

要解這些問題,模型不能靠猜測;它必須執行研究者所稱的「明確視覺測量」,利用提供的先驗(已知事實)將像素位移對應到實際單位。研究結果令人警醒:頂尖模型,包括廣泛使用的 ChatGPT-5.1,經常給出自信卻數學上不正確的答案。

The Trap of "Memorized Priors"

研究中最關鍵的發現之一是,目前的 AI 模型並不真正「看見」物理現象——它們是記住了物理知識。當被呈現一段影片時,模型傾向於依賴訓練資料中的先驗(priors),而非實際的視覺輸入。

例如,若模型看到一頭大象,它會從訓練資料存取一個統計機率,暗示「大象是大型動物」。若影片顯示的是較小的幼象或因透視效果而顯得較小,模型常會忽視視覺現實,而偏向其記憶中的知識。

研究人員的實驗鮮明說明了這一現象。當視覺線索清晰且物體遵循預期模式(例如一般速度行駛的標準車輛)時,模型表現尚可。然而,當研究人員引入「反事實先驗」(counterfactual priors)——例如將物體縮放到不尋常的尺寸或速度以測試模型的適應性——AI 的推理便崩潰。它持續輸出與訓練資料一致的數值,而非依據眼前的影片證據。

研究者主張,這顯示出一種根本性的「接地」缺失。這些模型透過檢索相關文本與數字來模擬理解,而非從原始視覺資料計算物理性質。

Comparative Analysis: Model Performance vs. Reality

QuantiPhy 基準揭露了各項物理任務中不一致的表現。雖然模型在簡單物體計數或靜態辨識上表現有一定能力,但處理動態運動學性質——速度與加速度——的能力明顯不足。

下表列出 QuantiPhy 資料集中具代表性的測試案例,說明真實物理值與 AI 估算之間的差異。

Table 1: QuantiPhy Benchmark Performance Examples

Task Scenario Visual Input Prior Ground Truth AI Model Estimate (ChatGPT-5.1) Analysis of Failure
Velocity Estimation Billiard ball diameter (57.4 mm) 24.99 cm/s 24.00 cm/s **接近成功:**模型在此表現良好,可能是因為情境符合標準物理訓練資料,且視覺背景簡潔明確。
Object Sizing Elephant walking speed (2.31 m/s) 2.20 meters 1.30 meters **重大失誤:**模型嚴重低估高度,未能將步行速度的先驗與動物的垂直尺寸相關聯。
Distance Calculation Pedestrian speed (1.25 m/s) 4.77 meters 7.00 meters **空間誤差:**對路牌間距離的顯著高估,表示模型無法將 2D 像素深度映射到 3D 真實空間。
Scale Sensitivity Car length (scaled to 5,670 m) Matches Scale Normal Car Size **先驗偏誤:**當面對數位操弄成「巨型」的車輛時,模型忽略視覺尺度,回歸到其記憶中的標準車輛尺寸。

Implications for Robotics and Autonomous Systems

無法進行精確的物理推理並非僅是學術上的好奇;對具身 AI 的部署而言,這是個關乎安全的關鍵議題。自駕車(AVs)、配送無人機與家用機器人都在一個受不可改變的運動定律支配的物理世界中運作。

對於自駕車而言,「看似合理」的推理並不夠。如果車輛的 AI 系統看到一個朝斑馬線奔跑的孩童,它必須精確計算該孩童相對於車輛本身的速度與軌跡,以判斷是否要煞車。即便只差幾公尺每秒的「幻覺式」速度估算,也可能是安全剎停與碰撞之間的關鍵差異。

史丹佛轉譯人工智慧(Stanford Translational Artificial Intelligence,STAI)實驗室主任、該論文的資深作者 Ehsan Adeli 強調,這項限制是達到 Level 5 自主性的主要瓶頸。目前的系統常依賴 LIDAR 與 radar 來繞過視覺推理的需求,但一個真正的通用 AI 代理人——能僅靠相機像人類般操作者——必須掌握這些直觀的物理計算。

The Path Forward: From Plausibility to Precision

儘管結果令人憂心,史丹佛團隊認為 QuantiPhy 提供了改進的路徑圖。研究指出,當前對於 視覺-語言模型(Vision-Language Models) 的訓練範式過度偏向語意理解(這是「這是什麼?」),而非量化推理(「這有多快?」)。

為了彌補這一差距,研究者建議在訓練方法上做出轉變:

  1. **整合模擬數據:**使用物理引擎生成的合成資料進行訓練,其中速度、質量與摩擦力的真實值為絕對值。
  2. **為物理引入思路鏈提示法(Chain-of-Thought Prompting):**鼓勵模型在輸出最終答案前,透過明確計算像素到公尺的比例來「展示其計算過程」。
  3. **混合架構:**將大型語言模型的語意強項與專門處理場景數學計算的「神經物理引擎」相結合。

隨著 AI 產業朝向人工通用智慧(AGI)的推進,理解物理世界的能力仍然是最後的疆域。在模型能夠可靠地僅憑視覺線索分辨出一輛正在高速行駛的車與一輛停著的車之前,它們在物理世界中的角色仍將受限。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
VoxDeck
引領視覺革命的AI簡報製作工具
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。
FalcoCut
FalcoCut:基於網頁的 AI 平台,用於影片翻譯、虛擬人影片、語音複製、換臉與短影片生成。

史丹佛研究人員揭示人工智慧在理解物理屬性方面的關鍵弱點

史丹佛的 QuantiPhy 基準測試顯示,當前的人工智慧模型在基本物理推理上表現不佳,無法準確估算速度、距離和物體大小——這對自主系統和機器人技術的發展構成重大阻礙。