
在生成式 AI(Generative AI)快速發展的背景下,我們已經習慣了各種標題讚揚 AI 在編碼、創意寫作以及語言細微差別等方面達到「人類水平」的表現。然而,一項發人深省的新研究表明,當涉及到高風險的視覺推理——特別是解讀複雜且數據密集的圖表時——即使是最先進的 AI 模型也遇到了巨大的障礙。
最近的研究表明,頂尖的大型語言模型(LLM)和多模態 AI 系統在執行複雜圖形數據分析任務時,與處理簡單查詢相比,性能下降了約 50%。對於 Creati.ai 的專家來說,這一發現不僅僅是一個統計上的異常;它是一個關鍵指標,揭示了在我們邁向通用人工智慧(AGI,Artificial General Intelligence)的過程中,開發者必須克服的「推理瓶頸」。
最新的基準測試凸顯了現代 AI 架構中一個根本性的二分法:模式識別與邏輯推演之間的區別。雖然像 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 這樣的模型在識別圖表中的文字方面表現出色,但當它們必須綜合多個數據點、考慮隨時間變化的趨勢,並應用邏輯運算來得出精確結論時,它們就會陷入困境。
為了理解這種差異,我們必須檢視模型性能如何隨著圖表複雜度的增加而波動。
| 複雜度等級 | 任務特徵 | 平均模型準確度 |
|---|---|---|
| 基礎數據提取 | 讀取單個標籤或數值 | 85-92% |
| 中級解讀 | 比較兩個數據系列 | 60-70% |
| 高級分析推理 | 多變量分析與趨勢預測 | 35-45% |
上表說明了一個明確的趨勢:認知需求越深,可靠性的下降就越劇烈。當圖表要求模型在進行比較計算時同時保留多個變量在「工作記憶」中,錯誤率就會飆升,這表明目前的架構可能缺乏真正複雜數據分析所需的空間邏輯連結。
這項研究揭露的短板,源於當前多模態 LLM 在處理視覺數據時的三個主要限制:
大多數最先進的模型將圖像轉換為圖像塊(patches)或 Token。在簡單的圖表中,這種方法非常有效。然而,在線條重疊或含有次軸的混亂圖表中,這些圖像塊往往會喪失不同元素之間的上下文關係。複雜圖表的「視覺語法」在 Token 化過程中往往會丟失。
與計算機或專用的數據可視化引擎不同,AI 模型是在預測下一個最佳 Token,而不是在執行嚴格的計算。當被問及「X 和 Y 之間的預期增長率是多少」時,模型提供的是基於機率的估算,而非基於數據的精確計算。這種機率性方法與圖表所需的精確度是背道而馳的。
雖然「思維鏈」提示技術已經徹底改變了基於文本的推理,但它尚未無縫整合到視覺處理流程中。模型難以將複雜的圖形問題分解為更小的連續步驟,往往試圖整體而非系統地去解讀圖表。
對於金融、醫療保健和物流等領域——這些領域的高管決策通常基於儀表板上的可視化圖表——這 50% 的準確度下降構成了一個巨大的採用障礙。如果 AI 助手無法可靠地解讀季度營收報告或病人的生命體徵趨勢線,它作為自主協作者的實用性將大打折扣。
「我們正目睹一個悖論,」Creati.ai 的分析團隊指出。「模型比以往任何時候都流暢,但在面對高密度、多步驟的分析任務時,它們依然脆弱。」這種脆弱性凸顯了轉變 AI 訓練方法的必要性。開發者或許需要轉向神經符號 AI(Neuro-symbolic AI)——即結合 LLM 廣泛語言基礎與專為計算和幾何設計的邏輯專用模塊,而不是僅僅擴大訓練數據的規模。
我們離解決這個問題還有多遠?業界已經在反應了。新的研究途徑正專注於「視覺思維鏈」(Visual Chain-of-Thought, VCoT),並在學術圖表基準測試上進行專業化微調。此外,整合代碼執行環境——讓 AI 編寫腳本直接從源頭查詢數據,而不是僅僅視覺化地「猜測」圖表內容——提供了一種有前途的橋樑。
我們必須認識到 圖表分析 是一個涉及以下步驟的多階段任務:
在模型能夠透過內部驗證機制迭代這些步驟之前,人工審核對於任何 AI 生成的圖形洞察仍將是強制性的。
當前模型在複雜圖表分析上的掙扎,不應被視為死胡同,而應被視為發展路線圖。基準測試不僅是用於評分性能的工具;它們也是下一代 AI 發展的診斷測試。隨著研究人員努力縮小這 50% 的性能差距,我們很可能會看到新一代模型的出現,它們不僅在廣義上更「聰明」,而且在現實世界實用且數據密集的環境中將顯著更加可靠。
對於 Creati.ai 的用戶和愛好者來說,這提醒我們在面對 AI 輸出時要保持健康的懷疑態度,特別是涉及複雜數據綜合的情況。當我們審視 AI 基準測試 的軌跡時,焦點顯然正從「AI 能做嗎?」轉向「AI 能多穩定地完成?」——這種轉變將定義下一波生成式工具的品質。