
將人工智慧(Artificial Intelligence,AI)整合至臨床環境中長期以來一直是激烈辯論的主題,在烏托邦式的效率承諾與反烏托邦式的技術謬誤恐懼之間搖擺不定。然而,由哈佛醫學院(Harvard Medical School)研究人員領導的一項里程碑式研究提供了令人信服的數據支持,證明我們正進入 AI 效用的一個新階段。OpenAI 最新的 o1 模型以其先進的推理能力而聞名,其表現已在急診室分診情境中達到、甚至超過了人類醫師的 診斷準確度。
在 Creati.ai,我們持續關注生成式 AI(Generative AI)與專業領域的交集。這項研究不僅僅是一次成功的實驗;它代表了大型語言模型(LLMs)在分秒必爭的高風險環境下,如何被用於增強人類專業知識的根本性轉變。
這項由哈佛主導的研究在醫學與科技界引起了迴響,旨在評估 AI 在急診室這種混亂且資訊密集的環境中能有多有效地運作。與先前主要依賴模式比對的 AI 迭代不同,o1 模型採用了「思維鏈」(chain-of-thought)推理過程——這種方法模仿了人類臨床醫師在評估症狀、病患病史與臨床數據時所採取的迭代邏輯步驟。
研究人員向該模型提出了多個複雜的臨床案例——這些去識別化的分診情境反映了急診室收治的現實情況。隨後,其表現與兩名獨立的認證 急診醫學 醫師所提供的評估結果進行了基準測試。結果令人震驚:在很大比例的案例中,AI 的診斷輸出不僅與醫師持平,甚至在若干案例中提供了更全面或更準確的鑑別診斷。
為了更好地了解這些基準,我們歸納了有關效能指標與診斷透徹度的核心發現:
| 診斷面向 | 人類醫師表現 | OpenAI o1 模型表現 |
|---|---|---|
| 分診準確度 | 分診分類具高度一致性 | 始終與人類基準相符 |
| 鑑別診斷 | 紮實的基礎知識 | 對罕見疾病的思考廣度更優越 |
| 臨床推理深度 | 基於經驗的啟發式模型 | 迭代性的多步驟邏輯構建 |
| 評估速度 | 取決於臨床負荷 | 輸入後近乎瞬時輸出 |
此處的關鍵區別在於模型的架構。傳統模型在不理解潛在醫學因果關係的情況下,往往會產生幻覺或依賴統計機率。o1 模型在發言前進行「思考」的能力——即分配更多的計算時間來驗證自身的邏輯——特別適合醫療保健領域。
在急診環境中,醫師經常需要同時應對多名病患、高噪音水平與不完整的數據集。藉由充當「第二雙眼睛」,AI 提供了一道安全防護網。它能在幾秒鐘內將病患數據合成為連貫的摘要,讓醫師能將認知精力集中在 AI 目前無法複製的高階決策上,例如醫患共情的細微差別與複雜程序的執行。
雖然這些結果令人振奮,但校準期望值至關重要。該研究並未暗示 AI 將取代急診室醫師。相反,它凸顯了向「人在迴圈」(Human-in-the-Loop)模型的轉變。其核心價值主張在於 診斷決策支援,而非完全自主。
儘管有技術上的突破,但醫院廣泛採用的道路依然充滿挑戰。哈佛的研究作為一種概念驗證,但在真實的急診環境中實施此技術,需要解決 AI 的「黑盒子」特性。FDA 等監管機構正日益關注這些模型的驗證方式。透明度——即了解模型 為何 得出特定診斷——對於臨床信任至關重要。
醫療保健提供者保持謹慎是正確的。急診醫學的高風險攸關生死,在這些系統被授予診斷權限前,LLM 的「幻覺」率必須盡可能趨近於零。在 Creati.ai,我們預期下一階段的發展將集中於將這些模型直接整合至電子健康紀錄(EHR)系統中,並建立內建的安全防護機制以確保責任歸屬。
來自 哈佛醫學院 的研究是未來醫學的風向標。我們正目睹 AI 的成熟,從簡單的文本生成轉向實質的分析推理。隨著 OpenAI 繼續完善 o1 模型,演算法輸出與臨床效力之間的障礙將持續縮小。
對於醫療保健產業,訊息很明確:未來不是 AI 與人類的對抗;而是將人類的共情能力與機構知識,與現代 AI 強大、快速且精確的推理能力相結合。隨著這項技術的演進,我們將持續致力於追蹤這些突破,確保我們的讀者不僅了解這項技術的「如何運作」,更了解其對於我們共同未來的意義。