
將生成式 AI(Generative AI)整合進日常工作流程,無疑是一場革命,然而數位健康領域卻籠罩著一層新的陰影。隨著使用者越來越多地轉向 AI 驅動的介面進行初步診斷與健康諮詢,一項發人深省的研究隨之出現:調查顯示 AI 聊天機器人提供的醫療建議中,約有 50% 存在錯誤、誤導性資訊,甚至具有潛在危險。
對於 Creati.ai 的團隊來說,這是機器學習發展軌跡中的關鍵時刻。儘管 AI 已在行政任務與資料整合方面展現了卓越能力,但轉向高風險的醫療保健環境時,需要的是現有大型語言模型(LLMs)難以持續維持的精確度。這項研究的影響深遠,迫使相關利害關係人、開發人員與政策制定者,必須重新審視醫療環境中與 AI 相關的規範。
問題的核心在於生成式 AI 的內在架構。這些模型本質上是機率性的,設計初衷是預測序列中的下一個標記,而非執行嚴謹的醫療推理。當病患詢問有關症狀、藥物或慢性病的問題時,AI 並非僅僅檢索經過驗證的病歷,而是根據龐大的訓練資料集來合成資訊。
如果該資料集包含過時的資訊、未經同行評審的內容,甚至是聊天機器人無法掌握的細微醫療邏輯,其產出的結果可能是災難性的。近期研究強調,儘管這些聊天機器人聽起來既自信又專業,但它們的「醫療推理」往往與臨床實證醫學脫節。
研究中觀察到的失敗率並非適用於所有查詢,而是集中在特定的高風險領域。下表總結了數位健康互動中常見的失敗點:
| 失敗類別 | 風險等級 | 主要原因 |
|---|---|---|
| 藥物交互作用建議 | 極高 | 無法核對最新且當地的臨床登記資料 |
| 症狀檢傷分類 | 高 | 過度優先考慮罕見疾病或訓練資料中的偏見 |
| 慢性疼痛管理 | 中等 | 依賴一般性的生活方式建議而非病史 |
| 一般健康查詢 | 低 | 尚可,但往往過於謹慎或冗餘 |
在醫療保健領域,AI 聊天機器人的快速擴散已經超過了法規框架的發展速度。不同於必須遵守嚴格倫理準則並持續通過委員會認證的執業醫師,AI 系統是在一個「安全真空」中運作。
從我們在 Creati.ai 的觀點來看,倫理責任在很大程度上落在了技術開發者的肩上。僅僅提供一段法律免責聲明,聲稱「這並非醫療建議」已遠遠不夠。當 AI 聊天機器人被行銷為個人健康助理時,使用者體驗設計師必須實施技術防護欄,強制模型承認其侷限性並優先進行人工審核。
為了促進 AI 在醫療保健領域更穩健的整合,產業必須轉向下列方向:
儘管有這些調查結果,但在醫療領域完全放棄 AI 既不切實際也不可取。AI 在提高放射科醫生的診斷速度以及協助研究人員解碼複雜基因體數據方面,展現了令人難以置信的潛力。因此,挑戰不在於技術本身,而在於部署策略。
我們正在告別技術領域「快速行動並打破常規(move fast and break things)」的時代,邁入專業成熟的階段。50% 的失敗率對整個 AI 社群來說是一記必要的警鐘。它凸顯了目前評估大型語言模型效能的基準——通常側重於語言流暢度與創意寫作——對於臨床應用而言是不夠的。
展望未來,產業必須優先考慮:
當我們分析醫療 AI 的現況時,很明顯即時回答的便利性絕不能以犧牲病患健康為代價。在 Creati.ai,我們相信 AI 應該作為醫病關係的一座橋樑,而不是取代它。
這項研究的結果不僅是數據點,更是下一代 AI 開發的重要課題。如果我們要利用人工智慧的力量來改善公共衛生,就必須將這些系統建立在準確性、透明度之上,最重要的是,要有承認何時需要人工介入的謙遜。通往更安全未來的路徑,不僅涉及更好的演算法,還需要公眾具備更高意識,以當前所需的謹慎態度來審視 AI 的指導。