AI 聊天機器人有 50% 的時間會提供有瑕疵的醫療建議，研究發現

數位諮詢日益嚴峻的風險：生成式 AI 聊天機器人的準確性差距

將生成式 AI（Generative AI）整合進日常工作流程，無疑是一場革命，然而數位健康領域卻籠罩著一層新的陰影。隨著使用者越來越多地轉向 AI 驅動的介面進行初步診斷與健康諮詢，一項發人深省的研究隨之出現：調查顯示 AI 聊天機器人提供的醫療建議中，約有 50% 存在錯誤、誤導性資訊，甚至具有潛在危險。

對於 Creati.ai 的團隊來說，這是機器學習發展軌跡中的關鍵時刻。儘管 AI 已在行政任務與資料整合方面展現了卓越能力，但轉向高風險的醫療保健環境時，需要的是現有大型語言模型（LLMs）難以持續維持的精確度。這項研究的影響深遠，迫使相關利害關係人、開發人員與政策制定者，必須重新審視醫療環境中與 AI 相關的規範。

理解醫療保健領域的「幻覺」

問題的核心在於生成式 AI 的內在架構。這些模型本質上是機率性的，設計初衷是預測序列中的下一個標記，而非執行嚴謹的醫療推理。當病患詢問有關症狀、藥物或慢性病的問題時，AI 並非僅僅檢索經過驗證的病歷，而是根據龐大的訓練資料集來合成資訊。

如果該資料集包含過時的資訊、未經同行評審的內容，甚至是聊天機器人無法掌握的細微醫療邏輯，其產出的結果可能是災難性的。近期研究強調，儘管這些聊天機器人聽起來既自信又專業，但它們的「醫療推理」往往與臨床實證醫學脫節。

導致建議不準確的關鍵因素

研究中觀察到的失敗率並非適用於所有查詢，而是集中在特定的高風險領域。下表總結了數位健康互動中常見的失敗點：

失敗類別	風險等級	主要原因
藥物交互作用建議	極高	無法核對最新且當地的臨床登記資料
症狀檢傷分類	高	過度優先考慮罕見疾病或訓練資料中的偏見
慢性疼痛管理	中等	依賴一般性的生活方式建議而非病史
一般健康查詢	低	尚可，但往往過於謹慎或冗餘

駕馭安全真空地帶

在醫療保健領域，AI 聊天機器人的快速擴散已經超過了法規框架的發展速度。不同於必須遵守嚴格倫理準則並持續通過委員會認證的執業醫師，AI 系統是在一個「安全真空」中運作。

從我們在 Creati.ai 的觀點來看，倫理責任在很大程度上落在了技術開發者的肩上。僅僅提供一段法律免責聲明，聲稱「這並非醫療建議」已遠遠不夠。當 AI 聊天機器人被行銷為個人健康助理時，使用者體驗設計師必須實施技術防護欄，強制模型承認其侷限性並優先進行人工審核。

更安全實作的策略

為了促進 AI 在醫療保健領域更穩健的整合，產業必須轉向下列方向：

檢索增強生成（RAG）： 強制模型參考即時、經過驗證的醫療資料庫，而非僅僅依賴內部的靜態訓練資料。
可解釋 AI（XAI）： 要求聊天機器人標註資訊來源，允許使用者或專業人士驗證所提供建議的有效性。
強制人工介入（Human-in-the-Loop）： 實施結構化警示，在檢測到高風險健康指標時，觸發提示要求使用者尋求合格醫生的協助。

AI 賦能醫療保健的未來

儘管有這些調查結果，但在醫療領域完全放棄 AI 既不切實際也不可取。AI 在提高放射科醫生的診斷速度以及協助研究人員解碼複雜基因體數據方面，展現了令人難以置信的潛力。因此，挑戰不在於技術本身，而在於部署策略。

我們正在告別技術領域「快速行動並打破常規（move fast and break things）」的時代，邁入專業成熟的階段。50% 的失敗率對整個 AI 社群來說是一記必要的警鐘。它凸顯了目前評估大型語言模型效能的基準——通常側重於語言流暢度與創意寫作——對於臨床應用而言是不夠的。

展望未來，產業必須優先考慮：

專業基準測試： 針對經過驗證的臨床等級醫學考試來專門測試模型。
多模態整合： 將基於文字的聊天機器人與診斷影像及生物辨識感測器數據相結合，以提供全面的觀點。
跨學科治理： 讓醫療專業人員參與微調過程，使聊天機器人的邏輯能與現代臨床指南保持一致。

結語：對問責制的呼籲

當我們分析醫療 AI 的現況時，很明顯即時回答的便利性絕不能以犧牲病患健康為代價。在 Creati.ai，我們相信 AI 應該作為醫病關係的一座橋樑，而不是取代它。

這項研究的結果不僅是數據點，更是下一代 AI 開發的重要課題。如果我們要利用人工智慧的力量來改善公共衛生，就必須將這些系統建立在準確性、透明度之上，最重要的是，要有承認何時需要人工介入的謙遜。通往更安全未來的路徑，不僅涉及更好的演算法，還需要公眾具備更高意識，以當前所需的謹慎態度來審視 AI 的指導。