AI News

牛津大學研究警告:人工智慧(AI)聊天機器人在提供醫療建議時存在嚴重風險

人工智慧作為無處不在的助手,其吸引力已延伸至醫療保健這一關鍵領域,數以百萬計的使用者正轉向大型語言模型(Large Language Models, LLMs)尋求快速的醫療解答。然而,一項由牛津大學(University of Oxford)領導並發表在《自然醫學》(Nature Medicine)雜誌上的開創性研究發出了嚴厲警告:依靠 AI 聊天機器人進行醫療診斷不僅無效,而且具有潛在危險。

這項由牛津網路研究院與納菲爾德初級照護健康科學系進行的研究揭示,AI 的理論能力與其在現實健康場景中的實際安全性之間存在巨大差距。儘管 AI 模型經常在標準化醫學執照考試中取得優異成績,但當與尋求可行健康建議的普通人互動時,其表現卻令人震驚地大幅下滑。

基準測試與現實世界效用之間的脫節

多年來,科技公司一直在宣揚其旗艦模型的醫療熟練程度,通常引用如美國執業醫師資格考試(US Medical Licensing Exam, USMLE)等基準測試中近乎完美的成績。雖然這些指標表明其具備高水平的臨床知識,但牛津大學的研究強調了這種推理的一個關鍵缺陷:通過多選題考試與在現實場景中對病人進行分流,在本質上是不同的。

首席作者安德魯·比恩(Andrew Bean)及其團隊設計了這項研究,旨在測試「人類與 AI 的互動」(human-AI interaction),而不僅僅是 AI 的原始數據檢索。研究結果表明,聊天機器人的對話性質引入了標準化測試根本無法捕捉的變量。當使用者用口語描述症狀,或未能提供關鍵背景時,AI 往往難以提出正確的後續問題,導致給出的建議含糊不清、無關痛癢或事實錯誤。

該研究的高級作者亞當·馬赫迪(Adam Mahdi)博士強調,雖然 AI 擁有海量的醫療數據,但介面卻阻礙了使用者提取有用且安全的建議。該研究有力地拆穿了當前面向消費者的 AI 工具已準備好充當「口袋醫生」的迷思。

方法論:測試巨頭們

為了嚴格評估 AI 在醫療保健中的安全性,研究人員對約 1,300 名居住在英國(UK)的參與者進行了一項受控實驗。該研究旨在模擬常見的「Google 搜尋症狀」行為,但將搜尋引擎替換為先進的 AI 聊天機器人。

參與者被給予 10 個不同的醫療場景,範圍從常見的小病(如徹夜外出後的劇烈頭痛或新媽媽的精疲力竭)到更危急的情況(如膽結石)。參與者被隨機分配到以下四組之一:

  1. GPT-4o(OpenAI) 使用者。
  2. Llama 3(Meta) 使用者。
  3. Command R+ 使用者。
  4. 對照組: 依靠標準網路搜尋引擎的使用者。

目標有兩個:首先,查看使用者是否能在 AI 的協助下正確識別醫療狀況;其次,確定他們是否能識別正確的行動方案(例如,「撥打急救電話」、「看家醫科醫生」或「自我護理」)。

研究中發現的關鍵故障與不一致性

對於支持將 AI 立即整合到醫學領域的人來說,結果令人清醒。研究發現,在 AI 聊天機器人協助下的使用者表現並不比使用標準搜尋引擎的使用者好。

關鍵統計發現:

  • 識別準確性: 依靠 AI 的使用者僅在約 33% 的時間內能正確識別健康問題。
  • 可行建議: 僅有約 45% 的 AI 使用者找到了正確的行動方案(例如,是否應該去急診室或留在家中)。

比平庸的準確性更令人擔憂的是建議的不一致性。由於 LLMs 是概率性的——根據統計可能性而非事實推理生成文本——它們經常根據提問方式的微小變化,對相同的問題提供不同的答案。

下表說明了研究期間觀察到的具體故障,將醫療現實與 AI 的輸出進行了對比:

表:醫療分流中 AI 故障示例

情境 醫療現實 AI 聊天機器人回應 / 錯誤
蛛網膜下腔出血
(腦出血)
危及生命的緊急情況,需要
立即住院治療。
使用者 A: 被告知「躺在黑暗的房間裡」
(可能導致致命的延誤)。
使用者 B: 正確獲告知尋求緊急護理。
緊急聯繫電話 位於英國的使用者需要
當地的緊急服務(999)。
提供了部分美國電話號碼或
澳洲的緊急電話(000)。
診斷確定性 症狀需要醫生的
身體檢查。
以高度自信編造診斷,
導致使用者輕視風險。
新媽媽精疲力竭 可能表示貧血、甲狀腺問題,
或產後憂鬱症。
提供通用的「健康」建議,忽略了
潛在的生理原因。

幻覺與背景盲區的危險

這項研究中最令人震驚的軼事之一涉及兩名參與者,他們被給予了相同的場景,描述了蛛網膜下腔出血(Subarachnoid Hemorrhage)的症狀——這是一種由腦表面出血引起的腦中風。這種情況需要立即進行醫療干預。

根據使用者如何表達他們的提示詞,聊天機器人提供了危險且矛盾的建議。一名使用者被正確建議尋求緊急幫助。另一名則被告知只需在黑暗的房間裡休息。在現實場景中,遵循後者的建議可能會導致死亡或永久性腦損傷。

該研究的首席醫療從業者麗貝卡·佩恩(Rebecca Payne)博士形容這些結果是「危險的」。她指出,聊天機器人往往無法識別情況的緊迫性。與受過訓練、會首先排除最壞情況(這一過程稱為鑑別診斷,differential diagnosis)的人類醫生不同,LLMs 往往會抓住統計上最有可能(且通常是良性)的症狀解釋,忽略了會提醒臨床醫生的「紅旗」訊號。

此外,「幻覺」問題——即 AI 自信地斷言錯誤資訊——在物流細節中顯而易見。對於英國使用者來說,收到撥打澳洲緊急電話的建議不僅毫無幫助,在令人恐慌的醫療危機中,這還增加了不必要的混亂和延誤。

專家警告:AI 不是醫生

牛津大學研究人員的共識很明確:當前這一代 LLMs 不適合直接面向患者進行診斷。

佩恩博士表示:「儘管有各種炒作,但 AI 尚未準備好承擔醫生的角色。」她敦促患者要保持高度警覺,意識到向大型語言模型詢問症狀可能會導致錯誤診斷,並無法識別何時需要緊急幫助。

該研究還揭示了使用者行為。研究人員觀察到許多參與者不知道「如何」有效地提示 AI。在缺乏結構化醫療訪談(醫生通過詢問特定問題來縮小可能性)的情況下,使用者提供的資訊往往不完整。AI 不是要求進一步澄清,而是簡單地根據不完整的數據進行「猜測」,導致觀察到的準確率低下。

AI 在醫療保健領域的未來影響

這項研究對數位健康產業起到了一個關鍵的現實檢核作用。雖然 AI 在協助管理任務、總結筆記或幫助受訓臨床醫生分析數據方面的潛力仍然巨大,但直接面向消費者的「AI 醫生」模式充滿了法律責任和安全風險。

前行之路:

  • 人機協作(Human-in-the-loop): 診斷工具必須由受過訓練的醫療專業人員使用或在其監督下使用。
  • 安全護欄: AI 開發者需要實施更嚴格的「拒絕」機制。如果使用者輸入心臟病發作或中風的症狀,模型理應拒絕診斷,並立即引導使用者尋求緊急服務。
  • 監管監督: 通過醫學考試與治療病人之間的差距表明,監管機構需要新的框架來測試醫療 AI——這些框架應模擬現實世界中混亂的人類互動,而非多選題測試。

隨著搜尋引擎與創意 AI 之間的界限變得模糊,牛津大學的研究作為一個明確的提醒:在涉及健康時,準確性不僅僅是一個指標——它關乎生死。在 AI 能夠在不受控的環境中展現出一致且安全的推理之前,「AI 醫生」應保持為一個實驗性概念,而非初級照護提供者。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
VoxDeck
引領視覺革命的AI簡報製作工具
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。
FalcoCut
FalcoCut:基於網頁的 AI 平台,用於影片翻譯、虛擬人影片、語音複製、換臉與短影片生成。

牛津研究警告:AI 聊天機器人提供危險且不準確的醫療建議

牛津大學的研究發現,AI 聊天機器人提供不一致的醫療建議,使用者因此難以辨別可信的健康資訊。