
在一項揭露人工智慧在醫療領域可靠性問題的重要發展中,一項新研究發現 Google 的 AI Overviews 存在重大缺陷。該生成式 AI(Generative AI)功能會在頁面頂端摘要搜尋結果,研究指出,在回答健康相關查詢時,它引用 YouTube 的頻率高於任何已建立的醫療網站。這種對使用者生成影片內容的依賴,加上已記錄的「完全錯誤」醫療建議案例,促使專家警告這可能成為日益嚴重的公共衛生風險。
這場爭議凸顯出 AI 產業的一個關鍵張力:生成式搜尋的可取得性與關乎生死或財務(Your Money or Your Life,YMYL)議題所需之嚴格準確性之間的衝突。對 AI 與 SEO 領域的專業人士而言,這些發現提供了一個鮮明的個案研究,說明在未設足夠護欄的情況下,檢索增強生成(Retrieval-Augmented Generation,RAG)套用於敏感領域的限制。
爭議的核心來自搜尋引擎優化平台 SE Ranking 所做的全面分析。該研究分析了德國超過 50,000 個健康相關搜尋查詢,以釐清供應 Google AI Overviews 的資料來源。對醫療界許多人而言,這些發現出乎意料:YouTube 成為被引用次數最多的單一網域。
資料顯示,在所分析的 AI Overviews 中,YouTube 佔所有引用的 4.43%。雖然就單一百分比而言這數字看似不大,但它超越了其他所有個別來源,包括主要醫院網絡、政府健康入口網站與學術機構。作為對照,第二多被引用的來源是一家德國廣播公司,其次是有聲譽的 MSD Manuals。
研究人員認為,這種分布有問題,因為 YouTube 本質上是一個通用的影片平台。與經過同儕審查的醫學期刊或政府健康網站不同,YouTube 的內容生態對任何人開放——從董事會認證的外科醫師到健康網紅以及未經驗證的創作者皆可發佈內容。雖然平台上存在有價值的醫療內容,但算法對高互動影片內容的偏好似乎已滲入旨在提供事實性健康答案的 AI 摘要中。
表 1:Google AI Overviews 在健康查詢中被引用最多的來源
| 來源網域 | 引用百分比 | 來源類別 |
|---|---|---|
| YouTube.com | 4.43% | 使用者生成影片平台 |
| NDR.de | 3.04% | 公共廣播(新聞/媒體) |
| MSDManuals.com | 2.08% | 專業醫學參考 |
| Apotheken-umschau.de | 1.85% | 健康雜誌/入口網站 |
| Netdoktor.de | 1.56% | 健康資訊入口網站 |
彙總後的差距更令人擔憂。研究指出,學術期刊與政府健康機構——可以說是醫療準確性的黃金標準——合計僅佔所有引用的大約 1%。這顯示 AI 的選擇標準可能高度偏重內容的受歡迎程度、可取得性與多媒體互動性,而非嚴格的醫學權威性。
專家認為,危險不僅在於資訊來源,還在於呈現方式。AI Overviews 以研究人員所謂的「自信權威」語氣呈現資訊。這些摘要常以確定、客觀的語調撰寫,模仿醫生或醫學百科全書的口吻。這種呈現方式可能讓使用者放鬆警惕,不去點擊底層來源加以驗證。
近期調查發現了這種「自信」錯誤資訊的驚人範例。在一個特別危險的個案中,專家指出 Google 的 AI Overview 建議胰臟癌病人避免高脂食物。醫療專業人士迅速指出,這類建議往往與對該類病人的推薦相反——這些病人常難以維持體重,且需要高熱量飲食。遵從此類建議可能加速身體衰弱。
另一個案例涉及對肝功能檢驗的查詢。AI 提供了關於肝臟血液檢驗正常參考範圍的「錯誤」資訊。關鍵在於,AI 未能考量病人的年齡、性別或族裔等上下文——這些因素會顯著影響何者被視為「正常」。透過提出單一、通用的數值作為決定性答案,AI 可能讓健康個體誤以為自己有病,或反之讓患有嚴重肝病的人忽視其症狀。
表 2:已記錄的 AI 醫療錯誤資訊個案
| 醫療主題 | AI Overviews 建議 | 醫療專家共識 | 潛在風險因素 |
|---|---|---|---|
| 胰臟癌飲食 | 建議病人 避免 高脂食物。 | 病人通常需要高脂/高熱量飲食以防止體重下降。 | 營養不良、身體衰弱加速。 |
| 肝功能檢驗 | 提供通用的「正常」範圍,未說明上下文。 | 正常範圍會依年齡、性別與族裔而異。 | 陽性誤判(焦慮)或陰性誤判(漏診)。 |
| 腎結石 | 建議飲用尿液(歷史性幻覺)。 | 標準治療為以水補充水分。 | 感染、中毒、病況惡化。 |
對於這些擔憂,Google 為其 AI Overviews 的完整性進行辯護。公司一名發言人表示,該功能旨在從可信來源浮現高品質內容,無論其格式為何。Google 強調「報告本身的資料反駁了 AI Overviews 提供不可靠資訊的暗示」。
Google 指出 SE Ranking 資料的一個特定子集,並提到在被引用次數前 25 名的 YouTube 影片中,96% 來自醫療頻道,例如醫院、診所與健康組織。公司主張,僅因來源為 YouTube 並不代表內容不可靠。許多領先的健康機構,如 Mayo Clinic 與 Cleveland Clinic,都經營穩健的 YouTube 頻道以接觸更廣泛的受眾。
然而,研究背後的學者對此防禦持保留態度。雖然前 25 名影片可能已驗證,但它們只代表 AI 被引用的數千個 YouTube 連結中的「一小片」——不到 1%。引用的「長尾」大多未經驗證。如果 AI 檢索到一則來自推廣偽科學療法的健康網紅影片,僅因該影片擁有數百萬觀看與高互動就被採用,則潛在危害仍相當重大。研究人員指出,能見度與受歡迎程度似乎是算法在健康知識上主要的驅動因子,在較不常見的查詢中可能會凌駕於醫學可靠性之上。
對 AI 開發者與 SEO 專家而言,這一情況凸顯了解決關乎生死或財務(Your Money or Your Life,YMYL)議題時所面臨的巨大難題。多年來,Google 的傳統搜尋算法在健康與財務主題上採用了更嚴格的排名信號,優先考量 E‑E‑A‑T(經驗、專業、權威性與可信度,Experience, Expertise, Authoritativeness, and Trustworthiness)。
向生成式 AI 的過渡似乎繞過了一些既有的安全層。大型語言模型(LLMs)是機率引擎;它們基於訓練資料與檢索到的上下文,預測下一個最可能出現的詞彙。它們並不像經過審核的資料庫那樣「知道」醫學知識。當 LLM 檢索到一段流行 YouTube 影片的逐字稿來構建答案時,它可能難以區分有魅力的意見領袖的雄辯自信與醫學論文的臨床精確性。
此外,這些引用的「黑箱」(black box)性質使問責變得複雜。與標準搜尋結果清單不同,在那裡使用者可以清楚看到網域(例如 .gov 與 .com),AI Overview 將資訊混合成一個連貫敘述。引用連結往往只是小圖示或腳註,對於尋求快速答案的使用者而言很容易被忽略。
SE Ranking 針對德國醫療系統所做的研究結果,對全球 AI 法規具有更廣泛的意涵。德國對醫療環境有嚴格的規範,但 AI 仍優先採用非權威來源。這顯示問題是技術性且系統性的,並非地方網路生態的反映。
此爭議發生之時,歐盟與美國的監管機關正審視 AI 在關鍵基礎設施與公共安全中的角色。如果 AI 搜尋引擎成為「未受規範的醫療權威」,它們可能面臨類似遠距醫療提供者或醫學出版機構的合規要求。
對 AI 產業而言,這是關於「定錨」(Grounding)的一記警鐘——也就是將 AI 回應錨定於事實來源的過程。目前對一般網路索引的依賴,使得能見度經常與受歡迎程度相關,這在敏感垂直領域可能需要全面改造。我們或許會看到針對健康查詢採用「封閉式檢索增強生成」系統(Walled Garden RAG),即 AI 僅限從一份經驗證的醫療域名白名單(例如 PubMed、WHO、CDC)檢索資訊,明確排除像 YouTube 與 Reddit 這類使用者生成內容的平台,無論其 SEO 排名如何。
在 Google 繼續精進其搜尋生成體驗(Search Generative Experience)之際,使用者便利性與安全之間的平衡仍然岌岌可危。影片內容納入 AI 回答反映了使用者對具吸引力媒體的偏好,但在醫療情境中它也引入了一層波動性,這是危險的。
在 AI 模型能可靠區分病毒影片與同儕審查研究之前,AI Overviews 的「自信權威」仍是一把雙面刃。就目前而言,專家們的建議明確無誤:在健康議題上,使用者應對 AI 摘要抱持高度懷疑,並將所有建議與傳統的權威醫療來源核對。這項技術已經革新了我們取得資訊的方式,但在生死攸關之事上,受歡迎程度絕非真理的良好代理指標。