
의료 분야에서 인공지능의 신뢰성을 문제제기하는 중요한 전개에서, 새로운 연구는 Google의 AI 개요(AI Overviews)에서 심각한 결함을 확인했습니다. 검색 결과 상단에 요약을 제공하는 생성형 AI(Generative AI) 기능은 건강 관련 질의에 답할 때 기존의 의료 웹사이트보다 YouTube를 더 자주 인용하는 것으로 밝혀졌습니다. 사용자 제작 비디오 콘텐츠에 대한 이러한 의존과 “완전히 잘못된” 의료 조언 사례들이 문서화된 사실은 전문가들로 하여금 증가하는 공중보건 위험을 경고하게 만들었습니다.
이 논란은 AI 업계의 중요한 긴장을 드러냅니다. 즉, 생성형 검색의 접근성 대 "당신의 돈 또는 생명" 주제(YMYL(당신의 돈 또는 생명, Your Money or Your Life))에 요구되는 엄격한 정확성 사이의 갈등입니다. AI 및 SEO 분야의 전문가들에게 이번 발견은 충분한 안전장치 없이 민감한 영역에 적용된 검색 증강 생성(Retrieval-Augmented Generation, RAG)의 한계를 보여주는 명확한 사례 연구를 제공합니다.
논란의 핵심은 검색 엔진 최적화 플랫폼인 SE Ranking이 수행한 포괄적인 분석에서 비롯됩니다. 이 연구는 독일에서 50,000건이 넘는 건강 관련 검색 질의를 분석하여 Google의 AI 개요에 정보를 공급한 출처를 확인했습니다. 의료계 많은 이들에게 그 결과는 예상 밖이었습니다. YouTube가 단일 도메인 중 가장 많이 인용되는 것으로 나타났습니다.
데이터에 따르면, YouTube는 분석된 AI 개요의 모든 인용 중 **4.43%**를 차지했습니다. 이 비율은 단독으로 보면 작아 보일 수 있지만, 주요 병원 네트워크, 정부 보건 포털, 학술 기관을 포함한 다른 개별 출처들을 모두 능가했습니다. 참고로 두 번째로 많이 인용된 출처는 독일의 방송사였고, 그 다음은 신뢰받는 MSD Manuals였습니다.
연구자들은 이러한 분포가 문제적이라고 주장했습니다. YouTube는 근본적으로 일반 목적의 비디오 플랫폼이기 때문입니다. 동료평가된 의학 저널이나 정부 보건 사이트와 달리, YouTube의 콘텐츠 생태계는 이사회 인증 외과의사부터 웰니스 인플루언서, 검증되지 않은 제작자까지 누구나 접근할 수 있습니다. 플랫폼에는 가치 있는 의료 콘텐츠도 존재하지만, 높은 참여도를 보이는 비디오 콘텐츠에 대한 알고리즘적 선호가 사실 기반의 건강 답변을 제공하려는 AI 요약에 침투하고 있는 것으로 보입니다.
표 1: 건강 질의에 대한 Google AI 개요의 상위 인용 출처
| Source Domain | Percentage of Citations | Source Category |
|---|---|---|
| YouTube.com | 4.43% | 사용자 생성 비디오 플랫폼 |
| NDR.de | 3.04% | 공영 방송(뉴스/미디어) |
| MSDManuals.com | 2.08% | 전문 의료 참고자료 |
| Apotheken-umschau.de | 1.85% | 건강 잡지/포털 |
| Netdoktor.de | 1.56% | 건강 정보 포털 |
집계하면 상황은 더욱 우려스럽습니다. 연구는 학술 저널과 정부 보건 기관—의학적 정확성의 사실상 기준—이 전체 인용의 약 1%만을 차지한다고 지적했습니다. 이는 AI의 선택 기준이 엄격한 의료 권위성보다 콘텐츠 인기, 접근성 및 멀티미디어 참여도에 크게 치중되어 있을 가능성을 시사합니다.
전문가들에 따르면 위험은 단순히 정보의 출처에만 있는 것이 아니라 전달 방식에도 있습니다. AI 개요는 연구자들이 "확신에 찬 권위"라고 표현하는 어조로 정보를 제시합니다. 요약은 종종 의사나 의학 백과사전의 어조를 모방한 확정적이고 객관적인 언어로 작성됩니다. 이러한 표현은 사용자를 잘못된 안심 상태로 이끌어 기본 출처를 확인하기 위해 링크를 클릭하지 않게 만들 수 있습니다.
최근 조사에서는 이러한 "확신에 찬" 오정보의 놀라운 사례들이 드러났습니다. 전문가들이 지적한 특히 위험한 사례 중 하나에서 Google의 AI 개요는 췌장암 환자들에게 고지방 음식을 피하라고 권고했습니다. 의료 전문가들은 이 조언이 종종 해당 환자들에게 권장되는 것과 정반대라고 신속히 지적했습니다. 췌장암 환자들은 체중 유지에 어려움을 겪고 고칼로리 식단이 필요한 경우가 많습니다. 이러한 조언을 따르면 신체 쇠약이 가속화될 수 있습니다.
또 다른 사례는 간 기능 검사에 관한 질의였습니다. AI는 간 혈액 검사에 대한 정상 참고 범위를 "허위"로 제공했습니다. 중요한 점은 AI가 환자의 연령, 성별, 인종과 같은 맥락을 고려하지 못했다는 것입니다—이들 요인은 정상으로 간주되는 범위에 큰 영향을 미칩니다. 단일의 일반화된 수치 집합을 결정적 답으로 제시함으로써, AI는 건강한 사람들로 하여금 자신이 병에 걸렸다고 믿게 하거나, 반대로 심각한 간 질환을 가진 이들이 증상을 무시하게 만들 수 있습니다.
표 2: 문서화된 AI 의료 오정보 사례
| Medical Topic | AI Overview Advice | Expert Medical Consensus | Potential Risk Factor |
|---|---|---|---|
| Pancreatic Cancer Diet | 환자에게 고지방 음식을 피하라고 권고했다. | 환자들은 종종 체중 감소를 방지하기 위해 고지방/고칼로리 식단이 필요하다. | 영양실조, 신체 쇠약의 가속화. |
| Liver Function Tests | 맥락 없이 일반화된 "정상" 범위를 제시했다. | 정상 범위는 연령, 성별, 인종에 따라 다르다. | 거짓 양성(불안) 또는 거짓 음성(진단 누락). |
| Kidney Stones | 소변을 마시라고 권장(역사적 환각 사례). | 표준 치료는 물을 통한 수분 보충이다. | 감염, 독성, 상태 악화. |
이러한 우려에 대해 Google은 자사 AI 개요의 무결성을 방어했습니다. 회사 대변인은 이 기능이 형식과 관계없이 신뢰할 수 있는 출처의 고품질 콘텐츠를 노출하도록 설계되었다고 밝혔습니다. Google은 "AI 개요가 신뢰할 수 없는 정보를 제공한다"는 주장은 보고서 자체의 데이터에 의해 반박된다고 강조했습니다.
Google은 SE Ranking 데이터의 특정 하위 집합을 지적하면서, 가장 많이 인용된 상위 25개 YouTube 동영상 중 **96%**가 병원, 클리닉, 보건 기관과 같은 의료 채널에서 나온 것이라고 밝혔습니다. 회사는 출처가 YouTube라는 이유만으로 콘텐츠가 신뢰할 수 없다고 단정할 수 없다고 주장합니다. Mayo Clinic이나 Cleveland Clinic과 같은 주요 보건 기관은 더 넓은 대중에게 다가가기 위해 활발한 YouTube 채널을 운영합니다.
그러나 해당 연구를 수행한 연구진은 이러한 방어에 대해 주의를 촉구했습니다. 상위 25개 동영상은 검증되었을지 모르지만, 이는 AI가 인용한 수천 개 YouTube 링크 중 '매우 작은 조각'—1% 미만—에 불과합니다. 인용의 "롱테일"은 대체로 검증되지 않은 상태로 남아 있습니다. 알고리즘이 조회수와 높은 참여를 이유로 유사과학적 치료법을 홍보하는 웰니스 인플루언서의 영상을 검색해 가져온다면, 피해 가능성은 여전히 큽니다. 연구자들은 가시성과 인기도가 알고리즘에서 건강 지식의 중심 동인으로 보이며, 드문 질의의 경우 의료 신뢰성을 무시할 수 있다고 지적했습니다.
AI 개발자와 SEO 전문가들에게 이 상황은 생성 모델로 YMYL(당신의 돈 또는 생명, Your Money or Your Life) 문제를 해결하는 것이 얼마나 어려운지를 상기시킵니다. 수년간 Google의 전통적 검색 알고리즘은 보건 및 금융 주제에 대해 더 엄격한 랭킹 신호를 적용해 왔으며, E-E-A-T(경험, 전문성, 권위성 및 신뢰성, Experience, Expertise, Authoritativeness, and Trustworthiness)를 우선시해 왔습니다.
생성형 AI로의 전환은 이러한 확립된 안전 계층의 일부를 우회한 것으로 보입니다. 대규모 언어 모델(Large Language Models, LLMs)은 확률적 엔진입니다; 이들은 훈련 데이터와 검색된 문맥을 바탕으로 다음에 올 단어를 예측합니다. 이들은 검증된 데이터베이스가 갖는 방식으로 의학을 "알고" 있지 않습니다. LLM이 답변을 구성하기 위해 인기 있는 YouTube 동영상의 전사(transcript)를 검색해 가져올 때, 카리스마 있는 인플루언서의 수사적 확신과 의학 논문의 임상적 정확성을 구별하는 데 어려움을 겪을 수 있습니다.
더욱이 이러한 인용의 "블랙박스"적 특성은 책임 소재를 복잡하게 만듭니다. 사용자가 도메인(예: .gov 대 .com)을 명확히 볼 수 있는 표준 검색 결과 목록과 달리, AI 개요는 정보를 응집된 서사로 혼합합니다. 인용 링크는 종종 작은 파비콘이나 각주 형태로 표시되어, 빠른 답을 찾는 사용자가 쉽게 지나치기 쉽습니다.
SE Ranking 연구의 결과는 독일 의료 시스템을 중심으로 했지만, 이는 전 세계 AI 규제에 더 광범위한 함의를 가집니다. 독일은 엄격히 규제된 의료 환경을 가지고 있음에도 불구하고 AI는 여전히 비권위적 출처를 우선시했습니다. 이는 문제가 지역 웹 생태계의 반영이라기보다 AI 모델에 기술적·체계적으로 내재한 문제임을 시사합니다.
이 논란은 유럽연합과 미국의 규제 당국이 중요 인프라와 공공 안전에서 AI의 역할을 면밀히 검토하는 시점에 발생했습니다. AI 검색 엔진이 '비규제 의료 권위'로 기능한다면, 원격의료 제공자나 의료 출판사에게 부과되는 것과 유사한 새로운 준수 요구를 받을 수 있습니다.
AI 업계에는 이 문제가 "그라운딩(Grounding)"—AI 응답을 사실적 출처에 고정하는 과정—과 관련한 경종으로 다가옵니다. 인기와 가시성이 종종 가시성으로 연결되는 일반 웹 인덱스에 현재 의존하는 방식은 민감한 분야에서는 전면 개편이 필요할 수 있습니다. 향후에는 건강 질의에 대해 AI가 검증된 의료 도메인(예: PubMed, WHO, CDC)만을 검색하도록 제한하는 '격리형 RAG 시스템(‘Walled Garden’ 방식)'으로의 전환이 이루어질 가능성이 있습니다. 이 경우 YouTube나 Reddit과 같은 사용자 제작 콘텐츠 플랫폼은 SEO 순위와 상관없이 명시적으로 제외될 수 있습니다.
Google이 검색 생성 경험(Search Generative Experience)을 계속해서 다듬어 가는 가운데, 사용자 편의성과 안전성 사이의 균형은 여전히 위태롭습니다. 비디오 콘텐츠의 AI 답변 통합은 사용자가 선호하는 흥미로운 미디어를 반영하지만, 의료 맥락에서는 변동성을 도입하여 위험을 초래합니다.
AI 모델이 바이럴 동영상과 동료평가 연구를 신뢰할 수 있게 구별할 수 있을 때까지, AI 개요의 "확신에 찬 권위"는 양날의 검으로 남아 있습니다. 당분간 전문가들의 조언은 분명합니다: 건강에 관해서는 AI 요약을 극도로 회의적으로 받아들이고 모든 조언을 전통적이고 권위 있는 의료 출처와 대조 검증하라는 것입니다. 기술은 우리가 정보에 접근하는 방식을 혁신했지만, 생명과 관련된 문제에서 인기는 진실을 대체하는 나쁜 대리인입니다.