유방암 선별 검사에서 AI가 늦은 진단을 12% 줄인다고 연구 결과

획기적인 연구: 인공지능(artificial intelligence, 이하 AI)이 유방암 누락을 12% 줄이다

오늘 The Lancet에 발표된 획기적인 연구는 인공지능이 유방암 선별 검사 결과를 상당히 개선할 수 있다는 가장 강력한 증거를 제시했다. 100,000명 이상의 여성이 참여한 스웨덴의 MASAI 시험은 인공지능 지원 유방촬영술이 방사선과 전문의의 업무량을 줄일 뿐만 아니라, 무엇보다도 정기 검진 사이에 발견되는 종양인 "인터벌 암 (interval cancers)"의 비율을 12% 감소시킨다는 사실을 보여주었다.

이 발견은 의료 영상 분야에서 중요한 분기점으로, 인공지능을 실험적 보조 도구에서 공격적 종양을 더 일찍 발견해 생명을 구할 수 있는 임상적으로 검증된 도구로 이동시켰다.

인터벌 암 문제에 대응하기

수십 년 동안 "인터벌 암"(인터벌 암) 발생률은 유방암 선별에서 가장 해결하기 힘든 지표 중 하나였다. 인터벌 암은 여성이 유방촬영 검사에서 "정상 판정"을 받았지만 다음 예정된 검사 전 사이에 진단되는 암을 말한다. 인터벌 암은 종종 더 공격적이고 성장 속도가 빠르며, 검진 중 발견된 암보다 예후가 더 나쁜 경향이 있다.

MASAI(유방촬영술(Mammography)과 인공지능을 이용한 스크리닝) 시험의 새로운 데이터는 이 중요한 간극을 해결한다. 연구에서는 인공지능 지원 그룹에서 인터벌 암 발생률이 여성 1,000명당 1.55인 반면, 두 명의 방사선과 전문의가 표준 이중 판독을 수행한 대조군에서는 여성 1,000명당 1.76이라고 보고했다.

통계적으로 12% 감소는 겸손하게 보일 수 있지만, 인구 기반 선별의 맥락에서는 말기 진단을 받는 여성 수가 실질적으로 크게 줄어드는 것을 의미한다.

Dr. Kristina Lång, 본 연구의 책임저자이자 룬드 대학교 진단영상의학과 부교수는 이러한 발견의 임상적 중요성을 다음과 같이 강조했다:

"인터벌 암의 감소는 검진 개선의 성배입니다. 이는 보통 망망대해를 빠져나가는 종양들, 즉 빠르게 성장하고 종종 가장 집중적인 치료를 필요로 하는 종양들을 잡아낸다는 뜻입니다. 인공지능은 이러한 공격적 아형(亞型)을 그 어느 때보다 더 일찍 식별하는 데 도움을 주고 있습니다."

MASAI 임상시험: 방법론 및 규모

이 시험은 스웨덴에서 수행된 것으로, 장기 인터벌 암 결과를 보고한 최초의 무작위 대조시험이다. 2021년 4월부터 2022년 12월까지 연구자들은 국가 유방암 선별 프로그램에 참여한 100,000명의 여성을 등록했다. 참가자들은 무작위로 다음 두 그룹 중 하나에 배정되었다:

인공지능 지원 스크리닝(중재): 유방촬영 이미지는 인공지능 시스템에 의해 분석되어 위험 점수(1–10)를 부여받았다.
- 저위험 스캔(점수 1–9): 단일 방사선과 전문의가 검토했다.
- 고위험 스캔(점수 10): 두 명의 방사선과 전문의가 검토했으며, 인공지능 시스템이 의심 부위를 강조 표시(Computer-Aided Detection 표시)했다.
표준 스크리닝(대조): 모든 유방촬영은 인공지능의 도움 없이 두 명의 방사선과 전문의가 검토했다(이중 판독).

인공지능 시스템은 선별 도구이자 진단적 안전망으로 작용하여, 더 깊은 인간의 전문지식이 필요한 사례에 우선순위를 두는 한편 저위험 스캔에 대해서는 워크플로를 간소화했다.

안전성을 훼손하지 않는 효율성

의료에 인공지능을 통합하는 것에 대한 주요 우려 중 하나는 "위양성(false positives)"의 증가 가능성이다. 이는 암이 없는 환자에게 불필요한 불안과 생검으로 이어지는 경보를 유발할 수 있다. MASAI 시험 결과는 이러한 우려를 불식시킨다.

연구는 두 그룹 간 위양성률의 임상적으로 유의한 증가를 보고하지 않았다(인공지능 그룹 1.5% vs. 대조군 1.4%). 더 나아가, 인공지능 지원 워크플로는 운영 효율성에서 큰 개선을 보여주었다. 저위험 사례에 대해 단독 판독을 허용함으로써 프로토콜은 방사선과 전문의의 스크린 판독 업무량을 약 44% 줄였다.

이러한 효율성 향상은 전 세계적인 방사선과 전문의 부족 상황에서 특히 시기적절하다. 영국과 유럽에서는 선별 프로그램이 큰 압박을 받고 있어 진단 지연으로 이어지는 경우가 많다. MASAI 시험은 인공지능이 진단 정확도를 희생하지 않으면서 기존 인력의 업무 처리 능력을 사실상 두 배로 늘릴 수 있음을 시사한다.

상세 결과 개요

다음 표는 시험 동안 관찰된 주요 성능 지표를 요약한 것이다:

Metric	AI-Supported Screening	Standard Double Reading	Impact
Interval Cancer Rate	여성 1,000명당 1.55	여성 1,000명당 1.76	12% 감소
Cancer Detection Rate	여성 1,000명당 6.1	여성 1,000명당 5.1	20% 증가
False Positive Rate	1.5%	1.4%	미미한 차이
Radiologist Workload	~46,000건 판독	~83,000건 판독	44% 감소
Recall Rate	2.2%	2.0%	약간 증가

전 세계 보건의료에 대한 시사점

이 결과가 *The Lancet*에 게재됨에 따라 전 세계적으로 인공지능 기반 스크리닝 도구의 규제 승인과 도입이 가속화될 것으로 예상된다. 이전 연구들은 인공지능이 회고적 테스트(과거 스캔을 보는 시험)에서는 인간의 성능과 비슷할 수 있음을 보여주었지만, MASAI 시험은 실제 임상 환경에서의 "골드 스탠더드" 증거를 제공한다.

의료 제공자들은 이제 이러한 시스템을 기존 워크플로에 통합하는 방법을 검토하고 있다. 연구에서 사용된 "선별(triage)" 모델은 인공지능이 저위험 사례를 필터링하는 방식으로, 즉시 구현하기에 가장 실현 가능성이 높은 경로로 보인다.

다만 전문가들은 인공지능이 인간 의사를 대체하는 것이 아니라고 경고한다. 대신 피로하지 않는 "초전문가" 동료로 기능한다. 인공지능은 잠재적 문제 영역을 강조 표시하여, 방사선과 전문의가 피로나 조직의 복잡성 때문에 놓칠 수 있는 미세한 이상을 더 면밀히 살펴보도록 유도한다.

향후 전망

2026년을 지나면서 초점은 "작동하는가?"에서 "어떻게 배포할 것인가?"로 옮겨갈 가능성이 높다. 데이터 프라이버시, 다양한 민족성 간의 알고리즘 편향(algorithm bias), 기술 인프라에 관한 질문들이 남아 있다. MASAI 시험 참가자들은 주로 스웨덴의 특정 인구 집단에 속했기 때문에, 보다 다양한 인구에서의 검증이 다음 단계로 필요할 것이다.

그럼에도 불구하고 인터벌 암의 감소는 결정적인 증거로 남는다. 가장 위험한 암을 증상이 나타나기 전에 12% 더 많이 잡아냄으로써, 인공지능 지원 스크리닝은 수천 명의 생명을 구하고 종양학의 치료 표준을 재정의할 태세를 갖추고 있다.