딥러닝 vs. 영상의학과 의사 — 헤드라인이 말하지 않는 것들

또 다른 "AI가 의사를 이겼다"는 헤드라인

2020년 초, Google DeepMind는 AI 시스템이 유방 촬영술에서 유방암 탐지에 관해 영상의학과 의사들을 능가했다는 Nature 논문을 발표했습니다. 언론의 반응은 예상대로 열광적이었습니다.

이것은 새로운 현상이 아니었습니다. 같은 패턴이 몇 년 동안 반복되어 왔습니다.

Stanford의 Andrew Ng 그룹은 흉부 X선 판독을 위한 DenseNet 변형인 CheXNet을 발표하며, 자신들의 시스템이 영상의학과 의사보다 폐렴을 더 잘 진단할 수 있다는 트윗을 올렸습니다. 주목할 점은, 데이터셋의 12개 이상의 병리 중 AI가 인간을 능가한 것은 폐렴이 유일했지만 — 그들이 강조하기로 선택한 것은 바로 그 하나였다는 사실입니다.

서울대학교병원 박창민 교수팀의 연구는 더 미묘한 사실을 보여주었습니다: 흉부 영상 분야의 전문성이 낮을수록 AI 보조의 혜택이 더 컸습니다. 비영상의학과 의사들이 가장 큰 혜택을 받았고, 일반 영상의학과 의사들은 중간 정도, 흉부 세부전공 영상의학과 의사들은 가장 적은 혜택을 받았습니다. 이는 직관적으로 이해가 됩니다 — 정답 레이블이 흉부 세부전공 의사들에 의해 만들어졌으므로, AI는 본질적으로 그들의 수행 수준을 근사하도록 학습하고 있었던 것입니다.

Majkowska 등의 Radiology 논문은 딥러닝 알고리즘이 기흉, 폐결절, 기도 음영, 늑골 골절 등 네 가지 일반적인 소견에서 일반 영상의학과 의사 수준에 필적하도록 훈련될 수 있음을 보여주었습니다.

AI가 특정하고 잘 정의된 작업에서 영상의학과 의사 수준에서 또는 그에 가깝게 수행할 수 있다는 근거는 상당합니다. 하지만 이것이 딥러닝 알고리즘이 숙련된 영상의학과 의사의 진단 능력과 진정으로 일치한다는 의미일까요?

아닙니다. 그 이유를 설명하겠습니다.

단일 영상 진단의 본질적 한계

영상의학은 한 세기 이상에 걸쳐 발전해왔으며, 발견되고 다듬어진 방대한 영상 소견 목록에도 불구하고, 영상의학과 의사들은 단일 영상 하나만으로 임상적 결정을 내리지 않습니다.

일부 상태 — 예를 들어 기흉 — 는 단일 방사선 사진으로 확정 진단이 가능합니다. 하지만 많은 경우 그렇지 않습니다. 암 진단은 궁극적으로 병리적 확인이 필요하며, 이는 다학제적 조율을 요구합니다. CT에서 우연히 발견된 단발성 폐결절처럼 기본적인 사안조차 Fleischner Society 2017 가이드라인은 가장 기본적인 관리 계획을 권고합니다: 몇 달 기다렸다가 스캔을 반복하고, 결절이 커졌는지 확인하는 것입니다.

다시 말해, 단일 스냅샷은 종종 확정적인 임상 결정을 내리기에 충분한 정보를 담고 있지 않습니다. 소견이 시간에 따라 어떻게 변화하는지 — 즉 시간적 차원 — 는 영상의학적 추론의 핵심이지만, 현재의 AI 벤치마크는 이를 대부분 무시합니다.

딥러닝이 실제로 학습하는 지름길들

의료 AI 모델을 훈련해본 사람이라면 딥러닝 알고리즘이 지름길 — 레이블과 상관관계가 있지만 실제 병리와는 무관한 패턴 — 을 찾는 데 놀랍도록 뛰어나다는 것을 알고 있습니다.

고전적인 예는 클래스 불균형입니다: 999개의 정상 영상과 1개의 비정상 영상을 모델에 제공하면, 진단적으로 유용한 것은 아무것도 학습하지 않고 모든 것을 정상으로 분류하며 99.9%의 정확도를 달성하도록 학습합니다.

더 음흉한 예는 납 마커 — 환자 방향을 나타내기 위해 방사선 사진에 물리적으로 부착된 "L"과 "R" 레이블 — 와 관련됩니다. 입원 병동의 기계들(비정상 발생률이 높은 곳)이 "R" 마커를 사용하고, 검진 센터 기계들(대부분의 연구가 정상인 곳)이 "L" 마커를 사용한다면, 알고리즘은 해부학이 아닌 글자를 기반으로 분류하도록 즐겁게 학습할 것입니다. 이것은 가상의 이야기가 아닙니다 — Grad-CAM을 사용하여 탐지 가능하며, 실제로 관찰된 사례입니다.

이러한 지름길을 방지하려면 의도적인 데이터 증강, 신중한 데이터셋 큐레이션, 광범위한 검증이 필요합니다 — 헤드라인을 장식하는 성능 수치보다 훨씬 적은 주목을 받는 작업들입니다.

"더 낫다"는 것은 실제로 무엇을 의미하는가

더 깊은 문제는 AI 시스템이 영상의학과 의사를 "능가한다"고 말할 때 우리가 무엇을 의미하는지입니다.

딥러닝 분류기는 영상을 받아 일련의 계산을 통해 단일 숫자를 출력합니다. 임계값이 0.5라면, 0.51의 점수는 "질환 있음"으로 분류됩니다. 알고리즘은 결코 "잘 모르겠습니다 — 3개월 후에 추적 관찰합시다"라고 말하지 않습니다. 헤징하지 않습니다. 즉각적인 개입보다 경과 관찰이 더 적절할 수 있다는 임상적 맥락을 고려하지 않습니다.

이것은 연구 설계에 대한 비판이 아닙니다 — 연구들은 측정하고자 했던 것에 대해 방법론적으로 타당합니다. 요점은, 모호한 경우에 즉각적인 조치보다 추적 관찰을 권장하는 임상적 신중함은 모델에 인코딩하기가 극도로 어렵다는 것입니다. 그리고 바로 이런 종류의 판단이 전문적인 임상 실무를 정의합니다.

이진 분류기의 대담함은 자산이 될 수 있습니다 — 피로한 인간 판독자가 놓칠 수 있는 미묘한 소견을 포착하는 것처럼. 하지만 부채가 될 수도 있습니다 — 불필요한 생검과 환자 불안을 유발하는 위양성을 생성하는 것처럼.

진정한 벤치마크

큐레이션된 테스트셋에서 AI가 영상의학과 의사를 "이길" 수 있는지를 물어봄으로써 의료 AI를 평가하는 것은 유혹적으로 단순한 프레임워크이지만, 순진하기도 합니다.

AI가 숙련된 영상의학과 의사의 임상적 유용성에 의미 있게 접근하려면 — 최소한 — 자신의 불확실성을 소통할 수 있어야 합니다. 알고리즘은 자신이 무엇을 알고 무엇을 모르는지 알아야 합니다. "이 소견은 모호하며, 제 분류에 대한 신뢰도가 낮습니다"라고 말할 수 있어야 합니다.

그 능력이 강건하게 검증될 때까지, AI가 영상의학과 의사를 대체할 것인지에 대한 논의는 시기상조입니다. 더 생산적인 질문은 AI와 영상의학과 의사가 어떻게 서로 보완할 수 있는지입니다 — AI는 대용량 패턴 탐지와 미묘한 소견 플래깅을 담당하고, 영상의학과 의사는 알고리즘이 현재 부족한 임상 통합, 시간적 추론, 보정된 불확실성을 제공하는 방식으로.

"AI vs. 영상의학과 의사" 논쟁의 답은 궁극적으로 경쟁이 아닌 협력에 있을지도 모릅니다 — 그리고 기술적으로는 결정론적 분류기가 그토록 두드러지게 결여하고 있는 불확실성 모델링을 위한 원칙적인 프레임워크를 제공하는 베이지안 딥러닝에 있을지도 모릅니다.