가톨릭대 여의도성모병원 소화기내과 양경모 교수 연구팀(서울성모병원 소화기내과 한지원 교수)이 대규모 언어모델(LLM)이 실제 간암 치료 의사결정에서 어떤 역할을 할 수 있는지 평가한 결과를 21일 발표했다.
연구는 국가 간암등록사업에 등재된 초치료 간세포암 환자 1만 3614명의 임상 데이터를 바탕으로 종양 특성, 간기능, 전신상태 등 구조화 정보를 입력해 LLM(ChatGPT·Gemini·Claude)의 치료 권고를 생성하고, 실제 시행된 치료와의 일치율과 생존결과를 비교 분석했다.
분석 결과 AI 권고와 실제 치료의 일치율은 27~33%로 나타났다. 병기별 하위분석에서는 일부 병기에서 AI 권고와 일치한 치료를 받은 환자군의 생존 차이가 관찰된 반면, 진행성 간암에선 오히려 일치군의 생존이 낮은 경향이 확인됐다.
의료진은 간기능, 전신상태, 합병증 위험 등 환자 개별 요소를 종합하는 데 비해, AI는 종양 크기·전이 여부 등 종양 중심 변수를 중시하는 경향이 있다고 연구팀은 분석했다. 임상 상황이 복잡할수록 AI 권고와 실제 치료 간 괴리가 커질 수 있음을 확인한 것.
양경모 교수(제1저자)는 "이번 연구는 AI가 간암 치료 의사결정에서 의미 있는 범위와 한계를 생존 자료로 평가했다는 점에서 의의가 있다"며 "AI는 가이드라인 기반 판단을 보조할 수 있으나, 치료 결정을 대신하는 주체가 될 수는 없다"고 말했다.
한지원 교수(교신저자) "진료 현장에서는 간기능, 치료 내성, 전신상태 등 정형화하기 어려운 요소가 치료를 좌우한다"며 "이번 결과는 임상의 판단 중요성을 대규모 실제 자료로 재확인한 것"이라고 강조했다.
연구팀은 영상과 임상정보를 결합한 다중모달 AI 개발과 AI 보조 전향적 임상연구의 필요성을 제시했다. 본 연구는 의학 분야 국제학술지 플로스 메디슨(PLOS Medicine, IF=9.9) 2026년 1월호에 게재됐다.