가명정보 결합·의료영상 개방 수요 늘어…“폐쇄망 분석센터·반출 전 재식별 검토 등 다중 안전장치 운영”
건강보험심사평가원 빅데이터실 국선표 실장
[메디게이트뉴스 조운 기자] 방대한 청구자료와 진료정보를 집적한 건강보험심사평가원의 보건의료데이터 활용 요구가 커지고 있는 가운데, 심평원이 데이터가 단순히 축적되는 데 그치지 않고 정책과 서비스 혁신으로 이어질 수 있도록 연결고리 역할을 강화하겠다고 밝혔다.
다만 보건의료데이터는 개인 민감정보가 포함된 정보인 만큼 다중 안전장치를 통해 개인정보 보호와 보안 관리도 철저히 하겠다는 설명이다.
건강보험심사평가원 국선표 빅데이터실장은 23일 심평원 본원에서 열린 빅데이터실 전문기자단 간담회에서 보건의료데이터 활용에 대한 사회적 요구에 맞춰 추진 중인 빅데이터실의 주요 과제와 성과를 소개했다.
심평원, 보건의료데이터 혁신 플랫폼으로…AI 파운데이션 모델·클라우드 전환 추진
먼저 심평원 빅데이터실은 보건의료 분야 AX(AI Transformation) 기반을 조성하고 데이터경제를 선도하는 ‘데이터 혁신 플랫폼’ 조직으로 자리매김하기 위해 전 국민 진료정보 공통데이터모델(CDM) 기반의 ‘AI 파운데이션 모델’ 구축을 위한 3개년 로드맵을 추진하고 있다.
또 기관 내 시스템별로 분산된 데이터를 데이터웨어하우스(DW)에 모아 내부 분석과 정책 연구를 지원하고, 기관 간 데이터 연계를 통해 보건의료 정책 수행의 업무 효율성을 높이는 등 데이터 기반 활용·연계 업무를 강화한다는 방침이다.
국 실장은 “빅데이터개방시스템은 2015년 구축돼 노후화가 진행된 만큼 시스템 부하를 개선하고 개방시스템 고도화 사업을 추진하고 있다”며 “클라우드 전환과 공공데이터 제공서비스 전용 시스템 구축 등을 통해 서비스 부하를 해소하고, 빅데이터 분석 속도와 사용자 편의성을 높일 수 있을 것으로 기대한다”고 말했다.
심평원이 보건의료데이터 활용 기반 마련에 속도를 내는 배경에는 신약 개발과 의료AI 개발 등에서 보건의료데이터 수요가 빠르게 커지고 있다는 점이 있다.
국 실장은 “신약 개발, 의료AI 개발 등에 보건의료데이터가 필요해지면서 제약바이오와 산업계에서 데이터 접근성 개선 요구가 많아지고 있다”며 “심평원은 가능한 범위에서 제공 범위와 속도를 확대하는 방향으로 추진하고 있다”고 설명했다.
제약바이오·의료AI업계 데이터 수요 확대…약제코드·의료영상 개방 요구도 증가
제약바이오 기업들은 주로 신약 등의 유용성, 안전성, 효과성을 평가하기 위해 가명정보 결합을 신청하고 있다. 대표 사례로는 대상포진 백신 접종 유무에 따른 신경통 발병률을 확인하기 위해 다수 의료기관에서 수집한 코호트 자료와 심평원 청구자료를 결합해 진행 중인 연구가 소개됐다.
국 실장은 “시판 중인 약에 대해 실제 진료 환경에서의 효과를 확인할 수 있다는 점에서 제약바이오 기업에도 유용한 비즈니스 모델이 될 수 있을 것으로 생각한다”고 말했다.
다만 제약업계에서는 그동안 심평원 데이터 접근성이 떨어지고 자료 활용도가 낮다는 요구도 제기돼 왔다. 국 실장은 “과거에는 약제정보를 전부 제공하는 데 신중했지만, 현재는 약제코드 9자리를 거의 제공하고 있다”고 말했다.
9자리 약제코드는 성분명 기반 코드로, 앞자리는 성분, 뒷자리는 투여경로·제형·함량 등 정보를 담고 있다. 심평원은 제품명 코드는 제공하지 않고 성분명 코드를 제공한다. 다만 하나뿐인 약은 특정 회사가 드러날 수 있어 연구자와 정보 제공자 사이에서 조율이 필요한 부분이 있다고 설명했다.
의료AI와 디지털헬스케어 등을 개발하는 산업계에서는 의료영상 자료에 대한 요구도 커지고 있다. 국 실장은 “의료영상 자료는 9개 질환에 대해 분류된 자료를 공개하고 있는데, 산업계에서는 추가 공개 요구가 많다”며 “다만 질환별로 영상을 분류하는 작업 자체가 매우 어렵고, 한 개 질환을 정리하는 데도 수억원이 들었던 사업”이라고 말했다.
이에 심평원은 완전히 정제된 형태가 아니더라도 가명처리한 원자료 형태로 제공했을 때 산업계가 활용할 수 있는지 의견을 수렴하고 있다.
국 실장은 “지난달 약 세 차례 간담회를 열어 의견을 들었고, 현재 그 결과를 정리하고 있다”며 “예산상 어려운 부분은 있겠지만, 보유 데이터를 원본 형태로라도 가명처리해 보여드리고 활용 가능성을 검토하는 방향을 고민하고 있다”고 밝혔다.
연구자들이 심평원 데이터를 활용하는 과정에서 겪는 어려움으로는 데이터 제공까지 한 달 이상 소요되는 점과 데이터 구조가 복잡해 초기 분석 과정에서 시행착오가 많다는 점이 꼽혔다.
국 실장은 “데이터 제공 절차와 관련해 최근 가명정보 처리 가이드라인은 데이터 위험도에 따라 적정성 검토 절차를 차등 적용하도록 권고하고 있다”며 “이에 따라 데이터 위험도가 낮은 정보는 제공 기간이 확실히 단축될 것으로 예상된다”고 말했다.
그는 “데이터 구조의 복잡성을 해소하기 위해 이용자 교육도 지속하고 있다”며 “앞으로 ‘HIRA Data Playground’(가칭) 운영을 통해 심평원이 보유한 보건의료 데이터를 자유롭게 체험할 수 있도록 하고, 연구자의 데이터 친밀감을 높여 시행착오를 최소화할 계획”이라고 전했다.
개방 확대와 함께 보안 우려도 커져…“폐쇄망 분석센터·재식별 검토 등 다중 안전장치 운영”
보건의료데이터 활용 요구와 실제 제공 사례가 늘어나는 만큼 개인정보 오남용과 유출 우려도 커지고 있다. 보건의료데이터는 전 국민 건강정보를 포함한 민감정보인 만큼 유출 시 사생활 침해나 특정 질병에 따른 차별 등 개인의 권리 침해로 이어질 수 있다는 지적이 나온다.
이에 대해 국 실장은 “데이터 활용 과정에서 개인의 권리를 보호하고 정보 유출 및 재식별 등 잠재적 위험을 사전에 예방하기 위해 다중 안전장치를 통해 안전한 데이터 활용 지원과 개인정보 보호의 균형을 유지하고 있다”고 말했다.
심평원은 가명정보 결합 과정에서 각 기관이 인식할 수 없는 키를 사용하기 때문에 개인 식별 가능성이 낮다고 설명했다. 여기에 데이터제공심의위원회, 외부망이 차단된 폐쇄망 분석센터, 결괏값 반출 전 재식별 위험성 검토, 분석 후 데이터 파기 서약, 안전성 검증 등 다중 안전장치를 운영하고 있다.
국 실장은 “산업계나 학계에 데이터를 제공할 때 유출 우려가 있는 경우 원격 제공이 아니라 심평원 분석센터에 직접 와서 폐쇄망에서 분석하도록 하는 방식도 운영하고 있다”고 설명했다.
그는 “외부망이 차단된 분석 폐쇄망을 통해 심평원에 와서 데이터를 활용하게 하고, 결괏값을 반출하기 전 재식별 위험성을 다시 검토한다”며 “분석 이후에는 데이터를 파기하도록 서약도 받고 있다”고 밝혔다.
최근 일부 개인정보 유출 사례에서 논란이 된 CI, 즉 연계정보를 통한 동일인 식별 위험도 감안하고 있다고 했다. 국 실장은 “새로 오신 원장도 데이터 제공뿐 아니라 개인정보 유출 방지가 중요하다는 점을 계속 강조하고 있다”며 “유출되지 않는 공개가 되도록 세심하게 살피겠다”고 말했다.