MEDI:GATE NEWS 바둑의 신(神)은 강림(降臨)하셨는데 신약개발의 신은 언제 내려오실까?

기사입력시간 18.08.17 06:18최종 업데이트 18.08.17 11:44

사진: 게티이미지뱅크 [메디게이트뉴스 배진건 칼럼니스트] "알렉사, 녹색지대의 '사랑을 할거야' 틀어줘"라고 하면 "네, 주인님"하고 곧 원하는 음악이 나온다. 음악을 따라하며 명령을 불평없이 들어주는 인공지능(Artificial Intelligence, AI) 기반 음성 비서 '알렉사'가 있기에 사람은 신이 된 것 같은 착각을 한다. AI란 무엇인가? 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술 즉, 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로써, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것이다. AI에 대해 우리가 갑자기 쏠리게 된 것은 '알파고(AlphaGo)' 때문이다. 2016년 3월 바둑의 천재, 이세돌 9단과 인공지능 알파고가 바둑 대결을 했다. 바둑은 최소 2500년의 역사를 지닌 가장 오래 인간이 즐겨온 게임 중 하나이기에 지금까지 그랬던 것처럼 컴퓨터가 따라오지 못할 것이라고 생각됐다. 그러나 사람들의 생각과는 달리 알파고가 이세돌 9단을 쉽게 물리쳤다. 드디어 바둑의 신이 알파고라는 이름으로 이 세상에 강림했다. 바둑수련생과는 달리 알파고는 컴퓨터 사이언스를 바탕으로 개발됐다. 머신러닝 (Machine Learning, ML)과 딥러닝(Deep Learning, DL)은 모두 인공지능 분야에서 파생된 컴퓨터 과학 분야이다. 알파고는 바둑에 대한 무수한 학습과 반복 대결, 자기 훈련을 통해서 정책망을 정교하게 발달시키게 되며 방대한 데이터베이스를 바탕으로 한 추론을 이용해 엄청난 학습능력을 축적하게 됐다. 알파고가 바둑돌을 놓을 위치를 정하는 알고리즘은 ML과 DL의 결과이다. 1승을 하게 된 것도 이세돌 9단의 집념과 신기에 가까운 두뇌 계산 때문이다. 알파고 이후 사람들은 AI에 관해 다시 생각하게 됐고 뉴스를 들으면 들을수록 불안이 몰려왔다. 나의 직업은 안전할까? 알파고가 미래의 세계를 지배하는 것은 아닐까? 같은 AI인 '알렉사'에게는 신처럼 생각했던 사람들이 알파고 앞에서는 종처럼 더 불안한 감정을 노출했다. 물론 AI를 둘러싼 다소 과대 포장된 측면 때문이기도 하다. 알파고 이후부터 AI는 다양한 산업 분야에 뜨거운 주제가 돼 빠르게 확산됐고, 제약·바이오산업도 예외는 아니었다. 머신러닝의 기본은 대규모 데이터 세트를 대상으로 알고리즘을 만들어내고 이 알고리즘을 원하는 패턴을 식별할 수 있도록 생성하는 일이다. 이를 제약 바이오 산업에 적용한다면, 수십년 간 축적해온 헬스케어 분야의 대용량 과학적, 임상적 연구 데이터를 AI가 습득해 분석솔루션, 질환관리, 진단, 맞춤의료기술 등에 적용하게 만들 수 있다. 그리고 심지어는 AI를 신약개발에 이용하고자 하는 노력들이 활발히 이루어지고 있다. 이론적으로 AI는 신약개발의 전 주기와 전 카테고리에 적용 가능하다고 보고 있다. 가장 낙관적인 예측에 의하면 가까운 미래에 AI를 이용해 신약개발 비용을 절감하고 임상시험 실패율을 낮추고 획기적인 치료 약물을 개발해 환자에게 제공할 수 있다고 본다. 그러므로 국내의 제약사와 바이오회사들은 글로벌 빅파마와의, 투자 및 연구 규모 면에서의 간격을 메꾸기 위해서 AI를 적극 검토할 수밖에 없는 상황이다. 심지어 정책 입안자들과 AI에 관련된 바이오회사들은 AI를 통해 신약개발의 모든 솔루션을 제공할 수 있다고 자신하고 있다. 과연 AI가 신약개발의 모든 것을 해결해 줄 수 있는가? 전통적인 신약개발과 AI를 접목하고자 하는 전세계 회사들을 분야별로 나열해 보면, 타깃 발굴, 유효물질 및 선도물질 디자인, 독성 연구, 전임상 연구, 환자 선별, 임상 디자인까지 신약개발의 모든 것을 AI가 대신할 수 있을 것처럼 보인다. 머신러닝 기법으로 우리가 원하는 산물을 도출해내려면, 제일 중요한 시작점은 믿을 만한 소스의 빅데이터를 입력하는 일이다. 그러나 바둑과 같은 게임과는 달리 신약개발에 있어서의 빅데이터는 수많은 변수와 환경요인, 노이즈, 품질보증의 난점을 안고 있다. 질병, 환자, 바이오 기반의 빅데이터는 생물학적 복잡성과 질병의 다양성을 기본으로 깔고 있어서 바둑과 같은 게임에서의 규칙 및 변수와는 비교하기 어려울 만큼의 복잡성을 지닌다. 가상의 신약개발 AI회사 A를 들여다보자. A의 전략은 병인부터 타깃 분석, 물질 발굴을 통합한 AI기반 소프트웨어를 활용해 비임상 연구에 적합한 신약후보물질을 신속, 효율적으로 발굴한다는 것이다. 전통적인 신약개발을 거친다면 이 모든 과정이 3~5년 걸리겠지만, AI를 통해 몇 개월로 단축하겠다는 야심이다. 또한 사람의 한정된 지식과 자료수집의 단점을 극복하도록 디자인된 플랫폼을 이용했으므로, 이렇게 도출된 신약후보물질은 혁신신약일 가능성이 크다고 주장한다. 과연 그럴까? 그들이 가진 유틸리티 화합물 라이브러리는 수만개~수십만개에 불과하다. 물론 그것도 신약재창출(Drug Repositioning)을 목표로 하는 AI회사에 비해서는 많은 숫자이다. 신약재창출 AI 회사가 사용하는 지금까지 시판된 약과 정보가 가능한 약물이 합해서 고작 4000개 정도뿐이다. 우리가 알고 있는 3차원적인 화합물 스페이스로는 이론적으로 10의 46승 개의 화합물이 가능하므로 이는 극히 일부에 지나지 않는다. 수만개의 화합물 자료를 입력하면 혁신신약 발굴에 이를 만한 물질을 도출해낼 수 있을까? 만일 10개의 선도물질을 도출했다면 그 질병의 생물학적 모델에서 양성 대조군과 비교해 효과(efficacy)를 보여야만 첫 번째 관문을 통과한다. 그리고 미리 정한 목표제품 특성(TPP, Target Product Profile)의 수많은 항목에 적합한 결과인지 하나씩 검증해야만 한다. 임상 진입을 위해 규제기관에 제출해야 할 자료를 만들기 위한 그 과정과 시간은 고전적인 신약개발 방법과 똑같은 시간이 걸린다. 만약 주어진 질병에 해당하는 타깃을 도출하도록 디자인했다고 해도 결국 이 타깃이 질병 모델에서 중요한 역할을 하는지를 실험적으로 증명해 내야 한다. 그리고 또 하나의 난관은 특허성이다. 공개된 빅데이터를 활용해 건져낸 화합물에 특허성이 부과되기는 쉽지 않기 때문이다. 물질 특허를 확보하기 위한 선도물질 최적화(lead optimization)를 거쳐야 하고, 이 부분은 앞서 언급한 여러 복잡성과 다면성으로 인해 아직까지 AI가 깊이 진출하지 못한 영역 중 하나이다. 신약재창출 AI 회사가 겪는 어려움도 마찬가지이다. AI는 방대한 생체의학 데이터를 활용한 예측 알고리즘을 구축해 약물 발견에 합리적인 의사결정을 내리는데 도움을 줄 수 있다. AI를 이용해 존재하는 거의 모든 데이터를 활용한다는 의미이다. 결국 활용할 데이터의 복잡성과 다양성, 그리고 통제력이 관건이다. 알파고가 바둑돌을 놓을 위치를 정하는 알고리즘은 ML과 DL의 결과이다. 제약 바이오 분야로의 AI 적용에서의 가장 큰 이슈는 알파고처럼 합리적인 결정을 내릴 데이터가 충분하지 않다는 점이다. ML과 DL의 학습이 충분하지 않다. 예를 들어 지금까지 존재하는 그 방대한 아이피(IP)에 있는 물질의 정보를 얼마나 예측 알고리즘에 학습시켰나? 그 학습은 사람이 수작업으로 일일이 컴퓨터에 집어넣어야 한다. 학습시키는 기본으로 먼저 돌아가야 한다. 또 다른 예로 우리가 알고 있는 7000개의 질병 가운데 사용할 수 있는 약을 가진 질병이 500개뿐이다. 문제는 아직도 약이 없는 질병에 대해 너무 모르고 있고 거기에 관한 자료가 축적되지 않았다. 학계에서도 인기가 많은 질병군에만 연구결과가 쏠려 있다. AI 회사와 공동연구하는 회사가 합의해 먼저 질병을 결정하는 일이 제일 먼저인데 AI 회사가 보유하고 있는 빅데이터가 가능할 만한 질병의 개수가 과연 몇 개나 될까? 지난 7월 25일자 STAT과 8월 16일 자 월스트리트 저널은 IBM이 심혈을 기울여 만들어낸 AI 닥터 왓슨 프로젝트가 실질적인 실패로 돌아갔음을 보도했다. 초반의 열광적인 반응과는 달리,메모리얼슬로언케터링 암센터에서 종양학 의사로 훈련을 받은 AI 닥터 왓슨은 최근 실제로 암환자들 대상의 진료를 하면서 잘못된 진단과 처방을 내려 왓슨 프로젝트가 중단되는 사태에 이르렀다.여러 폐인 중가장 큰 요인은 역시나 닥터 왓슨을 트레이닝할 때 사용한 가상의 인풋 데이터의 한계로 보고 있다.인간 의사에 비해 훨씬 더 짧은 기간 내에 수많은 암환자의 빅데이터를 학습한 유능한 닥터 왓슨이 막상 실제 암환자를 진찰하기에는 역부족인 것으로 판명된 것이다. 알파고가 바둑을 두고, 왓슨이 텔레비전 TV 게임쇼제퍼디에서 우승하는 것만큼 쉽지 않은 것이다. 100명의 암환자는 100가지의 서로 다른 케이스이기 때문이다. 그렇지만 정밀의학과 첨단생물학의 빠른 발전으로 인해 질병과 그 기전에 대한 이해도가 날이 갈수록 높아지고 이에 해당하는 대형 데이터의 축적도 기하급수적으로 늘어나고 있다. 그래서 가까운 미래에 AI의 역할은 더욱 커질 것이다. 헬스케어 및 신약개발 분야도 예외는 아니다. 가까운 미래에 AI 플랫폼을 가진 연구진과 고전적인 신약개발의 개발진이 제대로 만난다면 실제 5년이 걸릴 일을 6개월 만에 끝내는 역사가 이루어질 수도 있다. AI를 통해 바둑의 신 뿐만 아니라 신약개발의 신이 빨리 강림할 수 있도록 서로 공생하고 서로 보완해 윈윈(win-win)을 만들어야 한다. 열린 마음을 지닌,양쪽 분야의 전문가가 만나서 머리를 맞대는 일이 가장 좋은 시작점이다.

제보 공유

바둑의 신(神)은 강림(降臨)하셨는데 신약개발의 신은 언제 내려오실까?

[칼럼] 배진건 퍼스트바이오테라퓨틱스 상임고문

[메디게이트뉴스 배진건 칼럼니스트] "알렉사, 녹색지대의 '사랑을 할거야' 틀어줘"라고 하면 "네, 주인님"하고 곧 원하는 음악이 나온다. 음악을 따라하며 명령을 불평없이 들어주는 인공지능(Artificial Intelligence, AI) 기반 음성 비서 '알렉사'가 있기에 사람은 신이 된 것 같은 착각을 한다. AI란 무엇인가? 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술 즉, 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로써, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것이다.

AI에 대해 우리가 갑자기 쏠리게 된 것은 '알파고(AlphaGo)' 때문이다. 2016년 3월 바둑의 천재, 이세돌 9단과 인공지능 알파고가 바둑 대결을 했다. 바둑은 최소 2500년의 역사를 지닌 가장 오래 인간이 즐겨온 게임 중 하나이기에 지금까지 그랬던 것처럼 컴퓨터가 따라오지 못할 것이라고 생각됐다. 그러나 사람들의 생각과는 달리 알파고가 이세돌 9단을 쉽게 물리쳤다. 드디어 바둑의 신이 알파고라는 이름으로 이 세상에 강림했다. 바둑수련생과는 달리 알파고는 컴퓨터 사이언스를 바탕으로 개발됐다. 머신러닝 (Machine Learning, ML)과 딥러닝(Deep Learning, DL)은 모두 인공지능 분야에서 파생된 컴퓨터 과학 분야이다. 알파고는 바둑에 대한 무수한 학습과 반복 대결, 자기 훈련을 통해서 정책망을 정교하게 발달시키게 되며 방대한 데이터베이스를 바탕으로 한 추론을 이용해 엄청난 학습능력을 축적하게 됐다. 알파고가 바둑돌을 놓을 위치를 정하는 알고리즘은 ML과 DL의 결과이다.

1승을 하게 된 것도 이세돌 9단의 집념과 신기에 가까운 두뇌 계산 때문이다. 알파고 이후 사람들은 AI에 관해 다시 생각하게 됐고 뉴스를 들으면 들을수록 불안이 몰려왔다. 나의 직업은 안전할까? 알파고가 미래의 세계를 지배하는 것은 아닐까? 같은 AI인 '알렉사'에게는 신처럼 생각했던 사람들이 알파고 앞에서는 종처럼 더 불안한 감정을 노출했다. 물론 AI를 둘러싼 다소 과대 포장된 측면 때문이기도 하다.

알파고 이후부터 AI는 다양한 산업 분야에 뜨거운 주제가 돼 빠르게 확산됐고, 제약·바이오산업도 예외는 아니었다. 머신러닝의 기본은 대규모 데이터 세트를 대상으로 알고리즘을 만들어내고 이 알고리즘을 원하는 패턴을 식별할 수 있도록 생성하는 일이다. 이를 제약 바이오 산업에 적용한다면, 수십년 간 축적해온 헬스케어 분야의 대용량 과학적, 임상적 연구 데이터를 AI가 습득해 분석솔루션, 질환관리, 진단, 맞춤의료기술 등에 적용하게 만들 수 있다. 그리고 심지어는 AI를 신약개발에 이용하고자 하는 노력들이 활발히 이루어지고 있다.

이론적으로 AI는 신약개발의 전 주기와 전 카테고리에 적용 가능하다고 보고 있다. 가장 낙관적인 예측에 의하면 가까운 미래에 AI를 이용해 신약개발 비용을 절감하고 임상시험 실패율을 낮추고 획기적인 치료 약물을 개발해 환자에게 제공할 수 있다고 본다. 그러므로 국내의 제약사와 바이오회사들은 글로벌 빅파마와의, 투자 및 연구 규모 면에서의 간격을 메꾸기 위해서 AI를 적극 검토할 수밖에 없는 상황이다. 심지어 정책 입안자들과 AI에 관련된 바이오회사들은 AI를 통해 신약개발의 모든 솔루션을 제공할 수 있다고 자신하고 있다. 과연 AI가 신약개발의 모든 것을 해결해 줄 수 있는가?

전통적인 신약개발과 AI를 접목하고자 하는 전세계 회사들을 분야별로 나열해 보면, 타깃 발굴, 유효물질 및 선도물질 디자인, 독성 연구, 전임상 연구, 환자 선별, 임상 디자인까지 신약개발의 모든 것을 AI가 대신할 수 있을 것처럼 보인다. 머신러닝 기법으로 우리가 원하는 산물을 도출해내려면, 제일 중요한 시작점은 믿을 만한 소스의 빅데이터를 입력하는 일이다. 그러나 바둑과 같은 게임과는 달리 신약개발에 있어서의 빅데이터는 수많은 변수와 환경요인, 노이즈, 품질보증의 난점을 안고 있다. 질병, 환자, 바이오 기반의 빅데이터는 생물학적 복잡성과 질병의 다양성을 기본으로 깔고 있어서 바둑과 같은 게임에서의 규칙 및 변수와는 비교하기 어려울 만큼의 복잡성을 지닌다.

가상의 신약개발 AI회사 A를 들여다보자. A의 전략은 병인부터 타깃 분석, 물질 발굴을 통합한 AI기반 소프트웨어를 활용해 비임상 연구에 적합한 신약후보물질을 신속, 효율적으로 발굴한다는 것이다. 전통적인 신약개발을 거친다면 이 모든 과정이 3~5년 걸리겠지만, AI를 통해 몇 개월로 단축하겠다는 야심이다. 또한 사람의 한정된 지식과 자료수집의 단점을 극복하도록 디자인된 플랫폼을 이용했으므로, 이렇게 도출된 신약후보물질은 혁신신약일 가능성이 크다고 주장한다. 과연 그럴까? 그들이 가진 유틸리티 화합물 라이브러리는 수만개~수십만개에 불과하다. 물론 그것도 신약재창출(Drug Repositioning)을 목표로 하는 AI회사에 비해서는 많은 숫자이다. 신약재창출 AI 회사가 사용하는 지금까지 시판된 약과 정보가 가능한 약물이 합해서 고작 4000개 정도뿐이다. 우리가 알고 있는 3차원적인 화합물 스페이스로는 이론적으로 10의 46승 개의 화합물이 가능하므로 이는 극히 일부에 지나지 않는다.

수만개의 화합물 자료를 입력하면 혁신신약 발굴에 이를 만한 물질을 도출해낼 수 있을까? 만일 10개의 선도물질을 도출했다면 그 질병의 생물학적 모델에서 양성 대조군과 비교해 효과(efficacy)를 보여야만 첫 번째 관문을 통과한다. 그리고 미리 정한 목표제품 특성(TPP, Target Product Profile)의 수많은 항목에 적합한 결과인지 하나씩 검증해야만 한다. 임상 진입을 위해 규제기관에 제출해야 할 자료를 만들기 위한 그 과정과 시간은 고전적인 신약개발 방법과 똑같은 시간이 걸린다. 만약 주어진 질병에 해당하는 타깃을 도출하도록 디자인했다고 해도 결국 이 타깃이 질병 모델에서 중요한 역할을 하는지를 실험적으로 증명해 내야 한다.

그리고 또 하나의 난관은 특허성이다. 공개된 빅데이터를 활용해 건져낸 화합물에 특허성이 부과되기는 쉽지 않기 때문이다. 물질 특허를 확보하기 위한 선도물질 최적화(lead optimization)를 거쳐야 하고, 이 부분은 앞서 언급한 여러 복잡성과 다면성으로 인해 아직까지 AI가 깊이 진출하지 못한 영역 중 하나이다. 신약재창출 AI 회사가 겪는 어려움도 마찬가지이다.

AI는 방대한 생체의학 데이터를 활용한 예측 알고리즘을 구축해 약물 발견에 합리적인 의사결정을 내리는데 도움을 줄 수 있다. AI를 이용해 존재하는 거의 모든 데이터를 활용한다는 의미이다. 결국 활용할 데이터의 복잡성과 다양성, 그리고 통제력이 관건이다. 알파고가 바둑돌을 놓을 위치를 정하는 알고리즘은 ML과 DL의 결과이다. 제약 바이오 분야로의 AI 적용에서의 가장 큰 이슈는 알파고처럼 합리적인 결정을 내릴 데이터가 충분하지 않다는 점이다. ML과 DL의 학습이 충분하지 않다. 예를 들어 지금까지 존재하는 그 방대한 아이피(IP)에 있는 물질의 정보를 얼마나 예측 알고리즘에 학습시켰나? 그 학습은 사람이 수작업으로 일일이 컴퓨터에 집어넣어야 한다. 학습시키는 기본으로 먼저 돌아가야 한다.

또 다른 예로 우리가 알고 있는 7000개의 질병 가운데 사용할 수 있는 약을 가진 질병이 500개뿐이다. 문제는 아직도 약이 없는 질병에 대해 너무 모르고 있고 거기에 관한 자료가 축적되지 않았다. 학계에서도 인기가 많은 질병군에만 연구결과가 쏠려 있다. AI 회사와 공동연구하는 회사가 합의해 먼저 질병을 결정하는 일이 제일 먼저인데 AI 회사가 보유하고 있는 빅데이터가 가능할 만한 질병의 개수가 과연 몇 개나 될까?

지난 7월 25일자 STAT과 8월 16일 자 월스트리트 저널은 IBM이 심혈을 기울여 만들어낸 AI 닥터 왓슨 프로젝트가 실질적인 실패로 돌아갔음을 보도했다. 초반의 열광적인 반응과는 달리,메모리얼슬로언케터링 암센터에서 종양학 의사로 훈련을 받은 AI 닥터 왓슨은 최근 실제로 암환자들 대상의 진료를 하면서 잘못된 진단과 처방을 내려 왓슨 프로젝트가 중단되는 사태에 이르렀다.여러 폐인 중가장 큰 요인은 역시나 닥터 왓슨을 트레이닝할 때 사용한 가상의 인풋 데이터의 한계로 보고 있다.인간 의사에 비해 훨씬 더 짧은 기간 내에 수많은 암환자의 빅데이터를 학습한 유능한 닥터 왓슨이 막상 실제 암환자를 진찰하기에는 역부족인 것으로 판명된 것이다. 알파고가 바둑을 두고, 왓슨이 텔레비전 TV 게임쇼제퍼디에서 우승하는 것만큼 쉽지 않은 것이다. 100명의 암환자는 100가지의 서로 다른 케이스이기 때문이다.

그렇지만 정밀의학과 첨단생물학의 빠른 발전으로 인해 질병과 그 기전에 대한 이해도가 날이 갈수록 높아지고 이에 해당하는 대형 데이터의 축적도 기하급수적으로 늘어나고 있다. 그래서 가까운 미래에 AI의 역할은 더욱 커질 것이다. 헬스케어 및 신약개발 분야도 예외는 아니다. 가까운 미래에 AI 플랫폼을 가진 연구진과 고전적인 신약개발의 개발진이 제대로 만난다면 실제 5년이 걸릴 일을 6개월 만에 끝내는 역사가 이루어질 수도 있다. AI를 통해 바둑의 신 뿐만 아니라 신약개발의 신이 빨리 강림할 수 있도록 서로 공생하고 서로 보완해 윈윈(win-win)을 만들어야 한다. 열린 마음을 지닌,양쪽 분야의 전문가가 만나서 머리를 맞대는 일이 가장 좋은 시작점이다.

오탈자 신고 스크랩 인쇄 제보 공유

메디게이트뉴스 (news@medigatenews.com)

이 기자의 다른 기사 보기