전세계인의 헬스빅데이터 공유 기술

분산연구망, 인류 건강 개선 핵심 역할 기대

국내 전자의무기록 보급률이 80%를 넘어섬에 따라 병원별 전자의무기록을 포함하 여, 심평원 보험청구자료, 건강보험공단의 건진자료 등 가용한 보건의료 빅데이터가 점차 증가하고 있다. 하지만, 의료 데이터는 데이터 구조, 형식의 이질성, 데이터의 질 과 양 등 기술적인 어려움과 기관의 허락, 개인정보보호문제 등 법적 문제 그리고 타인에게 제공하는 데이터가 자신에게 불리하게 사용될지 모른다는 두려움 등 근본적 으로 데이터 소유자가 자신의 자료를 타인과 공유하고 싶지 않은 속성을 가지고 있다. 따라서, 국내에서는 아직까지 임상빅데이터를 이용한 혁신적인 가치 창출 사례는 드물다. 최근 공통데이터모델기반의 분산연구망이 이러한 문제점들을 해결할 수 있는 해결책으로 기대를 받고 있다. 한국의 헬스빅데이터 사업의 세계화를 이끌고 나갈 공 통데이터모델기반의 분산연구망에 대해서 집중 조명해본다.

전 세계는 지금 분산연구망 열풍

분산연구망이란 각 병원의 데이터를 동일한 구조와 의미를 갖도록 공통데이터모델로 변 환한 후, 연구를 위해서 데이터를 한군데 모으는 대신에 분석 프로그램 코드를 각 병원에 보내어 병원안에서 자동으로 분석된 통계요약결과만을 병원밖으로 반출하고 취합하는 방식이다. 결과적으로 데이터를 모으지 않고도 데이터를 모아서 분석한 것과 같은 결과를 내는 것이다. 데이터가 병원 밖을 떠나지 않으니 데이터 관리책임을 지는 병원으로서도 안심 이다.

오딧세이 컨소시엄은 공통데이터모델기반의 분산연구망을 이끌고 나가는 국제적인 비영 리 연합체이다. 한국을 포함하여 20개국 이상 1,500명 이상의 연구자들이 참여하고 있으며 공통데이터모델로 변환된 데이터는 이미 15억명분에 달한다. 미국에서 처음 출발한 오딧세 이는 한국오딧세이, 유럽오딧세이, 중국오딧세이로 그 세력이 확장되고 있다. 유럽에서는 최 근 에덴프로젝트를 시작했다. 에덴프로젝트는 향후 5년간 유럽 200개 기관의 임상데이터 를 공통데이터모델로 변환하여 분산연구망을 통하여 제약 및 여러 산업에 활용하는 프로젝 트이다. 특히, 한국의 움직임이 가장 빠르다. 한국에서는 산업통상자원부의 지원으로 3년간 39개병원 34,000병상 5,000만명분의 환자 자료를 공통데이터모델로 변환하고 이를 활용할 플랫폼을 만들 ‘분산형 바이오헬스 빅데이터 사업단’을 지난 5월에 출범하였다. 정부 및 민 간자금 112억원이 투입된다. 중국의 움직임도 바빠졌다. 작년부터 중국오딧세이라는 단체를 조직하여 중국내 자료 확보 및 변환에 나섰다.

오픈 플랫폼과 협업

오딧세이의 모든 활동은 인터넷상에서 모두 공개되어 있다 (www.ohdsi.org). 데이터가 이미 표준화되어 있으니 유용한 소프트 웨어가 만들어지면 참여하는 누구나 쓸 수 있게된다. 소프트웨어를 개발할 때 각 연구자별로 개발하는 것이 아니고 처음부터 전 세계 사람에게 공개하여 관심 있는 개발자들이 공동으로 개발해 나간다. 이미 100개이상의 소프트웨어가 개발되어 공개됐다 (github.com/ ohdsi). 분산연구망에 관련된 모든 주제에 대해서 공개포럼을 통해 공개적으로 토론을 진행한다 (forums.ohdsi.org/). 이미 2,000개 이 상의 주제에 대해서 17,000번 이상의 토론이 진행 중에 있다. 한국 에서도 이미 10개 이상의 소프트웨어를 개발하여 공개했다. 1,500 명의 토론 참여자 중에서 최상위 20위 안에 한국인이 두 명이 포함 되어 있다. 이렇게 처음부터 공개와 협업을 통해 토론하고 개발해 나가기 때문에 개발되는 즉시 바로 국제적으로 채택되며 활용된다.

수억명 환자 대상 데이터 분석을 순식간에

오딧세이에서는 2016년에 4개국의 2억 5천만 명분의 환자 데이 터를 사용하여 당뇨, 고혈압, 우울증과 같은 만성 질환에서의 처방 패턴에 대한 기념비적인 연구를 수행한바 있다. 미국, 영국, 홍콩, 한국의 자료가 활용되었다. 자료 분석과정에서 각 병원의 자료는 병원밖으로 반출되지 않았다. 단지 분석 프로그램을 통해서 최종적 으로 알고 싶은 결과만 취합하였다. 분석결과 고혈압 환자의 경우 국가별로, 병원 종별로 치료방법이 서로 달랐다. 심지어 4명당 1명 은 전세계에서 자기와 똑 같은 방식으로 치료받은 예를 찾을 수 없 었다. 표준진료지침이 있지만 그대로 따르지 못하고 있는 것이다. 최근 한국이 주도하여 고혈압 약물의 병용치료 요법에 대한 연구 가 진행 중에 있다. 한국과 미국의 데이터 총 2억 5천만명분의 자료 중에서 약 백만명분의 고혈압 환자 자료가 활용되었다. 분산형으로 분석이 진행되므로 병렬처리가 가능하여 분석속도를 빠르게 할 수 있다. 단순 통계적 분석만이 아니라 인공지능 기반의 예측모델도 개발가능하다. 실제로 스탠포드 대학에서는 공통데이터모델을 활 용하여 당뇨환자의 합병증 예측 모델을 개발 중에 있다.

글로벌 임상자료 공급망

국내외에서 공통데이터모델기반의 분산연구망에 참여하는 데 이터 파트너가 점점 더 많아지면 의학적 증거, 지식 또는 인공 지 능 알고리즘을 개발하고자 하는 학계와 산업계의 모든 사람들이 전례 없는 혜택을 볼 것으로 예상된다. 연구자들은 분산연구망을 통해서 장차 수십억 명의 환자 정보를 이용해서 여러 분야에서의 의학적 증거를 빠르고 손 쉽게 얻을 수 있게 될 것이다. 전세계인 을 대상으로 한 이러한 협업 분석은 적은 노력과 비용으로 더 나 은 의학적 증거를 쉽고 빠르게 생성할 수 있게 함으로써 인류의 건강을 개선하는데 중요한 핵심 역할을 하게 될 것으로 보인다.

헬스케어 빅데이터

헬스케어 빅데이터라고 하면 병원의 EHR이나 청구자료에 저장 된 정형화된 임상데이터를 생각하기 쉽다. 하지만 헬스케어빅데이 터는 단순히 방대한 양의 데이터와 데이터 소스를 의미하는 것이 아니라, 이미지, 유전체, 환경노출, 건강, 행동 등 다양한 비정형 데이터를 포함한다. 최근까지는 OHDSI 에서는 정형화된 데이터에 초점을 맞추어 표준화를 진행해 왔다. 하지만, 이제 아주대를 중 심으로 생체신호, 라이프로그, 유전체 등의 다양한 비정형 데이터 를 표준화하는 노력을 하고 있다.

생체 신호 데이터는 살아있는 생체로부터 시간 변화에 따라 지속적으로 측정 혹은 관찰되는 모든 신호를 일컫는 말로, 심전도(Electrocardiogram, ECG), 뇌파검사(Electroencephalogram, EEG) 등이 포함된다. 라이프로그 데이터는 일반적으로 웨어러블 디바이스를 통해 기록되는 활동량 등의 일상 생활에 대한 기록을 의미한다. 시간 변화에 따라 센서를 통해 지속적으로 인체의 정보 가 측정된다는 점에서 비슷한 특성을 공유하며, 빅데이터의 3가지 특성으로 일컬어지는 양(volume), 속도(velocity), 다양성(variety) 특성을 모두 갖고 있다.

이들 생체신호는 측정빈도가 초당 250-500회에 이르며, 한 장비 당 7-8종의 생체신호를 수집한다. 이렇게 밀도 높게 수집된 데이터는 환자의 밀리세컨드 단위의 변화를 감지하고 적절한 피드백을 주는데 기반이 된다. 이러한 데이터는 인터페이스나 장비가 갖춰지면 자동으 로 지속적으로 수집될 수 있다. 데이터 수집 및 활용에 대한 중요성이 커지면서, 병원 차원에서도 생체신호 데이터를 수집하려는 노력이 확 대될 것이며, 웨어러블 기기의 보급 또한 지속적으로 증가하고 있기 때문에, 생체신호 및 라이프로그 데이터의 규모는 더욱 커질 것으로 예상 된다. 아주대병원의 경우 총 160병상의 중환자실가운데 100병 상에 대한 생체신호를 실시간 수집저장하여 진료에 쓰이고 있다.

2017년부터 국내의 암환자 및 희귀질환자 대상으로 차세대 염기 분석(NGS)의 보험 적용이 시작되었다. 이에 따라 국내 병원의 유전 체 데이터의 양이 폭발적으로 증가할 것으로 예상된다. 아주대학교 는 기존의 CDM에 유전체 데이터를 저장할 수 있는 G-CDM이라는 확장 모델을 발표하였고, 이를 표준화하기 위한 국제 워크그룹을 이끌고 있다.

생체신호 및 라이프로그, 유전체 데이터는 임상적으로도 매우 중 요할 뿐만 아니라, 수집 및 분석 환경이 보다 점점 확대되고 있기 때문에, 임상 정보와 결합되어 앞으로 활용이 크게 증가할 것으로 기대된다.

새 술은 새 부대에

공통데이터모델 기반의 분산연구망은 기존에 알려진 자료공유 개념과 전혀 다른 개념으로서, 자료를 공유하는 대신에 분석해서 도출된 근거를 공유하는 모델이다. 자료가 필요한 이유는 의사결정 에 필요한 근거가 필요하기 때문이니, 공유하기 어려운 자료를 공 유하는 대신 개인정보보호 이슈가 없는 근거를 공유하자는 개념이 다. 이렇게 새로운 개념이다보니 국내에서는 분산 연구망에 대한 이해 및 논의가 아직까지 부족한 실정으로 명확한 가이드라인이 없 다. 생명윤리 및 안전에 관한 법률 제 15조 (인간대상연구의 심의) 및 시행규칙 제2조 (인간대상연구의 범위)에서 기관위원회(IRB)의 심의를 받아야 하는 연구로 "사람을 대상으로 물리적으로 개입하는 연구", "상호작용을 통하여 수행하는 연구", "개인을 식별할 수 있는 정보를 이용하는 연구"로 규정하고 있다. 분산연구망을 이용한 분 석은 위 세가지에 모두 해당하지 않아 생명윤리 및 안전에 관한 법 률에서 정의한 인간대상연구에 해당되지 않는다. 하지만, 이에 대 한 가이드라인이 없어서 여러 기관으로부터 IRB심의를 받는데 많 은 노력과 시간이 소모되고 있다. 데이터를 보유한 의료기관 입장 에서는 데이터 공유에 대한 동기와 보상이 없음에 반하여 개인정보 보호법과 생명윤리 및 안전에 관한 법률에 의하여 개인정보의 이 용과 공유에 대하여 엄격한 제한 및 위반시 민형사상의 책임에 대 한 부담이 있다. 따라서, 자료공유에 대하여 매우 보수적인 입장을 취하고 있으며, 실제 자료를 공유하지 않는 분산연구망에 대해서도 같은 잣대를 적용하고 있는 실정이다. 전 세계적으로 분산연구망에 대한 관심이 뜨겁게 달궈지고 있으며 각국별로 빠르게 대처하고 있 는 상황에서 우라나라가 선점한 주도권을 지키고 유지하기 위해서 는 ‘IRB상호인정제’를 포함하여 분산연구망기반의 자유로운 분석을 지원할 적절한 법적근거 마련이 필요한 시점이다.

박래웅 아주대학교 의과대학 의료정보학과 교수

다른기사 보기

상단영역

본문영역