일반

한국 AI 제약바이오 성장 막은 '데이터 빗장', 지혜롭게 푸는 법은?

이건한 기자

[디지털데일리 이건한 기자] 최근 모든 인공지능(AI) 융합산업군에서 양질의 AI용 학습 데이터 확보 중요성을 부르짖는 가운데, 의료 및 제약바이오 분야는 이 문제에서 특히 큰 어려움을 겪어왔다. 각 데이터가 일반 국민, 환자 개인의 건강 관련 '민감 데이터'에 해당하는 경우가 많아 병원이 이를 개방하기엔 개인정보보호 측면에서 부담이 크며 관련 규제도 강하기 때문이다. 그러나 현업의 전문가들은 이 문제를 지적하면서도 "해법이 아주 없는 건 아니"라는 반응이다. 관건은 대안에 대한 공감대 확산과 정부의 정책 지원이었다.

26일 의원회관에서 열린 국회 AI와 우리의 미래 포럼에서 최수진 의원(아랫줄 왼쪽 네번째) 주요 참석자들이 단체사진을 찍고 있다.

이 같은 내용은 26일 의원회관에서 '국회 AI와 우리의 미래' 포럼 공동대표인 국민의힘 최수진 의원이 개최한 '제약바이오 산업의 AI 대전환' 토론회에서 논의됐다. 최 의원은 국회 입성 전 OCI㈜ 바이오산업부 부사장, 대웅제약 연구소 연구본부장, 파노로스바이오사이언스 벤처 대표 등을 역임한 국내 제약바이오산업 주요 전문가로 꼽힌다.

이날 발제자들과 토론자들은 모두 입을 모아 제약바이오 산업에 필요한 AI 학습 데이터 활용 어려움 문제를 짚었다. AI가 침체기에 접어든 본 시장의 재도약에 분명 큰 도움을 줄 수 있지만, 막상 데이터 활용 문제가 발목을 잡고 있다는 의견이다.

쇠퇴하는 신약개발 산업...AI가 '회복의 키'

첫 발제를 맡은 아이젠사이언스 강재우 대표는 "요즘 제약바이오 산업은 이룸의 법칙(Erooms' law)'이 작용한다. 이는 반도체 집적회로의 성능이 24개월마다 2배로 증가한다는 무어의 법칙(Moore's Law)을 뒤집은 말"이라며 "신약개발 영역에선 매년 승인 약물 개수가 기하급수적으로 줄며 ROI(투자수익률)이 감소하는 레드오션이 되는 중"이라고 말했다.

그러나 한편으로 AI 신약개발 기술은 매년 발전해 현재는 LLM(거대언어모델) 기반의 4세대 기술 적용이 가능한 시점에 이르러 있다. 강 대표는 AI가 기반 데이터인 문헌분석부터 가설 생성, 전문가 피드백 온라인 학습의 효율적 반복을 지속하며 신약개발 프로세스의 생산성을 대폭 끌어올릴 수 있게 됐다는 설명이다.

그러나 현실은 녹록지 않다. AI 인재도 구하기 어려운 시국에 신약개발까지 가능한 인재 확보는 더욱 어렵고, 무엇보다 학습 데이터 확보의 어려움이 AI 모델 성능 개선에 큰 영향을 미치고 있기 때문이다. 이에 강 대표는 "미국 등 해외처럼 국내 교과서나 정부 문서 등, AI 학습용 데이터 활용을 위한 라이선스 제공이 필요하다"며 "적어도 공공 영역에 해당하는 데이터는 라이선스 확보 문턱을 낮춰주는 것이 시급한 시점"이라고 강조했다.

AI 기반 신약개발 기술은 현재 LLM을 접목하는 4세대 수준에 이르러 있다. 관건은 AI 모델 성능 극대화에 필수적인 양질의 학습 데이터 확보다. [ⓒ 강재우 대표 발표자료 갈무리]

의료 민감데이터 보호 가능한 대안 '연합학습'

두번째 발제를 맡은 김화종 K-멜로디 사업단장은 '연합학습(Federated Learning, 2017년 구글이 개발한 AI 모델 학습기법)' 기술 접목이 제약바이오 분야 학습 데이터 확보의 어려움을 해결할 수 있는 효과적인 대안이라고 강조했다.

K-멜로디는 보건복지부와 과학기술정보통신부가 공동추진하는 '연합학습 모델 기반 신약개발 가속화 프로젝트'다. 제약사 등 개별기관이 보유한 데이터를 AI에 학습시켜 결과물을 중앙 플랫폼에 집적하는 방식으로, 김 단장에 따르면 데이터 원본이 아닌 파라미터(가중치)만 수집되므로 개인정보 유출 가능성이 없어 안전하다. 게다가 가중치만 모아서 학습하더라도 원본 데이터를 사용했을 때와 AI 모델 성능에 차이가 거의 없기 때문에 활용 가치가 높다는 설명이다.

실제로 엔비디아의 AI 의료 시스템 '클라라 FL', 유럽의 '오우킨(Owkin)' 등이 연합학습 시스템을 이용해 안전한 AI 의료 데이터 공유 및 활용 체계를 구축한 사례로 꼽힌다.

개인정보 유출 가능성 없이 AI 모델 성능 개선에 기여할 수 있는 연합학습 시스템이 제약바이오 산업 AI 학습 데이터 활용 문제의 대안으로 제시되고 있다. [ⓒ 김화종 단장 발표자료 갈무리]

특히 연합학습의 장점은 개인정보보호 외에도 데이터 제공자에게 합리적인 보상을 줄 수 있다는 점이다. 김 단장은 "기존에는 AI 학습 데이터를 제공받아도 해당 데이터가 모델 성능 개선에 어떤 기여를 했는지 정량적 판단이 어려워 데이터 가치 책정도 쉽지 않았다"며 "반면 연합학습은 사용된 데이터가 모델 성능 개선에 얼마나 영향을 미쳤는지 기여도 측정이 가능한 구조이므로, 합리적인 정산을 통한 데이터 공유 활성화를 촉진할 수 있다"고 강조했다.

이어 "외국 시스템을 따라가기만 해선 추격이 어려운 상황이다. 정부가 적극 지원해야 한다"며 "적어도 국가 연구비가 투입된 데이터는 연합학습 방식으로 제공받을 수 있도록 법제화할 필요가 있다. 외국은 이해관계만 맞으면 가능하지만 한국은 걸리는 법이 많아 그동안 어려웠던 만큼, 이젠 정부가 제도적 측면에서 이 문제의 해소를 도와야 한다"고 덧붙였다.

'의료 데이터 공유 기반망'은 이미 있다...확장·개선할 때

토론자 중 한명인 박래웅 아주의대 교수는 보다 현실적인 대안을 제시했다. 박 교수는 2019년 출범한 분산형 바이오헬스 빅데이터 사업 단장이기도 하다. 해당 사업은 협약에 참여하는 병원들이 각자의 전자의무기록(EMR) 데이터를 산업형 국제 표준인 'OMOP-CDM'으로 변환해 자료에 대한 가명화 및 표준화를 하고, 연구 자유지대(RFZ)를 형성해 상호 간 연구 데이터를 함께 활용할 수 있도록 하는 것이 골자다. 약 5년간 운영된 결과 가입 병원이 계속 늘어 현재는 75개 병원이 CDM을 구축한 상태다.

박 교수는 "다만 현재 시스템은 일부 정형 데이터 수집에 그친다"며 "AI 모델 성능 개선을 위해선 다양한 비정형 데이터 수집도 함께 이뤄지도록 개선될 필요가 있다"고 말했다. 이후 K-멜로디 사업에서 추진하는 연합학습 기반망과 연계하고, 이를 AI 기업 및 연구자들에게 개방하면 개인정보 유출 걱정 없이도 그들이 필요로 하는 제약바이오용 AI 학습 데이터를 안전하게 공급할 수 있을 것이란 설명이다.

그는 "만약 이 사업이 이뤄지면 전세계 어느 나라도 이룰 수 없었던 혁신적이고 빠른 데이터 공유망을 구축하게 될 것이다. 더불어 시스템 활성화를 위해 데이터 제공자에 대한 충분한 보상이 이뤄질 수 있는 시스템 구축도 중요한 과제"라고 부연했다.

이와 함께 토론에 참여한 남호정 GIST(광주과학기술원) 교수, 박수준 ETRI(전자통신연구원) 디지털융합연구소 본부장, 신현진 목암생명과학연구소 소장 등도 충분한 학습 데이터 확보의 중요성, 연합학습 시스템의 적극적 활용, 인재양성 및 AI 컴퓨팅 인프라 지원 등 정부의 적극적인 개입과 지원에 대해 입을 모아 촉구했다.

정부측 패널로 참여한 김정대 산업통상자원부 바이오융합산업과장, 남혁모 과학기술정보통신부 첨단바이오기술과장, 심은혜 보건복지부 보건의료데이터진흥과장도 각 부처의 적극적인 지원을 약속했다. 세부계획은 다르나 큰 틀에서 산업계가 지적한 양질의 데이터 확보 방안 강화, K-멜로디 사업 지원, 부처간 유기적인 협업 등에 힘을 모으겠단 입장이다.

이날 행사를 주최한 최수진 의원이 소감을 발표하는 모습.

한편 토론을 주최한 최수진 의원은 "오늘 자리를 마련한 계기도 국내 바이오 산업 이해관계자들이 너무 흩어져, 각자의 노력에도 가시적인 성과를 만들지 못했던 점"이라며 "현재 바이오판 챗GPT를 만들기 위한 노력을 본 포럼의 연장선에서 이어갈 계획"이라고 말했다. 또한 참석한 부처 과장들에게 "이제 바이오 챗GPT 만드는 예타 사업 크게 한번 하기를 제안한다. 더불어 데이터의 적극적 활용을 위한 보상 시스템을 만들고, 정부는 그런 거버넌스 구축과 플랫폼 만드는 일에 더욱 투자해야 할 때"라고 강조했다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널