“세계 유일 ‘전국민 건강보험’ 바이오 데이터, AI 신약개발에 활용돼야”

▲김화종 한국제약바이오협회 K-MELLODDY 사업단장이 29일 서울 강남구 코엑스에서 열린 국제 바이오헬스산업 컨벤션 ‘바이오코리아 2026’의 ‘데이터 기반 협력 생태계 구축을 통한 바이오 AI 선진국 도약’ 세션에서 발언하고 있다. 사진=박주성 기자

“전 국민 건강보험이 단일 체계로 구축돼 국가 단위의 바이오 데이터를 활용할 수 있는 환경이 갖춰진 나라는 전 세계에서 우리나라가 거의 유일합니다.”

김화종 한국제약바이오협회 K-멜로디(K-MELLODDY) 사업단장은 29일 서울 강남구 코엑스에서 열린 국제 바이오헬스산업 컨벤션 ‘바이오코리아 2026’의 ‘데이터 기반 협력 생태계 구축을 통한 바이오 AI 선진국 도약’ 세션에서 이 같이 말하고 “우리나라가 인공지능(AI) 바이오 신약개발 분야에서 아직 선진국은 아니지만, 선진국으로 도약할 가능성은 충분히 갖추고 있다”고 강조했다.

글로벌 바이오헬스, 특히 바이오·제약 산업계에서는 최근 의료·임상 등 바이오 데이터를 활용한 AI 신약개발 시도가 활발하게 이뤄지고 있다. 바이오 데이터를 학습한 AI 모델 등 솔루션을 신약 후보물질 발굴부터 신약 출시까지 전주기에 걸쳐 활용함으로써 연구개발(R&D) 효율성을 극대화하려는 시도다.

김 단장은 이 같은 글로벌 AI 대전환(AX) 흐름 속에서 우리 업계가 팔로워를 넘어 퍼스트 무버로 도약하기 위한 열쇠로 ‘연합학습’을 지목했다.

연합학습이란 신약개발 제약사 등 AI 모델 수요자 요청에 따라 개발자가 AI 모델을 먼저 개발하고, 이를 병원·제약사 등 데이터 보유기관으로 배포해 학습시킨 뒤 개발자의 업데이트 작업을 거쳐 다시 수요자에게 전달하는 일련의 방식(다회 반복)을 일컫는다.

우선 데이터를 확보한 뒤 AI 모델을 개발·고도화하는 전통적인 ‘데이터 우선’ 방식과는 정반대로 운영되는 ‘모델 우선’ 방식인 셈이다.

특히 AI 모델이 개발자를 거쳐 수요자와 데이터 보유기관 사이를 오가는 과정에서 학습 데이터는 전부 ‘파라미터(매개 변수)’로 처리되는 탓에 직접적인 데이터 이동이 없어 민감정보의 유출이 사실상 차단된다.

개발 환경 등 AI 기술력이 주요 선진국 대비 상대적으로 열세인 우리나라가 이미 벌어진 글로벌 격차를 좁히는데 효과적인 개발 방식일뿐만 아니라, 전 세계에서도 차별성을 지닌 건강보험 기반 의료 데이터 등 민감한 바이오 데이터를 활용하는데 최적화된 ‘한국형 데이터 기반 협력 생태계’ 구축 방안이라는 게 김 단장의 설명이다.

그는 “개발 인력이나 AI GPU 등 자원이 풍부한 미국·유럽같은 선진국은 전통적 방식으로 절대 추격할 수 없다”며 “유일하게 따라갈 수 있는 방법은 굉장히 잘 정리된 데이터를 안전하고 효과적으로 활용할 수 있도록 하는 것”이라고 강조했다.

비록 법적 근거가 미비한 탓에 건강보험 기반 의료데이터는 활용되지 않았으나, 실제로 이러한 연합학습 방식을 적용한 정부(보건복지부·과학기술정보통신부) 주도 R&D 사업 ‘연합학습 기반 신약개발 가속화 프로젝트(K-멜로디)’가 이미 국내에서 진행되고 있다.

김 단장과 사업단 주관 아래 국내 42개 산·학·연·병 기관이 공동 참여해 다수의 AI모델을 개발하고, 신약 후보물질의 흡수·분포·대사·배설·독성(ADMET) 및 약물동태학(PK) 작용을 예측하는 AI솔루션을 구축하는 것이 사업의 목표다.

▲최창주 한미약품 상무(왼쪽)와 이승환 서울대병원 교수가 29일 서울 강남구 코엑스에서 열린 국제 바이오헬스산업 컨벤션 ‘바이오코리아 2026’의 ‘데이터 기반 협력 생태계 구축을 통한 바이오 AI 선진국 도약’ 세션에서 발언하고 있다. 사진=박주성 기자

이날 세션에서는 K-멜로디 사업에 참여한 한미약품의 최창주 상무와 아이젠사이언스의 강재우 대표, 서울대병원의 이승환 교수도 각각 연자로 나서 데이터 기반 협력 생태계를 구축하기 위한 실무적 제언을 이어갔다.

특히 최창주 상무는 연합학습을 비롯한 바이오데이터 기반 AI 솔루션이 신약개발 초기 단계에서 의사결정 속도 개선을 통한 R&D 효율화를 이끌 수 있다는 점을 강조하며, 이를 실현하기 위해 각 기업별로 바이오데이터 활용 역량을 확대할 필요가 있다고 조언했다.

그는 “물론 많은 데이터를 확보하는 것도 좋겠지만, 궁극적으로 제약 R&D의 미래 지향점은 ‘데이터 운영 효율화'”라며 “단순히 데이터를 얼마나 많이 확보하고 있느냐뿐만 아니라 그 데이터를 얼마나 잘 추적하고, 연결·재사용 가능하도록 운영하느냐가 중점”이라고 말했다.

그러면서 △면밀한 데이터 거버넌스 설계 △성공·실패 사례를 아우르는 데이터 맥락 보존 △레거시 데이터 수집·활용을 위한 대규모 언어 모델(LLM) 등 자동화 시스템 구축 등의 방안을 제시했다.

이 밖에 데이터 기반 협력 생태계를 구축하는데 있어, 데이터 제공 기관으로서 병원의 협력 방안도 조명됐다.

이승환 교수는 “병원의 경우 피허가 약물에 대한 대규모 임상 데이터를 다수 확보하고 있다”며 “완전히 새로운 기전의 약물을 만들 때는 이 같은 데이터가 큰 도움이 되지 않을 수 있지만, 항암제·당뇨 치료제 등 병용약물을 개발하는데 있어서는 활용 가능성이 높다”고 설명했다.

환자가 어떤 치료를 받았을 때, 시간 경과에 따른 질환 경과와 바이오마커(생체지표) 변화 등 리얼월드 데이터 역시 병원에 다수 확보돼 있어 활용이 용이한 것 역시 장점으로 꼽았다.

반면 △약물관련 기초정보 부재 △AI 관련 전문 인력 부족 △데이터 반출의 어려움 등은 데이터 기반 협력 생태계를 구축하는데 있어 병원이 가지는 한계로 지목됐는데, 이 교수는 “K-멜로디 등 병원이 바이오 데이터를 활용할 수 있는 사업 환경이 다수 조성된다면 이 같은 한계를 극복할 돌파구가 될 것”이라고 기대했다.

한편, 이날 세션에서는 바이오 데이터 활용에 따른 개인정보 처리 인정 여부, 연합학습 성과에 대한 기여분 산정 문제 등 법제적 보완점도 지적됐다.

정종구 법무법인 로반 대표는 “AI모델에 학습한 뒤 파라미터를 전송하는 것이 개인정보 처리에 해당하는지에 대한 해석이 불분명하다”며 “파라미터를 기반으로 개인정보를 역추적하는 것은 사실상 불가능에 가깝지만, 특정 개인을 식별할 수 있는 가능성이 조금이라도 있다면 규제기관의 규제에 대상이 된다”고 설명했다.

또한 그는 “신약개발 과정에서 특이 케이스 데이터 1건과 일반적인 데이터 1000건의 가치 산정, 즉 데이터의 질적·양적 기여도를 어떻게 산정할 것인지 명확한 가치산정 기준이 부재한 것도 문제”라고 짚었다. 연합학습 기반 신약개발을 통해 실체적 성과가 발생했을 때, 이를 분배할 기준이 모호한 탓에 법적 분쟁이 발생할 우려가 있다는 지적이다.

이에 정 대표는 “특별법 등 전용법이 마련되는게 가장 좋겠으나 현실적으로 불가능해보인다”며 “기존 현행 법령을 개선하는 것이 가장 현실적인 대안”이라고 제언했다.

▲정종구 법무법인 로반 대표가 29일 서울 강남구 코엑스에서 열린 국제 바이오헬스산업 컨벤션 ‘바이오코리아 2026’의 ‘데이터 기반 협력 생태계 구축을 통한 바이오 AI 선진국 도약’ 세션에서 발언하고 있다. 사진=박주성 기자

박주성 기자 wn107@ekn.kr