(씨넷코리아=신동민 기자) 아마존웹서비스(이하 AWS)는 연합학습 기반 신약 개발 가속화 프로젝트 ‘K-MELLODDY(Machine Learning Ledger for Drug Discovery)’의 인공지능 플랫폼에 클라우드 인프라를 제공한다고 5일 밝혔다.
K-MELLODDY는 국내 11개 대학, 9개 주요 제약회사, 8개 AI 개발사, 7개 연구기관, 3개 병원 등 총 38개 기관이 참여하는 대규모R&D 이니셔티브이다. K-MELLODDY는 AWS와 함께 신약 후보 물질의 특성을 예측하는 학습 기반 AI 모델을 개발해 인체 대상 시험 이전의 전임상 기간을 단축할 예정이다. 해당 개인정보보호 플랫폼은 제조업, 교육, 정부, 금융 등 다른 산업 분야에도 적용할 수 있다.
K-MELLODDY는 국내 병원과 제약회사들이 각자의 현지 데이터로 AI 모델을 독립적으로 훈련할 수 있도록 하며, AWS 기반 중앙 플랫폼에서 민감한 데이터가 아닌 결과 인사이트만 공유된다. 이 프로젝트는 영국, 프랑스, 스페인 등 유럽 글로벌 선도 제약사들이 의료 AI 개발에 활용한 연합학습(Federated Learning) 방식을 도입함으로써, 데이터 프라이버시 보호와 기관 간 협업이라는 두 가지 핵심 가치를 동시에 실현한다. 예를 들어, 병원과 제약회사 같은 조직이 K-MELLODDY에서 협업할 때, 각자의 민감한 데이터로 AI 모델을 현지에서 훈련하고 모델 인사이트를 안전하게 집계하여 중앙 예측 모델을 향상시킬 수 있다. 이러한 협업은 약물의 흡수율과 독성 같은 약물 특성 예측을 개선하여 환자를 위한 더 안전한 의약품 개발을 가속화한다. 일반적인 머신러닝이 데이터를 한 곳에 모으는 반면, K-MELLODDY는 연합학습을 사용하여 의료 데이터 중앙화를 금지하는 규정을 준수한다. 각 기관은 현지에서 훈련하고, 모델 출력값만 공유 기반 모델(foundation model)에 통합된다.
AWS는 암호화나 마스킹 같은 기존 방법으로는 해결할 수 없었던 데이터 공유 장벽을 극복하여 개인정보를 침해하지 않는 선에서 협업을 가능하게 한다. 이는 개인정보 같은 정보 공유가 불법인 엄격한 개인정보 보호법이 있는 한국에서 특히 중요하다. 또한 대규모 데이터를 보유한 기업의 참여 부족, 공공 연구와 임상개발 간 연결 부족 등이 국내 연구개발의 병목 요인으로 지적되어 온 가운데, K-MELLODDY는 이러한 문제를 안전하고 개인정보보호 중심의 협업을 통해 해결하고자 한다.민감한 정보는 모두 각 기관 내에 안전하게 저장되며, 외부로는 학습된 모델 파라미터만 공유된다. 이 접근 방식은 국내외 보건의료 규제를 충족하면서 환자의 개인정보를 보호하는 신뢰 기반의 협업 환경을 조성할 수 있도록 한다. K-MELLODDY는 AWS 아시아 태평양(서울) 리전에서 실행되며, 연합학습을 지원하기 위해 아마존 버추얼 프라이빗 클라우드(Amazon Virtual Private Cloud, VPC)와 AWS 트랜짓 게이트웨이(AWS Transit Gateway)를 포함한 포괄적인 AWS 네트워킹 서비스 제품군을 활용하여 참여 기관 간 안전한 통신을 촉진한다. 이 프로젝트는 연합학습 구현을 위해 엔비디아(NVIDIA)의 플레어(Flare) 프레임워크를 활용하며, 각 기관은 이러한 아마존 EC2 G6e 인스턴스(Amazon EC2 G6e instances)를 통해 자체 보안 AWS 계정 내에서 모델을 훈련하는 플레어 클라이언트 서버를 운영한다. 아마존 EC2 G6e 인스턴스는 엔비디아 L40S 텐서 코어 GPU(NVIDIA L40S Tensor Core GPUs)를 활용한 생성형 AI 모델 배포를 위한 비용 효율적인 GPU 인스턴스이다. 이러한 분산 훈련 접근법을 통해 AI 기반 모델이 구축되면, 완전 관리형 AI 서비스인 아마존 세이지메이커(Amazon SageMaker)가 기관들에 신약 개발을 안내하는 인사이트를 적용할 수 있는 통제된 추론 기능을 제공한다.김화종 한국제약바이오협회 K-MELLODDY 사업단장은 "AWS와의 협업은 그간 파편화돼 있던 국내 제약 및 바이오 분야의 데이터 활용에 있어 중대한 진전을 의미한다. K-MELLODDY를 통해 38개 기관이 연구 데이터를 안전하게 보호하면서도 더 효과적으로 학습하고 협업할 수 있게 되었다”며, “이 같은 방식은 약물이 인체 내에서 어떻게 작용하는지를 더 정확히 예측함으로써, 임상 실패를 줄이고 개발을 가속화하는 데 기여할 것"이라고 말했다.