인공지능 기반 신약개발 가속화 프로젝트 (K-MELLODDY)
과학기술정보통신부 보건복지부 공동 추진(24.4 ~ 28.12, 5년간, 348억원)
사업목적
- 제약기업, 연구소, 대학, 병원 등에 분산된 신약개발 관련 데이터의 안전한 활용이 가능한 연합학습 기반 AI 신약개발 플랫폼을 구축하여 AI 기반 신약개발 선도국 진입
산출물
FDD
Platform
Platform
연합학습 기반 신약개발 가속화 플랫폼 (FDD)구축
FAM
FDD기반 ADMET 예측 모델(FAM)개발
사업 필요성
ADMET 예측의 중요성
- ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity: 흡수, 분포, 대사, 배설, 독성) 은 임상시험 성공의 가장 중요한 요소이며, 신약개발 R&D 비용의 22%를 차지함 (NIH)
- in-vitro 실험 결과만으로 in-vivo(전임상) 및 임상시험 통과를 보장하기 어려움 (단계별 시험의 한계)
- ADMET 임상시험 통과 예측은 임상시험(in-human) 데이터를 학습에 사용해야 하나 이러한 전주기적인 데이터 공유가 거의 불가하므로 모델 구현이 매우 어려운 상황임
세부사업
세부사업 1
플랫폼 구축
연합학습 기반 신약개발 플랫폼(FDD)을 구축하고 FAM 솔루션을 운영
- 플랫폼 요구사항 정의, 인프라 구축 계획, 데이터 보호 전략 수립
- 플랫폼 성능 편의성, 보안 기능 구축 및 운영을 통한 안전성 검증
- 사용자 별 보상 방법 개선, 플랫폼 확대 및 사업화 계획 수립
세부사업 2
데이터 공급·활용
제약사, 대학, 병원, 연구소 등의 데이터 공급 및 FAM 활용
- ADMET/PK 예측에 필요한 AI솔루션 태스크 정의, 데이터 파악 및 데이터 공급 계획 설계
- 기본모델 학습 및 전처리 도구 개발용 데이터 구축
- 신규 데이터 공급 방안 설계 솔루션 성능 모니터링, 활용 결과 피드백
세부사업 3
AI 모델 개발
FAM 솔루션 및 응용 모델 개발 (1~3차년도 각 5개 과제 선정)
- 솔루션 요구사항 분석, 전처리 도구 설계, AI모델 개발
- 데이터 불균형, 결측치 발생, 파인 튜닝 적용시의 성능 개선
- 기존의 ADMET/PK 예측 모델과 태스크 별 성능 비교, 솔루션 사업화 방안 연구
FAM
기대효과
- 데이터 기반 오픈 이노베이션 생태계 구축
- 경쟁관계의 기관들도 각자 보유한 데이터를 기반으로 협력할 수 있는 연합학습 방식의 오픈 이노베이션 생태계 구축
- AI 솔루션 개발 기업은 데이터 보유기관과 일대일 협약이 아니라 플랫폼 기반으로 실시간 성능 검증 및 배포
- AI 기반 신약개발 선도국 진입
- ADMET/PK의 전주기적인(in vitro, in vivo, in human) 통합 예측 모델을 확보함으로써 우리나라 신약개발 R&D 비용과 시간을 줄이고 성공 확률을 향상
- 국내외 여러 기관이 보유한 다양한 유형의 데이터 활용이 가능하게 됨
- 데이터 활용 생태계 확대
- AI 모델 학습에 필요한 데이터의 생산, 이동, 가공, 저장 절차를 대폭 줄이고 원본 데이터는 각자 관리함으로써 데이터 관리 비용이 획기적으로 절감
- 연합학습에서는 데이터의 물리적 이동으로 인한 보안 위협이 근본적으로 없고 기관간 데이터 공동 "활용"이 가능하여 향후 보건의료분야의 활요이 크게 증가할 것임