인공지능(AI) 기술 발전과 함께 신약 개발에 AI를 도입하려는 시도가 빠르게 늘고 있다. 후보물질 탐색과 물질 설계, 독성 예측 등 연구 초기 단계에서는 이미 AI 활용이 보편화되는 분위기다. 다만 AI가 어떤 후보를 다음 실험 대상으로 삼을지 결정하고, 그 결과를 다시 학습에 반영하는 방식까지 실제 연구 현장에 구현하는 사례는 아직 제한적이다.

최근 이 같은 실험 주도형 AI를 연구 체계 전면에 배치하려는 시도는 글로벌 빅파마를 중심으로 본격화되고 있다. 대표적인 사례가 일라이 릴리다.

릴리는 지난 12일(현지 시각) 엔비디아와 공동 실험실을 구축해, AI가 제안한 분자를 로봇이 즉시 합성·실험하고 그 결과를 다시 AI 학습에 반영하는 ‘랩 인 더 루프(lab-in-the-loop)’ 구조를 도입하겠다고 밝혔다. 연구진이 생성한 데이터를 AI가 사후 분석하는 기존 방식에서 벗어나, 반복 실험의 흐름 자체를 AI가 주도하도록 하겠다는 구상이다.

반면 국내 제약사 다수에게 AI는 여전히 방대한 문헌을 정리하거나 후보물질 발굴을 돕는 보조 도구에 머물러 있다는 평가가 많다. 한 국내 제약사 연구 책임자는 “현재로서 AI는 반복적이고 시간이 많이 드는 작업을 줄여주는 도구에 가깝다”고 말했다.

전문가들은 이 같은 격차의 배경에 기술력 차이뿐 아니라, 규제와 데이터 활용 환경 등 구조적 요인이 겹쳐 있다고 본다.

지난 12일(현지 시각) 미국 샌프란시스코에서 열린 JP모건 헬스케어 콘퍼런스에서 젠슨 황 엔비디아 최고경영자(CEO)와 데이브 릭스 일라이릴리 CEO가 대담에 앞서 악수를 하고 있다./엔비디아

◇韓, 연구량은 늘었지만 단계는 멈췄다

한국의 AI 신약개발 기술력이 전반적으로 뒤처져 있다고 보기는 어렵다. 한국생명공학연구원(KRIBB)이 2015년부터 2024년까지 최근 10년간 전 세계에서 발표된 AI 신약개발 논문 3만3956편을 분석한 결과, 한국은 같은 기간 총 1016편의 논문을 발표해 세계 9위를 기록했다. 최근 3년간 발표 논문 수는 637편으로, 순위는 6위까지 올라섰다. 연구 참여 자체는 빠르게 확대되고 있는 것이다.

영향력 역시 개선되는 흐름이다. 논문의 질적 수준을 보여주는 RCR(Relative Citation Ratio) 기준에서도 한국은 최근 10년 평균 2.20으로 7위, 최근 3년 평균은 2.35로 5위 수준을 기록했다.

그러나 연구가 집중되는 ‘단계’를 들여다보면 양상은 달라진다. 미국 논문들의 경우 ‘전임상 연구’ 키워드 출현 빈도가 702, ‘임상 연구’가 780에 달했다. 중국도 각각 615, 640으로 높은 수준을 유지했다. 반면 같은 기간 한국에서는 ‘전임상 연구’ 키워드가 사실상 포착되지 않았고, ‘임상 연구’ 키워드도 79에 그쳐 미국과 중국의 10분의 1 수준에 머물렀다.

물론 한국의 AI 신약개발 관련 논문 수 자체가 미국이나 중국에 비해 적은 점도 영향을 미쳤다. 다만 단백질 분석, 약물–표적 상호작용 규명, 후보물질 발굴 등 초기 탐색 단계 키워드는 일정 수준 나타나는 반면, 전임상·임상 단계 관련 키워드가 거의 보이지 않는 현상은 단순한 논문 수 차이만으로 설명하기 어렵다는 분석이 나온다.

미국·중국·한국 논문의 신약개발 단계별 키워드 출현 빈도 비교(2015~2024년)./한국생명공학연구원

◇“데이터가 연결되지 않으면 실험도 없어”

그렇다면 왜 한국의 AI 신약개발은 초기 탐색 단계에 머무는 걸까. 업계는 그 이유로 ‘데이터 분절’을 꼽는다.

AI가 ‘다음 실험을 결정하는 도구’가 되려면 이전 실험 결과가 누적·연결된 데이터가 필요하다. 그런데 한국은 그 데이터가 구조적으로 쌓이지 않기 때문에, AI가 “후보를 많이 뽑아주는 도구” 이상으로 올라가지 못한다는 설명이다.

국내 제약 연구개발에서 활용 가능한 임상·유전체 데이터는 대부분 파편화돼 있다. 특정 과제나 연구 단위로 흩어져 있고, 성공한 결과만 남고, 왜 실패했는지에 대한 데이터가 다음 연구로 이어지지 않는다. 이로 인해 AI 모델이 새로운 후보 물질을 설계하더라도, 그 결과가 실제 실험에서 어떻게 검증됐는지를 다시 학습하기 어렵다.

제도적 환경도 이러한 단절을 강화한다. 개인정보보호법(PIPA)은 통계 작성, 과학적 연구, 공익적 기록 보존 목적에 한해 정보 주체의 명시적 동의 없이도 가명정보 처리를 허용하고 있다. 하지만 가명처리를 거친 정보는 여전히 ‘개인정보’로 분류돼 목적 외 이용이나 제3자 제공에 엄격한 제한이 따른다.

서로 다른 가명정보 기반 의료·임상 데이터의 결합 역시 정부가 지정한 전문기관과 ‘데이터 안심구역(Safe Zone)’ 등 제한된 환경을 거쳐야 한다.

미국 역시 의료정보 활용의 원칙은 환자 동의지만, 연구 목적에 대해서는 제도적으로 예외를 인정한다. 기관생명윤리위원회(IRB) 등의 승인을 받으면 식별 가능성이 있는 보호 건강정보(PHI)라도, 개인정보 보호 조치와 내부 통제를 전제로 연구기관이나 기업이 기관 내부에서 직접 결합·분석할 수 있다.

◇‘바이오 빅데이터 구축’, 변화 촉매 될까

이런 맥락에서 업계는 현재 정부가 추진 중인 ‘국가통합바이오빅데이터사업(BIKO)’에도 아쉬움을 표한다. 데이터 확보만으로는 한계가 있고, 활용 가능한 생태계 조성이 병행돼야 한다는 것이다. BIKO는 국민 동의를 기반으로 보건복지부, 과학기술정보통신부, 산업통상자원부, 질병관리청 등이 협력해 2024년부터 2028년까지 77만2000명 규모의 유전체·임상 데이터를 구축하는 게 골자다.

박봉현 한국바이오협회 바이오경제연구센터 책임연구원은 “데이터의 연속적 활용을 전제로 한 제도적 유연성이 필요하다”며 “데이터 안심구역 내에서 연구자들이 보다 자유롭게 데이터를 결합·분석할 수 있도록 규제 샌드박스를 확대하는 것이 하나의 해법이 될 수 있다”고 말했다.

그는 “여기에 더해 AI 신약 개발에 사용되는 머신러닝 모델의 개발·검증·운영 전반을 포괄하는 GMLP(Good Machine Learning Practice) 가이드라인과 데이터 제출·평가 기준이 함께 마련돼야 기업들이 AI 활용을 후보발굴 단계를 넘어 후기 단계로 확장할 수 있다”고 했다.