Skip to content
Published on

AI 생물학 & 신약개발 2026 완벽 가이드 - AlphaFold 3 · RoseTTAFold · ESM Atlas · Boltz · Chai-1 · RFdiffusion · Isomorphic Labs · Recursion · Insilico 심층 분석

Authors

프롤로그 — 2024년 노벨 화학상이 의미하는 것

2024년 10월 9일, 스웨덴 왕립 과학 아카데미는 화학상 수상자를 발표했다. David Baker(University of Washington), Demis Hassabis(DeepMind CEO), John Jumper(DeepMind Senior Director). 절반은 Baker의 단백질 설계(de novo protein design) 공로로, 나머지 절반은 Hassabis와 Jumper가 만든 AlphaFold 2의 단백질 구조 예측 공로로 돌아갔다.

이는 단순한 학문적 인정 이상의 의미였다. AI가 50년 묵은 생물학의 미해결 문제(protein folding problem)를 풀었다는 공식 선언이었고, 동시에 그 AI를 산업화한 기업(DeepMind, Isomorphic Labs, Generate:Biomedicines, Recursion, Insilico Medicine 등)이 신약 개발의 미래를 다시 그리고 있다는 신호였다.

"단백질 구조 예측은 죽었다. 이제 진짜 게임이 시작된다." — 어느 분자 생물학자가 노벨상 발표 직후 X에 남긴 말이다. AlphaFold 2가 정적 구조 예측을 풀었다면, 그 다음 단계는 동적인 상호작용 · 약물 결합 · 새로운 단백질 설계다. 그리고 2026년 현재, 이 모든 게 동시에 폭발하고 있다.

이 글에서 다루는 것:

  1. AI 생물학의 지도 — 2026년의 진영
  2. 단백질 구조 예측의 역사 — Anfinsen에서 AlphaFold까지
  3. AlphaFold 2 · 3 · Server — DeepMind의 흐름
  4. RoseTTAFold 시리즈 — Baker Lab의 답
  5. ESM-2, ESM-3, ESM Atlas — Meta에서 EvolutionaryScale로
  6. Boltz-1, Boltz-2 — MIT의 오픈 재현
  7. Chai-1, Protenix — 새로운 후발 주자
  8. ColabFold, OmegaFold — 접근성의 혁명
  9. RFdiffusion + ProteinMPNN — 단백질 디자인의 새 패러다임
  10. 항체 설계 — AbDesign, IgFold, Absci
  11. 저분자 + 도킹 — MolMIM, DiffDock, NeuralPLexer
  12. Isomorphic Labs — DeepMind의 신약 자회사
  13. Recursion Pharmaceuticals + Exscientia 합병
  14. Insilico Medicine — 생성 AI 신약의 선구자
  15. Schrödinger, Atomwise, BenevolentAI, Cradle
  16. 유전체학 AI — DeepVariant, Enformer, Geneformer, scGPT
  17. 세포 이미징 AI — Cell Painting, JUMP-CP, CellPose
  18. 임상시험 AI — Saama, Unlearn.ai
  19. 바이오 기초 모델 — BioGPT, GeneGPT, NACL
  20. 한국 AI 바이오 — Standigm, Deep Bio, Syntekabio
  21. 일본 AI 바이오 — Preferred Networks, Elix, MOLCURE
  22. 데이터셋과 벤치마크 — PDB, UniProt, ChEMBL, AlphaFold DB
  23. 시뮬레이션 인프라 — GROMACS, AMBER, DESMOND
  24. 윤리와 규제 — 안전 평가의 새로운 기준
  25. 참고 자료

1장 · AI 생물학의 지도 — 2026년의 진영

2026년 5월 기준, AI 생물학은 크게 다섯 진영으로 나뉜다.

1) 구조 예측 진영(Structure Prediction) 주어진 단백질 서열에서 3D 구조를 예측한다. AlphaFold 2/3, RoseTTAFold, ESMFold, Boltz, Chai-1, OmegaFold, ColabFold, Protenix가 여기 속한다. 2024년 AlphaFold 3가 단백질뿐 아니라 DNA · RNA · 리간드 · 이온까지 동시에 모델링하면서 게임이 한 단계 올라갔다.

2) 단백질 디자인 진영(Protein Design) "우리가 원하는 기능을 가진 단백질을 처음부터 만들어 내자"는 흐름. RFdiffusion, ProteinMPNN, ESM3(생성 가능 버전), Chroma, Genie 등이 대표적이다. Baker Lab과 Generate:Biomedicines가 이 진영의 양대 축이다.

3) 신약 발굴 기업 진영(Drug Discovery Companies) 실제 임상 파이프라인을 운영하는 회사들. Isomorphic Labs(Alphabet), Recursion(Exscientia 합병), Insilico Medicine, Schrödinger, Atomwise, BenevolentAI, Cradle, Absci, Generate:Biomedicines가 여기 속한다.

4) 유전체 + 단일세포 진영(Genomics + Single-cell) DNA 서열, 유전자 발현, 세포 상태를 모델링한다. DeepVariant(변이 검출), Enformer(발현 예측), Geneformer · scGPT(단일세포 기초 모델), AlphaMissense(변이 영향 예측)가 대표.

5) 이미징 + 표현형 진영(Imaging + Phenotypic) 세포 이미지에서 약물 효과를 직접 읽는다. Recursion의 "Maps" 플랫폼, JUMP-CP 공개 데이터셋, CellPose · CellProfiler 같은 분석 도구가 핵심.

이 다섯 진영은 서로 겹친다. Recursion은 이미징 + 디자인 + 신약을 모두 한다. EvolutionaryScale은 ESM3로 예측 + 디자인을 동시에 한다. 그래서 어느 회사를 "어느 진영"으로 묶기보다, 각 회사가 어떤 문제를 풀려 하는지를 봐야 한다.


2장 · 단백질 구조 예측의 역사 — Anfinsen에서 AlphaFold까지

먼저 짧은 역사. 단백질 구조 예측은 50년 묵은 문제였다.

1972년: Christian Anfinsen, 노벨 화학상 수상. "단백질의 3차원 구조는 그 1차원 아미노산 서열에 의해 결정된다"는 가설(Anfinsen dogma)을 실험으로 증명. 이 가설이 맞다면 이론적으로 서열만으로 구조를 예측할 수 있어야 한다.

1994년 ~ 2020년: CASP(Critical Assessment of protein Structure Prediction)이 격년으로 열렸다. 전통적인 방법(homology modeling, threading, fragment assembly, Rosetta 등)이 점진적으로 개선됐지만, GDT-TS(구조 정확도 지표)는 60~70대 박스를 못 벗어났다.

2018년 CASP13: DeepMind의 첫 AlphaFold 1이 GDT-TS 58.9를 기록하며 2위 그룹을 6점 차로 따돌렸다. 학계가 놀랐다.

2020년 12월 CASP14: AlphaFold 2가 GDT-TS 92.4를 기록. 사실상 실험 수준(~95)에 도달. CASP14 주최자 John Moult는 "단백질 구조 예측 문제는 풀렸다(largely solved)"고 선언했다.

2021년 7월: AlphaFold 2 코드와 가중치가 오픈소스로 공개. 동시에 AlphaFold DB가 출범 — 곧 인간 단백질체 전체(약 20,000개)를 포함했고, 2022년에는 2억 개 이상의 예측 구조로 확장됐다.

2021년 7월: David Baker 팀이 RoseTTAFold 발표. AlphaFold 2와 같은 시기, 비슷한 정확도. attention 기반 3트랙(서열, 거리, 좌표) 아키텍처.

2022년 11월: Meta AI(FAIR)가 ESMFoldESM Atlas 공개. 6억 개 이상의 메타게놈 단백질 구조를 예측해 공개. 다중 서열 정렬(MSA) 없이 언어 모델만으로 빠르게 예측.

2024년 5월: AlphaFold 3 발표. 단백질뿐 아니라 DNA · RNA · 작은 분자(리간드) · 이온까지 동시 모델링. 단, 모델은 비공개 + AlphaFold Server라는 웹 인터페이스로만 제공.

2024년 10월: 노벨 화학상 — David Baker(절반), Demis Hassabis + John Jumper(절반).

2024년 5월 ~ 2025년: MIT의 Boltz-1, Chai Discovery의 Chai-1, ByteDance의 Protenix가 AlphaFold 3 수준의 오픈 모델을 차례로 공개.

2025년 6월: EvolutionaryScale의 ESM-3 출시. 생성 모델로 진화(ESMFold = 예측, ESM-3 = 예측 + 생성).

2026년 현재: Boltz-2 출시, AlphaFold 4 루머, RFdiffusion All-Atom의 임상 후보 화합물 도달. 그리고 구조 예측 자체는 더 이상 차별화 포인트가 아님이 분명해졌다.


3장 · AlphaFold 2 · 3 · Server — DeepMind의 흐름

AlphaFold 2(2021)의 아키텍처 핵심.

  • 입력: 표적 단백질 서열 + MSA(다중 서열 정렬, 진화 정보)
  • Evoformer: 서열 표현과 페어 표현을 attention으로 정제
  • Structure module: 3D 좌표를 직접 생성. 회전과 변환을 SE(3) equivariant하게 처리
  • pLDDT, pTM 같은 신뢰도 지표를 함께 출력

AlphaFold 2는 정적 구조 예측에 특화돼 있다. 동적 conformation, 결합 상태 변화, 작은 분자와의 상호작용은 별도 도구가 필요했다.

AlphaFold 3(2024)는 그 한계를 정면 돌파했다.

  • 단백질 + DNA + RNA + 리간드 + 이온을 한 모델로 처리
  • Diffusion 기반 좌표 생성 — Structure module을 확산 모델로 교체
  • 평균 정확도가 AlphaFold 2 대비 50% 향상 (특히 단백질-리간드 상호작용에서)
  • 다만 코드와 가중치는 비공개. AlphaFold Server로만 접근. 학술/비상업 이용 무료.

이 비공개 정책은 학계에 큰 논쟁을 일으켰다. DeepMind의 입장은 명확했다. "Isomorphic Labs(자회사)가 상업적으로 활용해야 하기 때문에 모델은 비공개". 결과적으로 MIT, Chai Discovery, ByteDance가 곧바로 오픈 재현에 들어갔고, 1년 안에 거의 동급의 모델이 공개됐다.

AlphaFold Server는 2024년 5월 출시. 누구나 구글 계정으로 로그인해 서열을 입력하면 24시간 안에 구조를 받는다. 학계 사용량은 폭발적. 다만:

  • 결과 다운로드 가능, 모델 자체는 비공개
  • 비상업 용도만 허용
  • 매일 작업당 한도 있음

2026년 현재 AlphaFold DB는 약 2억 1,400만 개의 구조를 무료로 제공한다. 인간 단백질체뿐 아니라 UniProt에 등재된 거의 모든 단백질을 예측해 둔 상태다.


4장 · RoseTTAFold 시리즈 — Baker Lab의 답

University of Washington의 David Baker 연구실(노벨상 수상)은 단백질 구조 예측과 디자인 양쪽에서 DeepMind와 라이벌 관계다. 그들의 답은 RoseTTAFold 시리즈.

RoseTTAFold(2021)

  • 3-track 아키텍처: 서열, 거리, 좌표를 동시에 학습
  • AlphaFold 2와 거의 같은 시기, 비슷한 정확도(약간 낮지만 빠름)
  • 오픈소스로 공개

RoseTTAFold2(2023)

  • AlphaFold 2와 거의 동일 정확도
  • 더 큰 단백질 처리 가능
  • 단백질-단백질 복합체(complex) 예측 강화

RoseTTAFold All-Atom(RFAA, 2023)

  • 단백질 + DNA + RNA + 리간드 + 보조인자를 한 모델로
  • AlphaFold 3와 비슷한 컨셉이지만 더 일찍 공개
  • 오픈소스 + 가중치 공개

RFdiffusion(2023, 디자인용)

  • 단백질 백본(backbone)을 처음부터 생성하는 diffusion 모델
  • 결합 단백질(binder), 효소, 항체 디자인에 활용
  • 노벨상 핵심 기여 중 하나

RFdiffusion All-Atom(2024)

  • 백본뿐 아니라 측쇄(side chain)와 리간드까지 동시 디자인
  • 결합 친화도가 실제로 더 높은 단백질을 생성

Baker Lab의 가치 제안은 명확하다: "오픈, 디자인, 응용". 모든 모델을 공개하고, 단순 예측을 넘어 디자인 도구를 함께 제공한다.


5장 · ESM-2, ESM-3, ESM Atlas — Meta에서 EvolutionaryScale로

ESM(Evolutionary Scale Modeling) 시리즈는 Meta AI(이전 FAIR)의 단백질 언어 모델 프로젝트였다.

ESM-1, ESM-2(2019-2022)

  • 단백질 서열을 텍스트처럼 다루는 transformer
  • UniRef50의 약 6,500만 서열로 사전학습
  • 가장 큰 ESM-2는 150억 파라미터

ESMFold(2022)

  • ESM-2 위에 구조 예측 헤드를 붙임
  • MSA 없이 서열만으로 구조 예측 — AlphaFold 2 대비 60배 빠름
  • 정확도는 약간 낮지만 메타게놈 단백질처럼 MSA를 만들기 어려운 경우에 강력

ESM Atlas(2022)

  • ESMFold로 6억 1,700만 개의 메타게놈 단백질 구조를 예측
  • 토양, 해양, 인체 미생물체 등에서 온 "다크 단백질체"를 처음으로 가시화
  • AlphaFold DB와 함께 단백질체 우주의 두 축

2024년: Meta가 FAIR 단백질 팀을 분사. EvolutionaryScale이라는 별도 회사로 독립. Alex Rives(ESM 리드 저자)가 공동 창업.

ESM-3(2024, EvolutionaryScale)

  • 서열 · 구조 · 함수를 통합한 다중 모달 생성 모델
  • 예측뿐 아니라 생성도 가능 — 원하는 함수를 가진 단백질을 디자인
  • 가장 큰 ESM-3는 980억 파라미터
  • 오픈 가중치가 부분적으로만 공개됨(가장 큰 모델은 API만 제공)
  • 7B/24B 모델은 비상업 라이선스로 공개

EvolutionaryScale은 ESM-3를 활용해 형광 단백질 시뮬레이션 진화(esmGFP) 실험을 발표 — 5억 년 분량의 진화 경로를 압축해 새로운 GFP 변이체를 디자인했다.


6장 · Boltz-1, Boltz-2 — MIT의 오픈 재현

AlphaFold 3가 비공개되자, MIT의 Regina Barzilay 그룹과 협력자들은 2024년 5월 Boltz-1을 발표했다.

Boltz-1(2024)

  • AlphaFold 3 수준의 정확도(단백질 + 핵산 + 리간드 + 이온)
  • MIT 라이선스로 완전 공개 — 코드, 가중치 모두
  • 자체 데이터 + 공개 데이터로 학습
  • AlphaFold Server를 못 쓰는 상업 연구자에게 게임 체인저

Boltz-2(2025)

  • Boltz-1보다 약 1.5배 빠름
  • 결합 친화도(affinity) 예측을 추가
  • 메모리 효율 개선으로 더 큰 시스템 처리 가능
  • 동일 MIT 라이선스

Boltz의 의의는 단순하다: "AlphaFold 3는 못 써도 Boltz-2는 쓸 수 있다." 제약 회사 내부 R&D, 학술 연구, 상업 응용 모두에 무료로 활용 가능하다.

다음은 Boltz-2를 명령줄에서 호출하는 예시.

# Boltz-2 설치 (PyPI)
pip install boltz

# 입력 FASTA 준비
cat > target.fasta <<EOF
>protein|name=kinase
MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK
EOF

# 단일 단백질 구조 예측
boltz predict target.fasta --use_msa_server --out_dir results/

# 결과 — results/predictions/target/ 안에 PDB와 mmCIF 출력

YAML 입력으로 단백질-리간드 복합체도 지원한다.

version: 1
sequences:
  - protein:
      id: A
      sequence: MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK
  - ligand:
      id: B
      smiles: "CC(=O)OC1=CC=CC=C1C(=O)O"  # 아스피린
properties:
  - affinity:
      binder: B

GPU 한 장(A100 80GB)으로 중간 크기 단백질을 1-5분 안에 처리한다.


7장 · Chai-1, Protenix — 새로운 후발 주자

Chai Discovery는 2024년 가을 등장한 신생 스타트업으로, AlphaFold 3 수준 모델을 자체 개발했다.

Chai-1(2024)

  • 단백질 + 핵산 + 리간드 + 이온
  • AlphaFold 3보다 약간 낮은, Boltz-1과 비슷한 정확도
  • 가중치 일부 공개(비상업 라이선스)
  • 웹 UI도 제공 — 누구나 시도 가능
  • 항체 모델링에 특히 강함

Chai-1r(2025)

  • 결합 친화도 예측 추가
  • 강화학습 기반 후처리(re-ranking)
  • 결합 단백질 디자인 시뮬레이션에 활용

Protenix(ByteDance, 2024)

  • 중국 ByteDance(틱톡 모회사)의 ByteDance Research가 공개
  • AlphaFold 3 재현, Apache 2.0 라이선스로 완전 공개
  • 가중치 + 학습 코드까지
  • 정확도는 Boltz-1과 비슷한 수준

이 세 모델(Boltz, Chai, Protenix) 덕분에 2025년 봄에는 사실상 AlphaFold 3 수준의 오픈 모델이 세 개나 존재하게 됐다. DeepMind의 비공개 정책이 역설적으로 오픈 생태계를 가속한 셈이다.


8장 · ColabFold, OmegaFold — 접근성의 혁명

AlphaFold 2가 공개됐지만 실행에는 비싼 GPU와 거대한 MSA 데이터베이스(BFD, Uniref30 등 수 TB)가 필요했다. 이걸 누구나 쓸 수 있게 만든 것이 ColabFold다.

ColabFold(2022)

  • Sergey Ovchinnikov와 협력자들이 만든 노트북
  • AlphaFold 2 + RoseTTAFold + ESMFold를 Google Colab에서 실행
  • MSA를 MMseqs2 기반 빠른 검색으로 대체 (BFD 대신)
  • 학부생도 30분 안에 단백질 구조 예측 가능
  • 2025년까지 약 100만 명 이상이 사용

OmegaFold(2022)

  • Helixon이 발표
  • MSA 없이도 작동
  • ESMFold와 비슷한 컨셉이지만 별도 학습
  • 일부 케이스에서 ESMFold보다 정확

ColabFold의 의의는 민주화다. 노벨상 수준의 기술을 노트북에서 실행할 수 있게 한 것. 2025년 현재 ColabFold는 AlphaFold 3, Boltz-2, Chai-1까지 점진적으로 통합 중이다.


9장 · RFdiffusion + ProteinMPNN — 단백질 디자인의 새 패러다임

지금까지는 예측(prediction) 이야기였다. 이제 디자인(design)으로 넘어가자.

전통적인 단백질 디자인은 Rosetta 같은 물리 기반 시뮬레이션으로 시도했다. 가능한 측쇄 조합을 평가해 에너지가 낮은 구조를 찾는 방식. 느렸고, 새로운 단백질 폴드를 만들기 어려웠다.

RFdiffusion(Baker Lab, 2023)이 게임을 바꿨다.

  • Diffusion 모델로 단백질 백본을 처음부터 생성
  • 입력: 결합하고 싶은 표적 단백질의 일부 구조 + 결합 위치
  • 출력: 그 자리에 결합할 수 있는 새로운 단백질 백본
  • 노벨상 수상 기술 중 하나

ProteinMPNN(Baker Lab, 2022)

  • 백본이 주어지면 그 백본에 맞는 아미노산 서열을 생성
  • 메시지 패싱 그래프 신경망
  • "백본을 RFdiffusion으로 만들고, 서열을 ProteinMPNN으로 채운다"가 표준 파이프라인

RFdiffusion + ProteinMPNN 파이프라인의 실제 워크플로:

  1. 표적 단백질의 결합 위치를 선택
  2. RFdiffusion으로 그 위치에 결합할 수 있는 백본을 1만 개 생성
  3. ProteinMPNN으로 각 백본에 서열을 부여 (백본당 8개씩)
  4. AlphaFold 2로 그 서열들을 다시 폴딩해 백본과 일치하는지 검증
  5. 상위 100개를 실험실에서 발현해 결합 친화도 측정

이 파이프라인으로 2024년 한 해에만 10개 이상의 새로운 결합 단백질이 임상/전임상 단계에 진입했다.

RFdiffusion All-Atom(2024)는 백본뿐 아니라 측쇄와 리간드까지 한 번에 디자인한다. 예를 들어 약물 분자 주변에 정확히 맞는 효소를 디자인할 수 있다.


10장 · 항체 설계 — AbDesign, IgFold, Absci

항체(antibody)는 가장 중요한 바이오 의약품 카테고리(2024년 매출 약 2,000억 달러)다. 그래서 항체 디자인 AI는 별도의 큰 시장을 형성한다.

IgFold(Johns Hopkins, 2022)

  • 항체 구조 예측에 특화 (일반 AlphaFold보다 정확)
  • CDR(complementarity-determining region) 모델링 강화
  • 오픈소스

ABodyBuilder(Oxford OPIG, 2024)

  • 항체 가변영역 빠른 모델링
  • 단일 GPU에서 1초 미만 예측

AbDesign / RFdiffusion-Ab(Baker Lab, 2024)

  • RFdiffusion을 항체 디자인에 맞게 fine-tune
  • 표적 항원에 결합하는 항체를 처음부터 생성
  • 실험 검증에서 약 1% 이상의 hit rate (전통 디스플레이 기법 대비 10-100배)

Absci(나스닥 상장, 2021)

  • "Generative AI for antibody discovery"
  • 자체 머신러닝 + wet lab 통합
  • 2024년 GSK, Merck 등과 파트너십
  • 표적 결합 항체를 6주 내 디자인 + 발현

Generate:Biomedicines(2022 분사, 2024 시리즈 C 2.7억 달러)

  • Flagship Pioneering 인큐베이팅
  • Chroma 모델 자체 개발 — 항체 + 일반 단백질 디자인
  • 글로벌 빅파마와 다수 협업

항체 디자인의 핵심 KPI는 affinity(결합 친화도, Kd 값)와 developability(개발 가능성 — 응집, 점도, 면역원성). AI는 이 두 축을 동시에 최적화하는 게 도전이다.


11장 · 저분자 + 도킹 — MolMIM, DiffDock, NeuralPLexer

단백질이 아닌 작은 분자(small molecule) 측면도 AI가 빠르게 들어왔다.

SMILES와 SELFIES

  • SMILES: 분자를 문자열로 표현하는 표준 (예: CC(=O)OC1=CC=CC=C1C(=O)O = 아스피린)
  • SELFIES: SMILES의 한계를 보완, 항상 유효한 분자만 표현

Mol-BERT, ChemBERTa, MoLFormer(2020-2022)

  • SMILES로 사전학습된 transformer
  • 분자 성질 예측에 활용

MolMIM(NVIDIA, 2024)

  • 분자 생성 모델, NVIDIA BioNeMo의 일부
  • 입력 분자에서 비슷하지만 향상된 성질의 분자를 생성
  • 의약화학자의 hit-to-lead 단계를 가속

DiffDock(MIT, 2023)

  • Diffusion 기반 도킹 모델
  • 단백질-리간드 결합 포즈를 직접 생성
  • 전통 도킹(AutoDock Vina 등) 대비 수십 배 빠름

NeuralPLexer(2024, Caltech)

  • 단백질과 리간드를 함께 입력받아 결합 복합체 예측
  • 보조인자, 보조 단백질도 고려

AlphaFold 3 + Boltz-2 + Chai-1도 결국 작은 분자 결합을 예측하기 때문에, 도킹 분야와 구조 예측 분야가 사실상 합쳐지는 중이다.


12장 · Isomorphic Labs — DeepMind의 신약 자회사

Isomorphic Labs는 2021년 11월 Alphabet이 분사한 신약 개발 자회사. Demis Hassabis가 CEO를 겸직한다.

미션: "Re-imagining drug discovery through AI." AlphaFold를 신약 발굴의 기본 도구로 쓴다.

전략:

  • 자체 파이프라인 + 빅파마 파트너십 양면 전략
  • 2024년 Eli Lilly와 1.7억 달러 + 마일스톤 계약
  • 2024년 Novartis와 1.2억 달러 + 마일스톤 계약
  • 자체 후보 물질은 종양학 + 면역학 중심

기술 스택:

  • AlphaFold 3가 핵심 (외부에는 비공개, 사내 우선 사용)
  • 자체 디자인 모델 + 도킹 + ADMET 예측
  • 자체 wet lab은 최소화, CRO와 협력

비공개 정책: Isomorphic의 존재가 AlphaFold 3 비공개의 이유다. 만약 AF3가 오픈이었다면 모든 빅파마가 자체적으로 사용했을 것이고, Isomorphic의 비즈니스 모델이 약해졌을 것이다.

2025년 현황: 첫 IND-enabling 후보 물질 도달이 임박. 2026년 안에 첫 임상 1상 진입이 목표.


13장 · Recursion Pharmaceuticals + Exscientia 합병

Recursion(나스닥 RXRX)은 솔트레이크시티의 AI 신약 회사. 2021년 IPO.

핵심 기술:

  • "Recursion Maps" — 세포 이미징 기반 phenotypic screening
  • 한 가지 실험에서 약 100만 개의 세포 이미지를 자동 분석
  • 약물-유전자-질병 관계를 그래프로 모델링
  • NVIDIA와 BioHive-1, BioHive-2 슈퍼컴퓨터 협력 (NVIDIA 투자)

2024년 1월: Exscientia 인수 발표 (약 7억 달러). Exscientia는 영국의 AI 신약 회사로, 자체 분자 디자인 플랫폼이 강점. 합병으로 이미징 + 분자 디자인을 한 회사에 통합.

파이프라인:

  • 11개 이상의 임상/전임상 자산
  • 종양학 + 신경계 + 희귀 질환
  • 2024년 Bayer, Roche, Sanofi와 다수 협업

비전:

  • "Industrialize drug discovery" — 신약 개발을 산업화
  • AI + 자동화된 wet lab + 클라우드 컴퓨팅

14장 · Insilico Medicine — 생성 AI 신약의 선구자

Insilico Medicine은 홍콩-뉴욕-상하이에 본사를 둔 AI 신약 회사. 2014년 설립. 2025년 IPO 진행 중(홍콩 거래소).

핵심 기술:

  • Pharma.AI 플랫폼 — 타겟 발굴 + 분자 디자인 + 임상시험 설계
  • PandaOmics(타겟), Chemistry42(분자), InClinico(임상)로 구성
  • 자체 생성 모델 + 강화학습 조합

히트작:

  • INS018_055(IPF 치료제 후보) — 2023년 임상 2상 진입. 세계 최초의 "AI 발굴 + AI 디자인" 임상 단계 약물
  • 타겟 발굴(TNIK)과 분자 디자인 모두 AI가 수행
  • 후보 물질 도달까지 18개월, 전통 방식 대비 절반 이상 단축

파이프라인: 30개 이상의 프로그램, 7개 이상의 임상 자산.

2025년 동향:

  • Sanofi와 협업 확대
  • INS018_055 임상 2상 결과 발표 예정
  • 홍콩 IPO 추진

Insilico의 가치 제안은 명확하다: "AI가 발굴해서 AI가 디자인하고 사람이 검증한다." 시간과 비용을 절반으로 줄인다는 것.


15장 · Schrödinger, Atomwise, BenevolentAI, Cradle

Schrödinger(나스닥 SDGR)

  • 1990년부터 분자 동역학(MD)과 양자화학 소프트웨어의 강자
  • DESMOND, Maestro, Glide 같은 산업 표준 도구
  • 2020년대 들어 AI를 적극 통합
  • 자체 파이프라인도 운영 — Nimbus Therapeutics와 협업

Atomwise

  • 2012년 설립, "AtomNet"이라는 CNN 기반 도킹 모델
  • 빅파마와 다수 협업 (Pfizer, Bayer, Merck 등)
  • 200개 이상의 표적에 대해 가상 스크리닝 진행

BenevolentAI(런던 증시 BAI)

  • 지식 그래프 + 자연어 + 분자 디자인 통합
  • COVID-19 초기에 baricitinib을 후보 약물로 제안 → FDA 긴급 사용 승인
  • 2024년 구조조정 (성과 부진), 2025년 회복 모드

Cradle

  • 네덜란드/스위스, 2021년 설립
  • 단백질 엔지니어링에 특화 (산업용 효소, 제약 단백질)
  • 노바티스, BASF, AstraZeneca와 파트너십
  • 2024년 시리즈 B 7,300만 달러

EvolutionaryScale (이미 5장 참고)

  • ESM3 본체 회사
  • 2024년 시리즈 A 1.42억 달러, Amazon · NVIDIA 등 투자
  • 모델 + 컨설팅 비즈니스

16장 · 유전체학 AI — DeepVariant, Enformer, Geneformer, scGPT

단백질뿐 아니라 DNA · RNA · 유전자 발현도 AI의 큰 영역이다.

DeepVariant(Google, 2018)

  • 시퀀싱 reads에서 변이(SNP, indel) 검출
  • CNN 기반, 전통 GATK 대비 정확도 향상
  • 2025년에는 PacBio HiFi, ONT(나노포어) 롱 리드 모두 지원

Enformer(DeepMind + Calico, 2021)

  • 약 20만 bp의 DNA 입력에서 유전자 발현 예측
  • transformer 기반
  • 임상 변이의 발현 영향 예측에 활용

AlphaMissense(DeepMind, 2023)

  • 미스센스 변이(아미노산 1개 치환)의 병원성 예측
  • 인간 7,100만 미스센스 변이에 대해 예측 공개

Geneformer(MIT Broad, 2023)

  • 단일세포 transcriptomic 데이터의 transformer
  • "rank-value encoding" — 발현량 순위로 토큰화
  • 약 3,000만 개의 단일세포로 사전학습

scGPT(University of Toronto + Wang Lab, 2023)

  • 단일세포 기초 모델
  • 3,300만 셀로 사전학습
  • 세포 타입 분류, 배치 교정, perturbation 예측 등 멀티태스크

Universal Cell Embeddings (UCE)(스탠퍼드, 2023)

  • 종 간(human + mouse + fly 등) 단일세포 모델

이 모델들은 GTEx, Tabula Sapiens, Human Cell Atlas 같은 공개 데이터셋으로 학습한다.


17장 · 세포 이미징 AI — Cell Painting, JUMP-CP, CellPose

Cell Painting은 형광 염색 + 자동화 현미경 기반 phenotypic profiling 기법. 한 화합물을 세포에 처리한 뒤 5개 채널의 형광 이미지를 자동 촬영해 약 1,500개의 형태학적 feature를 추출한다.

JUMP-CP(2023, Broad + 빅파마 컨소시엄)

  • 11만 6,000개 화합물 + 1만 2,000개 유전자 perturbation
  • Cell Painting으로 표현형 프로파일을 공개
  • 공동 출자한 빅파마 12곳이 사용 (Bayer, Janssen 등)
  • 2024년 5월 완전 공개

CellPose(Janelia, 2021)

  • 세포 분할(segmentation) 모델 — U-Net 변형
  • 다양한 세포 타입에 generalize
  • 오픈소스, ImageJ/Fiji 플러그인도 존재

CellProfiler(Broad)

  • 1990년대부터 이어진 세포 이미지 분석 도구
  • 2023년부터 딥러닝 모델 통합

Recursion Maps

  • Recursion의 자체 플랫폼
  • 약 60억 개의 세포 이미지 데이터베이스
  • 약물-질병-유전자 그래프
  • BioHive-1, BioHive-2(NVIDIA) 슈퍼컴퓨터로 학습

이 분야의 핵심은 "표현형 우선" 접근. 타겟을 모르더라도 세포 표현형이 정상화되는 화합물을 먼저 찾는다.


18장 · 임상시험 AI — Saama, Unlearn.ai

신약은 발굴 못지않게 임상시험이 비용이 크다(평균 임상 비용 약 19억 달러). 이 단계에서도 AI가 들어온다.

Saama Technologies

  • 2015년 설립, 임상 데이터 관리에 특화
  • 자체 LLM 기반 데이터 정합성 자동 점검
  • 빅파마와 다수 협업

Unlearn.ai

  • 2018년 설립, "디지털 트윈" 기반 합성 대조군(synthetic control arm)
  • 환자의 가상 트윈을 생성해 위약 대조군 일부를 대체
  • FDA와 협력해 알츠하이머 임상에서 시범 적용

TriNetX

  • 글로벌 환자 데이터 네트워크, 임상 디자인 최적화
  • 어떤 코호트가 모집 가능한지 사전 분석

Owkin(파리)

  • 페더레이티드 러닝(federated learning) 기반 다기관 임상 데이터 분석
  • 환자 데이터를 옮기지 않고 모델만 공유

임상시험 AI의 핵심 가치는 시간 단축. 임상 1단계당 1년 단축이면 1억 달러 이상 절감 가능.


19장 · 바이오 기초 모델 — BioGPT, GeneGPT, NACL

자연어 측면의 바이오 기초 모델도 활발하다.

BioGPT(Microsoft, 2022)

  • PubMed 약 1,500만 초록으로 사전학습한 GPT-2 변형
  • 약물 부작용, 단백질-약물 관계 추출 등에 활용

GeneGPT(NCBI, 2023)

  • 유전체학 도구 API 호출을 학습한 모델
  • BLAST, dbSNP, ClinVar 등을 자연어로 질의

NACL biomedical Llamas(NIH NACL, 2024)

  • 의생명 분야 Llama fine-tune 시리즈
  • 임상, 유전체, 약물 등 도메인별 모델

Med-PaLM(Google, 2022-2024)

  • 의학 QA에 특화된 PaLM 변형
  • USMLE(미국 의사면허시험) 합격 수준

Med-Gemini(Google, 2024)

  • Gemini 기반 의학 멀티모달 모델
  • 영상 + 텍스트 + 임상 노트

이 모델들의 공통 과제는 환각(hallucination) 제어. 의학적 정확성이 생명과 직결되기 때문에 강력한 RAG와 인간 검증이 필수다.


20장 · 한국 AI 바이오 — Standigm, Deep Bio, Syntekabio

한국의 AI 바이오 생태계는 빠르게 성장 중이다.

Standigm(스탠다임)

  • 2015년 설립, 한국 1세대 AI 신약 회사
  • 자체 AI 플랫폼 + wet lab
  • SK케미칼, JW중외제약과 협업
  • 2024년 시리즈 C 약 600억 원

Deep Bio(딥바이오)

  • 병리 AI 특화
  • 전립선암 그레이딩 AI(DeepDx-Prostate)가 FDA 등록
  • 미국, 일본, 한국에서 상용 서비스

Syntekabio(신테카바이오, 코스닥 상장)

  • 슈퍼컴 + AI 기반 가상 스크리닝
  • 자체 클라우드 STB Cloud 운영
  • KT, 셀트리온 등과 협업

JLK Inspection(제이엘케이)

  • 의료 영상 AI에서 출발해 신약 발굴로 확장
  • 뇌졸중, 뇌질환 영상 분석 → 표적 발굴 연계

Macrogen(마크로젠)

  • 한국 최대 시퀀싱 + 유전체 분석 회사
  • AI 변이 해석 플랫폼 자체 개발

Lunit(루닛)

  • 의료 영상 AI 강자, 병리 AI도 확장
  • 2024년 Volpara 인수로 글로벌 확장

투자 동향: 2024년 한국 AI 바이오 분야 투자는 약 5,000억 원. 글로벌 대비 작지만 정부 지원(보건복지부 데이터 사업)이 활발.


21장 · 일본 AI 바이오 — Preferred Networks, Elix, MOLCURE

일본도 AI 바이오에 적극적이다.

Preferred Networks(プリファード・ネットワークス)

  • 일본 최대 AI 스타트업, Chainer로 유명
  • 2024년부터 Materials Project + 단백질 디자인
  • ENEOS, 도요타 등 산업 파트너

Elix Inc(エリックス)

  • 도쿄, 2016년 설립, 신약 발굴 AI
  • 자체 Elix Discovery 플랫폼
  • 다이이치산쿄, 시오노기와 협업

MOLCURE(モルキュア)

  • 항체 발굴 AI에 특화
  • 자체 wet lab + ML 통합

Healios(ヘリオス)

  • iPS 세포 기반 재생의료 + AI
  • 동경증권거래소 마더스 상장

Spiber(スパイバー)

  • 인공 거미줄 단백질 — 단백질 디자인 AI 활용
  • 유니클로, GAP과 협업

일본의 강점: 화학 + 정밀공학 + 대학 연구가 강하지만 IPO 시장은 미국 대비 약하다. PFN과 Elix 같은 회사가 글로벌화의 가능성을 보여준다.


22장 · 데이터셋과 벤치마크 — PDB, UniProt, ChEMBL, AlphaFold DB

AI 생물학을 지탱하는 핵심 데이터셋들.

PDB(Protein Data Bank, 1971-)

  • 단백질 실험 구조의 표준 저장소
  • 2025년 기준 약 23만 구조
  • X-ray crystallography, cryo-EM, NMR 등 실험 데이터
  • AlphaFold 학습의 핵심 데이터

UniProt

  • 단백질 서열의 표준 데이터베이스
  • 약 2억 5,000만 개의 서열 (대부분 자동 주석)
  • 큐레이션된 부분은 SwissProt(약 57만 개)

ChEMBL(EMBL-EBI)

  • 생리활성 분자(bioactive molecules) 데이터베이스
  • 2025년 기준 약 230만 화합물, 2,000만 활성 측정값
  • 의약화학 ML의 기본

AlphaFold DB

  • AlphaFold 2/3로 예측한 구조 약 2억 1,400만 개
  • 모든 UniProt 단백질에 대해 예측 공개
  • 무료, 학술 + 상업 모두 사용 가능

ESM Atlas

  • ESMFold로 예측한 메타게놈 단백질 약 6억 1,700만 개
  • 토양, 해양, 인체 미생물 단백질

The Human Cell Atlas

  • 전 세계 컨소시엄
  • 인간 세포 타입의 단일세포 지도
  • 2025년까지 약 1억 셀

JUMP-CP(앞 17장 참고)

Open Targets(GSK + Sanofi + Bristol Myers Squibb + ...)

  • 약물 표적 우선순위 데이터베이스
  • 유전체 + 임상 + 화학 통합

ClinicalTrials.gov + clinicaltrialsregister.eu

  • 임상시험 메타데이터

데이터 다양성과 품질이 AI 모델의 한계를 결정한다. 2026년 현재 가장 큰 병목은 wet lab 검증 데이터의 부족이다.


23장 · 시뮬레이션 인프라 — GROMACS, AMBER, DESMOND

AI는 정적 구조를 잘 예측하지만, 동적 거동(dynamics)은 여전히 분자 동역학(molecular dynamics, MD)이 강하다.

GROMACS(스웨덴 KTH 등)

  • 오픈소스, 학계 + 산업 모두 사용
  • GPU 가속 우수
  • 단백질, 막, 핵산 시스템에 활용

AMBER(UCSF + Rutgers 등)

  • 가장 오래된 MD 패키지 중 하나
  • 다양한 force field 옵션
  • AMBER force field가 사실상 표준 중 하나

NAMD(University of Illinois)

  • 매우 큰 시스템(천만 원자 이상) 처리
  • COVID-19 spike protein 시뮬레이션에 사용됨

DESMOND(Schrödinger 상용)

  • D.E. Shaw Research가 개발 → Schrödinger 상용화
  • 빠른 성능 + 상용 지원
  • D.E. Shaw의 Anton 슈퍼컴은 별도의 전용 하드웨어

OpenMM(스탠퍼드)

  • Python에서 호출 가능한 MD 라이브러리
  • AI 워크플로와 통합 쉬움
  • AlphaFold relaxation 단계도 OpenMM 사용

ML potential의 부상:

  • AIMNet2, ANI, MACE 같은 ML force field가 양자화학 수준의 정확도를 빠르게 제공
  • NequIP, Allegro 같은 equivariant 모델
  • 2025년부터 사실상 표준 도구가 되는 중

GPU 인프라 측면에서는 NVIDIA H100 / B100, AMD MI300, Google TPU가 모두 사용된다. Recursion의 BioHive-2는 H100 약 600개로 구성.


24장 · 윤리와 규제 — 안전 평가의 새로운 기준

AI 생물학의 발전은 동시에 악용 우려도 키운다.

Dual-use 우려:

  • 단백질 디자인 AI로 새로운 독소나 병원체를 디자인할 수 있는가?
  • 2022년 한 연구가 약물 디자인 AI를 반대로 돌려 4만 개의 잠재 독소를 생성 (Urbina et al, Nature Machine Intelligence)
  • 미국 NSABB, 영국 SAGE 등에서 dual-use 가이드라인 논의

규제 동향:

  • FDA: 2024년부터 "AI in Drug Discovery" 가이드라인 시안 공개
  • EMA: 임상에서의 AI 사용에 대한 reflection paper 발표 (2024)
  • 일본 PMDA: 의료 AI 인증 가속화

오픈 vs 클로즈:

  • DeepMind의 AlphaFold 3 비공개는 안전 + 상업 양쪽 논리
  • Baker Lab은 "오픈이 안전을 향상한다" 입장
  • EvolutionaryScale은 절충 — 작은 모델은 오픈, 큰 모델은 API

바이오 보안 평가:

  • 책임 있는 AI 정책 — 위험한 단백질 디자인 검출 필터
  • "DNA 합성 회사가 의심스러운 서열을 거부해야 한다"는 가이드라인
  • IGSC(International Gene Synthesis Consortium) 자율 규제

2026년 현재, 이 분야의 규제 프레임워크는 아직 형성 중이다. AI 안전 커뮤니티(MIRI, ARC, METR)와 바이오 안전 커뮤니티(NTI, Johns Hopkins CHS)의 협력이 늘고 있다.


25장 · 마무리 — 2026년부터 2030년까지

2024년 노벨상은 AI 생물학에 대한 학계의 인정이었다. 2026년 현재, 그 후속 효과가 산업으로 퍼지는 중이다.

예상되는 흐름 (2026-2030):

  1. AI 발굴 + AI 디자인 약물의 첫 FDA 승인 — 2027-2029 사이 가능. Insilico INS018_055가 가장 빠른 후보 중 하나
  2. 단백질 디자인 도구의 클라우드 SaaS 보편화 — 의약화학자들이 RFdiffusion을 Excel처럼 쓰는 시대
  3. 단일세포 + 표현형 + 구조의 통합 기초 모델 — Recursion Maps, ESM3, Geneformer가 합쳐지는 흐름
  4. 개인 맞춤형 항체 — 환자별 항원에 맞춤 디자인된 치료제
  5. 빅파마와 AI 회사의 통합 — Recursion-Exscientia 같은 합병이 더 일어날 가능성
  6. dual-use 규제 강화 — 위험 디자인 검출 필터가 의무화될 가능성

노벨상 발표 직후 Demis Hassabis는 X에 짧게 적었다. "This is just the beginning." 단백질 폴딩 문제는 풀렸지만, 생물학 전체에서 보면 AI는 아직 1퍼센트도 채 못 가졌다. 동적 거동, 세포 수준 시뮬레이션, 조직 모델, 인체 모델까지 — 갈 길이 멀고, 그 길이 곧 다음 10년의 가장 큰 과학 + 비즈니스 기회다.


26장 · 참고 자료

핵심 논문:

데이터베이스와 서비스:

회사 + 공식 사이트:

노벨상 관련 자료:

기초 도구:

닫는 말. AI는 단백질 폴딩 문제를 풀었지만, 생물학은 폴딩 그 너머다. 동적 상호작용, 세포 수준, 조직 수준, 인체 수준 — 진짜 어려운 문제는 모두 그 너머에 있다. 그래서 이 분야는 앞으로 10년이 가장 흥미진진할 것이다. 컴퓨터 과학자에게는 영광스러운 시기이고, 생물학자에게는 도구가 처음으로 충분히 강해진 시기다. 두 분야 모두에 행운을.