필사 모드: AI 생물학 & 신약개발 2026 완벽 가이드 - AlphaFold 3 · RoseTTAFold · ESM Atlas · Boltz · Chai-1 · RFdiffusion · Isomorphic Labs · Recursion · Insilico 심층 분석
한국어프롤로그 — 2024년 노벨 화학상이 의미하는 것
2024년 10월 9일, 스웨덴 왕립 과학 아카데미는 화학상 수상자를 발표했다. **David Baker**(University of Washington), **Demis Hassabis**(DeepMind CEO), **John Jumper**(DeepMind Senior Director). 절반은 Baker의 단백질 설계(de novo protein design) 공로로, 나머지 절반은 Hassabis와 Jumper가 만든 **AlphaFold 2**의 단백질 구조 예측 공로로 돌아갔다.
이는 단순한 학문적 인정 이상의 의미였다. **AI가 50년 묵은 생물학의 미해결 문제(protein folding problem)를 풀었다**는 공식 선언이었고, 동시에 그 AI를 산업화한 기업(DeepMind, Isomorphic Labs, Generate:Biomedicines, Recursion, Insilico Medicine 등)이 신약 개발의 미래를 다시 그리고 있다는 신호였다.
> **"단백질 구조 예측은 죽었다. 이제 진짜 게임이 시작된다."** — 어느 분자 생물학자가 노벨상 발표 직후 X에 남긴 말이다. AlphaFold 2가 정적 구조 예측을 풀었다면, 그 다음 단계는 **동적인 상호작용 · 약물 결합 · 새로운 단백질 설계**다. 그리고 2026년 현재, 이 모든 게 동시에 폭발하고 있다.
이 글에서 다루는 것:
1. AI 생물학의 지도 — 2026년의 진영
2. 단백질 구조 예측의 역사 — Anfinsen에서 AlphaFold까지
3. AlphaFold 2 · 3 · Server — DeepMind의 흐름
4. RoseTTAFold 시리즈 — Baker Lab의 답
5. ESM-2, ESM-3, ESM Atlas — Meta에서 EvolutionaryScale로
6. Boltz-1, Boltz-2 — MIT의 오픈 재현
7. Chai-1, Protenix — 새로운 후발 주자
8. ColabFold, OmegaFold — 접근성의 혁명
9. RFdiffusion + ProteinMPNN — 단백질 디자인의 새 패러다임
10. 항체 설계 — AbDesign, IgFold, Absci
11. 저분자 + 도킹 — MolMIM, DiffDock, NeuralPLexer
12. Isomorphic Labs — DeepMind의 신약 자회사
13. Recursion Pharmaceuticals + Exscientia 합병
14. Insilico Medicine — 생성 AI 신약의 선구자
15. Schrödinger, Atomwise, BenevolentAI, Cradle
16. 유전체학 AI — DeepVariant, Enformer, Geneformer, scGPT
17. 세포 이미징 AI — Cell Painting, JUMP-CP, CellPose
18. 임상시험 AI — Saama, Unlearn.ai
19. 바이오 기초 모델 — BioGPT, GeneGPT, NACL
20. 한국 AI 바이오 — Standigm, Deep Bio, Syntekabio
21. 일본 AI 바이오 — Preferred Networks, Elix, MOLCURE
22. 데이터셋과 벤치마크 — PDB, UniProt, ChEMBL, AlphaFold DB
23. 시뮬레이션 인프라 — GROMACS, AMBER, DESMOND
24. 윤리와 규제 — 안전 평가의 새로운 기준
25. 참고 자료
1장 · AI 생물학의 지도 — 2026년의 진영
2026년 5월 기준, AI 생물학은 크게 다섯 진영으로 나뉜다.
**1) 구조 예측 진영(Structure Prediction)**
주어진 단백질 서열에서 3D 구조를 예측한다. AlphaFold 2/3, RoseTTAFold, ESMFold, Boltz, Chai-1, OmegaFold, ColabFold, Protenix가 여기 속한다. 2024년 AlphaFold 3가 단백질뿐 아니라 DNA · RNA · 리간드 · 이온까지 동시에 모델링하면서 게임이 한 단계 올라갔다.
**2) 단백질 디자인 진영(Protein Design)**
"우리가 원하는 기능을 가진 단백질을 처음부터 만들어 내자"는 흐름. RFdiffusion, ProteinMPNN, ESM3(생성 가능 버전), Chroma, Genie 등이 대표적이다. Baker Lab과 Generate:Biomedicines가 이 진영의 양대 축이다.
**3) 신약 발굴 기업 진영(Drug Discovery Companies)**
실제 임상 파이프라인을 운영하는 회사들. Isomorphic Labs(Alphabet), Recursion(Exscientia 합병), Insilico Medicine, Schrödinger, Atomwise, BenevolentAI, Cradle, Absci, Generate:Biomedicines가 여기 속한다.
**4) 유전체 + 단일세포 진영(Genomics + Single-cell)**
DNA 서열, 유전자 발현, 세포 상태를 모델링한다. DeepVariant(변이 검출), Enformer(발현 예측), Geneformer · scGPT(단일세포 기초 모델), AlphaMissense(변이 영향 예측)가 대표.
**5) 이미징 + 표현형 진영(Imaging + Phenotypic)**
세포 이미지에서 약물 효과를 직접 읽는다. Recursion의 "Maps" 플랫폼, JUMP-CP 공개 데이터셋, CellPose · CellProfiler 같은 분석 도구가 핵심.
이 다섯 진영은 서로 겹친다. Recursion은 이미징 + 디자인 + 신약을 모두 한다. EvolutionaryScale은 ESM3로 예측 + 디자인을 동시에 한다. 그래서 어느 회사를 "어느 진영"으로 묶기보다, **각 회사가 어떤 문제를 풀려 하는지**를 봐야 한다.
2장 · 단백질 구조 예측의 역사 — Anfinsen에서 AlphaFold까지
먼저 짧은 역사. 단백질 구조 예측은 **50년 묵은 문제**였다.
**1972년**: Christian Anfinsen, 노벨 화학상 수상. "단백질의 3차원 구조는 그 1차원 아미노산 서열에 의해 결정된다"는 가설(Anfinsen dogma)을 실험으로 증명. 이 가설이 맞다면 **이론적으로** 서열만으로 구조를 예측할 수 있어야 한다.
**1994년 ~ 2020년**: CASP(Critical Assessment of protein Structure Prediction)이 격년으로 열렸다. 전통적인 방법(homology modeling, threading, fragment assembly, Rosetta 등)이 점진적으로 개선됐지만, GDT-TS(구조 정확도 지표)는 60~70대 박스를 못 벗어났다.
**2018년 CASP13**: DeepMind의 첫 **AlphaFold 1**이 GDT-TS 58.9를 기록하며 2위 그룹을 6점 차로 따돌렸다. 학계가 놀랐다.
**2020년 12월 CASP14**: **AlphaFold 2**가 GDT-TS 92.4를 기록. 사실상 실험 수준(~95)에 도달. CASP14 주최자 John Moult는 "단백질 구조 예측 문제는 풀렸다(largely solved)"고 선언했다.
**2021년 7월**: AlphaFold 2 코드와 가중치가 오픈소스로 공개. 동시에 **AlphaFold DB**가 출범 — 곧 인간 단백질체 전체(약 20,000개)를 포함했고, 2022년에는 2억 개 이상의 예측 구조로 확장됐다.
**2021년 7월**: David Baker 팀이 **RoseTTAFold** 발표. AlphaFold 2와 같은 시기, 비슷한 정확도. attention 기반 3트랙(서열, 거리, 좌표) 아키텍처.
**2022년 11월**: Meta AI(FAIR)가 **ESMFold**와 **ESM Atlas** 공개. 6억 개 이상의 메타게놈 단백질 구조를 예측해 공개. 다중 서열 정렬(MSA) 없이 언어 모델만으로 빠르게 예측.
**2024년 5월**: **AlphaFold 3** 발표. 단백질뿐 아니라 DNA · RNA · 작은 분자(리간드) · 이온까지 동시 모델링. 단, 모델은 비공개 + AlphaFold Server라는 웹 인터페이스로만 제공.
**2024년 10월**: 노벨 화학상 — David Baker(절반), Demis Hassabis + John Jumper(절반).
**2024년 5월 ~ 2025년**: MIT의 Boltz-1, Chai Discovery의 Chai-1, ByteDance의 Protenix가 AlphaFold 3 수준의 오픈 모델을 차례로 공개.
**2025년 6월**: EvolutionaryScale의 **ESM-3** 출시. 생성 모델로 진화(ESMFold = 예측, ESM-3 = 예측 + 생성).
**2026년 현재**: Boltz-2 출시, AlphaFold 4 루머, RFdiffusion All-Atom의 임상 후보 화합물 도달. 그리고 **구조 예측 자체는 더 이상 차별화 포인트가 아님**이 분명해졌다.
3장 · AlphaFold 2 · 3 · Server — DeepMind의 흐름
**AlphaFold 2**(2021)의 아키텍처 핵심.
- 입력: 표적 단백질 서열 + MSA(다중 서열 정렬, 진화 정보)
- Evoformer: 서열 표현과 페어 표현을 attention으로 정제
- Structure module: 3D 좌표를 직접 생성. 회전과 변환을 SE(3) equivariant하게 처리
- pLDDT, pTM 같은 신뢰도 지표를 함께 출력
AlphaFold 2는 **정적 구조** 예측에 특화돼 있다. 동적 conformation, 결합 상태 변화, 작은 분자와의 상호작용은 별도 도구가 필요했다.
**AlphaFold 3**(2024)는 그 한계를 정면 돌파했다.
- 단백질 + DNA + RNA + 리간드 + 이온을 한 모델로 처리
- Diffusion 기반 좌표 생성 — Structure module을 확산 모델로 교체
- 평균 정확도가 AlphaFold 2 대비 50% 향상 (특히 단백질-리간드 상호작용에서)
- 다만 코드와 가중치는 비공개. AlphaFold Server로만 접근. 학술/비상업 이용 무료.
이 비공개 정책은 학계에 큰 논쟁을 일으켰다. DeepMind의 입장은 명확했다. **"Isomorphic Labs(자회사)가 상업적으로 활용해야 하기 때문에 모델은 비공개"**. 결과적으로 MIT, Chai Discovery, ByteDance가 곧바로 오픈 재현에 들어갔고, 1년 안에 거의 동급의 모델이 공개됐다.
**AlphaFold Server**는 2024년 5월 출시. 누구나 구글 계정으로 로그인해 서열을 입력하면 24시간 안에 구조를 받는다. 학계 사용량은 폭발적. 다만:
- 결과 다운로드 가능, 모델 자체는 비공개
- 비상업 용도만 허용
- 매일 작업당 한도 있음
2026년 현재 AlphaFold DB는 약 **2억 1,400만 개**의 구조를 무료로 제공한다. 인간 단백질체뿐 아니라 UniProt에 등재된 거의 모든 단백질을 예측해 둔 상태다.
4장 · RoseTTAFold 시리즈 — Baker Lab의 답
University of Washington의 **David Baker 연구실**(노벨상 수상)은 단백질 구조 예측과 디자인 양쪽에서 DeepMind와 라이벌 관계다. 그들의 답은 RoseTTAFold 시리즈.
**RoseTTAFold**(2021)
- 3-track 아키텍처: 서열, 거리, 좌표를 동시에 학습
- AlphaFold 2와 거의 같은 시기, 비슷한 정확도(약간 낮지만 빠름)
- 오픈소스로 공개
**RoseTTAFold2**(2023)
- AlphaFold 2와 거의 동일 정확도
- 더 큰 단백질 처리 가능
- 단백질-단백질 복합체(complex) 예측 강화
**RoseTTAFold All-Atom**(RFAA, 2023)
- 단백질 + DNA + RNA + 리간드 + 보조인자를 한 모델로
- AlphaFold 3와 비슷한 컨셉이지만 더 일찍 공개
- 오픈소스 + 가중치 공개
**RFdiffusion**(2023, 디자인용)
- 단백질 백본(backbone)을 처음부터 생성하는 diffusion 모델
- 결합 단백질(binder), 효소, 항체 디자인에 활용
- 노벨상 핵심 기여 중 하나
**RFdiffusion All-Atom**(2024)
- 백본뿐 아니라 측쇄(side chain)와 리간드까지 동시 디자인
- 결합 친화도가 실제로 더 높은 단백질을 생성
Baker Lab의 가치 제안은 명확하다: **"오픈, 디자인, 응용"**. 모든 모델을 공개하고, 단순 예측을 넘어 디자인 도구를 함께 제공한다.
5장 · ESM-2, ESM-3, ESM Atlas — Meta에서 EvolutionaryScale로
**ESM(Evolutionary Scale Modeling)** 시리즈는 Meta AI(이전 FAIR)의 단백질 언어 모델 프로젝트였다.
**ESM-1, ESM-2**(2019-2022)
- 단백질 서열을 텍스트처럼 다루는 transformer
- UniRef50의 약 6,500만 서열로 사전학습
- 가장 큰 ESM-2는 150억 파라미터
**ESMFold**(2022)
- ESM-2 위에 구조 예측 헤드를 붙임
- **MSA 없이** 서열만으로 구조 예측 — AlphaFold 2 대비 60배 빠름
- 정확도는 약간 낮지만 메타게놈 단백질처럼 MSA를 만들기 어려운 경우에 강력
**ESM Atlas**(2022)
- ESMFold로 6억 1,700만 개의 메타게놈 단백질 구조를 예측
- 토양, 해양, 인체 미생물체 등에서 온 "다크 단백질체"를 처음으로 가시화
- AlphaFold DB와 함께 단백질체 우주의 두 축
**2024년**: Meta가 FAIR 단백질 팀을 분사. **EvolutionaryScale**이라는 별도 회사로 독립. Alex Rives(ESM 리드 저자)가 공동 창업.
**ESM-3**(2024, EvolutionaryScale)
- 서열 · 구조 · 함수를 통합한 다중 모달 생성 모델
- 예측뿐 아니라 **생성**도 가능 — 원하는 함수를 가진 단백질을 디자인
- 가장 큰 ESM-3는 980억 파라미터
- 오픈 가중치가 부분적으로만 공개됨(가장 큰 모델은 API만 제공)
- 7B/24B 모델은 비상업 라이선스로 공개
EvolutionaryScale은 ESM-3를 활용해 형광 단백질 시뮬레이션 진화(esmGFP) 실험을 발표 — 5억 년 분량의 진화 경로를 압축해 새로운 GFP 변이체를 디자인했다.
6장 · Boltz-1, Boltz-2 — MIT의 오픈 재현
AlphaFold 3가 비공개되자, MIT의 **Regina Barzilay** 그룹과 협력자들은 2024년 5월 **Boltz-1**을 발표했다.
**Boltz-1**(2024)
- AlphaFold 3 수준의 정확도(단백질 + 핵산 + 리간드 + 이온)
- MIT 라이선스로 완전 공개 — 코드, 가중치 모두
- 자체 데이터 + 공개 데이터로 학습
- AlphaFold Server를 못 쓰는 상업 연구자에게 게임 체인저
**Boltz-2**(2025)
- Boltz-1보다 약 1.5배 빠름
- 결합 친화도(affinity) 예측을 추가
- 메모리 효율 개선으로 더 큰 시스템 처리 가능
- 동일 MIT 라이선스
Boltz의 의의는 단순하다: **"AlphaFold 3는 못 써도 Boltz-2는 쓸 수 있다."** 제약 회사 내부 R&D, 학술 연구, 상업 응용 모두에 무료로 활용 가능하다.
다음은 Boltz-2를 명령줄에서 호출하는 예시.
Boltz-2 설치 (PyPI)
pip install boltz
입력 FASTA 준비
cat > target.fasta <<EOF
>protein|name=kinase
MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK
EOF
단일 단백질 구조 예측
boltz predict target.fasta --use_msa_server --out_dir results/
결과 — results/predictions/target/ 안에 PDB와 mmCIF 출력
YAML 입력으로 단백질-리간드 복합체도 지원한다.
version: 1
sequences:
- protein:
id: A
sequence: MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK
- ligand:
id: B
smiles: "CC(=O)OC1=CC=CC=C1C(=O)O" # 아스피린
properties:
- affinity:
binder: B
GPU 한 장(A100 80GB)으로 중간 크기 단백질을 1-5분 안에 처리한다.
7장 · Chai-1, Protenix — 새로운 후발 주자
**Chai Discovery**는 2024년 가을 등장한 신생 스타트업으로, AlphaFold 3 수준 모델을 자체 개발했다.
**Chai-1**(2024)
- 단백질 + 핵산 + 리간드 + 이온
- AlphaFold 3보다 약간 낮은, Boltz-1과 비슷한 정확도
- 가중치 일부 공개(비상업 라이선스)
- 웹 UI도 제공 — 누구나 시도 가능
- 항체 모델링에 특히 강함
**Chai-1r**(2025)
- 결합 친화도 예측 추가
- 강화학습 기반 후처리(re-ranking)
- 결합 단백질 디자인 시뮬레이션에 활용
**Protenix**(ByteDance, 2024)
- 중국 ByteDance(틱톡 모회사)의 ByteDance Research가 공개
- AlphaFold 3 재현, Apache 2.0 라이선스로 완전 공개
- 가중치 + 학습 코드까지
- 정확도는 Boltz-1과 비슷한 수준
이 세 모델(Boltz, Chai, Protenix) 덕분에 **2025년 봄에는 사실상 AlphaFold 3 수준의 오픈 모델이 세 개**나 존재하게 됐다. DeepMind의 비공개 정책이 역설적으로 오픈 생태계를 가속한 셈이다.
8장 · ColabFold, OmegaFold — 접근성의 혁명
AlphaFold 2가 공개됐지만 실행에는 비싼 GPU와 거대한 MSA 데이터베이스(BFD, Uniref30 등 수 TB)가 필요했다. 이걸 누구나 쓸 수 있게 만든 것이 **ColabFold**다.
**ColabFold**(2022)
- Sergey Ovchinnikov와 협력자들이 만든 노트북
- AlphaFold 2 + RoseTTAFold + ESMFold를 Google Colab에서 실행
- MSA를 MMseqs2 기반 빠른 검색으로 대체 (BFD 대신)
- 학부생도 30분 안에 단백질 구조 예측 가능
- 2025년까지 약 100만 명 이상이 사용
**OmegaFold**(2022)
- Helixon이 발표
- MSA 없이도 작동
- ESMFold와 비슷한 컨셉이지만 별도 학습
- 일부 케이스에서 ESMFold보다 정확
ColabFold의 의의는 **민주화**다. 노벨상 수준의 기술을 노트북에서 실행할 수 있게 한 것. 2025년 현재 ColabFold는 AlphaFold 3, Boltz-2, Chai-1까지 점진적으로 통합 중이다.
9장 · RFdiffusion + ProteinMPNN — 단백질 디자인의 새 패러다임
지금까지는 **예측**(prediction) 이야기였다. 이제 **디자인**(design)으로 넘어가자.
전통적인 단백질 디자인은 Rosetta 같은 물리 기반 시뮬레이션으로 시도했다. 가능한 측쇄 조합을 평가해 에너지가 낮은 구조를 찾는 방식. 느렸고, 새로운 단백질 폴드를 만들기 어려웠다.
**RFdiffusion**(Baker Lab, 2023)이 게임을 바꿨다.
- Diffusion 모델로 단백질 백본을 처음부터 생성
- 입력: 결합하고 싶은 표적 단백질의 일부 구조 + 결합 위치
- 출력: 그 자리에 결합할 수 있는 새로운 단백질 백본
- 노벨상 수상 기술 중 하나
**ProteinMPNN**(Baker Lab, 2022)
- 백본이 주어지면 그 백본에 맞는 아미노산 서열을 생성
- 메시지 패싱 그래프 신경망
- "백본을 RFdiffusion으로 만들고, 서열을 ProteinMPNN으로 채운다"가 표준 파이프라인
**RFdiffusion + ProteinMPNN 파이프라인**의 실제 워크플로:
1. 표적 단백질의 결합 위치를 선택
2. RFdiffusion으로 그 위치에 결합할 수 있는 백본을 1만 개 생성
3. ProteinMPNN으로 각 백본에 서열을 부여 (백본당 8개씩)
4. AlphaFold 2로 그 서열들을 다시 폴딩해 백본과 일치하는지 검증
5. 상위 100개를 실험실에서 발현해 결합 친화도 측정
이 파이프라인으로 **2024년 한 해에만 10개 이상의 새로운 결합 단백질이 임상/전임상 단계**에 진입했다.
**RFdiffusion All-Atom**(2024)는 백본뿐 아니라 측쇄와 리간드까지 한 번에 디자인한다. 예를 들어 약물 분자 주변에 정확히 맞는 효소를 디자인할 수 있다.
10장 · 항체 설계 — AbDesign, IgFold, Absci
항체(antibody)는 가장 중요한 바이오 의약품 카테고리(2024년 매출 약 2,000억 달러)다. 그래서 항체 디자인 AI는 별도의 큰 시장을 형성한다.
**IgFold**(Johns Hopkins, 2022)
- 항체 구조 예측에 특화 (일반 AlphaFold보다 정확)
- CDR(complementarity-determining region) 모델링 강화
- 오픈소스
**ABodyBuilder**(Oxford OPIG, 2024)
- 항체 가변영역 빠른 모델링
- 단일 GPU에서 1초 미만 예측
**AbDesign / RFdiffusion-Ab**(Baker Lab, 2024)
- RFdiffusion을 항체 디자인에 맞게 fine-tune
- 표적 항원에 결합하는 항체를 처음부터 생성
- 실험 검증에서 약 1% 이상의 hit rate (전통 디스플레이 기법 대비 10-100배)
**Absci**(나스닥 상장, 2021)
- "Generative AI for antibody discovery"
- 자체 머신러닝 + wet lab 통합
- 2024년 GSK, Merck 등과 파트너십
- 표적 결합 항체를 6주 내 디자인 + 발현
**Generate:Biomedicines**(2022 분사, 2024 시리즈 C 2.7억 달러)
- Flagship Pioneering 인큐베이팅
- Chroma 모델 자체 개발 — 항체 + 일반 단백질 디자인
- 글로벌 빅파마와 다수 협업
항체 디자인의 핵심 KPI는 **affinity**(결합 친화도, Kd 값)와 **developability**(개발 가능성 — 응집, 점도, 면역원성). AI는 이 두 축을 동시에 최적화하는 게 도전이다.
11장 · 저분자 + 도킹 — MolMIM, DiffDock, NeuralPLexer
단백질이 아닌 **작은 분자(small molecule)** 측면도 AI가 빠르게 들어왔다.
**SMILES와 SELFIES**
- SMILES: 분자를 문자열로 표현하는 표준 (예: `CC(=O)OC1=CC=CC=C1C(=O)O` = 아스피린)
- SELFIES: SMILES의 한계를 보완, 항상 유효한 분자만 표현
**Mol-BERT, ChemBERTa, MoLFormer**(2020-2022)
- SMILES로 사전학습된 transformer
- 분자 성질 예측에 활용
**MolMIM**(NVIDIA, 2024)
- 분자 생성 모델, NVIDIA BioNeMo의 일부
- 입력 분자에서 비슷하지만 향상된 성질의 분자를 생성
- 의약화학자의 hit-to-lead 단계를 가속
**DiffDock**(MIT, 2023)
- Diffusion 기반 도킹 모델
- 단백질-리간드 결합 포즈를 직접 생성
- 전통 도킹(AutoDock Vina 등) 대비 수십 배 빠름
**NeuralPLexer**(2024, Caltech)
- 단백질과 리간드를 함께 입력받아 결합 복합체 예측
- 보조인자, 보조 단백질도 고려
**AlphaFold 3 + Boltz-2 + Chai-1**도 결국 작은 분자 결합을 예측하기 때문에, 도킹 분야와 구조 예측 분야가 사실상 합쳐지는 중이다.
12장 · Isomorphic Labs — DeepMind의 신약 자회사
**Isomorphic Labs**는 2021년 11월 Alphabet이 분사한 신약 개발 자회사. Demis Hassabis가 CEO를 겸직한다.
**미션**: "Re-imagining drug discovery through AI." AlphaFold를 신약 발굴의 기본 도구로 쓴다.
**전략**:
- 자체 파이프라인 + 빅파마 파트너십 양면 전략
- 2024년 Eli Lilly와 1.7억 달러 + 마일스톤 계약
- 2024년 Novartis와 1.2억 달러 + 마일스톤 계약
- 자체 후보 물질은 종양학 + 면역학 중심
**기술 스택**:
- AlphaFold 3가 핵심 (외부에는 비공개, 사내 우선 사용)
- 자체 디자인 모델 + 도킹 + ADMET 예측
- 자체 wet lab은 최소화, CRO와 협력
**비공개 정책**: Isomorphic의 존재가 AlphaFold 3 비공개의 이유다. 만약 AF3가 오픈이었다면 모든 빅파마가 자체적으로 사용했을 것이고, Isomorphic의 비즈니스 모델이 약해졌을 것이다.
**2025년 현황**: 첫 IND-enabling 후보 물질 도달이 임박. 2026년 안에 첫 임상 1상 진입이 목표.
13장 · Recursion Pharmaceuticals + Exscientia 합병
**Recursion**(나스닥 RXRX)은 솔트레이크시티의 AI 신약 회사. 2021년 IPO.
**핵심 기술**:
- "Recursion Maps" — 세포 이미징 기반 phenotypic screening
- 한 가지 실험에서 약 100만 개의 세포 이미지를 자동 분석
- 약물-유전자-질병 관계를 그래프로 모델링
- NVIDIA와 BioHive-1, BioHive-2 슈퍼컴퓨터 협력 (NVIDIA 투자)
**2024년 1월**: **Exscientia 인수 발표** (약 7억 달러). Exscientia는 영국의 AI 신약 회사로, 자체 분자 디자인 플랫폼이 강점. 합병으로 **이미징 + 분자 디자인**을 한 회사에 통합.
**파이프라인**:
- 11개 이상의 임상/전임상 자산
- 종양학 + 신경계 + 희귀 질환
- 2024년 Bayer, Roche, Sanofi와 다수 협업
**비전**:
- "Industrialize drug discovery" — 신약 개발을 산업화
- AI + 자동화된 wet lab + 클라우드 컴퓨팅
14장 · Insilico Medicine — 생성 AI 신약의 선구자
**Insilico Medicine**은 홍콩-뉴욕-상하이에 본사를 둔 AI 신약 회사. 2014년 설립. 2025년 IPO 진행 중(홍콩 거래소).
**핵심 기술**:
- **Pharma.AI** 플랫폼 — 타겟 발굴 + 분자 디자인 + 임상시험 설계
- PandaOmics(타겟), Chemistry42(분자), InClinico(임상)로 구성
- 자체 생성 모델 + 강화학습 조합
**히트작**:
- **INS018_055**(IPF 치료제 후보) — 2023년 임상 2상 진입. **세계 최초의 "AI 발굴 + AI 디자인" 임상 단계 약물**
- 타겟 발굴(TNIK)과 분자 디자인 모두 AI가 수행
- 후보 물질 도달까지 18개월, 전통 방식 대비 절반 이상 단축
**파이프라인**: 30개 이상의 프로그램, 7개 이상의 임상 자산.
**2025년 동향**:
- Sanofi와 협업 확대
- INS018_055 임상 2상 결과 발표 예정
- 홍콩 IPO 추진
Insilico의 가치 제안은 명확하다: **"AI가 발굴해서 AI가 디자인하고 사람이 검증한다."** 시간과 비용을 절반으로 줄인다는 것.
15장 · Schrödinger, Atomwise, BenevolentAI, Cradle
**Schrödinger**(나스닥 SDGR)
- 1990년부터 분자 동역학(MD)과 양자화학 소프트웨어의 강자
- DESMOND, Maestro, Glide 같은 산업 표준 도구
- 2020년대 들어 AI를 적극 통합
- 자체 파이프라인도 운영 — Nimbus Therapeutics와 협업
**Atomwise**
- 2012년 설립, "AtomNet"이라는 CNN 기반 도킹 모델
- 빅파마와 다수 협업 (Pfizer, Bayer, Merck 등)
- 200개 이상의 표적에 대해 가상 스크리닝 진행
**BenevolentAI**(런던 증시 BAI)
- 지식 그래프 + 자연어 + 분자 디자인 통합
- COVID-19 초기에 baricitinib을 후보 약물로 제안 → FDA 긴급 사용 승인
- 2024년 구조조정 (성과 부진), 2025년 회복 모드
**Cradle**
- 네덜란드/스위스, 2021년 설립
- 단백질 엔지니어링에 특화 (산업용 효소, 제약 단백질)
- 노바티스, BASF, AstraZeneca와 파트너십
- 2024년 시리즈 B 7,300만 달러
**EvolutionaryScale** (이미 5장 참고)
- ESM3 본체 회사
- 2024년 시리즈 A 1.42억 달러, Amazon · NVIDIA 등 투자
- 모델 + 컨설팅 비즈니스
16장 · 유전체학 AI — DeepVariant, Enformer, Geneformer, scGPT
단백질뿐 아니라 DNA · RNA · 유전자 발현도 AI의 큰 영역이다.
**DeepVariant**(Google, 2018)
- 시퀀싱 reads에서 변이(SNP, indel) 검출
- CNN 기반, 전통 GATK 대비 정확도 향상
- 2025년에는 PacBio HiFi, ONT(나노포어) 롱 리드 모두 지원
**Enformer**(DeepMind + Calico, 2021)
- 약 20만 bp의 DNA 입력에서 유전자 발현 예측
- transformer 기반
- 임상 변이의 발현 영향 예측에 활용
**AlphaMissense**(DeepMind, 2023)
- 미스센스 변이(아미노산 1개 치환)의 병원성 예측
- 인간 7,100만 미스센스 변이에 대해 예측 공개
**Geneformer**(MIT Broad, 2023)
- 단일세포 transcriptomic 데이터의 transformer
- "rank-value encoding" — 발현량 순위로 토큰화
- 약 3,000만 개의 단일세포로 사전학습
**scGPT**(University of Toronto + Wang Lab, 2023)
- 단일세포 기초 모델
- 3,300만 셀로 사전학습
- 세포 타입 분류, 배치 교정, perturbation 예측 등 멀티태스크
**Universal Cell Embeddings (UCE)**(스탠퍼드, 2023)
- 종 간(human + mouse + fly 등) 단일세포 모델
이 모델들은 GTEx, Tabula Sapiens, Human Cell Atlas 같은 공개 데이터셋으로 학습한다.
17장 · 세포 이미징 AI — Cell Painting, JUMP-CP, CellPose
**Cell Painting**은 형광 염색 + 자동화 현미경 기반 phenotypic profiling 기법. 한 화합물을 세포에 처리한 뒤 5개 채널의 형광 이미지를 자동 촬영해 약 1,500개의 형태학적 feature를 추출한다.
**JUMP-CP**(2023, Broad + 빅파마 컨소시엄)
- 11만 6,000개 화합물 + 1만 2,000개 유전자 perturbation
- Cell Painting으로 표현형 프로파일을 공개
- 공동 출자한 빅파마 12곳이 사용 (Bayer, Janssen 등)
- 2024년 5월 완전 공개
**CellPose**(Janelia, 2021)
- 세포 분할(segmentation) 모델 — U-Net 변형
- 다양한 세포 타입에 generalize
- 오픈소스, ImageJ/Fiji 플러그인도 존재
**CellProfiler**(Broad)
- 1990년대부터 이어진 세포 이미지 분석 도구
- 2023년부터 딥러닝 모델 통합
**Recursion Maps**
- Recursion의 자체 플랫폼
- 약 60억 개의 세포 이미지 데이터베이스
- 약물-질병-유전자 그래프
- BioHive-1, BioHive-2(NVIDIA) 슈퍼컴퓨터로 학습
이 분야의 핵심은 **"표현형 우선"** 접근. 타겟을 모르더라도 세포 표현형이 정상화되는 화합물을 먼저 찾는다.
18장 · 임상시험 AI — Saama, Unlearn.ai
신약은 발굴 못지않게 **임상시험**이 비용이 크다(평균 임상 비용 약 19억 달러). 이 단계에서도 AI가 들어온다.
**Saama Technologies**
- 2015년 설립, 임상 데이터 관리에 특화
- 자체 LLM 기반 데이터 정합성 자동 점검
- 빅파마와 다수 협업
**Unlearn.ai**
- 2018년 설립, **"디지털 트윈" 기반 합성 대조군**(synthetic control arm)
- 환자의 가상 트윈을 생성해 위약 대조군 일부를 대체
- FDA와 협력해 알츠하이머 임상에서 시범 적용
**TriNetX**
- 글로벌 환자 데이터 네트워크, 임상 디자인 최적화
- 어떤 코호트가 모집 가능한지 사전 분석
**Owkin**(파리)
- 페더레이티드 러닝(federated learning) 기반 다기관 임상 데이터 분석
- 환자 데이터를 옮기지 않고 모델만 공유
임상시험 AI의 핵심 가치는 **시간 단축**. 임상 1단계당 1년 단축이면 1억 달러 이상 절감 가능.
19장 · 바이오 기초 모델 — BioGPT, GeneGPT, NACL
자연어 측면의 바이오 기초 모델도 활발하다.
**BioGPT**(Microsoft, 2022)
- PubMed 약 1,500만 초록으로 사전학습한 GPT-2 변형
- 약물 부작용, 단백질-약물 관계 추출 등에 활용
**GeneGPT**(NCBI, 2023)
- 유전체학 도구 API 호출을 학습한 모델
- BLAST, dbSNP, ClinVar 등을 자연어로 질의
**NACL biomedical Llamas**(NIH NACL, 2024)
- 의생명 분야 Llama fine-tune 시리즈
- 임상, 유전체, 약물 등 도메인별 모델
**Med-PaLM**(Google, 2022-2024)
- 의학 QA에 특화된 PaLM 변형
- USMLE(미국 의사면허시험) 합격 수준
**Med-Gemini**(Google, 2024)
- Gemini 기반 의학 멀티모달 모델
- 영상 + 텍스트 + 임상 노트
이 모델들의 공통 과제는 **환각(hallucination) 제어**. 의학적 정확성이 생명과 직결되기 때문에 강력한 RAG와 인간 검증이 필수다.
20장 · 한국 AI 바이오 — Standigm, Deep Bio, Syntekabio
한국의 AI 바이오 생태계는 빠르게 성장 중이다.
**Standigm**(스탠다임)
- 2015년 설립, 한국 1세대 AI 신약 회사
- 자체 AI 플랫폼 + wet lab
- SK케미칼, JW중외제약과 협업
- 2024년 시리즈 C 약 600억 원
**Deep Bio**(딥바이오)
- 병리 AI 특화
- 전립선암 그레이딩 AI(DeepDx-Prostate)가 FDA 등록
- 미국, 일본, 한국에서 상용 서비스
**Syntekabio**(신테카바이오, 코스닥 상장)
- 슈퍼컴 + AI 기반 가상 스크리닝
- 자체 클라우드 STB Cloud 운영
- KT, 셀트리온 등과 협업
**JLK Inspection**(제이엘케이)
- 의료 영상 AI에서 출발해 신약 발굴로 확장
- 뇌졸중, 뇌질환 영상 분석 → 표적 발굴 연계
**Macrogen**(마크로젠)
- 한국 최대 시퀀싱 + 유전체 분석 회사
- AI 변이 해석 플랫폼 자체 개발
**Lunit**(루닛)
- 의료 영상 AI 강자, 병리 AI도 확장
- 2024년 Volpara 인수로 글로벌 확장
**투자 동향**: 2024년 한국 AI 바이오 분야 투자는 약 5,000억 원. 글로벌 대비 작지만 정부 지원(보건복지부 데이터 사업)이 활발.
21장 · 일본 AI 바이오 — Preferred Networks, Elix, MOLCURE
일본도 AI 바이오에 적극적이다.
**Preferred Networks**(プリファード・ネットワークス)
- 일본 최대 AI 스타트업, Chainer로 유명
- 2024년부터 Materials Project + 단백질 디자인
- ENEOS, 도요타 등 산업 파트너
**Elix Inc**(エリックス)
- 도쿄, 2016년 설립, 신약 발굴 AI
- 자체 Elix Discovery 플랫폼
- 다이이치산쿄, 시오노기와 협업
**MOLCURE**(モルキュア)
- 항체 발굴 AI에 특화
- 자체 wet lab + ML 통합
**Healios**(ヘリオス)
- iPS 세포 기반 재생의료 + AI
- 동경증권거래소 마더스 상장
**Spiber**(スパイバー)
- 인공 거미줄 단백질 — 단백질 디자인 AI 활용
- 유니클로, GAP과 협업
**일본의 강점**: 화학 + 정밀공학 + 대학 연구가 강하지만 IPO 시장은 미국 대비 약하다. PFN과 Elix 같은 회사가 글로벌화의 가능성을 보여준다.
22장 · 데이터셋과 벤치마크 — PDB, UniProt, ChEMBL, AlphaFold DB
AI 생물학을 지탱하는 핵심 데이터셋들.
**PDB**(Protein Data Bank, 1971-)
- 단백질 실험 구조의 표준 저장소
- 2025년 기준 약 23만 구조
- X-ray crystallography, cryo-EM, NMR 등 실험 데이터
- AlphaFold 학습의 핵심 데이터
**UniProt**
- 단백질 서열의 표준 데이터베이스
- 약 2억 5,000만 개의 서열 (대부분 자동 주석)
- 큐레이션된 부분은 SwissProt(약 57만 개)
**ChEMBL**(EMBL-EBI)
- 생리활성 분자(bioactive molecules) 데이터베이스
- 2025년 기준 약 230만 화합물, 2,000만 활성 측정값
- 의약화학 ML의 기본
**AlphaFold DB**
- AlphaFold 2/3로 예측한 구조 약 2억 1,400만 개
- 모든 UniProt 단백질에 대해 예측 공개
- 무료, 학술 + 상업 모두 사용 가능
**ESM Atlas**
- ESMFold로 예측한 메타게놈 단백질 약 6억 1,700만 개
- 토양, 해양, 인체 미생물 단백질
**The Human Cell Atlas**
- 전 세계 컨소시엄
- 인간 세포 타입의 단일세포 지도
- 2025년까지 약 1억 셀
**JUMP-CP**(앞 17장 참고)
**Open Targets**(GSK + Sanofi + Bristol Myers Squibb + ...)
- 약물 표적 우선순위 데이터베이스
- 유전체 + 임상 + 화학 통합
**ClinicalTrials.gov + clinicaltrialsregister.eu**
- 임상시험 메타데이터
데이터 다양성과 품질이 AI 모델의 한계를 결정한다. 2026년 현재 가장 큰 병목은 **wet lab 검증 데이터의 부족**이다.
23장 · 시뮬레이션 인프라 — GROMACS, AMBER, DESMOND
AI는 정적 구조를 잘 예측하지만, **동적 거동**(dynamics)은 여전히 분자 동역학(molecular dynamics, MD)이 강하다.
**GROMACS**(스웨덴 KTH 등)
- 오픈소스, 학계 + 산업 모두 사용
- GPU 가속 우수
- 단백질, 막, 핵산 시스템에 활용
**AMBER**(UCSF + Rutgers 등)
- 가장 오래된 MD 패키지 중 하나
- 다양한 force field 옵션
- AMBER force field가 사실상 표준 중 하나
**NAMD**(University of Illinois)
- 매우 큰 시스템(천만 원자 이상) 처리
- COVID-19 spike protein 시뮬레이션에 사용됨
**DESMOND**(Schrödinger 상용)
- D.E. Shaw Research가 개발 → Schrödinger 상용화
- 빠른 성능 + 상용 지원
- D.E. Shaw의 Anton 슈퍼컴은 별도의 전용 하드웨어
**OpenMM**(스탠퍼드)
- Python에서 호출 가능한 MD 라이브러리
- AI 워크플로와 통합 쉬움
- AlphaFold relaxation 단계도 OpenMM 사용
**ML potential**의 부상:
- AIMNet2, ANI, MACE 같은 ML force field가 양자화학 수준의 정확도를 빠르게 제공
- NequIP, Allegro 같은 equivariant 모델
- 2025년부터 사실상 표준 도구가 되는 중
GPU 인프라 측면에서는 NVIDIA H100 / B100, AMD MI300, Google TPU가 모두 사용된다. Recursion의 BioHive-2는 H100 약 600개로 구성.
24장 · 윤리와 규제 — 안전 평가의 새로운 기준
AI 생물학의 발전은 동시에 **악용 우려**도 키운다.
**Dual-use 우려**:
- 단백질 디자인 AI로 새로운 독소나 병원체를 디자인할 수 있는가?
- 2022년 한 연구가 약물 디자인 AI를 반대로 돌려 4만 개의 잠재 독소를 생성 (Urbina et al, Nature Machine Intelligence)
- 미국 NSABB, 영국 SAGE 등에서 dual-use 가이드라인 논의
**규제 동향**:
- FDA: 2024년부터 "AI in Drug Discovery" 가이드라인 시안 공개
- EMA: 임상에서의 AI 사용에 대한 reflection paper 발표 (2024)
- 일본 PMDA: 의료 AI 인증 가속화
**오픈 vs 클로즈**:
- DeepMind의 AlphaFold 3 비공개는 안전 + 상업 양쪽 논리
- Baker Lab은 "오픈이 안전을 향상한다" 입장
- EvolutionaryScale은 절충 — 작은 모델은 오픈, 큰 모델은 API
**바이오 보안 평가**:
- 책임 있는 AI 정책 — 위험한 단백질 디자인 검출 필터
- "DNA 합성 회사가 의심스러운 서열을 거부해야 한다"는 가이드라인
- IGSC(International Gene Synthesis Consortium) 자율 규제
2026년 현재, 이 분야의 규제 프레임워크는 아직 형성 중이다. AI 안전 커뮤니티(MIRI, ARC, METR)와 바이오 안전 커뮤니티(NTI, Johns Hopkins CHS)의 협력이 늘고 있다.
25장 · 마무리 — 2026년부터 2030년까지
2024년 노벨상은 AI 생물학에 대한 학계의 인정이었다. 2026년 현재, 그 후속 효과가 산업으로 퍼지는 중이다.
**예상되는 흐름** (2026-2030):
1. **AI 발굴 + AI 디자인 약물의 첫 FDA 승인** — 2027-2029 사이 가능. Insilico INS018_055가 가장 빠른 후보 중 하나
2. **단백질 디자인 도구의 클라우드 SaaS 보편화** — 의약화학자들이 RFdiffusion을 Excel처럼 쓰는 시대
3. **단일세포 + 표현형 + 구조의 통합 기초 모델** — Recursion Maps, ESM3, Geneformer가 합쳐지는 흐름
4. **개인 맞춤형 항체** — 환자별 항원에 맞춤 디자인된 치료제
5. **빅파마와 AI 회사의 통합** — Recursion-Exscientia 같은 합병이 더 일어날 가능성
6. **dual-use 규제 강화** — 위험 디자인 검출 필터가 의무화될 가능성
> **노벨상 발표 직후 Demis Hassabis는 X에 짧게 적었다.** "This is just the beginning." 단백질 폴딩 문제는 풀렸지만, 생물학 전체에서 보면 AI는 아직 1퍼센트도 채 못 가졌다. 동적 거동, 세포 수준 시뮬레이션, 조직 모델, 인체 모델까지 — 갈 길이 멀고, 그 길이 곧 다음 10년의 가장 큰 과학 + 비즈니스 기회다.
26장 · 참고 자료
핵심 논문:
- AlphaFold 2 (Jumper et al, Nature 2021) — https://www.nature.com/articles/s41586-021-03819-2
- AlphaFold 3 (Abramson et al, Nature 2024) — https://www.nature.com/articles/s41586-024-07487-w
- RoseTTAFold (Baek et al, Science 2021) — https://www.science.org/doi/10.1126/science.abj8754
- RoseTTAFold All-Atom (Krishna et al, Science 2024) — https://www.science.org/doi/10.1126/science.adl2528
- ESM-2 / ESMFold (Lin et al, Science 2023) — https://www.science.org/doi/10.1126/science.ade2574
- ESM-3 (Hayes et al, bioRxiv 2024) — https://www.biorxiv.org/content/10.1101/2024.07.01.600583
- RFdiffusion (Watson et al, Nature 2023) — https://www.nature.com/articles/s41586-023-06415-8
- ProteinMPNN (Dauparas et al, Science 2022) — https://www.science.org/doi/10.1126/science.add2187
- DiffDock (Corso et al, ICLR 2023) — https://arxiv.org/abs/2210.01776
- Boltz-1 — https://github.com/jwohlwend/boltz
- Chai-1 — https://www.chaidiscovery.com/
- Protenix — https://github.com/bytedance/Protenix
- AlphaMissense (Cheng et al, Science 2023) — https://www.science.org/doi/10.1126/science.adg7492
- Enformer (Avsec et al, Nature Methods 2021) — https://www.nature.com/articles/s41592-021-01252-x
데이터베이스와 서비스:
- AlphaFold Server — https://alphafoldserver.com/
- AlphaFold DB — https://alphafold.ebi.ac.uk/
- PDB — https://www.rcsb.org/
- UniProt — https://www.uniprot.org/
- ChEMBL — https://www.ebi.ac.uk/chembl/
- ESM Atlas — https://esmatlas.com/
- Human Cell Atlas — https://www.humancellatlas.org/
- JUMP-CP — https://jump-cellpainting.broadinstitute.org/
- Open Targets — https://www.opentargets.org/
회사 + 공식 사이트:
- DeepMind — https://deepmind.google/
- Isomorphic Labs — https://www.isomorphiclabs.com/
- Recursion — https://www.recursion.com/
- Insilico Medicine — https://insilico.com/
- Schrödinger — https://www.schrodinger.com/
- Atomwise — https://www.atomwise.com/
- BenevolentAI — https://www.benevolent.com/
- Cradle — https://www.cradle.bio/
- Absci — https://www.absci.com/
- Generate:Biomedicines — https://generatebiomedicines.com/
- EvolutionaryScale — https://www.evolutionaryscale.ai/
- Chai Discovery — https://www.chaidiscovery.com/
노벨상 관련 자료:
- Nobel Prize 2024 — https://www.nobelprize.org/prizes/chemistry/2024/
기초 도구:
- ColabFold — https://github.com/sokrypton/ColabFold
- CellPose — https://www.cellpose.org/
- CellProfiler — https://cellprofiler.org/
- OpenMM — https://openmm.org/
- GROMACS — https://www.gromacs.org/
- AMBER — https://ambermd.org/
> **닫는 말.** AI는 단백질 폴딩 문제를 풀었지만, 생물학은 폴딩 그 너머다. 동적 상호작용, 세포 수준, 조직 수준, 인체 수준 — 진짜 어려운 문제는 모두 그 너머에 있다. 그래서 이 분야는 앞으로 10년이 가장 흥미진진할 것이다. 컴퓨터 과학자에게는 영광스러운 시기이고, 생물학자에게는 도구가 처음으로 충분히 강해진 시기다. 두 분야 모두에 행운을.
현재 단락 (1/545)
2024년 10월 9일, 스웨덴 왕립 과학 아카데미는 화학상 수상자를 발표했다. **David Baker**(University of Washington), **Demis Hass...