💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 2024년 노벨 화학상이 의미하는 것

2024년 10월 9일, 스웨덴 왕립 과학 아카데미는 화학상 수상자를 발표했다. **David Baker**(University of Washington), **Demis Hassabis**(DeepMind CEO), **John Jumper**(DeepMind Senior Director). 절반은 Baker의 단백질 설계(de novo protein design) 공로로, 나머지 절반은 Hassabis와 Jumper가 만든 **AlphaFold 2**의 단백질 구조 예측 공로로 돌아갔다.

이는 단순한 학문적 인정 이상의 의미였다. **AI가 50년 묵은 생물학의 미해결 문제(protein folding problem)를 풀었다**는 공식 선언이었고, 동시에 그 AI를 산업화한 기업(DeepMind, Isomorphic Labs, Generate:Biomedicines, Recursion, Insilico Medicine 등)이 신약 개발의 미래를 다시 그리고 있다는 신호였다.

> **"단백질 구조 예측은 죽었다. 이제 진짜 게임이 시작된다."** — 어느 분자 생물학자가 노벨상 발표 직후 X에 남긴 말이다. AlphaFold 2가 정적 구조 예측을 풀었다면, 그 다음 단계는 **동적인 상호작용 · 약물 결합 · 새로운 단백질 설계**다. 그리고 2026년 현재, 이 모든 게 동시에 폭발하고 있다.

이 글에서 다루는 것:

1. AI 생물학의 지도 — 2026년의 진영

2. 단백질 구조 예측의 역사 — Anfinsen에서 AlphaFold까지

3. AlphaFold 2 · 3 · Server — DeepMind의 흐름

4. RoseTTAFold 시리즈 — Baker Lab의 답

5. ESM-2, ESM-3, ESM Atlas — Meta에서 EvolutionaryScale로

6. Boltz-1, Boltz-2 — MIT의 오픈 재현

7. Chai-1, Protenix — 새로운 후발 주자

8. ColabFold, OmegaFold — 접근성의 혁명

9. RFdiffusion + ProteinMPNN — 단백질 디자인의 새 패러다임

10. 항체 설계 — AbDesign, IgFold, Absci

11. 저분자 + 도킹 — MolMIM, DiffDock, NeuralPLexer

12. Isomorphic Labs — DeepMind의 신약 자회사

13. Recursion Pharmaceuticals + Exscientia 합병

14. Insilico Medicine — 생성 AI 신약의 선구자

15. Schrödinger, Atomwise, BenevolentAI, Cradle

16. 유전체학 AI — DeepVariant, Enformer, Geneformer, scGPT

17. 세포 이미징 AI — Cell Painting, JUMP-CP, CellPose

18. 임상시험 AI — Saama, Unlearn.ai

19. 바이오 기초 모델 — BioGPT, GeneGPT, NACL

20. 한국 AI 바이오 — Standigm, Deep Bio, Syntekabio

21. 일본 AI 바이오 — Preferred Networks, Elix, MOLCURE

22. 데이터셋과 벤치마크 — PDB, UniProt, ChEMBL, AlphaFold DB

23. 시뮬레이션 인프라 — GROMACS, AMBER, DESMOND

24. 윤리와 규제 — 안전 평가의 새로운 기준

25. 참고 자료

1장 · AI 생물학의 지도 — 2026년의 진영

2026년 5월 기준, AI 생물학은 크게 다섯 진영으로 나뉜다.

**1) 구조 예측 진영(Structure Prediction)**

주어진 단백질 서열에서 3D 구조를 예측한다. AlphaFold 2/3, RoseTTAFold, ESMFold, Boltz, Chai-1, OmegaFold, ColabFold, Protenix가 여기 속한다. 2024년 AlphaFold 3가 단백질뿐 아니라 DNA · RNA · 리간드 · 이온까지 동시에 모델링하면서 게임이 한 단계 올라갔다.

**2) 단백질 디자인 진영(Protein Design)**

"우리가 원하는 기능을 가진 단백질을 처음부터 만들어 내자"는 흐름. RFdiffusion, ProteinMPNN, ESM3(생성 가능 버전), Chroma, Genie 등이 대표적이다. Baker Lab과 Generate:Biomedicines가 이 진영의 양대 축이다.

**3) 신약 발굴 기업 진영(Drug Discovery Companies)**

실제 임상 파이프라인을 운영하는 회사들. Isomorphic Labs(Alphabet), Recursion(Exscientia 합병), Insilico Medicine, Schrödinger, Atomwise, BenevolentAI, Cradle, Absci, Generate:Biomedicines가 여기 속한다.

**4) 유전체 + 단일세포 진영(Genomics + Single-cell)**

DNA 서열, 유전자 발현, 세포 상태를 모델링한다. DeepVariant(변이 검출), Enformer(발현 예측), Geneformer · scGPT(단일세포 기초 모델), AlphaMissense(변이 영향 예측)가 대표.

**5) 이미징 + 표현형 진영(Imaging + Phenotypic)**

세포 이미지에서 약물 효과를 직접 읽는다. Recursion의 "Maps" 플랫폼, JUMP-CP 공개 데이터셋, CellPose · CellProfiler 같은 분석 도구가 핵심.

이 다섯 진영은 서로 겹친다. Recursion은 이미징 + 디자인 + 신약을 모두 한다. EvolutionaryScale은 ESM3로 예측 + 디자인을 동시에 한다. 그래서 어느 회사를 "어느 진영"으로 묶기보다, **각 회사가 어떤 문제를 풀려 하는지**를 봐야 한다.

2장 · 단백질 구조 예측의 역사 — Anfinsen에서 AlphaFold까지

먼저 짧은 역사. 단백질 구조 예측은 **50년 묵은 문제**였다.

**1972년**: Christian Anfinsen, 노벨 화학상 수상. "단백질의 3차원 구조는 그 1차원 아미노산 서열에 의해 결정된다"는 가설(Anfinsen dogma)을 실험으로 증명. 이 가설이 맞다면 **이론적으로** 서열만으로 구조를 예측할 수 있어야 한다.

**1994년 ~ 2020년**: CASP(Critical Assessment of protein Structure Prediction)이 격년으로 열렸다. 전통적인 방법(homology modeling, threading, fragment assembly, Rosetta 등)이 점진적으로 개선됐지만, GDT-TS(구조 정확도 지표)는 60~70대 박스를 못 벗어났다.

**2018년 CASP13**: DeepMind의 첫 **AlphaFold 1**이 GDT-TS 58.9를 기록하며 2위 그룹을 6점 차로 따돌렸다. 학계가 놀랐다.

**2020년 12월 CASP14**: **AlphaFold 2**가 GDT-TS 92.4를 기록. 사실상 실험 수준(~95)에 도달. CASP14 주최자 John Moult는 "단백질 구조 예측 문제는 풀렸다(largely solved)"고 선언했다.

**2021년 7월**: AlphaFold 2 코드와 가중치가 오픈소스로 공개. 동시에 **AlphaFold DB**가 출범 — 곧 인간 단백질체 전체(약 20,000개)를 포함했고, 2022년에는 2억 개 이상의 예측 구조로 확장됐다.

**2021년 7월**: David Baker 팀이 **RoseTTAFold** 발표. AlphaFold 2와 같은 시기, 비슷한 정확도. attention 기반 3트랙(서열, 거리, 좌표) 아키텍처.

**2022년 11월**: Meta AI(FAIR)가 **ESMFold**와 **ESM Atlas** 공개. 6억 개 이상의 메타게놈 단백질 구조를 예측해 공개. 다중 서열 정렬(MSA) 없이 언어 모델만으로 빠르게 예측.

**2024년 5월**: **AlphaFold 3** 발표. 단백질뿐 아니라 DNA · RNA · 작은 분자(리간드) · 이온까지 동시 모델링. 단, 모델은 비공개 + AlphaFold Server라는 웹 인터페이스로만 제공.

**2024년 10월**: 노벨 화학상 — David Baker(절반), Demis Hassabis + John Jumper(절반).

**2024년 5월 ~ 2025년**: MIT의 Boltz-1, Chai Discovery의 Chai-1, ByteDance의 Protenix가 AlphaFold 3 수준의 오픈 모델을 차례로 공개.

**2025년 6월**: EvolutionaryScale의 **ESM-3** 출시. 생성 모델로 진화(ESMFold = 예측, ESM-3 = 예측 + 생성).

**2026년 현재**: Boltz-2 출시, AlphaFold 4 루머, RFdiffusion All-Atom의 임상 후보 화합물 도달. 그리고 **구조 예측 자체는 더 이상 차별화 포인트가 아님**이 분명해졌다.

3장 · AlphaFold 2 · 3 · Server — DeepMind의 흐름

**AlphaFold 2**(2021)의 아키텍처 핵심.

- 입력: 표적 단백질 서열 + MSA(다중 서열 정렬, 진화 정보)

- Evoformer: 서열 표현과 페어 표현을 attention으로 정제

- Structure module: 3D 좌표를 직접 생성. 회전과 변환을 SE(3) equivariant하게 처리

- pLDDT, pTM 같은 신뢰도 지표를 함께 출력

AlphaFold 2는 **정적 구조** 예측에 특화돼 있다. 동적 conformation, 결합 상태 변화, 작은 분자와의 상호작용은 별도 도구가 필요했다.

**AlphaFold 3**(2024)는 그 한계를 정면 돌파했다.

- 단백질 + DNA + RNA + 리간드 + 이온을 한 모델로 처리

- Diffusion 기반 좌표 생성 — Structure module을 확산 모델로 교체

- 평균 정확도가 AlphaFold 2 대비 50% 향상 (특히 단백질-리간드 상호작용에서)

- 다만 코드와 가중치는 비공개. AlphaFold Server로만 접근. 학술/비상업 이용 무료.

이 비공개 정책은 학계에 큰 논쟁을 일으켰다. DeepMind의 입장은 명확했다. **"Isomorphic Labs(자회사)가 상업적으로 활용해야 하기 때문에 모델은 비공개"**. 결과적으로 MIT, Chai Discovery, ByteDance가 곧바로 오픈 재현에 들어갔고, 1년 안에 거의 동급의 모델이 공개됐다.

**AlphaFold Server**는 2024년 5월 출시. 누구나 구글 계정으로 로그인해 서열을 입력하면 24시간 안에 구조를 받는다. 학계 사용량은 폭발적. 다만:

- 결과 다운로드 가능, 모델 자체는 비공개

- 비상업 용도만 허용

- 매일 작업당 한도 있음

2026년 현재 AlphaFold DB는 약 **2억 1,400만 개**의 구조를 무료로 제공한다. 인간 단백질체뿐 아니라 UniProt에 등재된 거의 모든 단백질을 예측해 둔 상태다.

4장 · RoseTTAFold 시리즈 — Baker Lab의 답

University of Washington의 **David Baker 연구실**(노벨상 수상)은 단백질 구조 예측과 디자인 양쪽에서 DeepMind와 라이벌 관계다. 그들의 답은 RoseTTAFold 시리즈.

**RoseTTAFold**(2021)

- 3-track 아키텍처: 서열, 거리, 좌표를 동시에 학습

- AlphaFold 2와 거의 같은 시기, 비슷한 정확도(약간 낮지만 빠름)

- 오픈소스로 공개

**RoseTTAFold2**(2023)

- AlphaFold 2와 거의 동일 정확도

- 더 큰 단백질 처리 가능

- 단백질-단백질 복합체(complex) 예측 강화

**RoseTTAFold All-Atom**(RFAA, 2023)

- 단백질 + DNA + RNA + 리간드 + 보조인자를 한 모델로

- AlphaFold 3와 비슷한 컨셉이지만 더 일찍 공개

- 오픈소스 + 가중치 공개

**RFdiffusion**(2023, 디자인용)

- 단백질 백본(backbone)을 처음부터 생성하는 diffusion 모델

- 결합 단백질(binder), 효소, 항체 디자인에 활용

- 노벨상 핵심 기여 중 하나

**RFdiffusion All-Atom**(2024)

- 백본뿐 아니라 측쇄(side chain)와 리간드까지 동시 디자인

- 결합 친화도가 실제로 더 높은 단백질을 생성

Baker Lab의 가치 제안은 명확하다: **"오픈, 디자인, 응용"**. 모든 모델을 공개하고, 단순 예측을 넘어 디자인 도구를 함께 제공한다.

5장 · ESM-2, ESM-3, ESM Atlas — Meta에서 EvolutionaryScale로

**ESM(Evolutionary Scale Modeling)** 시리즈는 Meta AI(이전 FAIR)의 단백질 언어 모델 프로젝트였다.

**ESM-1, ESM-2**(2019-2022)

- 단백질 서열을 텍스트처럼 다루는 transformer

- UniRef50의 약 6,500만 서열로 사전학습

- 가장 큰 ESM-2는 150억 파라미터

**ESMFold**(2022)

- ESM-2 위에 구조 예측 헤드를 붙임

- **MSA 없이** 서열만으로 구조 예측 — AlphaFold 2 대비 60배 빠름

- 정확도는 약간 낮지만 메타게놈 단백질처럼 MSA를 만들기 어려운 경우에 강력

**ESM Atlas**(2022)

- ESMFold로 6억 1,700만 개의 메타게놈 단백질 구조를 예측

- 토양, 해양, 인체 미생물체 등에서 온 "다크 단백질체"를 처음으로 가시화

- AlphaFold DB와 함께 단백질체 우주의 두 축

**2024년**: Meta가 FAIR 단백질 팀을 분사. **EvolutionaryScale**이라는 별도 회사로 독립. Alex Rives(ESM 리드 저자)가 공동 창업.

**ESM-3**(2024, EvolutionaryScale)

- 서열 · 구조 · 함수를 통합한 다중 모달 생성 모델

- 예측뿐 아니라 **생성**도 가능 — 원하는 함수를 가진 단백질을 디자인

- 가장 큰 ESM-3는 980억 파라미터

- 오픈 가중치가 부분적으로만 공개됨(가장 큰 모델은 API만 제공)

- 7B/24B 모델은 비상업 라이선스로 공개

EvolutionaryScale은 ESM-3를 활용해 형광 단백질 시뮬레이션 진화(esmGFP) 실험을 발표 — 5억 년 분량의 진화 경로를 압축해 새로운 GFP 변이체를 디자인했다.

6장 · Boltz-1, Boltz-2 — MIT의 오픈 재현

AlphaFold 3가 비공개되자, MIT의 **Regina Barzilay** 그룹과 협력자들은 2024년 5월 **Boltz-1**을 발표했다.

**Boltz-1**(2024)

- AlphaFold 3 수준의 정확도(단백질 + 핵산 + 리간드 + 이온)

- MIT 라이선스로 완전 공개 — 코드, 가중치 모두

- 자체 데이터 + 공개 데이터로 학습

- AlphaFold Server를 못 쓰는 상업 연구자에게 게임 체인저

**Boltz-2**(2025)

- Boltz-1보다 약 1.5배 빠름

- 결합 친화도(affinity) 예측을 추가

- 메모리 효율 개선으로 더 큰 시스템 처리 가능

- 동일 MIT 라이선스

Boltz의 의의는 단순하다: **"AlphaFold 3는 못 써도 Boltz-2는 쓸 수 있다."** 제약 회사 내부 R&D, 학술 연구, 상업 응용 모두에 무료로 활용 가능하다.

다음은 Boltz-2를 명령줄에서 호출하는 예시.

Boltz-2 설치 (PyPI)

pip install boltz

입력 FASTA 준비

cat > target.fasta <<EOF

>protein|name=kinase

MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK

EOF

단일 단백질 구조 예측

boltz predict target.fasta --use_msa_server --out_dir results/

결과 — results/predictions/target/ 안에 PDB와 mmCIF 출력

YAML 입력으로 단백질-리간드 복합체도 지원한다.

version: 1

sequences:

- protein:

id: A

sequence: MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK

- ligand:

id: B

smiles: "CC(=O)OC1=CC=CC=C1C(=O)O" # 아스피린

properties:

- affinity:

binder: B

GPU 한 장(A100 80GB)으로 중간 크기 단백질을 1-5분 안에 처리한다.

7장 · Chai-1, Protenix — 새로운 후발 주자

**Chai Discovery**는 2024년 가을 등장한 신생 스타트업으로, AlphaFold 3 수준 모델을 자체 개발했다.

**Chai-1**(2024)

- 단백질 + 핵산 + 리간드 + 이온

- AlphaFold 3보다 약간 낮은, Boltz-1과 비슷한 정확도

- 가중치 일부 공개(비상업 라이선스)

- 웹 UI도 제공 — 누구나 시도 가능

- 항체 모델링에 특히 강함

**Chai-1r**(2025)

- 결합 친화도 예측 추가

- 강화학습 기반 후처리(re-ranking)

- 결합 단백질 디자인 시뮬레이션에 활용

**Protenix**(ByteDance, 2024)

- 중국 ByteDance(틱톡 모회사)의 ByteDance Research가 공개

- AlphaFold 3 재현, Apache 2.0 라이선스로 완전 공개

- 가중치 + 학습 코드까지

- 정확도는 Boltz-1과 비슷한 수준

이 세 모델(Boltz, Chai, Protenix) 덕분에 **2025년 봄에는 사실상 AlphaFold 3 수준의 오픈 모델이 세 개**나 존재하게 됐다. DeepMind의 비공개 정책이 역설적으로 오픈 생태계를 가속한 셈이다.

8장 · ColabFold, OmegaFold — 접근성의 혁명

AlphaFold 2가 공개됐지만 실행에는 비싼 GPU와 거대한 MSA 데이터베이스(BFD, Uniref30 등 수 TB)가 필요했다. 이걸 누구나 쓸 수 있게 만든 것이 **ColabFold**다.

**ColabFold**(2022)

- Sergey Ovchinnikov와 협력자들이 만든 노트북

- AlphaFold 2 + RoseTTAFold + ESMFold를 Google Colab에서 실행

- MSA를 MMseqs2 기반 빠른 검색으로 대체 (BFD 대신)

- 학부생도 30분 안에 단백질 구조 예측 가능

- 2025년까지 약 100만 명 이상이 사용

**OmegaFold**(2022)

- Helixon이 발표

- MSA 없이도 작동

- ESMFold와 비슷한 컨셉이지만 별도 학습

- 일부 케이스에서 ESMFold보다 정확

ColabFold의 의의는 **민주화**다. 노벨상 수준의 기술을 노트북에서 실행할 수 있게 한 것. 2025년 현재 ColabFold는 AlphaFold 3, Boltz-2, Chai-1까지 점진적으로 통합 중이다.

9장 · RFdiffusion + ProteinMPNN — 단백질 디자인의 새 패러다임

지금까지는 **예측**(prediction) 이야기였다. 이제 **디자인**(design)으로 넘어가자.

전통적인 단백질 디자인은 Rosetta 같은 물리 기반 시뮬레이션으로 시도했다. 가능한 측쇄 조합을 평가해 에너지가 낮은 구조를 찾는 방식. 느렸고, 새로운 단백질 폴드를 만들기 어려웠다.

**RFdiffusion**(Baker Lab, 2023)이 게임을 바꿨다.

- Diffusion 모델로 단백질 백본을 처음부터 생성

- 입력: 결합하고 싶은 표적 단백질의 일부 구조 + 결합 위치

- 출력: 그 자리에 결합할 수 있는 새로운 단백질 백본

- 노벨상 수상 기술 중 하나

**ProteinMPNN**(Baker Lab, 2022)

- 백본이 주어지면 그 백본에 맞는 아미노산 서열을 생성

- 메시지 패싱 그래프 신경망

- "백본을 RFdiffusion으로 만들고, 서열을 ProteinMPNN으로 채운다"가 표준 파이프라인

**RFdiffusion + ProteinMPNN 파이프라인**의 실제 워크플로:

1. 표적 단백질의 결합 위치를 선택

2. RFdiffusion으로 그 위치에 결합할 수 있는 백본을 1만 개 생성

3. ProteinMPNN으로 각 백본에 서열을 부여 (백본당 8개씩)

4. AlphaFold 2로 그 서열들을 다시 폴딩해 백본과 일치하는지 검증

5. 상위 100개를 실험실에서 발현해 결합 친화도 측정

이 파이프라인으로 **2024년 한 해에만 10개 이상의 새로운 결합 단백질이 임상/전임상 단계**에 진입했다.

**RFdiffusion All-Atom**(2024)는 백본뿐 아니라 측쇄와 리간드까지 한 번에 디자인한다. 예를 들어 약물 분자 주변에 정확히 맞는 효소를 디자인할 수 있다.

10장 · 항체 설계 — AbDesign, IgFold, Absci

항체(antibody)는 가장 중요한 바이오 의약품 카테고리(2024년 매출 약 2,000억 달러)다. 그래서 항체 디자인 AI는 별도의 큰 시장을 형성한다.

**IgFold**(Johns Hopkins, 2022)

- 항체 구조 예측에 특화 (일반 AlphaFold보다 정확)

- CDR(complementarity-determining region) 모델링 강화

- 오픈소스

**ABodyBuilder**(Oxford OPIG, 2024)

- 항체 가변영역 빠른 모델링

- 단일 GPU에서 1초 미만 예측

**AbDesign / RFdiffusion-Ab**(Baker Lab, 2024)

- RFdiffusion을 항체 디자인에 맞게 fine-tune

- 표적 항원에 결합하는 항체를 처음부터 생성

- 실험 검증에서 약 1% 이상의 hit rate (전통 디스플레이 기법 대비 10-100배)

**Absci**(나스닥 상장, 2021)

- "Generative AI for antibody discovery"

- 자체 머신러닝 + wet lab 통합

- 2024년 GSK, Merck 등과 파트너십

- 표적 결합 항체를 6주 내 디자인 + 발현

**Generate:Biomedicines**(2022 분사, 2024 시리즈 C 2.7억 달러)

- Flagship Pioneering 인큐베이팅

- Chroma 모델 자체 개발 — 항체 + 일반 단백질 디자인

- 글로벌 빅파마와 다수 협업

항체 디자인의 핵심 KPI는 **affinity**(결합 친화도, Kd 값)와 **developability**(개발 가능성 — 응집, 점도, 면역원성). AI는 이 두 축을 동시에 최적화하는 게 도전이다.

11장 · 저분자 + 도킹 — MolMIM, DiffDock, NeuralPLexer

단백질이 아닌 **작은 분자(small molecule)** 측면도 AI가 빠르게 들어왔다.

**SMILES와 SELFIES**

- SMILES: 분자를 문자열로 표현하는 표준 (예: `CC(=O)OC1=CC=CC=C1C(=O)O` = 아스피린)

- SELFIES: SMILES의 한계를 보완, 항상 유효한 분자만 표현

**Mol-BERT, ChemBERTa, MoLFormer**(2020-2022)

- SMILES로 사전학습된 transformer

- 분자 성질 예측에 활용

**MolMIM**(NVIDIA, 2024)

- 분자 생성 모델, NVIDIA BioNeMo의 일부

- 입력 분자에서 비슷하지만 향상된 성질의 분자를 생성

- 의약화학자의 hit-to-lead 단계를 가속

**DiffDock**(MIT, 2023)

- Diffusion 기반 도킹 모델

- 단백질-리간드 결합 포즈를 직접 생성

- 전통 도킹(AutoDock Vina 등) 대비 수십 배 빠름

**NeuralPLexer**(2024, Caltech)

- 단백질과 리간드를 함께 입력받아 결합 복합체 예측

- 보조인자, 보조 단백질도 고려

**AlphaFold 3 + Boltz-2 + Chai-1**도 결국 작은 분자 결합을 예측하기 때문에, 도킹 분야와 구조 예측 분야가 사실상 합쳐지는 중이다.

12장 · Isomorphic Labs — DeepMind의 신약 자회사

**Isomorphic Labs**는 2021년 11월 Alphabet이 분사한 신약 개발 자회사. Demis Hassabis가 CEO를 겸직한다.

**미션**: "Re-imagining drug discovery through AI." AlphaFold를 신약 발굴의 기본 도구로 쓴다.

**전략**:

- 자체 파이프라인 + 빅파마 파트너십 양면 전략

- 2024년 Eli Lilly와 1.7억 달러 + 마일스톤 계약

- 2024년 Novartis와 1.2억 달러 + 마일스톤 계약

- 자체 후보 물질은 종양학 + 면역학 중심

**기술 스택**:

- AlphaFold 3가 핵심 (외부에는 비공개, 사내 우선 사용)

- 자체 디자인 모델 + 도킹 + ADMET 예측

- 자체 wet lab은 최소화, CRO와 협력

**비공개 정책**: Isomorphic의 존재가 AlphaFold 3 비공개의 이유다. 만약 AF3가 오픈이었다면 모든 빅파마가 자체적으로 사용했을 것이고, Isomorphic의 비즈니스 모델이 약해졌을 것이다.

**2025년 현황**: 첫 IND-enabling 후보 물질 도달이 임박. 2026년 안에 첫 임상 1상 진입이 목표.

13장 · Recursion Pharmaceuticals + Exscientia 합병

**Recursion**(나스닥 RXRX)은 솔트레이크시티의 AI 신약 회사. 2021년 IPO.

**핵심 기술**:

- "Recursion Maps" — 세포 이미징 기반 phenotypic screening

- 한 가지 실험에서 약 100만 개의 세포 이미지를 자동 분석

- 약물-유전자-질병 관계를 그래프로 모델링

- NVIDIA와 BioHive-1, BioHive-2 슈퍼컴퓨터 협력 (NVIDIA 투자)

**2024년 1월**: **Exscientia 인수 발표** (약 7억 달러). Exscientia는 영국의 AI 신약 회사로, 자체 분자 디자인 플랫폼이 강점. 합병으로 **이미징 + 분자 디자인**을 한 회사에 통합.

**파이프라인**:

- 11개 이상의 임상/전임상 자산

- 종양학 + 신경계 + 희귀 질환

- 2024년 Bayer, Roche, Sanofi와 다수 협업

**비전**:

- "Industrialize drug discovery" — 신약 개발을 산업화

- AI + 자동화된 wet lab + 클라우드 컴퓨팅

14장 · Insilico Medicine — 생성 AI 신약의 선구자

**Insilico Medicine**은 홍콩-뉴욕-상하이에 본사를 둔 AI 신약 회사. 2014년 설립. 2025년 IPO 진행 중(홍콩 거래소).

**핵심 기술**:

- **Pharma.AI** 플랫폼 — 타겟 발굴 + 분자 디자인 + 임상시험 설계

- PandaOmics(타겟), Chemistry42(분자), InClinico(임상)로 구성

- 자체 생성 모델 + 강화학습 조합

**히트작**:

- **INS018_055**(IPF 치료제 후보) — 2023년 임상 2상 진입. **세계 최초의 "AI 발굴 + AI 디자인" 임상 단계 약물**

- 타겟 발굴(TNIK)과 분자 디자인 모두 AI가 수행

- 후보 물질 도달까지 18개월, 전통 방식 대비 절반 이상 단축

**파이프라인**: 30개 이상의 프로그램, 7개 이상의 임상 자산.

**2025년 동향**:

- Sanofi와 협업 확대

- INS018_055 임상 2상 결과 발표 예정

- 홍콩 IPO 추진

Insilico의 가치 제안은 명확하다: **"AI가 발굴해서 AI가 디자인하고 사람이 검증한다."** 시간과 비용을 절반으로 줄인다는 것.

15장 · Schrödinger, Atomwise, BenevolentAI, Cradle

**Schrödinger**(나스닥 SDGR)

- 1990년부터 분자 동역학(MD)과 양자화학 소프트웨어의 강자

- DESMOND, Maestro, Glide 같은 산업 표준 도구

- 2020년대 들어 AI를 적극 통합

- 자체 파이프라인도 운영 — Nimbus Therapeutics와 협업

**Atomwise**

- 2012년 설립, "AtomNet"이라는 CNN 기반 도킹 모델

- 빅파마와 다수 협업 (Pfizer, Bayer, Merck 등)

- 200개 이상의 표적에 대해 가상 스크리닝 진행

**BenevolentAI**(런던 증시 BAI)

- 지식 그래프 + 자연어 + 분자 디자인 통합

- COVID-19 초기에 baricitinib을 후보 약물로 제안 → FDA 긴급 사용 승인

- 2024년 구조조정 (성과 부진), 2025년 회복 모드

**Cradle**

- 네덜란드/스위스, 2021년 설립

- 단백질 엔지니어링에 특화 (산업용 효소, 제약 단백질)

- 노바티스, BASF, AstraZeneca와 파트너십

- 2024년 시리즈 B 7,300만 달러

**EvolutionaryScale** (이미 5장 참고)

- ESM3 본체 회사

- 2024년 시리즈 A 1.42억 달러, Amazon · NVIDIA 등 투자

- 모델 + 컨설팅 비즈니스

16장 · 유전체학 AI — DeepVariant, Enformer, Geneformer, scGPT

단백질뿐 아니라 DNA · RNA · 유전자 발현도 AI의 큰 영역이다.

**DeepVariant**(Google, 2018)

- 시퀀싱 reads에서 변이(SNP, indel) 검출

- CNN 기반, 전통 GATK 대비 정확도 향상

- 2025년에는 PacBio HiFi, ONT(나노포어) 롱 리드 모두 지원

**Enformer**(DeepMind + Calico, 2021)

- 약 20만 bp의 DNA 입력에서 유전자 발현 예측

- transformer 기반

- 임상 변이의 발현 영향 예측에 활용

**AlphaMissense**(DeepMind, 2023)

- 미스센스 변이(아미노산 1개 치환)의 병원성 예측

- 인간 7,100만 미스센스 변이에 대해 예측 공개

**Geneformer**(MIT Broad, 2023)

- 단일세포 transcriptomic 데이터의 transformer

- "rank-value encoding" — 발현량 순위로 토큰화

- 약 3,000만 개의 단일세포로 사전학습

**scGPT**(University of Toronto + Wang Lab, 2023)

- 단일세포 기초 모델

- 3,300만 셀로 사전학습

- 세포 타입 분류, 배치 교정, perturbation 예측 등 멀티태스크

**Universal Cell Embeddings (UCE)**(스탠퍼드, 2023)

- 종 간(human + mouse + fly 등) 단일세포 모델

이 모델들은 GTEx, Tabula Sapiens, Human Cell Atlas 같은 공개 데이터셋으로 학습한다.

17장 · 세포 이미징 AI — Cell Painting, JUMP-CP, CellPose

**Cell Painting**은 형광 염색 + 자동화 현미경 기반 phenotypic profiling 기법. 한 화합물을 세포에 처리한 뒤 5개 채널의 형광 이미지를 자동 촬영해 약 1,500개의 형태학적 feature를 추출한다.

**JUMP-CP**(2023, Broad + 빅파마 컨소시엄)

- 11만 6,000개 화합물 + 1만 2,000개 유전자 perturbation

- Cell Painting으로 표현형 프로파일을 공개

- 공동 출자한 빅파마 12곳이 사용 (Bayer, Janssen 등)

- 2024년 5월 완전 공개

**CellPose**(Janelia, 2021)

- 세포 분할(segmentation) 모델 — U-Net 변형

- 다양한 세포 타입에 generalize

- 오픈소스, ImageJ/Fiji 플러그인도 존재

**CellProfiler**(Broad)

- 1990년대부터 이어진 세포 이미지 분석 도구

- 2023년부터 딥러닝 모델 통합

**Recursion Maps**

- Recursion의 자체 플랫폼

- 약 60억 개의 세포 이미지 데이터베이스

- 약물-질병-유전자 그래프

- BioHive-1, BioHive-2(NVIDIA) 슈퍼컴퓨터로 학습

이 분야의 핵심은 **"표현형 우선"** 접근. 타겟을 모르더라도 세포 표현형이 정상화되는 화합물을 먼저 찾는다.

18장 · 임상시험 AI — Saama, Unlearn.ai

신약은 발굴 못지않게 **임상시험**이 비용이 크다(평균 임상 비용 약 19억 달러). 이 단계에서도 AI가 들어온다.

**Saama Technologies**

- 2015년 설립, 임상 데이터 관리에 특화

- 자체 LLM 기반 데이터 정합성 자동 점검

- 빅파마와 다수 협업

**Unlearn.ai**

- 2018년 설립, **"디지털 트윈" 기반 합성 대조군**(synthetic control arm)

- 환자의 가상 트윈을 생성해 위약 대조군 일부를 대체

- FDA와 협력해 알츠하이머 임상에서 시범 적용

**TriNetX**

- 글로벌 환자 데이터 네트워크, 임상 디자인 최적화

- 어떤 코호트가 모집 가능한지 사전 분석

**Owkin**(파리)

- 페더레이티드 러닝(federated learning) 기반 다기관 임상 데이터 분석

- 환자 데이터를 옮기지 않고 모델만 공유

임상시험 AI의 핵심 가치는 **시간 단축**. 임상 1단계당 1년 단축이면 1억 달러 이상 절감 가능.

19장 · 바이오 기초 모델 — BioGPT, GeneGPT, NACL

자연어 측면의 바이오 기초 모델도 활발하다.

**BioGPT**(Microsoft, 2022)

- PubMed 약 1,500만 초록으로 사전학습한 GPT-2 변형

- 약물 부작용, 단백질-약물 관계 추출 등에 활용

**GeneGPT**(NCBI, 2023)

- 유전체학 도구 API 호출을 학습한 모델

- BLAST, dbSNP, ClinVar 등을 자연어로 질의

**NACL biomedical Llamas**(NIH NACL, 2024)

- 의생명 분야 Llama fine-tune 시리즈

- 임상, 유전체, 약물 등 도메인별 모델

**Med-PaLM**(Google, 2022-2024)

- 의학 QA에 특화된 PaLM 변형

- USMLE(미국 의사면허시험) 합격 수준

**Med-Gemini**(Google, 2024)

- Gemini 기반 의학 멀티모달 모델

- 영상 + 텍스트 + 임상 노트

이 모델들의 공통 과제는 **환각(hallucination) 제어**. 의학적 정확성이 생명과 직결되기 때문에 강력한 RAG와 인간 검증이 필수다.

20장 · 한국 AI 바이오 — Standigm, Deep Bio, Syntekabio

한국의 AI 바이오 생태계는 빠르게 성장 중이다.

**Standigm**(스탠다임)

- 2015년 설립, 한국 1세대 AI 신약 회사

- 자체 AI 플랫폼 + wet lab

- SK케미칼, JW중외제약과 협업

- 2024년 시리즈 C 약 600억 원

**Deep Bio**(딥바이오)

- 병리 AI 특화

- 전립선암 그레이딩 AI(DeepDx-Prostate)가 FDA 등록

- 미국, 일본, 한국에서 상용 서비스

**Syntekabio**(신테카바이오, 코스닥 상장)

- 슈퍼컴 + AI 기반 가상 스크리닝

- 자체 클라우드 STB Cloud 운영

- KT, 셀트리온 등과 협업

**JLK Inspection**(제이엘케이)

- 의료 영상 AI에서 출발해 신약 발굴로 확장

- 뇌졸중, 뇌질환 영상 분석 → 표적 발굴 연계

**Macrogen**(마크로젠)

- 한국 최대 시퀀싱 + 유전체 분석 회사

- AI 변이 해석 플랫폼 자체 개발

**Lunit**(루닛)

- 의료 영상 AI 강자, 병리 AI도 확장

- 2024년 Volpara 인수로 글로벌 확장

**투자 동향**: 2024년 한국 AI 바이오 분야 투자는 약 5,000억 원. 글로벌 대비 작지만 정부 지원(보건복지부 데이터 사업)이 활발.

21장 · 일본 AI 바이오 — Preferred Networks, Elix, MOLCURE

일본도 AI 바이오에 적극적이다.

**Preferred Networks**(プリファード・ネットワークス)

- 일본 최대 AI 스타트업, Chainer로 유명

- 2024년부터 Materials Project + 단백질 디자인

- ENEOS, 도요타 등 산업 파트너

**Elix Inc**(エリックス)

- 도쿄, 2016년 설립, 신약 발굴 AI

- 자체 Elix Discovery 플랫폼

- 다이이치산쿄, 시오노기와 협업

**MOLCURE**(モルキュア)

- 항체 발굴 AI에 특화

- 자체 wet lab + ML 통합

**Healios**(ヘリオス)

- iPS 세포 기반 재생의료 + AI

- 동경증권거래소 마더스 상장

**Spiber**(スパイバー)

- 인공 거미줄 단백질 — 단백질 디자인 AI 활용

- 유니클로, GAP과 협업

**일본의 강점**: 화학 + 정밀공학 + 대학 연구가 강하지만 IPO 시장은 미국 대비 약하다. PFN과 Elix 같은 회사가 글로벌화의 가능성을 보여준다.

22장 · 데이터셋과 벤치마크 — PDB, UniProt, ChEMBL, AlphaFold DB

AI 생물학을 지탱하는 핵심 데이터셋들.

**PDB**(Protein Data Bank, 1971-)

- 단백질 실험 구조의 표준 저장소

- 2025년 기준 약 23만 구조

- X-ray crystallography, cryo-EM, NMR 등 실험 데이터

- AlphaFold 학습의 핵심 데이터

**UniProt**

- 단백질 서열의 표준 데이터베이스

- 약 2억 5,000만 개의 서열 (대부분 자동 주석)

- 큐레이션된 부분은 SwissProt(약 57만 개)

**ChEMBL**(EMBL-EBI)

- 생리활성 분자(bioactive molecules) 데이터베이스

- 2025년 기준 약 230만 화합물, 2,000만 활성 측정값

- 의약화학 ML의 기본

**AlphaFold DB**

- AlphaFold 2/3로 예측한 구조 약 2억 1,400만 개

- 모든 UniProt 단백질에 대해 예측 공개

- 무료, 학술 + 상업 모두 사용 가능

**ESM Atlas**

- ESMFold로 예측한 메타게놈 단백질 약 6억 1,700만 개

- 토양, 해양, 인체 미생물 단백질

**The Human Cell Atlas**

- 전 세계 컨소시엄

- 인간 세포 타입의 단일세포 지도

- 2025년까지 약 1억 셀

**JUMP-CP**(앞 17장 참고)

**Open Targets**(GSK + Sanofi + Bristol Myers Squibb + ...)

- 약물 표적 우선순위 데이터베이스

- 유전체 + 임상 + 화학 통합

**ClinicalTrials.gov + clinicaltrialsregister.eu**

- 임상시험 메타데이터

데이터 다양성과 품질이 AI 모델의 한계를 결정한다. 2026년 현재 가장 큰 병목은 **wet lab 검증 데이터의 부족**이다.

23장 · 시뮬레이션 인프라 — GROMACS, AMBER, DESMOND

AI는 정적 구조를 잘 예측하지만, **동적 거동**(dynamics)은 여전히 분자 동역학(molecular dynamics, MD)이 강하다.

**GROMACS**(스웨덴 KTH 등)

- 오픈소스, 학계 + 산업 모두 사용

- GPU 가속 우수

- 단백질, 막, 핵산 시스템에 활용

**AMBER**(UCSF + Rutgers 등)

- 가장 오래된 MD 패키지 중 하나

- 다양한 force field 옵션

- AMBER force field가 사실상 표준 중 하나

**NAMD**(University of Illinois)

- 매우 큰 시스템(천만 원자 이상) 처리

- COVID-19 spike protein 시뮬레이션에 사용됨

**DESMOND**(Schrödinger 상용)

- D.E. Shaw Research가 개발 → Schrödinger 상용화

- 빠른 성능 + 상용 지원

- D.E. Shaw의 Anton 슈퍼컴은 별도의 전용 하드웨어

**OpenMM**(스탠퍼드)

- Python에서 호출 가능한 MD 라이브러리

- AI 워크플로와 통합 쉬움

- AlphaFold relaxation 단계도 OpenMM 사용

**ML potential**의 부상:

- AIMNet2, ANI, MACE 같은 ML force field가 양자화학 수준의 정확도를 빠르게 제공

- NequIP, Allegro 같은 equivariant 모델

- 2025년부터 사실상 표준 도구가 되는 중

GPU 인프라 측면에서는 NVIDIA H100 / B100, AMD MI300, Google TPU가 모두 사용된다. Recursion의 BioHive-2는 H100 약 600개로 구성.

24장 · 윤리와 규제 — 안전 평가의 새로운 기준

AI 생물학의 발전은 동시에 **악용 우려**도 키운다.

**Dual-use 우려**:

- 단백질 디자인 AI로 새로운 독소나 병원체를 디자인할 수 있는가?

- 2022년 한 연구가 약물 디자인 AI를 반대로 돌려 4만 개의 잠재 독소를 생성 (Urbina et al, Nature Machine Intelligence)

- 미국 NSABB, 영국 SAGE 등에서 dual-use 가이드라인 논의

**규제 동향**:

- FDA: 2024년부터 "AI in Drug Discovery" 가이드라인 시안 공개

- EMA: 임상에서의 AI 사용에 대한 reflection paper 발표 (2024)

- 일본 PMDA: 의료 AI 인증 가속화

**오픈 vs 클로즈**:

- DeepMind의 AlphaFold 3 비공개는 안전 + 상업 양쪽 논리

- Baker Lab은 "오픈이 안전을 향상한다" 입장

- EvolutionaryScale은 절충 — 작은 모델은 오픈, 큰 모델은 API

**바이오 보안 평가**:

- 책임 있는 AI 정책 — 위험한 단백질 디자인 검출 필터

- "DNA 합성 회사가 의심스러운 서열을 거부해야 한다"는 가이드라인

- IGSC(International Gene Synthesis Consortium) 자율 규제

2026년 현재, 이 분야의 규제 프레임워크는 아직 형성 중이다. AI 안전 커뮤니티(MIRI, ARC, METR)와 바이오 안전 커뮤니티(NTI, Johns Hopkins CHS)의 협력이 늘고 있다.

25장 · 마무리 — 2026년부터 2030년까지

2024년 노벨상은 AI 생물학에 대한 학계의 인정이었다. 2026년 현재, 그 후속 효과가 산업으로 퍼지는 중이다.

**예상되는 흐름** (2026-2030):

1. **AI 발굴 + AI 디자인 약물의 첫 FDA 승인** — 2027-2029 사이 가능. Insilico INS018_055가 가장 빠른 후보 중 하나

2. **단백질 디자인 도구의 클라우드 SaaS 보편화** — 의약화학자들이 RFdiffusion을 Excel처럼 쓰는 시대

3. **단일세포 + 표현형 + 구조의 통합 기초 모델** — Recursion Maps, ESM3, Geneformer가 합쳐지는 흐름

4. **개인 맞춤형 항체** — 환자별 항원에 맞춤 디자인된 치료제

5. **빅파마와 AI 회사의 통합** — Recursion-Exscientia 같은 합병이 더 일어날 가능성

6. **dual-use 규제 강화** — 위험 디자인 검출 필터가 의무화될 가능성

> **노벨상 발표 직후 Demis Hassabis는 X에 짧게 적었다.** "This is just the beginning." 단백질 폴딩 문제는 풀렸지만, 생물학 전체에서 보면 AI는 아직 1퍼센트도 채 못 가졌다. 동적 거동, 세포 수준 시뮬레이션, 조직 모델, 인체 모델까지 — 갈 길이 멀고, 그 길이 곧 다음 10년의 가장 큰 과학 + 비즈니스 기회다.

26장 · 참고 자료

핵심 논문:

- AlphaFold 2 (Jumper et al, Nature 2021) — https://www.nature.com/articles/s41586-021-03819-2

- AlphaFold 3 (Abramson et al, Nature 2024) — https://www.nature.com/articles/s41586-024-07487-w

- RoseTTAFold (Baek et al, Science 2021) — https://www.science.org/doi/10.1126/science.abj8754

- RoseTTAFold All-Atom (Krishna et al, Science 2024) — https://www.science.org/doi/10.1126/science.adl2528

- ESM-2 / ESMFold (Lin et al, Science 2023) — https://www.science.org/doi/10.1126/science.ade2574

- ESM-3 (Hayes et al, bioRxiv 2024) — https://www.biorxiv.org/content/10.1101/2024.07.01.600583

- RFdiffusion (Watson et al, Nature 2023) — https://www.nature.com/articles/s41586-023-06415-8

- ProteinMPNN (Dauparas et al, Science 2022) — https://www.science.org/doi/10.1126/science.add2187

- DiffDock (Corso et al, ICLR 2023) — https://arxiv.org/abs/2210.01776

- Boltz-1 — https://github.com/jwohlwend/boltz

- Chai-1 — https://www.chaidiscovery.com/

- Protenix — https://github.com/bytedance/Protenix

- AlphaMissense (Cheng et al, Science 2023) — https://www.science.org/doi/10.1126/science.adg7492

- Enformer (Avsec et al, Nature Methods 2021) — https://www.nature.com/articles/s41592-021-01252-x

데이터베이스와 서비스:

- AlphaFold Server — https://alphafoldserver.com/

- AlphaFold DB — https://alphafold.ebi.ac.uk/

- PDB — https://www.rcsb.org/

- UniProt — https://www.uniprot.org/

- ChEMBL — https://www.ebi.ac.uk/chembl/

- ESM Atlas — https://esmatlas.com/

- Human Cell Atlas — https://www.humancellatlas.org/

- JUMP-CP — https://jump-cellpainting.broadinstitute.org/

- Open Targets — https://www.opentargets.org/

회사 + 공식 사이트:

- DeepMind — https://deepmind.google/

- Isomorphic Labs — https://www.isomorphiclabs.com/

- Recursion — https://www.recursion.com/

- Insilico Medicine — https://insilico.com/

- Schrödinger — https://www.schrodinger.com/

- Atomwise — https://www.atomwise.com/

- BenevolentAI — https://www.benevolent.com/

- Cradle — https://www.cradle.bio/

- Absci — https://www.absci.com/

- Generate:Biomedicines — https://generatebiomedicines.com/

- EvolutionaryScale — https://www.evolutionaryscale.ai/

- Chai Discovery — https://www.chaidiscovery.com/

노벨상 관련 자료:

- Nobel Prize 2024 — https://www.nobelprize.org/prizes/chemistry/2024/

기초 도구:

- ColabFold — https://github.com/sokrypton/ColabFold

- CellPose — https://www.cellpose.org/

- CellProfiler — https://cellprofiler.org/

- OpenMM — https://openmm.org/

- GROMACS — https://www.gromacs.org/

- AMBER — https://ambermd.org/

> **닫는 말.** AI는 단백질 폴딩 문제를 풀었지만, 생물학은 폴딩 그 너머다. 동적 상호작용, 세포 수준, 조직 수준, 인체 수준 — 진짜 어려운 문제는 모두 그 너머에 있다. 그래서 이 분야는 앞으로 10년이 가장 흥미진진할 것이다. 컴퓨터 과학자에게는 영광스러운 시기이고, 생물학자에게는 도구가 처음으로 충분히 강해진 시기다. 두 분야 모두에 행운을.