Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

프롤로그 — 2024년 노벨 화학상이 바꿔 놓은 풍경

2024년 10월, 노벨 화학상이 세 명에게 돌아갔다. David Baker(워싱턴대학교, 컴퓨터로 단백질 디자인), Demis Hassabis, John Jumper(Google DeepMind, AlphaFold 2로 단백질 구조 예측). 이 한 줄짜리 결정은 바이오인포매틱스의 풍경 자체를 바꿔 놓았다.

2010년대 초까지만 해도, 단백질 구조 한 개를 풀려면 X선 결정학으로 박사 과정 3년을 쓰는 게 보통이었다. 2024년 5월 AlphaFold 3가 발표되었을 때, 같은 일을 노트북 한 대와 30분으로 끝낼 수 있게 되었다. 단백질만이 아니다. AlphaFold 3는 단백질 + 리간드 + DNA + RNA + 이온의 복합체를 한 번에 예측한다. ESM3는 단백질 시퀀스를 GPT처럼 생성하고, RoseTTAFold All-Atom은 같은 일을 Baker Lab의 방식으로 한다. Boltz-1(MIT, 2024년 6월)과 Chai-1(Chai Discovery, 2024년 9월)은 AlphaFold 3와 같은 정확도를 오픈 가중치로 공개했다.

이 모든 일이 1년 안에 벌어졌다.

이 글은 2026년의 바이오인포매틱스 스택을 — 데이터가 시퀀서에서 나오는 순간부터 단백질 구조가 그려지는 순간까지 — 한 호흡으로 정리한다. 다음 14개 장에서 다룰 도구는 이렇다.

Galaxy — 웹 UI 표준, 코드 안 짜는 연구자의 입구
BioPython · Bioconductor — 언어 라이브러리 양대 산맥(Python · R)
Nextflow · Snakemake — 워크플로 표준
BLAST · DIAMOND2 · MMseqs2 — 시퀀스 검색(느린 것 → 빠른 것 → 더 빠른 것)
SAMtools · BCFtools · GATK — BAM/VCF 다루는 도구
STAR · HISAT2 · Salmon · Kallisto · DESeq2 · edgeR — RNA-seq 파이프라인
AlphaFold 3 · ESM3 · RoseTTAFold · ProteinMPNN · Boltz-1 · Chai-1 · Foldseek — 단백질
Anvi'o · QIIME 2 — 마이크로바이옴
Seurat · Scanpy — 단일세포 RNA-seq
Illumina · 10x Genomics · Oxford Nanopore — 시퀀싱 기기
AWS HealthOmics · GCP Healthcare API · Microsoft Genomics — 클라우드

1장 · 2026년 바이오인포매틱스 지도 — 워크플로 / 정렬 / 단백질 / 단일세포

도구 하나하나를 보기 전에, 지도를 그리고 가자. 2026년의 바이오인포매틱스 스택은 크게 네 층으로 나뉜다.

[Sequencer]                      Illumina NovaSeq X / Nanopore PromethION / 10x Chromium
   |
   |  BCL files (raw)
   v
[Demultiplex / Convert]          bcl2fastq, DRAGEN BCL Convert
   |
   |  FASTQ files
   v
[QC & Trim]                      FastQC, fastp, MultiQC
   |
   |  Clean FASTQ
   v
[Align / Quantify]               BWA-MEM2, STAR, HISAT2, Salmon, Kallisto
   |
   |  BAM / count matrix
   v
[Variant Call / DE]              GATK, BCFtools, DESeq2, edgeR
   |
   |  VCF / DE table
   v
[Downstream]                     Seurat, Scanpy, Anvi'o, QIIME 2
   |
   v
[Protein structure]              AlphaFold 3, ESM3, Boltz-1, Chai-1, RoseTTAFold

이 모든 단계를 묶어 주는 게 워크플로 엔진이다. Nextflow와 Snakemake가 양대 산맥이고, 그 위에 Galaxy가 웹 UI를 얹는다. 2026년의 사실상 표준 조합은 이렇다.

새 연구실에서 시작한다면: Nextflow + nf-core + Seqera Tower (또는 Snakemake + Snakemake-Wrappers)
단백질 구조가 필요하다면: ColabFold (서버) → AlphaFold 3 (정밀) → Boltz-1 / Chai-1 (오픈 대안)
단일세포라면: 10x Cell Ranger → Scanpy (Python) 또는 Seurat (R)
마이크로바이옴이라면: QIIME 2 (16S) 또는 Anvi'o (메타지놈)
클라우드라면: AWS HealthOmics (NVIDIA Parabricks 연동) 또는 GCP Healthcare API

기억할 한 줄: "파일은 FASTQ에서 시작해서 BAM·VCF로 정리되고, 의미는 R/Python에서 나온다."

2장 · Galaxy — 웹 플랫폼 표준

Galaxy는 펜실베이니아 주립대학교와 존스 홉킨스가 시작한 오픈소스 바이오인포매틱스 웹 플랫폼이다. 2005년부터 운영되어 왔고, 2026년 현재 usegalaxy.org(미국), usegalaxy.eu(독일 프라이부르크), usegalaxy.org.au(호주), usegalaxy.fr(프랑스) 등 공공 인스턴스가 분산 운영되고 있다. 누구나 무료로 가입해서 BLAST·STAR·DESeq2·Cell Ranger를 클릭으로 돌릴 수 있다.

핵심 개념은 세 가지다.

History — 사용자별 작업 공간. 업로드한 데이터, 실행한 도구, 출력이 모두 시간순으로 쌓인다.
Tool — 한 단계의 분석(예: FastQC, STAR, DESeq2). 8,000개 이상의 도구가 등록되어 있다.
Workflow — Tool들을 연결한 파이프라인. GUI로 노드를 끌어다 잇는다.

Galaxy가 강력한 이유는 재현성이다. History 하나를 통째로 공유하면 다른 연구자가 같은 데이터·같은 도구 버전·같은 파라미터로 똑같이 돌릴 수 있다. 2025년부터는 Galaxy ToolShed가 Bioconda·BioContainers와 직접 연동되어, 도구 설치가 컨테이너 단위로 자동화된다.

# Galaxy CLI(BioBlend) 예시 — Python에서 Galaxy 인스턴스 제어
pip install bioblend

python -c "
from bioblend.galaxy import GalaxyInstance
gi = GalaxyInstance('https://usegalaxy.org', key='YOUR_API_KEY')
history = gi.histories.create_history(name='RNA-seq 2026')
gi.tools.upload_file('reads.fastq.gz', history['id'])
"

언제 쓰는가? 코드를 안 짜고 싶거나, 교육·강의·재현 가능한 실험 공유가 목적일 때. 언제 안 쓰는가? CPU 수천 코어를 24시간 돌려야 하는 산업급 파이프라인. 그때는 Nextflow를 클라우드에 띄운다.

3장 · BioPython + Bioconductor — 언어 라이브러리

바이오인포매틱스는 두 언어가 양분해 왔다. Python(데이터 wrangling·머신러닝)과 R(통계·시각화). 각각의 표준 라이브러리가 BioPython과 Bioconductor다.

BioPython

1999년 시작된 Python의 표준 바이오 라이브러리. FASTA·FASTQ·GenBank·UniProt 같은 파일 포맷 파싱, NCBI Entrez 접근, 시퀀스 정렬, PDB 구조 다루기까지 한 라이브러리에 들어있다.

from Bio import SeqIO, Entrez
from Bio.Seq import Seq

# 1. FASTA 읽기
for record in SeqIO.parse("genome.fasta", "fasta"):
    print(record.id, len(record.seq))

# 2. 시퀀스 다루기
dna = Seq("ATGAAGCTGGAATTC")
print(dna.complement())          # TACTTCGACCTTAAG
print(dna.reverse_complement())  # GAATTCCAGCTTCAT
print(dna.translate())           # MKLEF (단백질로)

# 3. NCBI Entrez에서 GenBank 가져오기
Entrez.email = "you@example.com"
handle = Entrez.efetch(db="nucleotide", id="NC_000913.3",
                       rettype="gb", retmode="text")
record = SeqIO.read(handle, "genbank")

Bioconductor

R 생태계의 바이오 패키지 묶음. 2002년부터 운영되어 왔고, 2026년 현재 2,300개 이상의 패키지가 등록되어 있다. DESeq2·edgeR·limma·Seurat·ChIPseeker가 모두 여기 있다. 분기마다 릴리스가 나오고, 모든 패키지가 같은 R 버전에 대해 빌드·테스트된다.

# Bioconductor 설치
if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("DESeq2")

library(DESeq2)
# count matrix와 sample info로 DE 분석 객체 생성
dds <- DESeqDataSetFromMatrix(countData = counts,
                              colData = coldata,
                              design = ~ condition)
dds <- DESeq(dds)
res <- results(dds)

언제 Python vs R? 데이터 정제·머신러닝·딥러닝(AlphaFold 등)은 Python이 자연스럽고, 통계 모델링·플롯·DE 분석은 R이 자연스럽다. 2026년 현실의 연구실은 둘 다 쓴다.

4장 · Nextflow (DSL2) — 워크플로 표준

Nextflow는 이탈리아 출신의 Paolo Di Tommaso가 2013년 바르셀로나의 CRG에서 시작한 워크플로 언어다. 2018년 Seqera Labs로 분사해 상용화되었고, 2026년 현재 사실상의 워크플로 표준이다.

핵심 사상은 데이터플로 + 채널이다. 모든 단계(process)는 입력 채널과 출력 채널을 가지고, 채널을 통해 데이터가 흐른다. 같은 데이터로 100개의 샘플을 병렬 처리하는 게 자연스럽다.

// DSL2 예시 — RNA-seq의 첫 두 단계
nextflow.enable.dsl=2

process FASTQC {
    container 'biocontainers/fastqc:v0.11.9_cv8'
    input:
        tuple val(sample_id), path(reads)
    output:
        path "*_fastqc.zip"
    script:
        """
        fastqc ${reads}
        """
}

process STAR_ALIGN {
    container 'quay.io/biocontainers/star:2.7.11a--h0033a41_0'
    cpus 16
    memory '64 GB'
    input:
        tuple val(sample_id), path(reads)
        path index
    output:
        tuple val(sample_id), path("*.bam")
    script:
        """
        STAR --runThreadN ${task.cpus} \\
             --genomeDir ${index} \\
             --readFilesIn ${reads} \\
             --readFilesCommand zcat \\
             --outSAMtype BAM SortedByCoordinate
        """
}

workflow {
    samples = Channel.fromFilePairs('data/*_R{1,2}.fastq.gz')
    FASTQC(samples)
    STAR_ALIGN(samples, file('star_index'))
}

Nextflow의 진짜 강점은 실행 환경 독립성이다. 같은 워크플로를 로컬·SLURM·AWS Batch·Google Cloud Batch·Azure Batch·Kubernetes에서 그대로 돌릴 수 있다.

nf-core는 Nextflow 커뮤니티가 만든 표준 파이프라인 모음이다. 2026년 현재 100개 이상의 파이프라인이 nf-core/rnaseq, nf-core/sarek, nf-core/scrnaseq, nf-core/proteinfold 같은 이름으로 공개되어 있다. 새 RNA-seq 분석을 시작한다면 9할은 nf-core/rnaseq로 끝난다.

**Seqera Tower (Seqera Platform)**는 Nextflow의 상용 관리 도구다. 실행 로그, 비용 분석, 데이터 카탈로그를 웹 UI로 본다. 학술 라이선스는 무료고 기업 라이선스가 유료다.

5장 · Snakemake — Python 대안

Snakemake는 독일 본 대학에서 시작된 워크플로 언어로, Python 문법 + GNU Make의 의존성 추적을 합친 도구다. 2012년 Johannes Köster가 처음 공개했고 2026년 현재 v8 시리즈가 운영되고 있다.

Nextflow가 채널·데이터플로 모델이라면, Snakemake는 rule + input/output 파일 모델이다. "이 파일을 만들려면 무슨 rule을 어떤 입력으로 돌려야 하는가"를 거꾸로 추론한다.

# Snakefile 예시
SAMPLES = ["s1", "s2", "s3"]

rule all:
    input:
        expand("results/{sample}.sorted.bam", sample=SAMPLES)

rule fastqc:
    input:
        "data/{sample}.fastq.gz"
    output:
        "qc/{sample}_fastqc.zip"
    conda:
        "envs/fastqc.yaml"
    shell:
        "fastqc {input} -o qc/"

rule align:
    input:
        reads="data/{sample}.fastq.gz",
        index="reference/index"
    output:
        "results/{sample}.sorted.bam"
    threads: 8
    shell:
        "bwa-mem2 mem -t {threads} {input.index} {input.reads} | "
        "samtools sort -@ {threads} -o {output}"

언제 Nextflow vs Snakemake?

Nextflow — 산업·임상·대규모 클라우드, nf-core 파이프라인을 그대로 쓰고 싶을 때
Snakemake — 학술 연구실, Python 친화적, 작은~중간 규모 분석, "내 워크플로를 처음부터 짠다"

둘 다 Conda·Container·Slurm을 지원하므로 결정타는 팀의 언어 친화도다.

6장 · BLAST + DIAMOND2 + MMseqs2 — 시퀀스 검색

"이 DNA·단백질 시퀀스가 무엇과 닮았는가"를 답하는 도구. 같은 일을 세 가지 도구가 다른 속도·정확도로 한다.

BLAST (Basic Local Alignment Search Tool)

NCBI가 1990년에 만든 원조. 정확도는 최고지만 단백질 수억 개 데이터베이스를 통째로 검색하면 며칠이 걸린다.

# BLAST+ 사용 예
makeblastdb -in proteins.fasta -dbtype prot -out protdb
blastp -query query.fasta -db protdb \
       -outfmt 6 -num_threads 16 -evalue 1e-5 \
       -out hits.tsv

DIAMOND2

Benjamin Buchfink이 2014년 공개한 BLAST의 100~10,000배 빠른 대안. 2024년 DIAMOND2가 나오면서 BLAST 수준의 sensitivity(--ultra-sensitive 모드)까지 따라잡았다. 메타지놈처럼 수억 개 read를 NCBI nr 같은 거대 DB에 붙일 때 사실상 필수다.

diamond makedb --in proteins.fasta -d protdb
diamond blastp -q query.fasta -d protdb -o hits.tsv \
        --threads 16 --ultra-sensitive --evalue 1e-5

MMseqs2

Martin Steinegger(서울대학교, 전 Max Planck)가 2017년 공개. 클러스터링까지 한 번에 한다는 점이 강점이다. UniRef50, UniRef90 같은 클러스터 DB는 모두 MMseqs2로 만들어진다. ColabFold의 MSA 단계가 MMseqs2다.

# 단백질 클러스터링 — 50% identity로 묶기
mmseqs createdb proteins.fasta seqDB
mmseqs cluster seqDB clusterDB tmp --min-seq-id 0.5 -c 0.8
mmseqs createtsv seqDB seqDB clusterDB clusters.tsv

기억할 한 줄: "정확하게는 BLAST, 빠르게는 DIAMOND2, 클러스터는 MMseqs2."

7장 · SAMtools + BCFtools + GATK — BAM·VCF의 표준 공구

시퀀싱 데이터를 정렬하면 BAM(Binary Alignment Map) 파일이, 변이를 부르면 VCF(Variant Call Format) 파일이 나온다. 이 두 포맷을 다루는 표준 공구가 셋이다.

SAMtools

Heng Li(Broad Institute, 현재 DFCI/하버드)가 만든 BAM 다루는 칼. 정렬·인덱스·통계·view·subset·markdup이 모두 들어있다.

# 흔한 BAM 후처리 파이프
samtools sort -@ 16 input.sam -o sorted.bam
samtools index sorted.bam
samtools flagstat sorted.bam
samtools view -b -q 30 sorted.bam chr1:1000-2000 > region.bam
samtools markdup sorted.bam dedup.bam

BCFtools

같은 Heng Li가 만든 VCF 다루는 칼. 필터링·머지·노멀라이즈·서브셋이 들어있다.

bcftools view -f PASS -O z -o pass.vcf.gz input.vcf.gz
bcftools norm -f reference.fa pass.vcf.gz -O z -o norm.vcf.gz
bcftools merge sample1.vcf.gz sample2.vcf.gz -O z -o cohort.vcf.gz
bcftools stats cohort.vcf.gz > stats.txt

GATK (Genome Analysis Toolkit)

Broad Institute가 만든 변이 호출의 사실상 표준. 인간 변이를 부른다면 9할은 GATK의 HaplotypeCaller + GenomicsDBImport + GenotypeGVCFs 파이프라인을 거친다.

# HaplotypeCaller로 GVCF 만들기
gatk HaplotypeCaller \
    -R reference.fa -I dedup.bam \
    -O sample.g.vcf.gz -ERC GVCF

# 여러 샘플 합치기 (GenomicsDB)
gatk GenomicsDBImport \
    --genomicsdb-workspace-path my_database \
    -L chr1 -V s1.g.vcf.gz -V s2.g.vcf.gz

# 마지막 변이 호출
gatk GenotypeGVCFs \
    -R reference.fa -V gendb://my_database -O cohort.vcf.gz

2026년 현재 GATK 5가 운영되고 있고, NVIDIA의 Parabricks가 GATK를 GPU로 돌려 18시간 작업을 30분으로 줄인다. AWS HealthOmics가 Parabricks를 매니지드 서비스로 제공한다.

8장 · STAR + HISAT2 + Salmon + Kallisto + DESeq2 + edgeR — RNA-seq 풀스택

RNA-seq는 바이오인포매틱스에서 가장 흔한 실험이다. 셀당 어떤 유전자가 얼마나 발현되는지 — 그것만 알면 암 vs 정상, 약물 처리 전/후, 시간별 변화를 다 본다.

정렬 vs 의사정렬

[FASTQ] -- 정렬(alignment) -----> [BAM] --- count ---> [count matrix]
   |        STAR / HISAT2                  htseq / featureCounts
   |
   +----- 의사정렬(pseudo-align) ----> [count / TPM matrix]
                Salmon / Kallisto

STAR — Cold Spring Harbor의 Alexander Dobin이 만든 splice-aware 정렬기. 인덱스가 크고 (~30GB RAM) 빠르고 정확하다. ENCODE·GTEx 표준.
HISAT2 — Johns Hopkins의 Daehwan Kim이 만든 가벼운 대안. 메모리 ~8GB로 STAR 수준의 결과를 낸다.
Salmon · Kallisto — 정렬을 건너뛰고 read가 어느 transcript에서 왔는지를 통계적으로 추정한다. 10배 이상 빠르고 디스크도 아낀다. Salmon은 Rob Patro(메릴랜드), Kallisto는 Lior Pachter(Caltech).

# Salmon 예
salmon index -t transcripts.fa -i salmon_index -k 31
salmon quant -i salmon_index -l A \
    -1 reads_1.fq.gz -2 reads_2.fq.gz \
    -p 16 --validateMappings -o quant_out

DE 분석 — DESeq2 vs edgeR

count matrix가 나오면 **차등 발현(differential expression)**을 한다. R Bioconductor의 두 양대 산맥이 DESeq2와 edgeR이다.

DESeq2 — Michael Love(UNC), Wolfgang Huber(EMBL). negative binomial 분포 + shrinkage estimator. 가장 인용 많은 DE 도구.
edgeR — Gordon Smyth(WEHI 호주). negative binomial + empirical Bayes. limma와 같은 그룹.

library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData = counts,
                              colData = coldata,
                              design = ~ condition)
dds <- DESeq(dds)
res <- results(dds, contrast = c("condition", "treated", "control"))
summary(res)
plotMA(res, ylim = c(-2, 2))

기억할 한 줄: "정렬은 STAR, 빠른 정량은 Salmon, DE는 DESeq2."

9장 · AlphaFold 3 (2024.5, DeepMind) — 단백질 + 리간드 + 핵산

2020년 AlphaFold 2가 CASP14에서 단백질 구조 예측 문제를 사실상 풀어냈다. 2024년 5월, AlphaFold 3가 Nature에 발표되며 한 단계 더 나아갔다 — 단백질 + 작은 분자 리간드 + DNA + RNA + 이온 + 변형의 복합체를 한 번에 예측한다.

핵심 차이:

Diffusion 기반 구조 생성 — AF2의 Evoformer + Structure Module 대신, AF3는 diffusion model로 좌표를 점진적으로 깎아낸다.
임의의 분자 — 단백질 시퀀스만이 아니라, SMILES로 리간드를, FASTA로 핵산을 같이 넣는다.
AlphaFold Server (alphafoldserver.com) — 학술용 무료 웹 서비스. 가중치는 학술 비영리 라이선스로 2024년 11월에 공개되었다.

입력
  단백질 A 시퀀스 (FASTA)
  단백질 B 시퀀스 (FASTA)
  DNA 두 가닥 (서열)
  리간드 (SMILES: CC(=O)Oc1ccccc1C(=O)O)
출력
  PDB-style mmCIF
  pLDDT (per-residue confidence)
  PAE  (pairwise alignment error)
  ipTM (interface confidence)

언제 쓰는가?

약물–표적 도킹을 빠르게 보고 싶을 때
단백질 복합체의 인터페이스를 알고 싶을 때
미지의 리간드 결합 자리 후보를 찾고 싶을 때

한계: AF3는 정적 구조 한 장만 준다. 동역학·conformational ensemble은 여전히 MD(분자 동역학) 시뮬레이션이 필요하다.

10장 · ESM3 (Meta EvolutionaryScale)

Meta가 분사시킨 EvolutionaryScale(2024년 6월 설립)이 같은 달 공개한 단백질 언어 모델. ESM2가 BERT라면 ESM3는 GPT — 단백질 시퀀스를 generative하게 만든다.

세 가지 트랙을 같이 모델링한다:

Sequence — 아미노산 시퀀스
Structure — 3D 좌표(토큰화된 형태)
Function — 기능 주석(InterPro, GO)

ESM3-open(1.4B 파라미터)은 비영리/연구 라이선스로 가중치 공개. ESM3-medium/large는 EvolutionaryScale API로 제공.

# huggingface 기반 ESM3 사용 예
from esm.models.esm3 import ESM3
from esm.sdk.api import ESMProtein, GenerationConfig

model = ESM3.from_pretrained("esm3-open").to("cuda")

# 시퀀스 -> 구조
protein = ESMProtein(sequence="MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK")
protein = model.generate(protein, GenerationConfig(track="structure",
                                                   num_steps=8,
                                                   temperature=0.7))
print(protein.coordinates.shape)

언제 쓰는가? 생성이 필요할 때 — 기존 단백질의 변이체, 결합 자리를 가진 새 단백질, 특정 기능 주석을 만족하는 시퀀스를 만들고 싶을 때.

11장 · RoseTTAFold + ProteinMPNN (Baker Lab — 2024 노벨 화학상!)

워싱턴대학교의 David Baker가 2024년 노벨 화학상을 받은 이유는 한 가지가 아니다. 그의 연구실이 만든 도구가 컴퓨터로 단백질을 디자인하는 것을 일상으로 만들었기 때문이다.

RoseTTAFold

2021년 AF2와 거의 동시에 발표된 단백질 구조 예측 모델. Science에 실렸다. 2023년 RoseTTAFold All-Atom으로 확장되어 AF3처럼 단백질 + 리간드 + 핵산을 같이 다룬다. RFdiffusion·RFantibody·RF2NA 같은 후속작이 있다.

ProteinMPNN

역접힘(inverse folding) 모델. 즉, "이 3D 백본 좌표를 만족하는 아미노산 시퀀스를 다시 설계하라"를 푼다. 2022년 Science에 실렸고, 위크리와 한 줄에 적게는 30% 더 잘 접히는 시퀀스를 생산한다.

# ProteinMPNN 추론(개념적)
# 1. 백본 좌표(N, CA, C) 입력
# 2. 각 잔기의 아미노산 분포 출력
# 3. 샘플링으로 시퀀스 얻기
python protein_mpnn_run.py \
    --pdb_path designed_backbone.pdb \
    --pdb_path_chains A \
    --out_folder ./output \
    --num_seq_per_target 8 \
    --sampling_temp "0.1"

RFdiffusion

2023년 12월 Nature에 발표. 단백질 백본을 처음부터 생성한다. "특정 자리에 결합하는 단백질을 만들어라" 같은 모티프 조건도 받는다. Baker Lab은 이 도구로 코로나 ACE2 미믹·인플루엔자 결합제·뱀독 중화 단백질을 새로 만들었고, 그중 다수가 실제로 접혔다.

기억할 한 줄: "AlphaFold가 구조를 예측한다면 Baker Lab은 구조를 디자인한다."

12장 · Boltz-1 (MIT 2024.6) — 오픈 AlphaFold 3

AlphaFold 3가 공개되었을 때, 코드와 가중치는 상업 사용 금지였다. 즉시 오픈 대안 두 개가 나왔다. 첫째가 MIT Jameel Clinic의 Boltz-1(2024년 6월).

오픈 가중치 · MIT 라이선스 — 상업 사용 자유
AF3와 같은 diffusion 아키텍처
단백질 + 리간드 + 핵산 + 이온 복합체
AF3에 매우 근접한 정확도 (PoseBusters, RNA target 등)

2025년에 Boltz-2가 발표되어 동역학과 affinity 예측까지 확장되었다.

# Boltz-1 빠른 시작
pip install boltz
boltz predict input.yaml --use_msa_server
# input.yaml 예
# sequences:
#   - protein:
#       id: A
#       sequence: MKTAYIAKQRQISFVKSHFSRQ...
#   - ligand:
#       id: B
#       smiles: "CC(=O)Oc1ccccc1C(=O)O"

언제 쓰는가? 상업적 신약 개발, 학술 클러스터에서 대량 스크리닝, AF3 API 줄을 못 서겠을 때.

13장 · Chai-1 (Chai Discovery 2024)

샌프란시스코의 신생 스타트업 Chai Discovery가 2024년 9월 공개한 또 하나의 오픈 AF3 대안. 학술 사용은 무료, 상업 사용은 별도 라이선스다.

AF3와 동등 또는 그 이상의 벤치마크 성적(자사 발표)
단백질 + 리간드 + 핵산
웹 UI(chaiagent.com)와 코드(GitHub)로 동시 공개
constrained prediction 지원 — "이 잔기와 저 잔기가 가까이 있어야 한다"는 제약을 넣을 수 있다

2025년에 Chai-2가 발표되어 de novo 항체 설계 결과를 보였다.

from chai_lab.chai1 import run_inference

fasta = """
>protein|A
MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK
>ligand|B|smiles
CC(=O)Oc1ccccc1C(=O)O
"""
result = run_inference(
    fasta_file="input.fasta",
    output_dir="out/",
    num_trunk_recycles=3,
    num_diffn_timesteps=200,
)

Boltz vs Chai 어느 쪽? 학술이라면 둘 다 자유. 상업이라면 Boltz가 MIT 라이선스로 더 자유롭고, Chai는 사업 라이선스를 따로 협상한다. 정확도는 케이스마다 다르므로 둘 다 돌려 보고 더 잘 맞는 쪽을 쓰는 게 2026년 현장의 표준이다.

14장 · Foldseek (Martin Steinegger) — 구조 검색

서울대학교의 Martin Steinegger 교수(MMseqs2 저자)가 2022년 Nature Biotechnology에 발표한 구조 기반 단백질 검색 도구. BLAST가 시퀀스로 닮은 단백질을 찾는다면, Foldseek는 3D 구조로 닮은 단백질을 수천 배 빠르게 찾는다.

핵심 아이디어는 3D 구조를 **20자짜리 알파벳(3Di)**으로 토큰화하고, 그 위에서 MMseqs2 알고리즘으로 검색한다는 것이다. AlphaFold가 만든 2억 개 이상의 구조를 PC 한 대에서 검색할 수 있게 만들어 준 결정적 도구다.

foldseek easy-search query.pdb afdb result.m8 tmp \
    --format-output "query,target,evalue,tmscore" \
    --threads 16

활용:

AlphaFold DB(2.3억 구조) 전체에서 비슷한 구조를 분 단위로 찾기
"이 단백질과 닮은 구조가 어느 종에 있는가" — 진화 추정
De novo 디자인 단백질의 신규성 검증

기억할 한 줄: "BLAST는 시퀀스, Foldseek는 구조."

15장 · Anvi'o + QIIME 2 — 마이크로바이옴

장내 미생물·해양 미생물·토양 미생물을 다루는 두 표준 도구.

QIIME 2

UC San Diego/노스애리조나의 Rob Knight Lab 계열이 만든 16S/ITS amplicon 분석 표준. 2018년 v2가 나오면서 plugin 기반으로 재설계되었다. DADA2(노이즈 제거), q2-feature-classifier(분류), q2-diversity(다양성 지표)가 핵심 플러그인이다.

qiime dada2 denoise-paired \
    --i-demultiplexed-seqs demux.qza \
    --p-trim-left-f 0 --p-trim-left-r 0 \
    --p-trunc-len-f 240 --p-trunc-len-r 200 \
    --o-table table.qza \
    --o-representative-sequences rep-seqs.qza \
    --o-denoising-stats stats.qza

Anvi'o

A. Murat Eren(전 Marine Biological Lab, 현재 Helmholtz Munich)이 만든 통합 메타지놈 플랫폼. 2015년부터 운영되어 왔고, 컨티그·메타지놈 어셈블리·바이닝·시각화를 한 도구에서 다 한다. 인터랙티브 시각화가 매우 강력하다.

anvi-gen-contigs-database -f contigs.fa -o contigs.db -n "MyMetagenome"
anvi-run-hmms -c contigs.db
anvi-run-ncbi-cogs -c contigs.db
anvi-profile -i sample.bam -c contigs.db --output-dir profile

언제 쓰는가? 16S amplicon(저비용·종 분류)이라면 QIIME 2, 메타지놈 shotgun(고비용·기능 유전자까지)이라면 Anvi'o.

16장 · Seurat + Scanpy — 단일세포 RNA-seq

10x Genomics Chromium이 단일세포를 시퀀싱의 일상으로 만들면서, downstream 분석의 양대 표준이 굳어졌다.

Seurat (R)

Rahul Satija Lab(NYGC)이 만든 R 표준. 2026년 현재 v5가 운영되고 v6가 베타다. 클러스터링·UMAP·integration·spatial까지 들어있다.

library(Seurat)
data <- Read10X(data.dir = "filtered_feature_bc_matrix")
obj <- CreateSeuratObject(counts = data, project = "pbmc")
obj <- NormalizeData(obj)
obj <- FindVariableFeatures(obj)
obj <- ScaleData(obj)
obj <- RunPCA(obj)
obj <- FindNeighbors(obj, dims = 1:20)
obj <- FindClusters(obj, resolution = 0.5)
obj <- RunUMAP(obj, dims = 1:20)
DimPlot(obj, label = TRUE)

Scanpy (Python)

Theis Lab(Helmholtz Munich)이 만든 Python 표준. AnnData 객체 위에 빌드되어 있고, scvi-tools·CellTypist·scArches 같은 ML 기반 도구가 모두 같은 객체를 공유한다.

import scanpy as sc

adata = sc.read_10x_mtx("filtered_feature_bc_matrix", var_names="gene_symbols")
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata)
sc.pp.neighbors(adata, n_neighbors=10, n_pcs=20)
sc.tl.leiden(adata, resolution=0.5)
sc.tl.umap(adata)
sc.pl.umap(adata, color="leiden")

Seurat vs Scanpy 어느 쪽? R/통계 친화 연구실은 Seurat, Python/ML 친화 연구실은 Scanpy. 2026년의 ML 기반 후속 도구(scVI, scGPT, scFoundation 등)는 대부분 Scanpy/AnnData 생태계에 붙는다.

17장 · Illumina + 10x Genomics + Oxford Nanopore — 시퀀싱

데이터가 만들어지는 기계 자체. 2026년 기준 세 가지 큰 줄기.

Illumina

short-read 시퀀싱의 절대 강자. 2026년 현재 NovaSeq X Plus가 최대 16Tb/run, MiSeq i100이 중소 규모 표준이다. 출력은 BCL(원시 binary), 변환은 bcl2fastq 또는 DRAGEN BCL Convert(GPU 가속).

# bcl2fastq 사용 예
bcl2fastq --runfolder-dir 250101_VH00123_456_AACDEFG \
          --output-dir fastq_out --sample-sheet SampleSheet.csv \
          -p 32

Illumina BaseSpace가 클라우드 매니지드 분석 서비스고, DRAGEN Bio-IT 플랫폼이 FPGA·GPU 가속 분석을 제공한다.

10x Genomics

Chromium 플랫폼으로 단일세포·공간 전사체 시장을 사실상 독점. Cell Ranger(scRNA-seq), Space Ranger(Visium), Xenium Analyzer(in situ)가 핵심 소프트웨어다.

cellranger count --id=sample1 \
                 --transcriptome=refdata-gex-GRCh38-2024-A \
                 --fastqs=/path/to/fastqs \
                 --sample=sample1 --localcores=16 --localmem=64

Oxford Nanopore

영국 옥스퍼드 스타트업. MinION(USB), GridION(데스크탑), PromethION(데이터센터)으로 long-read 시장의 양대 산맥(다른 하나는 PacBio Revio)이다. read 한 개가 수십 kb~수 Mb까지 길어서 구조 변이·메틸레이션·완성 게놈 어셈블리에 강점이다.

# Dorado 베이스콜링 (Nanopore의 최신 추론)
dorado basecaller hac pod5/ > basecalls.bam
# 그 다음 minimap2로 정렬
minimap2 -ax map-ont reference.fa basecalls.fq | samtools sort -o aln.bam

18장 · AWS HealthOmics + Google Cloud Healthcare API + Microsoft Genomics

세 클라우드 모두 게놈 데이터 전용 매니지드 서비스를 운영한다. 2026년 현재 차이가 또렷하다.

AWS HealthOmics

2022년 발표(전 Amazon Omics), Nextflow·WDL·CWL 워크플로를 매니지드로 돌리는 서비스. NVIDIA Parabricks가 통합되어 GATK를 GPU로 18시간→30분으로 줄여 준다. 데이터 저장은 reference store/sequence store/variant store/annotation store로 분리되어 있다.

aws omics start-run \
    --workflow-id 1234567 \
    --role-arn arn:aws:iam::123456789012:role/HealthOmicsRole \
    --name "rnaseq-run-2026-05" \
    --parameters file://params.json

Google Cloud Healthcare API

FHIR/DICOM/HL7 같은 임상 데이터 표준과 게놈 데이터를 합쳐 다루는 데 강점이다. Variant Transforms, Verily(Alphabet 자회사)와의 연동이 있다. Google이 만든 DeepVariant(딥러닝 기반 변이 호출)도 이쪽에서 매니지드로 제공된다.

Microsoft Genomics

Azure 위에서 BWA + GATK 베스트프랙티스 파이프라인을 매니지드로 제공. Microsoft Genomics SDK가 .NET·Python 클라이언트를 제공한다. AI for Health 이니셔티브와 연계되어 있다.

언제 어느 클라우드? Nextflow + nf-core를 그대로 돌리고 싶다면 AWS HealthOmics, FHIR/DICOM 임상 데이터와 게놈을 같이 다루는 병원이라면 GCP Healthcare API, 기존 Azure 엔터프라이즈에 들어가 있다면 Microsoft Genomics.

19장 · 한국 — KAIST / 서울대 / KIST / 한국생명공학연구원

한국의 바이오인포매틱스 생태계도 빠르게 성장해 왔다.

KAIST 생명과학과/의과학대학원 — 이대엽 교수(유전체 분석), 김재경 교수(시스템 생물학), 조광현 교수(시스템 생물학) 등
서울대 생명과학부/협동과정 유전공학 — Martin Steinegger 교수(MMseqs2, Foldseek 저자, 2021년 서울대 부임), 박종환 교수, 김상욱 교수
포스텍 생명과학과 — 김상욱 교수, 송 교수
한국과학기술연구원(KIST) — 천연물·신약 분야
한국생명공학연구원(KRIBB) — 대전 대덕 단지 소재. 국가 바이오 R&D 중심.
국가생명연구자원정보센터(KOBIC) — 한국의 국가 바이오 데이터 허브
한국유전체학회(KSBi) — 매년 학술대회 개최

Martin Steinegger 교수의 서울대 부임은 한국 바이오인포매틱스 인프라에 큰 사건이었다. MMseqs2·Foldseek·ColabFold(2021) 같은 세계급 도구가 서울에서 유지되고 있다.

20장 · 일본 — RIKEN / NIG / DDBJ

일본의 인프라는 셋이 핵심이다.

理研(RIKEN) — 와코·요코하마·고베의 종합 연구소. 단일세포·뇌과학·고성능 컴퓨팅. 슈퍼컴퓨터 富岳(Fugaku)이 여기 있다.
国立遺伝学研究所(NIG, 미시마) — 한국의 한국생명공학연구원에 해당. 비교 유전체학·진화·메타지놈.
DDBJ (DNA Data Bank of Japan) — INSDC(NCBI GenBank · EBI ENA · DDBJ 3대 핵심 데이터베이스)의 일본 축. 미시마에 있다.
東京大学医科学研究所(IMS-UT) — 단일세포·면역
京都大学iPS研究所(CiRA) — iPS 세포 분야
慶應義塾大学(慶應) — IAB 鶴岡, 시스템 생물학
AMED · NEDO — 국가 R&D 펀딩 기관

DDBJ는 NCBI·EBI와 매일 데이터를 미러링하고, 일본 내 게놈 데이터의 1차 보관소다. 한국의 KOBIC, EBI의 ENA와 동일 역할.

21장 · 누가 바이오인포매틱스를 배워야 하나 — 학생 / 연구자 / 신약 / 임상

같은 도구도 누가 쓰느냐에 따라 핵심이 다르다.

학부생·대학원생(생명과학) — Galaxy로 시작 → BioPython/R 차차 → Nextflow는 마지막. 단백질 구조는 ColabFold(서버)로 충분.
포닥·연구원 — Nextflow nf-core 파이프라인 그대로 돌리기 → 자기 분석에 맞게 fork → Seqera Tower로 클러스터/클라우드 관리
신약 개발사(소형~중형) — AlphaFold 3 / Boltz-1 / Chai-1로 도킹 → RFdiffusion + ProteinMPNN으로 디자인 → 실험 검증
신약 개발사(대형 제약) — 자체 AlphaFold 변형(BioNeMo, Iambic 등) + GATK 임상 변이 분석 + AWS HealthOmics
임상 유전학자·병원 — GATK + DRAGEN + ClinVar/OMIM 연동. 보고서 발행이 핵심. 보안·HIPAA가 결정타.
공중보건 · 감염병 — Nextstrain, 메타지놈(Anvi'o/QIIME 2), Nanopore 휴대 시퀀싱

기억할 한 줄: "Galaxy로 입문하고, Nextflow로 자동화하고, AlphaFold로 단백질을 보고, R/Python으로 의미를 뽑아낸다."

에필로그 — 2026년의 바이오인포매틱스

2010년대까지의 바이오인포매틱스는 데이터를 정렬하는 일이었다. 2020년대 중반부터는 데이터에서 의미를 뽑는 일, 그리고 새 단백질을 디자인하는 일이 되었다. 노벨상이 둘 다 인정했다.

2026년 현재의 풍경을 한 줄로 정리하면 이렇다.

워크플로는 Nextflow가 사실상 표준, Snakemake가 학술 대안
시퀀스 검색은 BLAST → DIAMOND2 → MMseqs2 → Foldseek(구조)
RNA-seq는 STAR/Salmon → DESeq2/edgeR
단백질 구조는 AlphaFold 3 / Boltz-1 / Chai-1 / RoseTTAFold
단백질 디자인은 RFdiffusion + ProteinMPNN (Baker Lab)
단일세포는 Seurat / Scanpy
클라우드는 AWS HealthOmics / GCP Healthcare / Microsoft Genomics

당신이 학생이라면 — Galaxy로 시작하고, Python·R 둘 다 익히고, Nextflow를 마지막에 배운다. 단백질이 정말 자기 손에서 접히는 시대가 이미 와 있다.