필사 모드: 바이오인포매틱스 도구 2026 — Galaxy / BioPython / Nextflow / Snakemake / AlphaFold 3 / ESM3 / RoseTTAFold / Boltz-1 / Chai-1 / Foldseek 심층 가이드
한국어프롤로그 — 2024년 노벨 화학상이 바꿔 놓은 풍경
2024년 10월, 노벨 화학상이 세 명에게 돌아갔다. **David Baker**(워싱턴대학교, *컴퓨터로 단백질 디자인*), **Demis Hassabis**, **John Jumper**(Google DeepMind, *AlphaFold 2로 단백질 구조 예측*). 이 한 줄짜리 결정은 바이오인포매틱스의 풍경 자체를 바꿔 놓았다.
2010년대 초까지만 해도, 단백질 구조 한 개를 풀려면 X선 결정학으로 박사 과정 3년을 쓰는 게 보통이었다. 2024년 5월 AlphaFold 3가 발표되었을 때, 같은 일을 노트북 한 대와 30분으로 끝낼 수 있게 되었다. **단백질만이 아니다.** AlphaFold 3는 단백질 + 리간드 + DNA + RNA + 이온의 복합체를 한 번에 예측한다. ESM3는 단백질 시퀀스를 GPT처럼 생성하고, RoseTTAFold All-Atom은 같은 일을 Baker Lab의 방식으로 한다. **Boltz-1**(MIT, 2024년 6월)과 **Chai-1**(Chai Discovery, 2024년 9월)은 AlphaFold 3와 같은 정확도를 *오픈* 가중치로 공개했다.
이 모든 일이 1년 안에 벌어졌다.
이 글은 2026년의 바이오인포매틱스 스택을 — 데이터가 시퀀서에서 나오는 순간부터 단백질 구조가 그려지는 순간까지 — 한 호흡으로 정리한다. 다음 14개 장에서 다룰 도구는 이렇다.
- **Galaxy** — 웹 UI 표준, 코드 안 짜는 연구자의 입구
- **BioPython · Bioconductor** — 언어 라이브러리 양대 산맥(Python · R)
- **Nextflow · Snakemake** — 워크플로 표준
- **BLAST · DIAMOND2 · MMseqs2** — 시퀀스 검색(느린 것 → 빠른 것 → 더 빠른 것)
- **SAMtools · BCFtools · GATK** — BAM/VCF 다루는 도구
- **STAR · HISAT2 · Salmon · Kallisto · DESeq2 · edgeR** — RNA-seq 파이프라인
- **AlphaFold 3 · ESM3 · RoseTTAFold · ProteinMPNN · Boltz-1 · Chai-1 · Foldseek** — 단백질
- **Anvi'o · QIIME 2** — 마이크로바이옴
- **Seurat · Scanpy** — 단일세포 RNA-seq
- **Illumina · 10x Genomics · Oxford Nanopore** — 시퀀싱 기기
- **AWS HealthOmics · GCP Healthcare API · Microsoft Genomics** — 클라우드
1장 · 2026년 바이오인포매틱스 지도 — 워크플로 / 정렬 / 단백질 / 단일세포
도구 하나하나를 보기 전에, 지도를 그리고 가자. 2026년의 바이오인포매틱스 스택은 크게 네 층으로 나뉜다.
[Sequencer] Illumina NovaSeq X / Nanopore PromethION / 10x Chromium
|
| BCL files (raw)
v
[Demultiplex / Convert] bcl2fastq, DRAGEN BCL Convert
|
| FASTQ files
v
[QC & Trim] FastQC, fastp, MultiQC
|
| Clean FASTQ
v
[Align / Quantify] BWA-MEM2, STAR, HISAT2, Salmon, Kallisto
|
| BAM / count matrix
v
[Variant Call / DE] GATK, BCFtools, DESeq2, edgeR
|
| VCF / DE table
v
[Downstream] Seurat, Scanpy, Anvi'o, QIIME 2
|
v
[Protein structure] AlphaFold 3, ESM3, Boltz-1, Chai-1, RoseTTAFold
이 모든 단계를 묶어 주는 게 **워크플로 엔진**이다. Nextflow와 Snakemake가 양대 산맥이고, 그 위에 Galaxy가 웹 UI를 얹는다. 2026년의 사실상 표준 조합은 이렇다.
- **새 연구실에서 시작한다면**: Nextflow + nf-core + Seqera Tower (또는 Snakemake + Snakemake-Wrappers)
- **단백질 구조가 필요하다면**: ColabFold (서버) → AlphaFold 3 (정밀) → Boltz-1 / Chai-1 (오픈 대안)
- **단일세포라면**: 10x Cell Ranger → Scanpy (Python) 또는 Seurat (R)
- **마이크로바이옴이라면**: QIIME 2 (16S) 또는 Anvi'o (메타지놈)
- **클라우드라면**: AWS HealthOmics (NVIDIA Parabricks 연동) 또는 GCP Healthcare API
기억할 한 줄: **"파일은 FASTQ에서 시작해서 BAM·VCF로 정리되고, 의미는 R/Python에서 나온다."**
2장 · Galaxy — 웹 플랫폼 표준
Galaxy는 펜실베이니아 주립대학교와 존스 홉킨스가 시작한 오픈소스 바이오인포매틱스 웹 플랫폼이다. 2005년부터 운영되어 왔고, 2026년 현재 **usegalaxy.org**(미국), **usegalaxy.eu**(독일 프라이부르크), **usegalaxy.org.au**(호주), **usegalaxy.fr**(프랑스) 등 공공 인스턴스가 분산 운영되고 있다. 누구나 무료로 가입해서 BLAST·STAR·DESeq2·Cell Ranger를 클릭으로 돌릴 수 있다.
핵심 개념은 세 가지다.
1. **History** — 사용자별 작업 공간. 업로드한 데이터, 실행한 도구, 출력이 모두 시간순으로 쌓인다.
2. **Tool** — 한 단계의 분석(예: FastQC, STAR, DESeq2). 8,000개 이상의 도구가 등록되어 있다.
3. **Workflow** — Tool들을 연결한 파이프라인. GUI로 노드를 끌어다 잇는다.
Galaxy가 강력한 이유는 **재현성**이다. History 하나를 통째로 공유하면 다른 연구자가 같은 데이터·같은 도구 버전·같은 파라미터로 똑같이 돌릴 수 있다. 2025년부터는 Galaxy ToolShed가 Bioconda·BioContainers와 직접 연동되어, 도구 설치가 컨테이너 단위로 자동화된다.
Galaxy CLI(BioBlend) 예시 — Python에서 Galaxy 인스턴스 제어
pip install bioblend
python -c "
from bioblend.galaxy import GalaxyInstance
gi = GalaxyInstance('https://usegalaxy.org', key='YOUR_API_KEY')
history = gi.histories.create_history(name='RNA-seq 2026')
gi.tools.upload_file('reads.fastq.gz', history['id'])
"
**언제 쓰는가?** 코드를 안 짜고 싶거나, 교육·강의·재현 가능한 실험 공유가 목적일 때. **언제 안 쓰는가?** CPU 수천 코어를 24시간 돌려야 하는 산업급 파이프라인. 그때는 Nextflow를 클라우드에 띄운다.
3장 · BioPython + Bioconductor — 언어 라이브러리
바이오인포매틱스는 두 언어가 양분해 왔다. **Python**(데이터 wrangling·머신러닝)과 **R**(통계·시각화). 각각의 표준 라이브러리가 BioPython과 Bioconductor다.
BioPython
1999년 시작된 Python의 표준 바이오 라이브러리. FASTA·FASTQ·GenBank·UniProt 같은 파일 포맷 파싱, NCBI Entrez 접근, 시퀀스 정렬, PDB 구조 다루기까지 한 라이브러리에 들어있다.
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
1. FASTA 읽기
for record in SeqIO.parse("genome.fasta", "fasta"):
print(record.id, len(record.seq))
2. 시퀀스 다루기
dna = Seq("ATGAAGCTGGAATTC")
print(dna.complement()) # TACTTCGACCTTAAG
print(dna.reverse_complement()) # GAATTCCAGCTTCAT
print(dna.translate()) # MKLEF (단백질로)
3. NCBI Entrez에서 GenBank 가져오기
Entrez.email = "you@example.com"
handle = Entrez.efetch(db="nucleotide", id="NC_000913.3",
rettype="gb", retmode="text")
record = SeqIO.read(handle, "genbank")
Bioconductor
R 생태계의 바이오 패키지 묶음. 2002년부터 운영되어 왔고, 2026년 현재 **2,300개 이상**의 패키지가 등록되어 있다. DESeq2·edgeR·limma·Seurat·ChIPseeker가 모두 여기 있다. 분기마다 릴리스가 나오고, 모든 패키지가 같은 R 버전에 대해 빌드·테스트된다.
Bioconductor 설치
if (!require("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("DESeq2")
library(DESeq2)
count matrix와 sample info로 DE 분석 객체 생성
dds <- DESeqDataSetFromMatrix(countData = counts,
colData = coldata,
design = ~ condition)
dds <- DESeq(dds)
res <- results(dds)
**언제 Python vs R?** 데이터 정제·머신러닝·딥러닝(AlphaFold 등)은 Python이 자연스럽고, 통계 모델링·플롯·DE 분석은 R이 자연스럽다. 2026년 현실의 연구실은 **둘 다** 쓴다.
4장 · Nextflow (DSL2) — 워크플로 표준
Nextflow는 이탈리아 출신의 Paolo Di Tommaso가 2013년 바르셀로나의 CRG에서 시작한 워크플로 언어다. 2018년 Seqera Labs로 분사해 상용화되었고, 2026년 현재 **사실상의 워크플로 표준**이다.
핵심 사상은 **데이터플로 + 채널**이다. 모든 단계(process)는 입력 채널과 출력 채널을 가지고, 채널을 통해 데이터가 흐른다. 같은 데이터로 100개의 샘플을 병렬 처리하는 게 자연스럽다.
// DSL2 예시 — RNA-seq의 첫 두 단계
nextflow.enable.dsl=2
process FASTQC {
container 'biocontainers/fastqc:v0.11.9_cv8'
input:
tuple val(sample_id), path(reads)
output:
path "*_fastqc.zip"
script:
"""
fastqc ${reads}
"""
}
process STAR_ALIGN {
container 'quay.io/biocontainers/star:2.7.11a--h0033a41_0'
cpus 16
memory '64 GB'
input:
tuple val(sample_id), path(reads)
path index
output:
tuple val(sample_id), path("*.bam")
script:
"""
STAR --runThreadN ${task.cpus} \\
--genomeDir ${index} \\
--readFilesIn ${reads} \\
--readFilesCommand zcat \\
--outSAMtype BAM SortedByCoordinate
"""
}
workflow {
samples = Channel.fromFilePairs('data/*_R{1,2}.fastq.gz')
FASTQC(samples)
STAR_ALIGN(samples, file('star_index'))
}
Nextflow의 진짜 강점은 **실행 환경 독립성**이다. 같은 워크플로를 로컬·SLURM·AWS Batch·Google Cloud Batch·Azure Batch·Kubernetes에서 그대로 돌릴 수 있다.
**nf-core**는 Nextflow 커뮤니티가 만든 표준 파이프라인 모음이다. 2026년 현재 100개 이상의 파이프라인이 nf-core/rnaseq, nf-core/sarek, nf-core/scrnaseq, nf-core/proteinfold 같은 이름으로 공개되어 있다. 새 RNA-seq 분석을 시작한다면 9할은 nf-core/rnaseq로 끝난다.
**Seqera Tower (Seqera Platform)**는 Nextflow의 상용 관리 도구다. 실행 로그, 비용 분석, 데이터 카탈로그를 웹 UI로 본다. 학술 라이선스는 무료고 기업 라이선스가 유료다.
5장 · Snakemake — Python 대안
Snakemake는 독일 본 대학에서 시작된 워크플로 언어로, **Python 문법 + GNU Make의 의존성 추적**을 합친 도구다. 2012년 Johannes Köster가 처음 공개했고 2026년 현재 v8 시리즈가 운영되고 있다.
Nextflow가 채널·데이터플로 모델이라면, Snakemake는 **rule + input/output 파일** 모델이다. "이 파일을 만들려면 무슨 rule을 어떤 입력으로 돌려야 하는가"를 거꾸로 추론한다.
Snakefile 예시
SAMPLES = ["s1", "s2", "s3"]
rule all:
input:
expand("results/{sample}.sorted.bam", sample=SAMPLES)
rule fastqc:
input:
"data/{sample}.fastq.gz"
output:
"qc/{sample}_fastqc.zip"
conda:
"envs/fastqc.yaml"
shell:
"fastqc {input} -o qc/"
rule align:
input:
reads="data/{sample}.fastq.gz",
index="reference/index"
output:
"results/{sample}.sorted.bam"
threads: 8
shell:
"bwa-mem2 mem -t {threads} {input.index} {input.reads} | "
"samtools sort -@ {threads} -o {output}"
**언제 Nextflow vs Snakemake?**
- **Nextflow** — 산업·임상·대규모 클라우드, nf-core 파이프라인을 그대로 쓰고 싶을 때
- **Snakemake** — 학술 연구실, Python 친화적, 작은~중간 규모 분석, "내 워크플로를 처음부터 짠다"
둘 다 Conda·Container·Slurm을 지원하므로 결정타는 팀의 언어 친화도다.
6장 · BLAST + DIAMOND2 + MMseqs2 — 시퀀스 검색
"이 DNA·단백질 시퀀스가 무엇과 닮았는가"를 답하는 도구. 같은 일을 세 가지 도구가 다른 속도·정확도로 한다.
BLAST (Basic Local Alignment Search Tool)
NCBI가 1990년에 만든 원조. 정확도는 최고지만 단백질 수억 개 데이터베이스를 통째로 검색하면 며칠이 걸린다.
BLAST+ 사용 예
makeblastdb -in proteins.fasta -dbtype prot -out protdb
blastp -query query.fasta -db protdb \
-outfmt 6 -num_threads 16 -evalue 1e-5 \
-out hits.tsv
DIAMOND2
Benjamin Buchfink이 2014년 공개한 BLAST의 100~10,000배 빠른 대안. 2024년 DIAMOND2가 나오면서 **BLAST 수준의 sensitivity**(`--ultra-sensitive` 모드)까지 따라잡았다. 메타지놈처럼 수억 개 read를 NCBI nr 같은 거대 DB에 붙일 때 사실상 필수다.
diamond makedb --in proteins.fasta -d protdb
diamond blastp -q query.fasta -d protdb -o hits.tsv \
--threads 16 --ultra-sensitive --evalue 1e-5
MMseqs2
Martin Steinegger(서울대학교, 전 Max Planck)가 2017년 공개. **클러스터링까지 한 번에** 한다는 점이 강점이다. UniRef50, UniRef90 같은 클러스터 DB는 모두 MMseqs2로 만들어진다. ColabFold의 MSA 단계가 MMseqs2다.
단백질 클러스터링 — 50% identity로 묶기
mmseqs createdb proteins.fasta seqDB
mmseqs cluster seqDB clusterDB tmp --min-seq-id 0.5 -c 0.8
mmseqs createtsv seqDB seqDB clusterDB clusters.tsv
기억할 한 줄: **"정확하게는 BLAST, 빠르게는 DIAMOND2, 클러스터는 MMseqs2."**
7장 · SAMtools + BCFtools + GATK — BAM·VCF의 표준 공구
시퀀싱 데이터를 정렬하면 **BAM**(Binary Alignment Map) 파일이, 변이를 부르면 **VCF**(Variant Call Format) 파일이 나온다. 이 두 포맷을 다루는 표준 공구가 셋이다.
SAMtools
Heng Li(Broad Institute, 현재 DFCI/하버드)가 만든 BAM 다루는 칼. 정렬·인덱스·통계·view·subset·markdup이 모두 들어있다.
흔한 BAM 후처리 파이프
samtools sort -@ 16 input.sam -o sorted.bam
samtools index sorted.bam
samtools flagstat sorted.bam
samtools view -b -q 30 sorted.bam chr1:1000-2000 > region.bam
samtools markdup sorted.bam dedup.bam
BCFtools
같은 Heng Li가 만든 VCF 다루는 칼. 필터링·머지·노멀라이즈·서브셋이 들어있다.
bcftools view -f PASS -O z -o pass.vcf.gz input.vcf.gz
bcftools norm -f reference.fa pass.vcf.gz -O z -o norm.vcf.gz
bcftools merge sample1.vcf.gz sample2.vcf.gz -O z -o cohort.vcf.gz
bcftools stats cohort.vcf.gz > stats.txt
GATK (Genome Analysis Toolkit)
Broad Institute가 만든 변이 호출의 사실상 표준. 인간 변이를 부른다면 9할은 GATK의 **HaplotypeCaller + GenomicsDBImport + GenotypeGVCFs** 파이프라인을 거친다.
HaplotypeCaller로 GVCF 만들기
gatk HaplotypeCaller \
-R reference.fa -I dedup.bam \
-O sample.g.vcf.gz -ERC GVCF
여러 샘플 합치기 (GenomicsDB)
gatk GenomicsDBImport \
--genomicsdb-workspace-path my_database \
-L chr1 -V s1.g.vcf.gz -V s2.g.vcf.gz
마지막 변이 호출
gatk GenotypeGVCFs \
-R reference.fa -V gendb://my_database -O cohort.vcf.gz
2026년 현재 GATK 5가 운영되고 있고, NVIDIA의 **Parabricks**가 GATK를 GPU로 돌려 18시간 작업을 30분으로 줄인다. AWS HealthOmics가 Parabricks를 매니지드 서비스로 제공한다.
8장 · STAR + HISAT2 + Salmon + Kallisto + DESeq2 + edgeR — RNA-seq 풀스택
RNA-seq는 바이오인포매틱스에서 가장 흔한 실험이다. 셀당 어떤 유전자가 얼마나 발현되는지 — 그것만 알면 암 vs 정상, 약물 처리 전/후, 시간별 변화를 다 본다.
정렬 vs 의사정렬
[FASTQ] -- 정렬(alignment) -----> [BAM] --- count ---> [count matrix]
| STAR / HISAT2 htseq / featureCounts
|
+----- 의사정렬(pseudo-align) ----> [count / TPM matrix]
Salmon / Kallisto
- **STAR** — Cold Spring Harbor의 Alexander Dobin이 만든 splice-aware 정렬기. 인덱스가 크고 (~30GB RAM) 빠르고 정확하다. ENCODE·GTEx 표준.
- **HISAT2** — Johns Hopkins의 Daehwan Kim이 만든 가벼운 대안. 메모리 ~8GB로 STAR 수준의 결과를 낸다.
- **Salmon · Kallisto** — 정렬을 건너뛰고 read가 어느 transcript에서 왔는지를 통계적으로 추정한다. 10배 이상 빠르고 디스크도 아낀다. Salmon은 Rob Patro(메릴랜드), Kallisto는 Lior Pachter(Caltech).
Salmon 예
salmon index -t transcripts.fa -i salmon_index -k 31
salmon quant -i salmon_index -l A \
-1 reads_1.fq.gz -2 reads_2.fq.gz \
-p 16 --validateMappings -o quant_out
DE 분석 — DESeq2 vs edgeR
count matrix가 나오면 **차등 발현(differential expression)**을 한다. R Bioconductor의 두 양대 산맥이 DESeq2와 edgeR이다.
- **DESeq2** — Michael Love(UNC), Wolfgang Huber(EMBL). negative binomial 분포 + shrinkage estimator. 가장 인용 많은 DE 도구.
- **edgeR** — Gordon Smyth(WEHI 호주). negative binomial + empirical Bayes. limma와 같은 그룹.
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData = counts,
colData = coldata,
design = ~ condition)
dds <- DESeq(dds)
res <- results(dds, contrast = c("condition", "treated", "control"))
summary(res)
plotMA(res, ylim = c(-2, 2))
기억할 한 줄: **"정렬은 STAR, 빠른 정량은 Salmon, DE는 DESeq2."**
9장 · AlphaFold 3 (2024.5, DeepMind) — 단백질 + 리간드 + 핵산
2020년 AlphaFold 2가 CASP14에서 단백질 구조 예측 문제를 사실상 풀어냈다. 2024년 5월, **AlphaFold 3**가 *Nature*에 발표되며 한 단계 더 나아갔다 — **단백질 + 작은 분자 리간드 + DNA + RNA + 이온 + 변형**의 *복합체*를 한 번에 예측한다.
핵심 차이:
1. **Diffusion 기반 구조 생성** — AF2의 Evoformer + Structure Module 대신, AF3는 **diffusion model**로 좌표를 점진적으로 깎아낸다.
2. **임의의 분자** — 단백질 시퀀스만이 아니라, SMILES로 리간드를, FASTA로 핵산을 같이 넣는다.
3. **AlphaFold Server (alphafoldserver.com)** — 학술용 무료 웹 서비스. 가중치는 학술 비영리 라이선스로 2024년 11월에 공개되었다.
입력
단백질 A 시퀀스 (FASTA)
단백질 B 시퀀스 (FASTA)
DNA 두 가닥 (서열)
리간드 (SMILES: CC(=O)Oc1ccccc1C(=O)O)
출력
PDB-style mmCIF
pLDDT (per-residue confidence)
PAE (pairwise alignment error)
ipTM (interface confidence)
**언제 쓰는가?**
- 약물–표적 도킹을 빠르게 보고 싶을 때
- 단백질 복합체의 인터페이스를 알고 싶을 때
- 미지의 리간드 결합 자리 후보를 찾고 싶을 때
**한계**: AF3는 정적 구조 한 장만 준다. 동역학·conformational ensemble은 여전히 MD(분자 동역학) 시뮬레이션이 필요하다.
10장 · ESM3 (Meta EvolutionaryScale)
Meta가 분사시킨 **EvolutionaryScale**(2024년 6월 설립)이 같은 달 공개한 단백질 언어 모델. ESM2가 BERT라면 ESM3는 **GPT** — 단백질 시퀀스를 generative하게 만든다.
세 가지 트랙을 같이 모델링한다:
1. **Sequence** — 아미노산 시퀀스
2. **Structure** — 3D 좌표(토큰화된 형태)
3. **Function** — 기능 주석(InterPro, GO)
ESM3-open(1.4B 파라미터)은 비영리/연구 라이선스로 가중치 공개. ESM3-medium/large는 EvolutionaryScale API로 제공.
huggingface 기반 ESM3 사용 예
from esm.models.esm3 import ESM3
from esm.sdk.api import ESMProtein, GenerationConfig
model = ESM3.from_pretrained("esm3-open").to("cuda")
시퀀스 -> 구조
protein = ESMProtein(sequence="MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK")
protein = model.generate(protein, GenerationConfig(track="structure",
num_steps=8,
temperature=0.7))
print(protein.coordinates.shape)
**언제 쓰는가?** *생성*이 필요할 때 — 기존 단백질의 변이체, 결합 자리를 가진 새 단백질, 특정 기능 주석을 만족하는 시퀀스를 *만들고* 싶을 때.
11장 · RoseTTAFold + ProteinMPNN (Baker Lab — 2024 노벨 화학상!)
워싱턴대학교의 **David Baker**가 2024년 노벨 화학상을 받은 이유는 한 가지가 아니다. 그의 연구실이 만든 도구가 *컴퓨터로 단백질을 디자인하는 것*을 일상으로 만들었기 때문이다.
RoseTTAFold
2021년 AF2와 거의 동시에 발표된 단백질 구조 예측 모델. *Science*에 실렸다. 2023년 **RoseTTAFold All-Atom**으로 확장되어 AF3처럼 단백질 + 리간드 + 핵산을 같이 다룬다. RFdiffusion·RFantibody·RF2NA 같은 후속작이 있다.
ProteinMPNN
**역접힘(inverse folding)** 모델. 즉, "이 3D 백본 좌표를 만족하는 아미노산 시퀀스를 다시 설계하라"를 푼다. 2022년 *Science*에 실렸고, 위크리와 한 줄에 *적게는 30% 더 잘 접히는* 시퀀스를 생산한다.
ProteinMPNN 추론(개념적)
1. 백본 좌표(N, CA, C) 입력
2. 각 잔기의 아미노산 분포 출력
3. 샘플링으로 시퀀스 얻기
python protein_mpnn_run.py \
--pdb_path designed_backbone.pdb \
--pdb_path_chains A \
--out_folder ./output \
--num_seq_per_target 8 \
--sampling_temp "0.1"
RFdiffusion
2023년 12월 *Nature*에 발표. **단백질 백본을 처음부터 생성**한다. "특정 자리에 결합하는 단백질을 만들어라" 같은 모티프 조건도 받는다. Baker Lab은 이 도구로 코로나 ACE2 미믹·인플루엔자 결합제·뱀독 중화 단백질을 새로 만들었고, 그중 다수가 *실제로 접혔다.*
기억할 한 줄: **"AlphaFold가 구조를 예측한다면 Baker Lab은 구조를 *디자인*한다."**
12장 · Boltz-1 (MIT 2024.6) — 오픈 AlphaFold 3
AlphaFold 3가 공개되었을 때, 코드와 가중치는 **상업 사용 금지**였다. 즉시 오픈 대안 두 개가 나왔다. 첫째가 MIT Jameel Clinic의 **Boltz-1**(2024년 6월).
- **오픈 가중치 · MIT 라이선스** — 상업 사용 자유
- AF3와 같은 **diffusion 아키텍처**
- 단백질 + 리간드 + 핵산 + 이온 복합체
- AF3에 매우 근접한 정확도 (PoseBusters, RNA target 등)
2025년에 **Boltz-2**가 발표되어 동역학과 affinity 예측까지 확장되었다.
Boltz-1 빠른 시작
pip install boltz
boltz predict input.yaml --use_msa_server
input.yaml 예
sequences:
- protein:
id: A
sequence: MKTAYIAKQRQISFVKSHFSRQ...
- ligand:
id: B
smiles: "CC(=O)Oc1ccccc1C(=O)O"
**언제 쓰는가?** 상업적 신약 개발, 학술 클러스터에서 대량 스크리닝, AF3 API 줄을 못 서겠을 때.
13장 · Chai-1 (Chai Discovery 2024)
샌프란시스코의 신생 스타트업 **Chai Discovery**가 2024년 9월 공개한 또 하나의 오픈 AF3 대안. 학술 사용은 무료, 상업 사용은 별도 라이선스다.
- AF3와 동등 또는 그 이상의 벤치마크 성적(자사 발표)
- 단백질 + 리간드 + 핵산
- 웹 UI(chaiagent.com)와 코드(GitHub)로 동시 공개
- **constrained prediction** 지원 — "이 잔기와 저 잔기가 가까이 있어야 한다"는 제약을 넣을 수 있다
2025년에 **Chai-2**가 발표되어 *de novo* 항체 설계 결과를 보였다.
from chai_lab.chai1 import run_inference
fasta = """
>protein|A
MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK
>ligand|B|smiles
CC(=O)Oc1ccccc1C(=O)O
"""
result = run_inference(
fasta_file="input.fasta",
output_dir="out/",
num_trunk_recycles=3,
num_diffn_timesteps=200,
)
**Boltz vs Chai 어느 쪽?** 학술이라면 둘 다 자유. 상업이라면 Boltz가 MIT 라이선스로 더 자유롭고, Chai는 사업 라이선스를 따로 협상한다. 정확도는 케이스마다 다르므로 *둘 다 돌려 보고 더 잘 맞는 쪽*을 쓰는 게 2026년 현장의 표준이다.
14장 · Foldseek (Martin Steinegger) — 구조 검색
서울대학교의 Martin Steinegger 교수(MMseqs2 저자)가 2022년 *Nature Biotechnology*에 발표한 **구조 기반 단백질 검색** 도구. BLAST가 시퀀스로 닮은 단백질을 찾는다면, Foldseek는 *3D 구조*로 닮은 단백질을 **수천 배 빠르게** 찾는다.
핵심 아이디어는 3D 구조를 **20자짜리 알파벳(3Di)**으로 토큰화하고, 그 위에서 MMseqs2 알고리즘으로 검색한다는 것이다. AlphaFold가 만든 2억 개 이상의 구조를 PC 한 대에서 검색할 수 있게 만들어 준 결정적 도구다.
foldseek easy-search query.pdb afdb result.m8 tmp \
--format-output "query,target,evalue,tmscore" \
--threads 16
활용:
- AlphaFold DB(2.3억 구조) 전체에서 비슷한 구조를 분 단위로 찾기
- "이 단백질과 닮은 구조가 어느 종에 있는가" — 진화 추정
- *De novo* 디자인 단백질의 신규성 검증
기억할 한 줄: **"BLAST는 시퀀스, Foldseek는 구조."**
15장 · Anvi'o + QIIME 2 — 마이크로바이옴
장내 미생물·해양 미생물·토양 미생물을 다루는 두 표준 도구.
QIIME 2
UC San Diego/노스애리조나의 Rob Knight Lab 계열이 만든 16S/ITS amplicon 분석 표준. 2018년 v2가 나오면서 plugin 기반으로 재설계되었다. DADA2(노이즈 제거), q2-feature-classifier(분류), q2-diversity(다양성 지표)가 핵심 플러그인이다.
qiime dada2 denoise-paired \
--i-demultiplexed-seqs demux.qza \
--p-trim-left-f 0 --p-trim-left-r 0 \
--p-trunc-len-f 240 --p-trunc-len-r 200 \
--o-table table.qza \
--o-representative-sequences rep-seqs.qza \
--o-denoising-stats stats.qza
Anvi'o
A. Murat Eren(전 Marine Biological Lab, 현재 Helmholtz Munich)이 만든 통합 메타지놈 플랫폼. 2015년부터 운영되어 왔고, 컨티그·메타지놈 어셈블리·바이닝·시각화를 한 도구에서 다 한다. 인터랙티브 시각화가 매우 강력하다.
anvi-gen-contigs-database -f contigs.fa -o contigs.db -n "MyMetagenome"
anvi-run-hmms -c contigs.db
anvi-run-ncbi-cogs -c contigs.db
anvi-profile -i sample.bam -c contigs.db --output-dir profile
**언제 쓰는가?** 16S amplicon(저비용·종 분류)이라면 QIIME 2, 메타지놈 shotgun(고비용·기능 유전자까지)이라면 Anvi'o.
16장 · Seurat + Scanpy — 단일세포 RNA-seq
10x Genomics Chromium이 단일세포를 시퀀싱의 일상으로 만들면서, downstream 분석의 양대 표준이 굳어졌다.
Seurat (R)
Rahul Satija Lab(NYGC)이 만든 R 표준. 2026년 현재 v5가 운영되고 v6가 베타다. 클러스터링·UMAP·integration·spatial까지 들어있다.
library(Seurat)
data <- Read10X(data.dir = "filtered_feature_bc_matrix")
obj <- CreateSeuratObject(counts = data, project = "pbmc")
obj <- NormalizeData(obj)
obj <- FindVariableFeatures(obj)
obj <- ScaleData(obj)
obj <- RunPCA(obj)
obj <- FindNeighbors(obj, dims = 1:20)
obj <- FindClusters(obj, resolution = 0.5)
obj <- RunUMAP(obj, dims = 1:20)
DimPlot(obj, label = TRUE)
Scanpy (Python)
Theis Lab(Helmholtz Munich)이 만든 Python 표준. AnnData 객체 위에 빌드되어 있고, scvi-tools·CellTypist·scArches 같은 ML 기반 도구가 모두 같은 객체를 공유한다.
adata = sc.read_10x_mtx("filtered_feature_bc_matrix", var_names="gene_symbols")
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata)
sc.pp.neighbors(adata, n_neighbors=10, n_pcs=20)
sc.tl.leiden(adata, resolution=0.5)
sc.tl.umap(adata)
sc.pl.umap(adata, color="leiden")
**Seurat vs Scanpy 어느 쪽?** R/통계 친화 연구실은 Seurat, Python/ML 친화 연구실은 Scanpy. 2026년의 ML 기반 후속 도구(scVI, scGPT, scFoundation 등)는 대부분 Scanpy/AnnData 생태계에 붙는다.
17장 · Illumina + 10x Genomics + Oxford Nanopore — 시퀀싱
데이터가 만들어지는 기계 자체. 2026년 기준 세 가지 큰 줄기.
Illumina
short-read 시퀀싱의 절대 강자. 2026년 현재 **NovaSeq X Plus**가 최대 16Tb/run, **MiSeq i100**이 중소 규모 표준이다. 출력은 **BCL**(원시 binary), 변환은 **bcl2fastq** 또는 **DRAGEN BCL Convert**(GPU 가속).
bcl2fastq 사용 예
bcl2fastq --runfolder-dir 250101_VH00123_456_AACDEFG \
--output-dir fastq_out --sample-sheet SampleSheet.csv \
-p 32
**Illumina BaseSpace**가 클라우드 매니지드 분석 서비스고, **DRAGEN Bio-IT** 플랫폼이 FPGA·GPU 가속 분석을 제공한다.
10x Genomics
**Chromium** 플랫폼으로 단일세포·공간 전사체 시장을 사실상 독점. **Cell Ranger**(scRNA-seq), **Space Ranger**(Visium), **Xenium Analyzer**(in situ)가 핵심 소프트웨어다.
cellranger count --id=sample1 \
--transcriptome=refdata-gex-GRCh38-2024-A \
--fastqs=/path/to/fastqs \
--sample=sample1 --localcores=16 --localmem=64
Oxford Nanopore
영국 옥스퍼드 스타트업. **MinION**(USB), **GridION**(데스크탑), **PromethION**(데이터센터)으로 long-read 시장의 양대 산맥(다른 하나는 PacBio Revio)이다. read 한 개가 수십 kb~수 Mb까지 길어서 구조 변이·메틸레이션·완성 게놈 어셈블리에 강점이다.
Dorado 베이스콜링 (Nanopore의 최신 추론)
dorado basecaller hac pod5/ > basecalls.bam
그 다음 minimap2로 정렬
minimap2 -ax map-ont reference.fa basecalls.fq | samtools sort -o aln.bam
18장 · AWS HealthOmics + Google Cloud Healthcare API + Microsoft Genomics
세 클라우드 모두 게놈 데이터 전용 매니지드 서비스를 운영한다. 2026년 현재 차이가 또렷하다.
AWS HealthOmics
2022년 발표(전 Amazon Omics), Nextflow·WDL·CWL 워크플로를 매니지드로 돌리는 서비스. **NVIDIA Parabricks**가 통합되어 GATK를 GPU로 18시간→30분으로 줄여 준다. 데이터 저장은 reference store/sequence store/variant store/annotation store로 분리되어 있다.
aws omics start-run \
--workflow-id 1234567 \
--role-arn arn:aws:iam::123456789012:role/HealthOmicsRole \
--name "rnaseq-run-2026-05" \
--parameters file://params.json
Google Cloud Healthcare API
FHIR/DICOM/HL7 같은 임상 데이터 표준과 게놈 데이터를 합쳐 다루는 데 강점이다. **Variant Transforms**, **Verily**(Alphabet 자회사)와의 연동이 있다. Google이 만든 **DeepVariant**(딥러닝 기반 변이 호출)도 이쪽에서 매니지드로 제공된다.
Microsoft Genomics
Azure 위에서 BWA + GATK 베스트프랙티스 파이프라인을 매니지드로 제공. Microsoft Genomics SDK가 .NET·Python 클라이언트를 제공한다. AI for Health 이니셔티브와 연계되어 있다.
**언제 어느 클라우드?** Nextflow + nf-core를 그대로 돌리고 싶다면 AWS HealthOmics, FHIR/DICOM 임상 데이터와 게놈을 같이 다루는 병원이라면 GCP Healthcare API, 기존 Azure 엔터프라이즈에 들어가 있다면 Microsoft Genomics.
19장 · 한국 — KAIST / 서울대 / KIST / 한국생명공학연구원
한국의 바이오인포매틱스 생태계도 빠르게 성장해 왔다.
- **KAIST 생명과학과/의과학대학원** — 이대엽 교수(유전체 분석), 김재경 교수(시스템 생물학), 조광현 교수(시스템 생물학) 등
- **서울대 생명과학부/협동과정 유전공학** — Martin Steinegger 교수(MMseqs2, Foldseek 저자, 2021년 서울대 부임), 박종환 교수, 김상욱 교수
- **포스텍 생명과학과** — 김상욱 교수, 송 교수
- **한국과학기술연구원(KIST)** — 천연물·신약 분야
- **한국생명공학연구원(KRIBB)** — 대전 대덕 단지 소재. 국가 바이오 R&D 중심.
- **국가생명연구자원정보센터(KOBIC)** — 한국의 국가 바이오 데이터 허브
- **한국유전체학회(KSBi)** — 매년 학술대회 개최
Martin Steinegger 교수의 서울대 부임은 한국 바이오인포매틱스 인프라에 큰 사건이었다. MMseqs2·Foldseek·ColabFold(2021) 같은 세계급 도구가 서울에서 유지되고 있다.
20장 · 일본 — RIKEN / NIG / DDBJ
일본의 인프라는 셋이 핵심이다.
- **理研(RIKEN)** — 와코·요코하마·고베의 종합 연구소. 단일세포·뇌과학·고성능 컴퓨팅. 슈퍼컴퓨터 **富岳**(Fugaku)이 여기 있다.
- **国立遺伝学研究所(NIG, 미시마)** — 한국의 한국생명공학연구원에 해당. 비교 유전체학·진화·메타지놈.
- **DDBJ (DNA Data Bank of Japan)** — INSDC(NCBI GenBank · EBI ENA · DDBJ 3대 핵심 데이터베이스)의 일본 축. 미시마에 있다.
- **東京大学医科学研究所(IMS-UT)** — 단일세포·면역
- **京都大学iPS研究所(CiRA)** — iPS 세포 분야
- **慶應義塾大学(慶應)** — IAB 鶴岡, 시스템 생물학
- **AMED · NEDO** — 국가 R&D 펀딩 기관
DDBJ는 NCBI·EBI와 매일 데이터를 미러링하고, 일본 내 게놈 데이터의 1차 보관소다. 한국의 KOBIC, EBI의 ENA와 동일 역할.
21장 · 누가 바이오인포매틱스를 배워야 하나 — 학생 / 연구자 / 신약 / 임상
같은 도구도 누가 쓰느냐에 따라 핵심이 다르다.
- **학부생·대학원생(생명과학)** — Galaxy로 시작 → BioPython/R 차차 → Nextflow는 마지막. 단백질 구조는 ColabFold(서버)로 충분.
- **포닥·연구원** — Nextflow nf-core 파이프라인 그대로 돌리기 → 자기 분석에 맞게 fork → Seqera Tower로 클러스터/클라우드 관리
- **신약 개발사(소형~중형)** — AlphaFold 3 / Boltz-1 / Chai-1로 도킹 → RFdiffusion + ProteinMPNN으로 디자인 → 실험 검증
- **신약 개발사(대형 제약)** — 자체 AlphaFold 변형(BioNeMo, Iambic 등) + GATK 임상 변이 분석 + AWS HealthOmics
- **임상 유전학자·병원** — GATK + DRAGEN + ClinVar/OMIM 연동. 보고서 발행이 핵심. 보안·HIPAA가 결정타.
- **공중보건 · 감염병** — Nextstrain, 메타지놈(Anvi'o/QIIME 2), Nanopore 휴대 시퀀싱
기억할 한 줄: **"Galaxy로 입문하고, Nextflow로 자동화하고, AlphaFold로 단백질을 보고, R/Python으로 의미를 뽑아낸다."**
에필로그 — 2026년의 바이오인포매틱스
2010년대까지의 바이오인포매틱스는 **데이터를 정렬하는 일**이었다. 2020년대 중반부터는 **데이터에서 의미를 뽑는 일**, 그리고 **새 단백질을 디자인하는 일**이 되었다. 노벨상이 둘 다 인정했다.
2026년 현재의 풍경을 한 줄로 정리하면 이렇다.
- **워크플로**는 Nextflow가 사실상 표준, Snakemake가 학술 대안
- **시퀀스 검색**은 BLAST → DIAMOND2 → MMseqs2 → Foldseek(구조)
- **RNA-seq**는 STAR/Salmon → DESeq2/edgeR
- **단백질 구조**는 AlphaFold 3 / Boltz-1 / Chai-1 / RoseTTAFold
- **단백질 디자인**은 RFdiffusion + ProteinMPNN (Baker Lab)
- **단일세포**는 Seurat / Scanpy
- **클라우드**는 AWS HealthOmics / GCP Healthcare / Microsoft Genomics
당신이 학생이라면 — Galaxy로 시작하고, Python·R 둘 다 익히고, Nextflow를 마지막에 배운다. **단백질이 정말 자기 손에서 접히는 시대**가 이미 와 있다.
참고 / References
- [Galaxy 공식](https://galaxyproject.org/)
- [BioPython 공식](https://biopython.org/)
- [Bioconductor 공식](https://www.bioconductor.org/)
- [Nextflow 공식 / Seqera Labs](https://www.nextflow.io/)
- [nf-core 파이프라인 카탈로그](https://nf-co.re/)
- [Snakemake 공식](https://snakemake.github.io/)
- [NCBI BLAST](https://blast.ncbi.nlm.nih.gov/)
- [DIAMOND2 (Buchfink) GitHub](https://github.com/bbuchfink/diamond)
- [MMseqs2 (Steinegger) GitHub](https://github.com/soedinglab/MMseqs2)
- [SAMtools](http://www.htslib.org/)
- [BCFtools](https://samtools.github.io/bcftools/bcftools.html)
- [GATK (Broad Institute)](https://gatk.broadinstitute.org/)
- [STAR aligner GitHub](https://github.com/alexdobin/STAR)
- [HISAT2 공식](https://daehwankimlab.github.io/hisat2/)
- [Salmon (Patro Lab)](https://salmon.readthedocs.io/)
- [Kallisto (Pachter Lab)](https://pachterlab.github.io/kallisto/)
- [DESeq2 — Love · Anders · Huber, Genome Biology 2014](https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0550-8)
- [edgeR — Robinson · McCarthy · Smyth, Bioinformatics 2010](https://academic.oup.com/bioinformatics/article/26/1/139/182458)
- [AlphaFold 3 — Abramson et al., Nature 2024](https://www.nature.com/articles/s41586-024-07487-w)
- [AlphaFold Server](https://alphafoldserver.com/)
- [ESM3 — Hayes et al., 2024 / EvolutionaryScale](https://www.evolutionaryscale.ai/)
- [RoseTTAFold — Baek et al., Science 2021](https://www.science.org/doi/10.1126/science.abj8754)
- [ProteinMPNN — Dauparas et al., Science 2022](https://www.science.org/doi/10.1126/science.add2187)
- [RFdiffusion — Watson et al., Nature 2023](https://www.nature.com/articles/s41586-023-06415-8)
- [Boltz-1 — MIT Jameel Clinic GitHub](https://github.com/jwohlwend/boltz)
- [Chai-1 — Chai Discovery](https://www.chaidiscovery.com/)
- [Foldseek — van Kempen et al., Nature Biotechnology 2024](https://www.nature.com/articles/s41587-023-01773-0)
- [Anvi'o 공식](https://anvio.org/)
- [QIIME 2 공식](https://qiime2.org/)
- [Seurat (Satija Lab)](https://satijalab.org/seurat/)
- [Scanpy (Theis Lab)](https://scanpy.readthedocs.io/)
- [10x Genomics Cell Ranger](https://www.10xgenomics.com/support/software/cell-ranger)
- [Oxford Nanopore Dorado](https://github.com/nanoporetech/dorado)
- [Illumina BaseSpace](https://basespace.illumina.com/)
- [AWS HealthOmics](https://aws.amazon.com/healthomics/)
- [Google Cloud Healthcare API](https://cloud.google.com/healthcare-api)
- [Microsoft Genomics](https://www.microsoft.com/en-us/genomics/)
- [한국생명공학연구원(KRIBB)](https://www.kribb.re.kr/)
- [국가생명연구자원정보센터(KOBIC)](https://www.kobic.re.kr/)
- [RIKEN](https://www.riken.jp/)
- [国立遺伝学研究所(NIG)](https://www.nig.ac.jp/)
- [DDBJ](https://www.ddbj.nig.ac.jp/)
- [2024 Nobel Prize in Chemistry — Baker · Hassabis · Jumper](https://www.nobelprize.org/prizes/chemistry/2024/summary/)
현재 단락 (1/446)
2024년 10월, 노벨 화학상이 세 명에게 돌아갔다. **David Baker**(워싱턴대학교, *컴퓨터로 단백질 디자인*), **Demis Hassabis**, **John J...