Skip to content

필사 모드: 바이오인포매틱스 도구 2026 — Galaxy / BioPython / Nextflow / Snakemake / AlphaFold 3 / ESM3 / RoseTTAFold / Boltz-1 / Chai-1 / Foldseek 심층 가이드

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 2024년 노벨 화학상이 바꿔 놓은 풍경

2024년 10월, 노벨 화학상이 세 명에게 돌아갔다. **David Baker**(워싱턴대학교, *컴퓨터로 단백질 디자인*), **Demis Hassabis**, **John Jumper**(Google DeepMind, *AlphaFold 2로 단백질 구조 예측*). 이 한 줄짜리 결정은 바이오인포매틱스의 풍경 자체를 바꿔 놓았다.

2010년대 초까지만 해도, 단백질 구조 한 개를 풀려면 X선 결정학으로 박사 과정 3년을 쓰는 게 보통이었다. 2024년 5월 AlphaFold 3가 발표되었을 때, 같은 일을 노트북 한 대와 30분으로 끝낼 수 있게 되었다. **단백질만이 아니다.** AlphaFold 3는 단백질 + 리간드 + DNA + RNA + 이온의 복합체를 한 번에 예측한다. ESM3는 단백질 시퀀스를 GPT처럼 생성하고, RoseTTAFold All-Atom은 같은 일을 Baker Lab의 방식으로 한다. **Boltz-1**(MIT, 2024년 6월)과 **Chai-1**(Chai Discovery, 2024년 9월)은 AlphaFold 3와 같은 정확도를 *오픈* 가중치로 공개했다.

이 모든 일이 1년 안에 벌어졌다.

이 글은 2026년의 바이오인포매틱스 스택을 — 데이터가 시퀀서에서 나오는 순간부터 단백질 구조가 그려지는 순간까지 — 한 호흡으로 정리한다. 다음 14개 장에서 다룰 도구는 이렇다.

- **Galaxy** — 웹 UI 표준, 코드 안 짜는 연구자의 입구

- **BioPython · Bioconductor** — 언어 라이브러리 양대 산맥(Python · R)

- **Nextflow · Snakemake** — 워크플로 표준

- **BLAST · DIAMOND2 · MMseqs2** — 시퀀스 검색(느린 것 → 빠른 것 → 더 빠른 것)

- **SAMtools · BCFtools · GATK** — BAM/VCF 다루는 도구

- **STAR · HISAT2 · Salmon · Kallisto · DESeq2 · edgeR** — RNA-seq 파이프라인

- **AlphaFold 3 · ESM3 · RoseTTAFold · ProteinMPNN · Boltz-1 · Chai-1 · Foldseek** — 단백질

- **Anvi'o · QIIME 2** — 마이크로바이옴

- **Seurat · Scanpy** — 단일세포 RNA-seq

- **Illumina · 10x Genomics · Oxford Nanopore** — 시퀀싱 기기

- **AWS HealthOmics · GCP Healthcare API · Microsoft Genomics** — 클라우드

1장 · 2026년 바이오인포매틱스 지도 — 워크플로 / 정렬 / 단백질 / 단일세포

도구 하나하나를 보기 전에, 지도를 그리고 가자. 2026년의 바이오인포매틱스 스택은 크게 네 층으로 나뉜다.

[Sequencer] Illumina NovaSeq X / Nanopore PromethION / 10x Chromium

|

| BCL files (raw)

v

[Demultiplex / Convert] bcl2fastq, DRAGEN BCL Convert

|

| FASTQ files

v

[QC & Trim] FastQC, fastp, MultiQC

|

| Clean FASTQ

v

[Align / Quantify] BWA-MEM2, STAR, HISAT2, Salmon, Kallisto

|

| BAM / count matrix

v

[Variant Call / DE] GATK, BCFtools, DESeq2, edgeR

|

| VCF / DE table

v

[Downstream] Seurat, Scanpy, Anvi'o, QIIME 2

|

v

[Protein structure] AlphaFold 3, ESM3, Boltz-1, Chai-1, RoseTTAFold

이 모든 단계를 묶어 주는 게 **워크플로 엔진**이다. Nextflow와 Snakemake가 양대 산맥이고, 그 위에 Galaxy가 웹 UI를 얹는다. 2026년의 사실상 표준 조합은 이렇다.

- **새 연구실에서 시작한다면**: Nextflow + nf-core + Seqera Tower (또는 Snakemake + Snakemake-Wrappers)

- **단백질 구조가 필요하다면**: ColabFold (서버) → AlphaFold 3 (정밀) → Boltz-1 / Chai-1 (오픈 대안)

- **단일세포라면**: 10x Cell Ranger → Scanpy (Python) 또는 Seurat (R)

- **마이크로바이옴이라면**: QIIME 2 (16S) 또는 Anvi'o (메타지놈)

- **클라우드라면**: AWS HealthOmics (NVIDIA Parabricks 연동) 또는 GCP Healthcare API

기억할 한 줄: **"파일은 FASTQ에서 시작해서 BAM·VCF로 정리되고, 의미는 R/Python에서 나온다."**

2장 · Galaxy — 웹 플랫폼 표준

Galaxy는 펜실베이니아 주립대학교와 존스 홉킨스가 시작한 오픈소스 바이오인포매틱스 웹 플랫폼이다. 2005년부터 운영되어 왔고, 2026년 현재 **usegalaxy.org**(미국), **usegalaxy.eu**(독일 프라이부르크), **usegalaxy.org.au**(호주), **usegalaxy.fr**(프랑스) 등 공공 인스턴스가 분산 운영되고 있다. 누구나 무료로 가입해서 BLAST·STAR·DESeq2·Cell Ranger를 클릭으로 돌릴 수 있다.

핵심 개념은 세 가지다.

1. **History** — 사용자별 작업 공간. 업로드한 데이터, 실행한 도구, 출력이 모두 시간순으로 쌓인다.

2. **Tool** — 한 단계의 분석(예: FastQC, STAR, DESeq2). 8,000개 이상의 도구가 등록되어 있다.

3. **Workflow** — Tool들을 연결한 파이프라인. GUI로 노드를 끌어다 잇는다.

Galaxy가 강력한 이유는 **재현성**이다. History 하나를 통째로 공유하면 다른 연구자가 같은 데이터·같은 도구 버전·같은 파라미터로 똑같이 돌릴 수 있다. 2025년부터는 Galaxy ToolShed가 Bioconda·BioContainers와 직접 연동되어, 도구 설치가 컨테이너 단위로 자동화된다.

Galaxy CLI(BioBlend) 예시 — Python에서 Galaxy 인스턴스 제어

pip install bioblend

python -c "

from bioblend.galaxy import GalaxyInstance

gi = GalaxyInstance('https://usegalaxy.org', key='YOUR_API_KEY')

history = gi.histories.create_history(name='RNA-seq 2026')

gi.tools.upload_file('reads.fastq.gz', history['id'])

"

**언제 쓰는가?** 코드를 안 짜고 싶거나, 교육·강의·재현 가능한 실험 공유가 목적일 때. **언제 안 쓰는가?** CPU 수천 코어를 24시간 돌려야 하는 산업급 파이프라인. 그때는 Nextflow를 클라우드에 띄운다.

3장 · BioPython + Bioconductor — 언어 라이브러리

바이오인포매틱스는 두 언어가 양분해 왔다. **Python**(데이터 wrangling·머신러닝)과 **R**(통계·시각화). 각각의 표준 라이브러리가 BioPython과 Bioconductor다.

BioPython

1999년 시작된 Python의 표준 바이오 라이브러리. FASTA·FASTQ·GenBank·UniProt 같은 파일 포맷 파싱, NCBI Entrez 접근, 시퀀스 정렬, PDB 구조 다루기까지 한 라이브러리에 들어있다.

from Bio import SeqIO, Entrez

from Bio.Seq import Seq

1. FASTA 읽기

for record in SeqIO.parse("genome.fasta", "fasta"):

print(record.id, len(record.seq))

2. 시퀀스 다루기

dna = Seq("ATGAAGCTGGAATTC")

print(dna.complement()) # TACTTCGACCTTAAG

print(dna.reverse_complement()) # GAATTCCAGCTTCAT

print(dna.translate()) # MKLEF (단백질로)

3. NCBI Entrez에서 GenBank 가져오기

Entrez.email = "you@example.com"

handle = Entrez.efetch(db="nucleotide", id="NC_000913.3",

rettype="gb", retmode="text")

record = SeqIO.read(handle, "genbank")

Bioconductor

R 생태계의 바이오 패키지 묶음. 2002년부터 운영되어 왔고, 2026년 현재 **2,300개 이상**의 패키지가 등록되어 있다. DESeq2·edgeR·limma·Seurat·ChIPseeker가 모두 여기 있다. 분기마다 릴리스가 나오고, 모든 패키지가 같은 R 버전에 대해 빌드·테스트된다.

Bioconductor 설치

if (!require("BiocManager", quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("DESeq2")

library(DESeq2)

count matrix와 sample info로 DE 분석 객체 생성

dds <- DESeqDataSetFromMatrix(countData = counts,

colData = coldata,

design = ~ condition)

dds <- DESeq(dds)

res <- results(dds)

**언제 Python vs R?** 데이터 정제·머신러닝·딥러닝(AlphaFold 등)은 Python이 자연스럽고, 통계 모델링·플롯·DE 분석은 R이 자연스럽다. 2026년 현실의 연구실은 **둘 다** 쓴다.

4장 · Nextflow (DSL2) — 워크플로 표준

Nextflow는 이탈리아 출신의 Paolo Di Tommaso가 2013년 바르셀로나의 CRG에서 시작한 워크플로 언어다. 2018년 Seqera Labs로 분사해 상용화되었고, 2026년 현재 **사실상의 워크플로 표준**이다.

핵심 사상은 **데이터플로 + 채널**이다. 모든 단계(process)는 입력 채널과 출력 채널을 가지고, 채널을 통해 데이터가 흐른다. 같은 데이터로 100개의 샘플을 병렬 처리하는 게 자연스럽다.

// DSL2 예시 — RNA-seq의 첫 두 단계

nextflow.enable.dsl=2

process FASTQC {

container 'biocontainers/fastqc:v0.11.9_cv8'

input:

tuple val(sample_id), path(reads)

output:

path "*_fastqc.zip"

script:

"""

fastqc ${reads}

"""

}

process STAR_ALIGN {

container 'quay.io/biocontainers/star:2.7.11a--h0033a41_0'

cpus 16

memory '64 GB'

input:

tuple val(sample_id), path(reads)

path index

output:

tuple val(sample_id), path("*.bam")

script:

"""

STAR --runThreadN ${task.cpus} \\

--genomeDir ${index} \\

--readFilesIn ${reads} \\

--readFilesCommand zcat \\

--outSAMtype BAM SortedByCoordinate

"""

}

workflow {

samples = Channel.fromFilePairs('data/*_R{1,2}.fastq.gz')

FASTQC(samples)

STAR_ALIGN(samples, file('star_index'))

}

Nextflow의 진짜 강점은 **실행 환경 독립성**이다. 같은 워크플로를 로컬·SLURM·AWS Batch·Google Cloud Batch·Azure Batch·Kubernetes에서 그대로 돌릴 수 있다.

**nf-core**는 Nextflow 커뮤니티가 만든 표준 파이프라인 모음이다. 2026년 현재 100개 이상의 파이프라인이 nf-core/rnaseq, nf-core/sarek, nf-core/scrnaseq, nf-core/proteinfold 같은 이름으로 공개되어 있다. 새 RNA-seq 분석을 시작한다면 9할은 nf-core/rnaseq로 끝난다.

**Seqera Tower (Seqera Platform)**는 Nextflow의 상용 관리 도구다. 실행 로그, 비용 분석, 데이터 카탈로그를 웹 UI로 본다. 학술 라이선스는 무료고 기업 라이선스가 유료다.

5장 · Snakemake — Python 대안

Snakemake는 독일 본 대학에서 시작된 워크플로 언어로, **Python 문법 + GNU Make의 의존성 추적**을 합친 도구다. 2012년 Johannes Köster가 처음 공개했고 2026년 현재 v8 시리즈가 운영되고 있다.

Nextflow가 채널·데이터플로 모델이라면, Snakemake는 **rule + input/output 파일** 모델이다. "이 파일을 만들려면 무슨 rule을 어떤 입력으로 돌려야 하는가"를 거꾸로 추론한다.

Snakefile 예시

SAMPLES = ["s1", "s2", "s3"]

rule all:

input:

expand("results/{sample}.sorted.bam", sample=SAMPLES)

rule fastqc:

input:

"data/{sample}.fastq.gz"

output:

"qc/{sample}_fastqc.zip"

conda:

"envs/fastqc.yaml"

shell:

"fastqc {input} -o qc/"

rule align:

input:

reads="data/{sample}.fastq.gz",

index="reference/index"

output:

"results/{sample}.sorted.bam"

threads: 8

shell:

"bwa-mem2 mem -t {threads} {input.index} {input.reads} | "

"samtools sort -@ {threads} -o {output}"

**언제 Nextflow vs Snakemake?**

- **Nextflow** — 산업·임상·대규모 클라우드, nf-core 파이프라인을 그대로 쓰고 싶을 때

- **Snakemake** — 학술 연구실, Python 친화적, 작은~중간 규모 분석, "내 워크플로를 처음부터 짠다"

둘 다 Conda·Container·Slurm을 지원하므로 결정타는 팀의 언어 친화도다.

6장 · BLAST + DIAMOND2 + MMseqs2 — 시퀀스 검색

"이 DNA·단백질 시퀀스가 무엇과 닮았는가"를 답하는 도구. 같은 일을 세 가지 도구가 다른 속도·정확도로 한다.

BLAST (Basic Local Alignment Search Tool)

NCBI가 1990년에 만든 원조. 정확도는 최고지만 단백질 수억 개 데이터베이스를 통째로 검색하면 며칠이 걸린다.

BLAST+ 사용 예

makeblastdb -in proteins.fasta -dbtype prot -out protdb

blastp -query query.fasta -db protdb \

-outfmt 6 -num_threads 16 -evalue 1e-5 \

-out hits.tsv

DIAMOND2

Benjamin Buchfink이 2014년 공개한 BLAST의 100~10,000배 빠른 대안. 2024년 DIAMOND2가 나오면서 **BLAST 수준의 sensitivity**(`--ultra-sensitive` 모드)까지 따라잡았다. 메타지놈처럼 수억 개 read를 NCBI nr 같은 거대 DB에 붙일 때 사실상 필수다.

diamond makedb --in proteins.fasta -d protdb

diamond blastp -q query.fasta -d protdb -o hits.tsv \

--threads 16 --ultra-sensitive --evalue 1e-5

MMseqs2

Martin Steinegger(서울대학교, 전 Max Planck)가 2017년 공개. **클러스터링까지 한 번에** 한다는 점이 강점이다. UniRef50, UniRef90 같은 클러스터 DB는 모두 MMseqs2로 만들어진다. ColabFold의 MSA 단계가 MMseqs2다.

단백질 클러스터링 — 50% identity로 묶기

mmseqs createdb proteins.fasta seqDB

mmseqs cluster seqDB clusterDB tmp --min-seq-id 0.5 -c 0.8

mmseqs createtsv seqDB seqDB clusterDB clusters.tsv

기억할 한 줄: **"정확하게는 BLAST, 빠르게는 DIAMOND2, 클러스터는 MMseqs2."**

7장 · SAMtools + BCFtools + GATK — BAM·VCF의 표준 공구

시퀀싱 데이터를 정렬하면 **BAM**(Binary Alignment Map) 파일이, 변이를 부르면 **VCF**(Variant Call Format) 파일이 나온다. 이 두 포맷을 다루는 표준 공구가 셋이다.

SAMtools

Heng Li(Broad Institute, 현재 DFCI/하버드)가 만든 BAM 다루는 칼. 정렬·인덱스·통계·view·subset·markdup이 모두 들어있다.

흔한 BAM 후처리 파이프

samtools sort -@ 16 input.sam -o sorted.bam

samtools index sorted.bam

samtools flagstat sorted.bam

samtools view -b -q 30 sorted.bam chr1:1000-2000 > region.bam

samtools markdup sorted.bam dedup.bam

BCFtools

같은 Heng Li가 만든 VCF 다루는 칼. 필터링·머지·노멀라이즈·서브셋이 들어있다.

bcftools view -f PASS -O z -o pass.vcf.gz input.vcf.gz

bcftools norm -f reference.fa pass.vcf.gz -O z -o norm.vcf.gz

bcftools merge sample1.vcf.gz sample2.vcf.gz -O z -o cohort.vcf.gz

bcftools stats cohort.vcf.gz > stats.txt

GATK (Genome Analysis Toolkit)

Broad Institute가 만든 변이 호출의 사실상 표준. 인간 변이를 부른다면 9할은 GATK의 **HaplotypeCaller + GenomicsDBImport + GenotypeGVCFs** 파이프라인을 거친다.

HaplotypeCaller로 GVCF 만들기

gatk HaplotypeCaller \

-R reference.fa -I dedup.bam \

-O sample.g.vcf.gz -ERC GVCF

여러 샘플 합치기 (GenomicsDB)

gatk GenomicsDBImport \

--genomicsdb-workspace-path my_database \

-L chr1 -V s1.g.vcf.gz -V s2.g.vcf.gz

마지막 변이 호출

gatk GenotypeGVCFs \

-R reference.fa -V gendb://my_database -O cohort.vcf.gz

2026년 현재 GATK 5가 운영되고 있고, NVIDIA의 **Parabricks**가 GATK를 GPU로 돌려 18시간 작업을 30분으로 줄인다. AWS HealthOmics가 Parabricks를 매니지드 서비스로 제공한다.

8장 · STAR + HISAT2 + Salmon + Kallisto + DESeq2 + edgeR — RNA-seq 풀스택

RNA-seq는 바이오인포매틱스에서 가장 흔한 실험이다. 셀당 어떤 유전자가 얼마나 발현되는지 — 그것만 알면 암 vs 정상, 약물 처리 전/후, 시간별 변화를 다 본다.

정렬 vs 의사정렬

[FASTQ] -- 정렬(alignment) -----> [BAM] --- count ---> [count matrix]

| STAR / HISAT2 htseq / featureCounts

|

+----- 의사정렬(pseudo-align) ----> [count / TPM matrix]

Salmon / Kallisto

- **STAR** — Cold Spring Harbor의 Alexander Dobin이 만든 splice-aware 정렬기. 인덱스가 크고 (~30GB RAM) 빠르고 정확하다. ENCODE·GTEx 표준.

- **HISAT2** — Johns Hopkins의 Daehwan Kim이 만든 가벼운 대안. 메모리 ~8GB로 STAR 수준의 결과를 낸다.

- **Salmon · Kallisto** — 정렬을 건너뛰고 read가 어느 transcript에서 왔는지를 통계적으로 추정한다. 10배 이상 빠르고 디스크도 아낀다. Salmon은 Rob Patro(메릴랜드), Kallisto는 Lior Pachter(Caltech).

Salmon 예

salmon index -t transcripts.fa -i salmon_index -k 31

salmon quant -i salmon_index -l A \

-1 reads_1.fq.gz -2 reads_2.fq.gz \

-p 16 --validateMappings -o quant_out

DE 분석 — DESeq2 vs edgeR

count matrix가 나오면 **차등 발현(differential expression)**을 한다. R Bioconductor의 두 양대 산맥이 DESeq2와 edgeR이다.

- **DESeq2** — Michael Love(UNC), Wolfgang Huber(EMBL). negative binomial 분포 + shrinkage estimator. 가장 인용 많은 DE 도구.

- **edgeR** — Gordon Smyth(WEHI 호주). negative binomial + empirical Bayes. limma와 같은 그룹.

library(DESeq2)

dds <- DESeqDataSetFromMatrix(countData = counts,

colData = coldata,

design = ~ condition)

dds <- DESeq(dds)

res <- results(dds, contrast = c("condition", "treated", "control"))

summary(res)

plotMA(res, ylim = c(-2, 2))

기억할 한 줄: **"정렬은 STAR, 빠른 정량은 Salmon, DE는 DESeq2."**

9장 · AlphaFold 3 (2024.5, DeepMind) — 단백질 + 리간드 + 핵산

2020년 AlphaFold 2가 CASP14에서 단백질 구조 예측 문제를 사실상 풀어냈다. 2024년 5월, **AlphaFold 3**가 *Nature*에 발표되며 한 단계 더 나아갔다 — **단백질 + 작은 분자 리간드 + DNA + RNA + 이온 + 변형**의 *복합체*를 한 번에 예측한다.

핵심 차이:

1. **Diffusion 기반 구조 생성** — AF2의 Evoformer + Structure Module 대신, AF3는 **diffusion model**로 좌표를 점진적으로 깎아낸다.

2. **임의의 분자** — 단백질 시퀀스만이 아니라, SMILES로 리간드를, FASTA로 핵산을 같이 넣는다.

3. **AlphaFold Server (alphafoldserver.com)** — 학술용 무료 웹 서비스. 가중치는 학술 비영리 라이선스로 2024년 11월에 공개되었다.

입력

단백질 A 시퀀스 (FASTA)

단백질 B 시퀀스 (FASTA)

DNA 두 가닥 (서열)

리간드 (SMILES: CC(=O)Oc1ccccc1C(=O)O)

출력

PDB-style mmCIF

pLDDT (per-residue confidence)

PAE (pairwise alignment error)

ipTM (interface confidence)

**언제 쓰는가?**

- 약물–표적 도킹을 빠르게 보고 싶을 때

- 단백질 복합체의 인터페이스를 알고 싶을 때

- 미지의 리간드 결합 자리 후보를 찾고 싶을 때

**한계**: AF3는 정적 구조 한 장만 준다. 동역학·conformational ensemble은 여전히 MD(분자 동역학) 시뮬레이션이 필요하다.

10장 · ESM3 (Meta EvolutionaryScale)

Meta가 분사시킨 **EvolutionaryScale**(2024년 6월 설립)이 같은 달 공개한 단백질 언어 모델. ESM2가 BERT라면 ESM3는 **GPT** — 단백질 시퀀스를 generative하게 만든다.

세 가지 트랙을 같이 모델링한다:

1. **Sequence** — 아미노산 시퀀스

2. **Structure** — 3D 좌표(토큰화된 형태)

3. **Function** — 기능 주석(InterPro, GO)

ESM3-open(1.4B 파라미터)은 비영리/연구 라이선스로 가중치 공개. ESM3-medium/large는 EvolutionaryScale API로 제공.

huggingface 기반 ESM3 사용 예

from esm.models.esm3 import ESM3

from esm.sdk.api import ESMProtein, GenerationConfig

model = ESM3.from_pretrained("esm3-open").to("cuda")

시퀀스 -> 구조

protein = ESMProtein(sequence="MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK")

protein = model.generate(protein, GenerationConfig(track="structure",

num_steps=8,

temperature=0.7))

print(protein.coordinates.shape)

**언제 쓰는가?** *생성*이 필요할 때 — 기존 단백질의 변이체, 결합 자리를 가진 새 단백질, 특정 기능 주석을 만족하는 시퀀스를 *만들고* 싶을 때.

11장 · RoseTTAFold + ProteinMPNN (Baker Lab — 2024 노벨 화학상!)

워싱턴대학교의 **David Baker**가 2024년 노벨 화학상을 받은 이유는 한 가지가 아니다. 그의 연구실이 만든 도구가 *컴퓨터로 단백질을 디자인하는 것*을 일상으로 만들었기 때문이다.

RoseTTAFold

2021년 AF2와 거의 동시에 발표된 단백질 구조 예측 모델. *Science*에 실렸다. 2023년 **RoseTTAFold All-Atom**으로 확장되어 AF3처럼 단백질 + 리간드 + 핵산을 같이 다룬다. RFdiffusion·RFantibody·RF2NA 같은 후속작이 있다.

ProteinMPNN

**역접힘(inverse folding)** 모델. 즉, "이 3D 백본 좌표를 만족하는 아미노산 시퀀스를 다시 설계하라"를 푼다. 2022년 *Science*에 실렸고, 위크리와 한 줄에 *적게는 30% 더 잘 접히는* 시퀀스를 생산한다.

ProteinMPNN 추론(개념적)

1. 백본 좌표(N, CA, C) 입력

2. 각 잔기의 아미노산 분포 출력

3. 샘플링으로 시퀀스 얻기

python protein_mpnn_run.py \

--pdb_path designed_backbone.pdb \

--pdb_path_chains A \

--out_folder ./output \

--num_seq_per_target 8 \

--sampling_temp "0.1"

RFdiffusion

2023년 12월 *Nature*에 발표. **단백질 백본을 처음부터 생성**한다. "특정 자리에 결합하는 단백질을 만들어라" 같은 모티프 조건도 받는다. Baker Lab은 이 도구로 코로나 ACE2 미믹·인플루엔자 결합제·뱀독 중화 단백질을 새로 만들었고, 그중 다수가 *실제로 접혔다.*

기억할 한 줄: **"AlphaFold가 구조를 예측한다면 Baker Lab은 구조를 *디자인*한다."**

12장 · Boltz-1 (MIT 2024.6) — 오픈 AlphaFold 3

AlphaFold 3가 공개되었을 때, 코드와 가중치는 **상업 사용 금지**였다. 즉시 오픈 대안 두 개가 나왔다. 첫째가 MIT Jameel Clinic의 **Boltz-1**(2024년 6월).

- **오픈 가중치 · MIT 라이선스** — 상업 사용 자유

- AF3와 같은 **diffusion 아키텍처**

- 단백질 + 리간드 + 핵산 + 이온 복합체

- AF3에 매우 근접한 정확도 (PoseBusters, RNA target 등)

2025년에 **Boltz-2**가 발표되어 동역학과 affinity 예측까지 확장되었다.

Boltz-1 빠른 시작

pip install boltz

boltz predict input.yaml --use_msa_server

input.yaml 예

sequences:

- protein:

id: A

sequence: MKTAYIAKQRQISFVKSHFSRQ...

- ligand:

id: B

smiles: "CC(=O)Oc1ccccc1C(=O)O"

**언제 쓰는가?** 상업적 신약 개발, 학술 클러스터에서 대량 스크리닝, AF3 API 줄을 못 서겠을 때.

13장 · Chai-1 (Chai Discovery 2024)

샌프란시스코의 신생 스타트업 **Chai Discovery**가 2024년 9월 공개한 또 하나의 오픈 AF3 대안. 학술 사용은 무료, 상업 사용은 별도 라이선스다.

- AF3와 동등 또는 그 이상의 벤치마크 성적(자사 발표)

- 단백질 + 리간드 + 핵산

- 웹 UI(chaiagent.com)와 코드(GitHub)로 동시 공개

- **constrained prediction** 지원 — "이 잔기와 저 잔기가 가까이 있어야 한다"는 제약을 넣을 수 있다

2025년에 **Chai-2**가 발표되어 *de novo* 항체 설계 결과를 보였다.

from chai_lab.chai1 import run_inference

fasta = """

>protein|A

MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK

>ligand|B|smiles

CC(=O)Oc1ccccc1C(=O)O

"""

result = run_inference(

fasta_file="input.fasta",

output_dir="out/",

num_trunk_recycles=3,

num_diffn_timesteps=200,

)

**Boltz vs Chai 어느 쪽?** 학술이라면 둘 다 자유. 상업이라면 Boltz가 MIT 라이선스로 더 자유롭고, Chai는 사업 라이선스를 따로 협상한다. 정확도는 케이스마다 다르므로 *둘 다 돌려 보고 더 잘 맞는 쪽*을 쓰는 게 2026년 현장의 표준이다.

14장 · Foldseek (Martin Steinegger) — 구조 검색

서울대학교의 Martin Steinegger 교수(MMseqs2 저자)가 2022년 *Nature Biotechnology*에 발표한 **구조 기반 단백질 검색** 도구. BLAST가 시퀀스로 닮은 단백질을 찾는다면, Foldseek는 *3D 구조*로 닮은 단백질을 **수천 배 빠르게** 찾는다.

핵심 아이디어는 3D 구조를 **20자짜리 알파벳(3Di)**으로 토큰화하고, 그 위에서 MMseqs2 알고리즘으로 검색한다는 것이다. AlphaFold가 만든 2억 개 이상의 구조를 PC 한 대에서 검색할 수 있게 만들어 준 결정적 도구다.

foldseek easy-search query.pdb afdb result.m8 tmp \

--format-output "query,target,evalue,tmscore" \

--threads 16

활용:

- AlphaFold DB(2.3억 구조) 전체에서 비슷한 구조를 분 단위로 찾기

- "이 단백질과 닮은 구조가 어느 종에 있는가" — 진화 추정

- *De novo* 디자인 단백질의 신규성 검증

기억할 한 줄: **"BLAST는 시퀀스, Foldseek는 구조."**

15장 · Anvi'o + QIIME 2 — 마이크로바이옴

장내 미생물·해양 미생물·토양 미생물을 다루는 두 표준 도구.

QIIME 2

UC San Diego/노스애리조나의 Rob Knight Lab 계열이 만든 16S/ITS amplicon 분석 표준. 2018년 v2가 나오면서 plugin 기반으로 재설계되었다. DADA2(노이즈 제거), q2-feature-classifier(분류), q2-diversity(다양성 지표)가 핵심 플러그인이다.

qiime dada2 denoise-paired \

--i-demultiplexed-seqs demux.qza \

--p-trim-left-f 0 --p-trim-left-r 0 \

--p-trunc-len-f 240 --p-trunc-len-r 200 \

--o-table table.qza \

--o-representative-sequences rep-seqs.qza \

--o-denoising-stats stats.qza

Anvi'o

A. Murat Eren(전 Marine Biological Lab, 현재 Helmholtz Munich)이 만든 통합 메타지놈 플랫폼. 2015년부터 운영되어 왔고, 컨티그·메타지놈 어셈블리·바이닝·시각화를 한 도구에서 다 한다. 인터랙티브 시각화가 매우 강력하다.

anvi-gen-contigs-database -f contigs.fa -o contigs.db -n "MyMetagenome"

anvi-run-hmms -c contigs.db

anvi-run-ncbi-cogs -c contigs.db

anvi-profile -i sample.bam -c contigs.db --output-dir profile

**언제 쓰는가?** 16S amplicon(저비용·종 분류)이라면 QIIME 2, 메타지놈 shotgun(고비용·기능 유전자까지)이라면 Anvi'o.

16장 · Seurat + Scanpy — 단일세포 RNA-seq

10x Genomics Chromium이 단일세포를 시퀀싱의 일상으로 만들면서, downstream 분석의 양대 표준이 굳어졌다.

Seurat (R)

Rahul Satija Lab(NYGC)이 만든 R 표준. 2026년 현재 v5가 운영되고 v6가 베타다. 클러스터링·UMAP·integration·spatial까지 들어있다.

library(Seurat)

data <- Read10X(data.dir = "filtered_feature_bc_matrix")

obj <- CreateSeuratObject(counts = data, project = "pbmc")

obj <- NormalizeData(obj)

obj <- FindVariableFeatures(obj)

obj <- ScaleData(obj)

obj <- RunPCA(obj)

obj <- FindNeighbors(obj, dims = 1:20)

obj <- FindClusters(obj, resolution = 0.5)

obj <- RunUMAP(obj, dims = 1:20)

DimPlot(obj, label = TRUE)

Scanpy (Python)

Theis Lab(Helmholtz Munich)이 만든 Python 표준. AnnData 객체 위에 빌드되어 있고, scvi-tools·CellTypist·scArches 같은 ML 기반 도구가 모두 같은 객체를 공유한다.

adata = sc.read_10x_mtx("filtered_feature_bc_matrix", var_names="gene_symbols")

sc.pp.filter_cells(adata, min_genes=200)

sc.pp.filter_genes(adata, min_cells=3)

sc.pp.normalize_total(adata, target_sum=1e4)

sc.pp.log1p(adata)

sc.pp.highly_variable_genes(adata, n_top_genes=2000)

sc.pp.scale(adata, max_value=10)

sc.tl.pca(adata)

sc.pp.neighbors(adata, n_neighbors=10, n_pcs=20)

sc.tl.leiden(adata, resolution=0.5)

sc.tl.umap(adata)

sc.pl.umap(adata, color="leiden")

**Seurat vs Scanpy 어느 쪽?** R/통계 친화 연구실은 Seurat, Python/ML 친화 연구실은 Scanpy. 2026년의 ML 기반 후속 도구(scVI, scGPT, scFoundation 등)는 대부분 Scanpy/AnnData 생태계에 붙는다.

17장 · Illumina + 10x Genomics + Oxford Nanopore — 시퀀싱

데이터가 만들어지는 기계 자체. 2026년 기준 세 가지 큰 줄기.

Illumina

short-read 시퀀싱의 절대 강자. 2026년 현재 **NovaSeq X Plus**가 최대 16Tb/run, **MiSeq i100**이 중소 규모 표준이다. 출력은 **BCL**(원시 binary), 변환은 **bcl2fastq** 또는 **DRAGEN BCL Convert**(GPU 가속).

bcl2fastq 사용 예

bcl2fastq --runfolder-dir 250101_VH00123_456_AACDEFG \

--output-dir fastq_out --sample-sheet SampleSheet.csv \

-p 32

**Illumina BaseSpace**가 클라우드 매니지드 분석 서비스고, **DRAGEN Bio-IT** 플랫폼이 FPGA·GPU 가속 분석을 제공한다.

10x Genomics

**Chromium** 플랫폼으로 단일세포·공간 전사체 시장을 사실상 독점. **Cell Ranger**(scRNA-seq), **Space Ranger**(Visium), **Xenium Analyzer**(in situ)가 핵심 소프트웨어다.

cellranger count --id=sample1 \

--transcriptome=refdata-gex-GRCh38-2024-A \

--fastqs=/path/to/fastqs \

--sample=sample1 --localcores=16 --localmem=64

Oxford Nanopore

영국 옥스퍼드 스타트업. **MinION**(USB), **GridION**(데스크탑), **PromethION**(데이터센터)으로 long-read 시장의 양대 산맥(다른 하나는 PacBio Revio)이다. read 한 개가 수십 kb~수 Mb까지 길어서 구조 변이·메틸레이션·완성 게놈 어셈블리에 강점이다.

Dorado 베이스콜링 (Nanopore의 최신 추론)

dorado basecaller hac pod5/ > basecalls.bam

그 다음 minimap2로 정렬

minimap2 -ax map-ont reference.fa basecalls.fq | samtools sort -o aln.bam

18장 · AWS HealthOmics + Google Cloud Healthcare API + Microsoft Genomics

세 클라우드 모두 게놈 데이터 전용 매니지드 서비스를 운영한다. 2026년 현재 차이가 또렷하다.

AWS HealthOmics

2022년 발표(전 Amazon Omics), Nextflow·WDL·CWL 워크플로를 매니지드로 돌리는 서비스. **NVIDIA Parabricks**가 통합되어 GATK를 GPU로 18시간→30분으로 줄여 준다. 데이터 저장은 reference store/sequence store/variant store/annotation store로 분리되어 있다.

aws omics start-run \

--workflow-id 1234567 \

--role-arn arn:aws:iam::123456789012:role/HealthOmicsRole \

--name "rnaseq-run-2026-05" \

--parameters file://params.json

Google Cloud Healthcare API

FHIR/DICOM/HL7 같은 임상 데이터 표준과 게놈 데이터를 합쳐 다루는 데 강점이다. **Variant Transforms**, **Verily**(Alphabet 자회사)와의 연동이 있다. Google이 만든 **DeepVariant**(딥러닝 기반 변이 호출)도 이쪽에서 매니지드로 제공된다.

Microsoft Genomics

Azure 위에서 BWA + GATK 베스트프랙티스 파이프라인을 매니지드로 제공. Microsoft Genomics SDK가 .NET·Python 클라이언트를 제공한다. AI for Health 이니셔티브와 연계되어 있다.

**언제 어느 클라우드?** Nextflow + nf-core를 그대로 돌리고 싶다면 AWS HealthOmics, FHIR/DICOM 임상 데이터와 게놈을 같이 다루는 병원이라면 GCP Healthcare API, 기존 Azure 엔터프라이즈에 들어가 있다면 Microsoft Genomics.

19장 · 한국 — KAIST / 서울대 / KIST / 한국생명공학연구원

한국의 바이오인포매틱스 생태계도 빠르게 성장해 왔다.

- **KAIST 생명과학과/의과학대학원** — 이대엽 교수(유전체 분석), 김재경 교수(시스템 생물학), 조광현 교수(시스템 생물학) 등

- **서울대 생명과학부/협동과정 유전공학** — Martin Steinegger 교수(MMseqs2, Foldseek 저자, 2021년 서울대 부임), 박종환 교수, 김상욱 교수

- **포스텍 생명과학과** — 김상욱 교수, 송 교수

- **한국과학기술연구원(KIST)** — 천연물·신약 분야

- **한국생명공학연구원(KRIBB)** — 대전 대덕 단지 소재. 국가 바이오 R&D 중심.

- **국가생명연구자원정보센터(KOBIC)** — 한국의 국가 바이오 데이터 허브

- **한국유전체학회(KSBi)** — 매년 학술대회 개최

Martin Steinegger 교수의 서울대 부임은 한국 바이오인포매틱스 인프라에 큰 사건이었다. MMseqs2·Foldseek·ColabFold(2021) 같은 세계급 도구가 서울에서 유지되고 있다.

20장 · 일본 — RIKEN / NIG / DDBJ

일본의 인프라는 셋이 핵심이다.

- **理研(RIKEN)** — 와코·요코하마·고베의 종합 연구소. 단일세포·뇌과학·고성능 컴퓨팅. 슈퍼컴퓨터 **富岳**(Fugaku)이 여기 있다.

- **国立遺伝学研究所(NIG, 미시마)** — 한국의 한국생명공학연구원에 해당. 비교 유전체학·진화·메타지놈.

- **DDBJ (DNA Data Bank of Japan)** — INSDC(NCBI GenBank · EBI ENA · DDBJ 3대 핵심 데이터베이스)의 일본 축. 미시마에 있다.

- **東京大学医科学研究所(IMS-UT)** — 단일세포·면역

- **京都大学iPS研究所(CiRA)** — iPS 세포 분야

- **慶應義塾大学(慶應)** — IAB 鶴岡, 시스템 생물학

- **AMED · NEDO** — 국가 R&D 펀딩 기관

DDBJ는 NCBI·EBI와 매일 데이터를 미러링하고, 일본 내 게놈 데이터의 1차 보관소다. 한국의 KOBIC, EBI의 ENA와 동일 역할.

21장 · 누가 바이오인포매틱스를 배워야 하나 — 학생 / 연구자 / 신약 / 임상

같은 도구도 누가 쓰느냐에 따라 핵심이 다르다.

- **학부생·대학원생(생명과학)** — Galaxy로 시작 → BioPython/R 차차 → Nextflow는 마지막. 단백질 구조는 ColabFold(서버)로 충분.

- **포닥·연구원** — Nextflow nf-core 파이프라인 그대로 돌리기 → 자기 분석에 맞게 fork → Seqera Tower로 클러스터/클라우드 관리

- **신약 개발사(소형~중형)** — AlphaFold 3 / Boltz-1 / Chai-1로 도킹 → RFdiffusion + ProteinMPNN으로 디자인 → 실험 검증

- **신약 개발사(대형 제약)** — 자체 AlphaFold 변형(BioNeMo, Iambic 등) + GATK 임상 변이 분석 + AWS HealthOmics

- **임상 유전학자·병원** — GATK + DRAGEN + ClinVar/OMIM 연동. 보고서 발행이 핵심. 보안·HIPAA가 결정타.

- **공중보건 · 감염병** — Nextstrain, 메타지놈(Anvi'o/QIIME 2), Nanopore 휴대 시퀀싱

기억할 한 줄: **"Galaxy로 입문하고, Nextflow로 자동화하고, AlphaFold로 단백질을 보고, R/Python으로 의미를 뽑아낸다."**

에필로그 — 2026년의 바이오인포매틱스

2010년대까지의 바이오인포매틱스는 **데이터를 정렬하는 일**이었다. 2020년대 중반부터는 **데이터에서 의미를 뽑는 일**, 그리고 **새 단백질을 디자인하는 일**이 되었다. 노벨상이 둘 다 인정했다.

2026년 현재의 풍경을 한 줄로 정리하면 이렇다.

- **워크플로**는 Nextflow가 사실상 표준, Snakemake가 학술 대안

- **시퀀스 검색**은 BLAST → DIAMOND2 → MMseqs2 → Foldseek(구조)

- **RNA-seq**는 STAR/Salmon → DESeq2/edgeR

- **단백질 구조**는 AlphaFold 3 / Boltz-1 / Chai-1 / RoseTTAFold

- **단백질 디자인**은 RFdiffusion + ProteinMPNN (Baker Lab)

- **단일세포**는 Seurat / Scanpy

- **클라우드**는 AWS HealthOmics / GCP Healthcare / Microsoft Genomics

당신이 학생이라면 — Galaxy로 시작하고, Python·R 둘 다 익히고, Nextflow를 마지막에 배운다. **단백질이 정말 자기 손에서 접히는 시대**가 이미 와 있다.

참고 / References

- [Galaxy 공식](https://galaxyproject.org/)

- [BioPython 공식](https://biopython.org/)

- [Bioconductor 공식](https://www.bioconductor.org/)

- [Nextflow 공식 / Seqera Labs](https://www.nextflow.io/)

- [nf-core 파이프라인 카탈로그](https://nf-co.re/)

- [Snakemake 공식](https://snakemake.github.io/)

- [NCBI BLAST](https://blast.ncbi.nlm.nih.gov/)

- [DIAMOND2 (Buchfink) GitHub](https://github.com/bbuchfink/diamond)

- [MMseqs2 (Steinegger) GitHub](https://github.com/soedinglab/MMseqs2)

- [SAMtools](http://www.htslib.org/)

- [BCFtools](https://samtools.github.io/bcftools/bcftools.html)

- [GATK (Broad Institute)](https://gatk.broadinstitute.org/)

- [STAR aligner GitHub](https://github.com/alexdobin/STAR)

- [HISAT2 공식](https://daehwankimlab.github.io/hisat2/)

- [Salmon (Patro Lab)](https://salmon.readthedocs.io/)

- [Kallisto (Pachter Lab)](https://pachterlab.github.io/kallisto/)

- [DESeq2 — Love · Anders · Huber, Genome Biology 2014](https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0550-8)

- [edgeR — Robinson · McCarthy · Smyth, Bioinformatics 2010](https://academic.oup.com/bioinformatics/article/26/1/139/182458)

- [AlphaFold 3 — Abramson et al., Nature 2024](https://www.nature.com/articles/s41586-024-07487-w)

- [AlphaFold Server](https://alphafoldserver.com/)

- [ESM3 — Hayes et al., 2024 / EvolutionaryScale](https://www.evolutionaryscale.ai/)

- [RoseTTAFold — Baek et al., Science 2021](https://www.science.org/doi/10.1126/science.abj8754)

- [ProteinMPNN — Dauparas et al., Science 2022](https://www.science.org/doi/10.1126/science.add2187)

- [RFdiffusion — Watson et al., Nature 2023](https://www.nature.com/articles/s41586-023-06415-8)

- [Boltz-1 — MIT Jameel Clinic GitHub](https://github.com/jwohlwend/boltz)

- [Chai-1 — Chai Discovery](https://www.chaidiscovery.com/)

- [Foldseek — van Kempen et al., Nature Biotechnology 2024](https://www.nature.com/articles/s41587-023-01773-0)

- [Anvi'o 공식](https://anvio.org/)

- [QIIME 2 공식](https://qiime2.org/)

- [Seurat (Satija Lab)](https://satijalab.org/seurat/)

- [Scanpy (Theis Lab)](https://scanpy.readthedocs.io/)

- [10x Genomics Cell Ranger](https://www.10xgenomics.com/support/software/cell-ranger)

- [Oxford Nanopore Dorado](https://github.com/nanoporetech/dorado)

- [Illumina BaseSpace](https://basespace.illumina.com/)

- [AWS HealthOmics](https://aws.amazon.com/healthomics/)

- [Google Cloud Healthcare API](https://cloud.google.com/healthcare-api)

- [Microsoft Genomics](https://www.microsoft.com/en-us/genomics/)

- [한국생명공학연구원(KRIBB)](https://www.kribb.re.kr/)

- [국가생명연구자원정보센터(KOBIC)](https://www.kobic.re.kr/)

- [RIKEN](https://www.riken.jp/)

- [国立遺伝学研究所(NIG)](https://www.nig.ac.jp/)

- [DDBJ](https://www.ddbj.nig.ac.jp/)

- [2024 Nobel Prize in Chemistry — Baker · Hassabis · Jumper](https://www.nobelprize.org/prizes/chemistry/2024/summary/)

현재 단락 (1/446)

2024년 10월, 노벨 화학상이 세 명에게 돌아갔다. **David Baker**(워싱턴대학교, *컴퓨터로 단백질 디자인*), **Demis Hassabis**, **John J...

작성 글자: 0원문 글자: 22,308작성 단락: 0/446