필사 모드: バイオインフォマティクスツール 2026 — Galaxy / BioPython / Nextflow / Snakemake / AlphaFold 3 / ESM3 / RoseTTAFold / Boltz-1 / Chai-1 / Foldseek 完全ガイド
日本語プロローグ — 2024 年ノーベル化学賞が塗り替えた風景
2024 年 10 月、ノーベル化学賞は三人に贈られた。**David Baker**(ワシントン大学、*計算機によるタンパク質設計*)、**Demis Hassabis**、**John Jumper**(Google DeepMind、*AlphaFold 2 によるタンパク質構造予測*)。短い受賞理由の一行で、バイオインフォマティクスの風景そのものが動いた。
2010 年代の前半まで、タンパク質の構造を一つ解くのに X 線結晶解析で博士課程 3 年を費やすのは普通だった。2024 年 5 月に AlphaFold 3 が発表されたとき、同じ仕事がノート PC 一台と 30 分で終わるようになった。**タンパク質だけではない。** AlphaFold 3 はタンパク質 + 小分子リガンド + DNA + RNA + イオンの複合体を一度に予測する。ESM3 はタンパク質配列を GPT のように生成し、RoseTTAFold All-Atom は同じ仕事を Baker Lab のやり方でやる。**Boltz-1**(MIT、2024 年 6 月)と **Chai-1**(Chai Discovery、2024 年 9 月)は AlphaFold 3 と同等の精度を*オープン*ウェイトで公開した。
これらが一年以内に起きた。
本稿は 2026 年のバイオインフォ・スタックを — シーケンサーからデータが出る瞬間からタンパク質構造が描かれる瞬間まで — 一気に通読する。以下の 20 章超で扱うツールはこれだ。
- **Galaxy** — コードを書かない研究者の入口、Web UI の標準
- **BioPython・Bioconductor** — 言語ライブラリ二強(Python・R)
- **Nextflow・Snakemake** — ワークフロー標準
- **BLAST・DIAMOND2・MMseqs2** — 配列検索(遅い → 速い → さらに速い)
- **SAMtools・BCFtools・GATK** — BAM/VCF を扱う
- **STAR・HISAT2・Salmon・Kallisto・DESeq2・edgeR** — RNA-seq パイプライン
- **AlphaFold 3・ESM3・RoseTTAFold・ProteinMPNN・Boltz-1・Chai-1・Foldseek** — タンパク質
- **Anvi'o・QIIME 2** — マイクロバイオーム
- **Seurat・Scanpy** — シングルセル RNA-seq
- **Illumina・10x Genomics・Oxford Nanopore** — シーケンサー
- **AWS HealthOmics・GCP Healthcare API・Microsoft Genomics** — クラウド
1 章 · 2026 年バイオインフォ地図 — ワークフロー / アラインメント / タンパク質 / シングルセル
ツールを一つずつ見る前に、地図を描いておく。2026 年のスタックは大きく四層に分かれる。
[Sequencer] Illumina NovaSeq X / Nanopore PromethION / 10x Chromium
|
| BCL files (raw)
v
[Demultiplex / Convert] bcl2fastq, DRAGEN BCL Convert
|
| FASTQ files
v
[QC & Trim] FastQC, fastp, MultiQC
|
| Clean FASTQ
v
[Align / Quantify] BWA-MEM2, STAR, HISAT2, Salmon, Kallisto
|
| BAM / count matrix
v
[Variant Call / DE] GATK, BCFtools, DESeq2, edgeR
|
| VCF / DE table
v
[Downstream] Seurat, Scanpy, Anvi'o, QIIME 2
|
v
[Protein structure] AlphaFold 3, ESM3, Boltz-1, Chai-1, RoseTTAFold
このスタック全体を束ねるのが**ワークフローエンジン**だ。Nextflow と Snakemake が二強で、その上に Galaxy が Web UI を載せる。2026 年の事実上の組み合わせはこうだ。
- **新しいラボを立ち上げるなら**: Nextflow + nf-core + Seqera Tower、または Snakemake + Snakemake-Wrappers
- **タンパク質構造が必要なら**: ColabFold(Web)→ AlphaFold 3(精密)→ Boltz-1 / Chai-1(オープン代替)
- **シングルセルなら**: 10x Cell Ranger → Scanpy(Python)または Seurat(R)
- **マイクロバイオームなら**: QIIME 2(16S)または Anvi'o(メタゲノム)
- **クラウドなら**: AWS HealthOmics(NVIDIA Parabricks 連携)または GCP Healthcare API
一行で覚えるなら: **「ファイルは FASTQ から始まり BAM・VCF に整理され、意味は R/Python から出てくる」**。
2 章 · Galaxy — Web プラットフォーム標準
Galaxy はペンシルベニア州立大学とジョンズ・ホプキンスが始めたオープンソースのバイオインフォマティクス Web プラットフォームだ。2005 年から運用されており、2026 年現在 **usegalaxy.org**(米国)、**usegalaxy.eu**(独フライブルク)、**usegalaxy.org.au**(豪)、**usegalaxy.fr**(仏)などのパブリックインスタンスが並行運用されている。誰でも無料で登録し、BLAST・STAR・DESeq2・Cell Ranger をクリックで回せる。
核心は三つだ。
1. **History** — ユーザーごとの作業空間。アップロード、実行ツール、出力が時系列で蓄積される。
2. **Tool** — 一つの解析ステップ(FastQC、STAR、DESeq2 など)。8,000 以上のツールが登録されている。
3. **Workflow** — Tool を繋いだパイプライン。GUI でノードをドラッグして繋ぐ。
Galaxy の強みは**再現性**だ。History 一つを共有すれば、他の研究者が同じデータ・同じツールバージョン・同じパラメータで同一に再実行できる。2025 年から Galaxy ToolShed は Bioconda・BioContainers と直接連携し、ツールインストールがコンテナ単位で自動化される。
Galaxy CLI(BioBlend)— Python から Galaxy を制御
pip install bioblend
python -c "
from bioblend.galaxy import GalaxyInstance
gi = GalaxyInstance('https://usegalaxy.org', key='YOUR_API_KEY')
history = gi.histories.create_history(name='RNA-seq 2026')
gi.tools.upload_file('reads.fastq.gz', history['id'])
"
**いつ使うか?** コードを書きたくない、教育・講義・再現可能な実験共有が目的のとき。**いつ使わないか?** CPU 数千コアを 24 時間回す産業級パイプラインのとき。その場合はクラウド上で Nextflow を立ち上げる。
3 章 · BioPython + Bioconductor — 言語ライブラリ
バイオインフォは長らく二つの言語に分かれている。**Python**(データ整形・機械学習)と **R**(統計・可視化)。それぞれの標準ライブラリが BioPython と Bioconductor だ。
BioPython
1999 年に始まった Python の標準バイオライブラリ。FASTA・FASTQ・GenBank・UniProt のようなファイル形式のパース、NCBI Entrez アクセス、配列アラインメント、PDB 構造の扱いまで一つのライブラリに入っている。
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
1. FASTA 読み込み
for record in SeqIO.parse("genome.fasta", "fasta"):
print(record.id, len(record.seq))
2. 配列操作
dna = Seq("ATGAAGCTGGAATTC")
print(dna.complement()) # TACTTCGACCTTAAG
print(dna.reverse_complement()) # GAATTCCAGCTTCAT
print(dna.translate()) # MKLEF (タンパク質へ)
3. NCBI Entrez から GenBank 取得
Entrez.email = "you@example.com"
handle = Entrez.efetch(db="nucleotide", id="NC_000913.3",
rettype="gb", retmode="text")
record = SeqIO.read(handle, "genbank")
Bioconductor
R 生態系のバイオパッケージ集。2002 年から運用されており、2026 年現在 **2,300 以上**のパッケージが登録されている。DESeq2・edgeR・limma・Seurat・ChIPseeker などはすべてここにある。四半期ごとのリリースで、すべてのパッケージが同じ R バージョンに対してビルド・テストされる。
Bioconductor インストール
if (!require("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("DESeq2")
library(DESeq2)
count matrix と sample info から DE 解析オブジェクト生成
dds <- DESeqDataSetFromMatrix(countData = counts,
colData = coldata,
design = ~ condition)
dds <- DESeq(dds)
res <- results(dds)
**Python と R のどちら?** データ前処理・機械学習・深層学習(AlphaFold 等)は Python が自然で、統計モデリング・プロット・DE 解析は R が自然だ。2026 年現実のラボは**両方**を使う。
4 章 · Nextflow (DSL2) — ワークフロー標準
Nextflow はイタリア出身の Paolo Di Tommaso が 2013 年にバルセロナの CRG で始めたワークフロー言語だ。2018 年に Seqera Labs としてスピンアウトし、2026 年現在**事実上のワークフロー標準**となっている。
核心思想は**データフロー + チャンネル**だ。すべての process(プロセス)は入力チャンネルと出力チャンネルを持ち、データはチャンネルを流れる。同じデータで 100 個のサンプルを並列処理するのが自然だ。
// DSL2 — RNA-seq の最初の二段
nextflow.enable.dsl=2
process FASTQC {
container 'biocontainers/fastqc:v0.11.9_cv8'
input:
tuple val(sample_id), path(reads)
output:
path "*_fastqc.zip"
script:
"""
fastqc ${reads}
"""
}
process STAR_ALIGN {
container 'quay.io/biocontainers/star:2.7.11a--h0033a41_0'
cpus 16
memory '64 GB'
input:
tuple val(sample_id), path(reads)
path index
output:
tuple val(sample_id), path("*.bam")
script:
"""
STAR --runThreadN ${task.cpus} \\
--genomeDir ${index} \\
--readFilesIn ${reads} \\
--readFilesCommand zcat \\
--outSAMtype BAM SortedByCoordinate
"""
}
workflow {
samples = Channel.fromFilePairs('data/*_R{1,2}.fastq.gz')
FASTQC(samples)
STAR_ALIGN(samples, file('star_index'))
}
Nextflow の決定的な強みは**実行環境からの独立**だ。同じワークフローがローカル・SLURM・AWS Batch・Google Cloud Batch・Azure Batch・Kubernetes でそのまま動く。
**nf-core** は Nextflow コミュニティが整備した標準パイプライン集だ。2026 年現在 100 以上のパイプラインが nf-core/rnaseq、nf-core/sarek、nf-core/scrnaseq、nf-core/proteinfold といった名前で公開されている。新規 RNA-seq 解析の 9 割は nf-core/rnaseq で完了する。
**Seqera Tower (Seqera Platform)** は Nextflow の商用管理ダッシュボードだ。実行ログ、コスト分析、データカタログを Web UI で見る。学術ライセンスは無料、企業ライセンスは有料。
5 章 · Snakemake — Python の選択肢
Snakemake はドイツのボン大学で始まったワークフロー言語で、**Python 構文 + GNU Make の依存関係追跡**を統合した道具だ。Johannes Köster が 2012 年に最初に公開し、2026 年現在 v8 シリーズが運用されている。
Nextflow がチャンネル型データフローモデルなら、Snakemake は **rule + input/output ファイル**モデルだ。「このファイルを作るには、どのルールをどの入力で回せばよいか」を逆推論する。
Snakefile 例
SAMPLES = ["s1", "s2", "s3"]
rule all:
input:
expand("results/{sample}.sorted.bam", sample=SAMPLES)
rule fastqc:
input:
"data/{sample}.fastq.gz"
output:
"qc/{sample}_fastqc.zip"
conda:
"envs/fastqc.yaml"
shell:
"fastqc {input} -o qc/"
rule align:
input:
reads="data/{sample}.fastq.gz",
index="reference/index"
output:
"results/{sample}.sorted.bam"
threads: 8
shell:
"bwa-mem2 mem -t {threads} {input.index} {input.reads} | "
"samtools sort -@ {threads} -o {output}"
**Nextflow と Snakemake のどちら?**
- **Nextflow** — 産業・臨床・大規模クラウド、nf-core パイプラインをそのまま使いたいとき
- **Snakemake** — 学術ラボ、Python 親和、小〜中規模解析、「自分のワークフローを一から書く」とき
両方とも Conda・コンテナ・SLURM をサポートするので、決定打はチームの言語親和度だ。
6 章 · BLAST + DIAMOND2 + MMseqs2 — 配列検索
「この DNA・タンパク質配列は何に似ているか」に答えるツール。同じ仕事を三つのツールが異なる速度・精度でこなす。
BLAST (Basic Local Alignment Search Tool)
NCBI が 1990 年に作った元祖。精度は最高だがタンパク質数億のデータベースを丸ごと検索すると数日かかる。
BLAST+ の使い方
makeblastdb -in proteins.fasta -dbtype prot -out protdb
blastp -query query.fasta -db protdb \
-outfmt 6 -num_threads 16 -evalue 1e-5 \
-out hits.tsv
DIAMOND2
Benjamin Buchfink が 2014 年に公開した BLAST より 100〜10,000 倍速い代替。2024 年に DIAMOND2 が出て、`--ultra-sensitive` モードで **BLAST 水準の sensitivity** に追いついた。メタゲノムのように数億 read を NCBI nr のような巨大 DB に張り付けるとき事実上必須。
diamond makedb --in proteins.fasta -d protdb
diamond blastp -q query.fasta -d protdb -o hits.tsv \
--threads 16 --ultra-sensitive --evalue 1e-5
MMseqs2
Martin Steinegger 教授(ソウル大学、元 Max Planck)が 2017 年に公開。**クラスタリングまで一気にやる**点が強み。UniRef50、UniRef90 のようなクラスタ DB はすべて MMseqs2 で作られる。ColabFold の MSA 工程は MMseqs2 だ。
タンパク質クラスタリング — 50% identity でグルーピング
mmseqs createdb proteins.fasta seqDB
mmseqs cluster seqDB clusterDB tmp --min-seq-id 0.5 -c 0.8
mmseqs createtsv seqDB seqDB clusterDB clusters.tsv
一行で: **「精度なら BLAST、速さなら DIAMOND2、クラスタなら MMseqs2」**。
7 章 · SAMtools + BCFtools + GATK — BAM・VCF の標準ツール
シーケンシングデータを整列すると **BAM**(Binary Alignment Map)ファイル、変異を呼び出すと **VCF**(Variant Call Format)ファイルが出る。この二つのフォーマットを扱う標準ツールが三つだ。
SAMtools
Heng Li(Broad Institute、現 DFCI/ハーバード)が作った BAM を扱う万能ナイフ。ソート・インデックス・統計・view・サブセット・markdup がすべて入っている。
よくある BAM 後処理
samtools sort -@ 16 input.sam -o sorted.bam
samtools index sorted.bam
samtools flagstat sorted.bam
samtools view -b -q 30 sorted.bam chr1:1000-2000 > region.bam
samtools markdup sorted.bam dedup.bam
BCFtools
同じ Heng Li が作った VCF を扱うナイフ。フィルタリング・マージ・正規化・サブセットが入っている。
bcftools view -f PASS -O z -o pass.vcf.gz input.vcf.gz
bcftools norm -f reference.fa pass.vcf.gz -O z -o norm.vcf.gz
bcftools merge sample1.vcf.gz sample2.vcf.gz -O z -o cohort.vcf.gz
bcftools stats cohort.vcf.gz > stats.txt
GATK (Genome Analysis Toolkit)
Broad Institute が作った変異呼び出しの事実上の標準。ヒト生殖系列変異を呼ぶなら 9 割は GATK の **HaplotypeCaller + GenomicsDBImport + GenotypeGVCFs** パイプラインを通る。
サンプル別 GVCF を HaplotypeCaller で
gatk HaplotypeCaller \
-R reference.fa -I dedup.bam \
-O sample.g.vcf.gz -ERC GVCF
結合 (GenomicsDB)
gatk GenomicsDBImport \
--genomicsdb-workspace-path my_database \
-L chr1 -V s1.g.vcf.gz -V s2.g.vcf.gz
最終変異呼び出し
gatk GenotypeGVCFs \
-R reference.fa -V gendb://my_database -O cohort.vcf.gz
2026 年現在 GATK 5 が運用されており、NVIDIA の **Parabricks** が GATK を GPU で回し、18 時間の処理を 30 分に縮める。AWS HealthOmics が Parabricks をマネージドサービスとして提供している。
8 章 · STAR + HISAT2 + Salmon + Kallisto + DESeq2 + edgeR — RNA-seq フルスタック
RNA-seq はバイオインフォで最も一般的な実験だ。細胞ごとにどの遺伝子がどれくらい発現しているか — それだけで癌と正常、薬物処理前後、時系列変化のすべてが見える。
アラインメント vs 擬似アラインメント
[FASTQ] -- アラインメント -------> [BAM] --- count ----> [count matrix]
| STAR / HISAT2 htseq / featureCounts
|
+----- 擬似アラインメント ---------> [count / TPM matrix]
Salmon / Kallisto
- **STAR** — Cold Spring Harbor の Alexander Dobin が作ったスプライス対応アライナー。インデックスが大きく(〜30GB RAM)速く正確。ENCODE・GTEx 標準。
- **HISAT2** — Johns Hopkins の Daehwan Kim が作った軽量代替。メモリ 〜8GB で STAR 水準の結果。
- **Salmon・Kallisto** — アラインメントを飛ばして read がどの transcript から来たかを統計的に推定する。10 倍以上速く、ディスクも節約。Salmon は Rob Patro(メリーランド)、Kallisto は Lior Pachter(Caltech)。
Salmon の例
salmon index -t transcripts.fa -i salmon_index -k 31
salmon quant -i salmon_index -l A \
-1 reads_1.fq.gz -2 reads_2.fq.gz \
-p 16 --validateMappings -o quant_out
DE 解析 — DESeq2 vs edgeR
count matrix が出たら**差次的発現(differential expression)**を行う。R Bioconductor の二強が DESeq2 と edgeR だ。
- **DESeq2** — Michael Love(UNC)、Wolfgang Huber(EMBL)。負の二項分布 + shrinkage estimator。最も引用される DE ツール。
- **edgeR** — Gordon Smyth(WEHI、豪)。負の二項分布 + empirical Bayes。limma と同じグループ。
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData = counts,
colData = coldata,
design = ~ condition)
dds <- DESeq(dds)
res <- results(dds, contrast = c("condition", "treated", "control"))
summary(res)
plotMA(res, ylim = c(-2, 2))
一行で: **「アラインメントは STAR、速い定量は Salmon、DE は DESeq2」**。
9 章 · AlphaFold 3 (2024 年 5 月、DeepMind) — タンパク質 + リガンド + 核酸
2020 年に AlphaFold 2 が CASP14 でタンパク質構造予測問題を事実上解いた。2024 年 5 月、**AlphaFold 3** が *Nature* に発表され、もう一歩先へ進んだ — **タンパク質 + 小分子リガンド + DNA + RNA + イオン + 修飾**の*複合体*を一度に予測する。
主な違い:
1. **拡散ベースの構造生成** — AF2 の Evoformer + Structure Module ではなく、AF3 は**拡散モデル**で座標を段階的にノイズ除去する。
2. **任意の分子** — タンパク質配列だけではなく、SMILES でリガンドを、FASTA で核酸を一緒に入れる。
3. **AlphaFold Server (alphafoldserver.com)** — 学術用の無料 Web サービス。ウェイトは学術非営利ライセンスで 2024 年 11 月に公開された。
入力
タンパク質 A 配列 (FASTA)
タンパク質 B 配列 (FASTA)
DNA 二本鎖
リガンド (SMILES: CC(=O)Oc1ccccc1C(=O)O)
出力
PDB スタイル mmCIF
pLDDT (per-residue confidence)
PAE (pairwise alignment error)
ipTM (interface confidence)
**いつ使うか?**
- 薬物 - 標的ドッキングを早く見たいとき
- タンパク質複合体のインターフェースを知りたいとき
- 未知のリガンド結合部位の候補を探したいとき
**限界**: AF3 は静的な構造一枚を返すだけ。動力学・構造アンサンブルはやはり MD(分子動力学)シミュレーションが必要。
10 章 · ESM3 (Meta EvolutionaryScale)
Meta からスピンアウトした **EvolutionaryScale**(2024 年 6 月設立)が同月に公開したタンパク質言語モデル。ESM2 が BERT なら ESM3 は **GPT** — タンパク質配列を生成的に作る。
三トラックを同時にモデリングする:
1. **Sequence** — アミノ酸配列
2. **Structure** — 3D 座標(トークン化された形)
3. **Function** — 機能アノテーション(InterPro、GO)
ESM3-open(1.4B パラメータ)は非営利/研究ライセンスでウェイト公開。ESM3-medium/large は EvolutionaryScale API で提供。
ESM3 使い方
from esm.models.esm3 import ESM3
from esm.sdk.api import ESMProtein, GenerationConfig
model = ESM3.from_pretrained("esm3-open").to("cuda")
配列 -> 構造
protein = ESMProtein(sequence="MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK")
protein = model.generate(protein, GenerationConfig(track="structure",
num_steps=8,
temperature=0.7))
print(protein.coordinates.shape)
**いつ使うか?** *生成*が必要なとき — 既存タンパク質の変異体、結合部位を持つ新しいタンパク質、特定の機能アノテーションを満たす配列を*作りたい*とき。
11 章 · RoseTTAFold + ProteinMPNN (Baker Lab — 2024 年ノーベル化学賞!)
ワシントン大学の **David Baker** が 2024 年のノーベル化学賞を受賞した理由は一つだけではない。彼のラボが作った道具が、*計算機でタンパク質を設計すること*を日常にしたからだ。
RoseTTAFold
2021 年に AF2 とほぼ同時に *Science* に発表されたタンパク質構造予測モデル。2023 年に **RoseTTAFold All-Atom** へと拡張され、AF3 のようにタンパク質 + リガンド + 核酸を扱う。RFdiffusion・RFantibody・RF2NA といった後続作がある。
ProteinMPNN
**逆フォールディング(inverse folding)**モデル。すなわち「この 3D バックボーン座標を満たすアミノ酸配列を再設計せよ」を解く。2022 年に *Science* に掲載され、しばしば元配列より*よく折りたたまれる*配列を作り出す。
ProteinMPNN 推論(概念)
1. バックボーン座標(N、CA、C)を入力
2. 各残基のアミノ酸分布を出力
3. サンプリングで配列取得
python protein_mpnn_run.py \
--pdb_path designed_backbone.pdb \
--pdb_path_chains A \
--out_folder ./output \
--num_seq_per_target 8 \
--sampling_temp "0.1"
RFdiffusion
2023 年 12 月に *Nature* で発表。**タンパク質バックボーンを一から生成**する。「特定の部位に結合するタンパク質を作れ」のようなモチーフ条件も受け入れる。Baker Lab はこの道具で新型コロナ ACE2 ミミック・インフルエンザ結合剤・ヘビ毒中和タンパク質を新規に設計し、その多くが*実際に折りたたまれた*。
一行で: **「AlphaFold が構造を予測するなら、Baker Lab は構造を*設計*する」**。
12 章 · Boltz-1 (MIT、2024 年 6 月) — オープン AlphaFold 3
AlphaFold 3 が公開されたとき、コードとウェイトは**商用利用禁止**だった。即座にオープンな代替が二つ出た。最初が MIT Jameel Clinic の **Boltz-1**(2024 年 6 月)。
- **オープンウェイト・MIT ライセンス** — 商用利用自由
- AF3 と同じ**拡散アーキテクチャ**
- タンパク質 + リガンド + 核酸 + イオン複合体
- AF3 に非常に近い精度(PoseBusters、RNA target など)
2025 年に **Boltz-2** が発表され、動力学と affinity 予測まで拡張された。
Boltz-1 クイックスタート
pip install boltz
boltz predict input.yaml --use_msa_server
input.yaml の例
sequences:
- protein:
id: A
sequence: MKTAYIAKQRQISFVKSHFSRQ...
- ligand:
id: B
smiles: "CC(=O)Oc1ccccc1C(=O)O"
**いつ使うか?** 商用創薬、学術クラスタでの大規模スクリーニング、AF3 サーバの列に並べないとき。
13 章 · Chai-1 (Chai Discovery、2024 年)
サンフランシスコの新興スタートアップ **Chai Discovery** が 2024 年 9 月に公開したもう一つのオープン AF3 代替。学術利用は無料、商用利用は別途ライセンス。
- AF3 と同等以上のベンチマーク成績(自社発表)
- タンパク質 + リガンド + 核酸
- Web UI(chaiagent.com)とコード(GitHub)を同時公開
- **制約付き予測**をサポート — 「この残基とあの残基が近いはず」のような制約を入れられる
2025 年に **Chai-2** が発表され、*de novo* 抗体設計の結果を示した。
from chai_lab.chai1 import run_inference
fasta = """
>protein|A
MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEK
>ligand|B|smiles
CC(=O)Oc1ccccc1C(=O)O
"""
result = run_inference(
fasta_file="input.fasta",
output_dir="out/",
num_trunk_recycles=3,
num_diffn_timesteps=200,
)
**Boltz と Chai のどちら?** 学術ならどちらも自由。商用なら Boltz が MIT ライセンスでより自由で、Chai はビジネスライセンスを別途交渉する。精度はケース次第なので、*両方回して*より合う方を使うのが 2026 年の現場標準だ。
14 章 · Foldseek (Martin Steinegger) — 構造検索
ソウル大学の Martin Steinegger 教授(MMseqs2 の著者)が 2022 年に *Nature Biotechnology* で発表した**構造ベースのタンパク質検索**ツール。BLAST が配列で似たタンパク質を探すなら、Foldseek は *3D 構造*で似たタンパク質を**数千倍速く**探す。
核心アイデアは、3D 構造を **20 文字のアルファベット(3Di)**にトークン化し、その上で MMseqs2 アルゴリズムで検索することだ。AlphaFold が作った 2 億超の構造を PC 一台で検索可能にした決定的な道具だ。
foldseek easy-search query.pdb afdb result.m8 tmp \
--format-output "query,target,evalue,tmscore" \
--threads 16
活用:
- AlphaFold DB(2.3 億構造)全体から類似構造を分単位で探す
- 「このタンパク質に似た構造はどの種にいるか」 — 進化推定
- *De novo* 設計タンパク質の新規性検証
一行で: **「BLAST は配列、Foldseek は構造」**。
15 章 · Anvi'o + QIIME 2 — マイクロバイオーム
腸内・海洋・土壌の微生物を扱う二つの標準ツール。
QIIME 2
UC San Diego/北アリゾナの Rob Knight Lab 系列が作った 16S/ITS amplicon 解析標準。2018 年に v2 が出てプラグインベースに再設計された。DADA2(ノイズ除去)、q2-feature-classifier(分類)、q2-diversity(多様性指標)が核心プラグインだ。
qiime dada2 denoise-paired \
--i-demultiplexed-seqs demux.qza \
--p-trim-left-f 0 --p-trim-left-r 0 \
--p-trunc-len-f 240 --p-trunc-len-r 200 \
--o-table table.qza \
--o-representative-sequences rep-seqs.qza \
--o-denoising-stats stats.qza
Anvi'o
A. Murat Eren(元 Marine Biological Lab、現 Helmholtz Munich)が作った統合メタゲノムプラットフォーム。2015 年から運用されており、コンティグ・メタゲノム組み立て・ビニング・可視化を一つのツールで扱う。インタラクティブ可視化が非常に強力。
anvi-gen-contigs-database -f contigs.fa -o contigs.db -n "MyMetagenome"
anvi-run-hmms -c contigs.db
anvi-run-ncbi-cogs -c contigs.db
anvi-profile -i sample.bam -c contigs.db --output-dir profile
**いつ使うか?** 16S amplicon(低コスト・分類)なら QIIME 2、メタゲノム shotgun(高コスト・機能遺伝子まで)なら Anvi'o。
16 章 · Seurat + Scanpy — シングルセル RNA-seq
10x Genomics Chromium がシングルセルシーケンシングを日常にしたことで、ダウンストリーム解析の二大標準が固まった。
Seurat (R)
Rahul Satija Lab(NYGC)が作った R の標準。2026 年現在 v5 が運用中、v6 がベータ。クラスタリング・UMAP・integration・spatial までが入っている。
library(Seurat)
data <- Read10X(data.dir = "filtered_feature_bc_matrix")
obj <- CreateSeuratObject(counts = data, project = "pbmc")
obj <- NormalizeData(obj)
obj <- FindVariableFeatures(obj)
obj <- ScaleData(obj)
obj <- RunPCA(obj)
obj <- FindNeighbors(obj, dims = 1:20)
obj <- FindClusters(obj, resolution = 0.5)
obj <- RunUMAP(obj, dims = 1:20)
DimPlot(obj, label = TRUE)
Scanpy (Python)
Theis Lab(Helmholtz Munich)が作った Python の標準。AnnData オブジェクトの上に構築されており、scvi-tools・CellTypist・scArches のような ML ベース道具がすべて同じオブジェクトを共有する。
adata = sc.read_10x_mtx("filtered_feature_bc_matrix", var_names="gene_symbols")
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata)
sc.pp.neighbors(adata, n_neighbors=10, n_pcs=20)
sc.tl.leiden(adata, resolution=0.5)
sc.tl.umap(adata)
sc.pl.umap(adata, color="leiden")
**Seurat と Scanpy のどちら?** R/統計親和のラボは Seurat、Python/ML 親和のラボは Scanpy。2026 年の ML 後続道具(scVI、scGPT、scFoundation など)は大部分が Scanpy/AnnData 生態系に付く。
17 章 · Illumina + 10x Genomics + Oxford Nanopore — シーケンサー
データを作る機械そのもの。2026 年基準で三つの大きな系統。
Illumina
short-read シーケンシングの絶対王者。2026 年現在 **NovaSeq X Plus** が最大 16Tb/run、**MiSeq i100** が中小規模の標準だ。出力は **BCL**(raw binary)で、変換は **bcl2fastq** または **DRAGEN BCL Convert**(GPU 加速)。
bcl2fastq の使用例
bcl2fastq --runfolder-dir 250101_VH00123_456_AACDEFG \
--output-dir fastq_out --sample-sheet SampleSheet.csv \
-p 32
**Illumina BaseSpace** がクラウドマネージド解析サービスで、**DRAGEN Bio-IT** プラットフォームが FPGA・GPU 加速の解析を提供する。
10x Genomics
**Chromium** プラットフォームでシングルセル・空間トランスクリプトーム市場を事実上独占。**Cell Ranger**(scRNA-seq)、**Space Ranger**(Visium)、**Xenium Analyzer**(in situ)が核心ソフトだ。
cellranger count --id=sample1 \
--transcriptome=refdata-gex-GRCh38-2024-A \
--fastqs=/path/to/fastqs \
--sample=sample1 --localcores=16 --localmem=64
Oxford Nanopore
英国オックスフォード発スタートアップ。**MinION**(USB)、**GridION**(デスクトップ)、**PromethION**(データセンター)で long-read 市場の二大強者(もう一つは PacBio Revio)。read 一つが数十 kb〜数 Mb 長く、構造変異・メチル化・完成ゲノムアセンブリに強い。
Dorado ベースコール(Nanopore の最新推論)
dorado basecaller hac pod5/ > basecalls.bam
次に minimap2 でアラインメント
minimap2 -ax map-ont reference.fa basecalls.fq | samtools sort -o aln.bam
18 章 · AWS HealthOmics + Google Cloud Healthcare API + Microsoft Genomics
三大クラウドはすべてゲノムデータ専用のマネージドサービスを運用している。2026 年現在、違いは明確だ。
AWS HealthOmics
2022 年に発表(旧 Amazon Omics)。Nextflow・WDL・CWL ワークフローをマネージドで回すサービス。**NVIDIA Parabricks** が統合されており、GATK を GPU で 18 時間 → 30 分に縮めてくれる。データ保管は reference store/sequence store/variant store/annotation store に分離されている。
aws omics start-run \
--workflow-id 1234567 \
--role-arn arn:aws:iam::123456789012:role/HealthOmicsRole \
--name "rnaseq-run-2026-05" \
--parameters file://params.json
Google Cloud Healthcare API
FHIR/DICOM/HL7 のような臨床データ標準とゲノムデータを統合的に扱える点が強み。**Variant Transforms**、**Verily**(Alphabet 子会社)との連携がある。Google が作った **DeepVariant**(深層学習ベースの変異呼び出し)もここでマネージドに提供される。
Microsoft Genomics
Azure 上で BWA + GATK ベストプラクティスパイプラインをマネージドで提供する。Microsoft Genomics SDK が .NET・Python クライアントを提供。AI for Health イニシアチブと連携している。
**いつどのクラウド?** Nextflow + nf-core をそのまま回したいなら AWS HealthOmics、FHIR/DICOM の臨床データとゲノムを一緒に扱う病院なら GCP Healthcare API、既存 Azure エンタープライズに乗っているなら Microsoft Genomics。
19 章 · 韓国 — KAIST / ソウル大 / KIST / 韓国生命工学研究院
韓国のバイオインフォ生態系も急速に成長してきた。
- **KAIST 生命科学科 / 医科学大学院** — 李大燁教授(ゲノム解析)、金在京教授(システム生物学)、趙光鉉教授(システム生物学)など
- **ソウル大 生命科学部 / 遺伝工学協同課程** — Martin Steinegger 教授(MMseqs2・Foldseek の著者、2021 年ソウル大着任)、朴鍾煥教授、金相旭教授
- **POSTECH 生命科学** — 金相旭教授、宋研究室
- **韓国科学技術研究院 (KIST)** — 天然物・新薬分野
- **韓国生命工学研究院 (KRIBB)** — 大田大徳団地所在。国家バイオ R&D の中心。
- **国家生命研究資源情報センター (KOBIC)** — 韓国の国家バイオデータハブ
- **韓国遺伝体学会 (KSBi)** — 毎年学術大会開催
Martin Steinegger 教授のソウル大着任は韓国バイオインフォインフラの大事件だった。MMseqs2・Foldseek・ColabFold(2021)のような世界級の道具がソウルから維持されている。
20 章 · 日本 — RIKEN / NIG / DDBJ
日本のインフラは三つが核心だ。
- **理研 (RIKEN)** — 和光・横浜・神戸の総合研究所。シングルセル・脳科学・高性能コンピューティング。スーパーコンピュータ**富岳**がここにある。
- **国立遺伝学研究所 (NIG、三島)** — 韓国の韓国生命工学研究院に相当。比較ゲノム学・進化・メタゲノム。
- **DDBJ (DNA Data Bank of Japan)** — INSDC(NCBI GenBank・EBI ENA・DDBJ 三大コアデータベース)の日本軸。三島にある。
- **東京大学医科学研究所 (IMS-UT)** — シングルセル・免疫
- **京都大学 iPS 細胞研究所 (CiRA)** — iPS 細胞分野
- **慶應義塾大学** — IAB 鶴岡、システム生物学
- **AMED・NEDO** — 国家 R&D 資金機関
DDBJ は NCBI・EBI と毎日データをミラーリングし、日本国内ゲノムデータの一次保管所だ。韓国の KOBIC、EBI の ENA と同じ役割。
21 章 · 誰がバイオインフォを学ぶべきか — 学生 / 研究者 / 創薬 / 臨床
同じ道具も誰が使うかで核心が異なる。
- **学部生・大学院生(生命科学)** — Galaxy で始めて BioPython/R へ徐々に。Nextflow は最後。タンパク質構造は ColabFold(Web)で十分。
- **ポスドク・スタッフサイエンティスト** — Nextflow nf-core パイプラインをそのまま回す → 自分の解析に合わせて fork → Seqera Tower でクラスタ/クラウドを管理
- **中小バイオテック** — AlphaFold 3 / Boltz-1 / Chai-1 でドッキング → RFdiffusion + ProteinMPNN で設計 → 実験検証
- **大手製薬** — 自社 AlphaFold 派生(BioNeMo、Iambic 等)+ GATK の臨床変異解析 + AWS HealthOmics
- **臨床遺伝学者・病院** — GATK + DRAGEN + ClinVar/OMIM 連携。レポート発行が核心。セキュリティ・HIPAA が決定打。
- **公衆衛生・感染症** — Nextstrain、メタゲノム(Anvi'o/QIIME 2)、Nanopore 携帯シーケンシング
一行で覚えるなら: **「Galaxy で入門し、Nextflow で自動化し、AlphaFold でタンパク質を見て、R/Python で意味を取り出す」**。
エピローグ — 2026 年のバイオインフォマティクス
2010 年代までのバイオインフォは**データを整列する仕事**だった。2020 年代半ばからは**データから意味を抽出する仕事**、そして**新しいタンパク質を設計する仕事**になった。ノーベル賞が両方を認めた。
2026 年現在の風景を一行で:
- **ワークフロー**は Nextflow が事実上標準、Snakemake が学術代替
- **配列検索**は BLAST → DIAMOND2 → MMseqs2 → Foldseek(構造)
- **RNA-seq** は STAR/Salmon → DESeq2/edgeR
- **タンパク質構造**は AlphaFold 3 / Boltz-1 / Chai-1 / RoseTTAFold
- **タンパク質設計**は RFdiffusion + ProteinMPNN(Baker Lab)
- **シングルセル**は Seurat / Scanpy
- **クラウド**は AWS HealthOmics / GCP Healthcare / Microsoft Genomics
あなたが学生なら — Galaxy で始め、Python・R 両方を身につけ、Nextflow は最後に学ぼう。**タンパク質が本当に自分の手で折りたたまれる時代**はすでに来ている。
参考 / References
- [Galaxy 公式](https://galaxyproject.org/)
- [BioPython 公式](https://biopython.org/)
- [Bioconductor 公式](https://www.bioconductor.org/)
- [Nextflow / Seqera Labs](https://www.nextflow.io/)
- [nf-core パイプラインカタログ](https://nf-co.re/)
- [Snakemake 公式](https://snakemake.github.io/)
- [NCBI BLAST](https://blast.ncbi.nlm.nih.gov/)
- [DIAMOND2 (Buchfink) GitHub](https://github.com/bbuchfink/diamond)
- [MMseqs2 (Steinegger) GitHub](https://github.com/soedinglab/MMseqs2)
- [SAMtools](http://www.htslib.org/)
- [BCFtools](https://samtools.github.io/bcftools/bcftools.html)
- [GATK (Broad Institute)](https://gatk.broadinstitute.org/)
- [STAR aligner GitHub](https://github.com/alexdobin/STAR)
- [HISAT2 公式](https://daehwankimlab.github.io/hisat2/)
- [Salmon (Patro Lab)](https://salmon.readthedocs.io/)
- [Kallisto (Pachter Lab)](https://pachterlab.github.io/kallisto/)
- [DESeq2 — Love et al., Genome Biology 2014](https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0550-8)
- [edgeR — Robinson et al., Bioinformatics 2010](https://academic.oup.com/bioinformatics/article/26/1/139/182458)
- [AlphaFold 3 — Abramson et al., Nature 2024](https://www.nature.com/articles/s41586-024-07487-w)
- [AlphaFold Server](https://alphafoldserver.com/)
- [ESM3 — Hayes et al., 2024 / EvolutionaryScale](https://www.evolutionaryscale.ai/)
- [RoseTTAFold — Baek et al., Science 2021](https://www.science.org/doi/10.1126/science.abj8754)
- [ProteinMPNN — Dauparas et al., Science 2022](https://www.science.org/doi/10.1126/science.add2187)
- [RFdiffusion — Watson et al., Nature 2023](https://www.nature.com/articles/s41586-023-06415-8)
- [Boltz-1 — MIT Jameel Clinic GitHub](https://github.com/jwohlwend/boltz)
- [Chai-1 — Chai Discovery](https://www.chaidiscovery.com/)
- [Foldseek — van Kempen et al., Nature Biotechnology 2024](https://www.nature.com/articles/s41587-023-01773-0)
- [Anvi'o 公式](https://anvio.org/)
- [QIIME 2 公式](https://qiime2.org/)
- [Seurat (Satija Lab)](https://satijalab.org/seurat/)
- [Scanpy (Theis Lab)](https://scanpy.readthedocs.io/)
- [10x Genomics Cell Ranger](https://www.10xgenomics.com/support/software/cell-ranger)
- [Oxford Nanopore Dorado](https://github.com/nanoporetech/dorado)
- [Illumina BaseSpace](https://basespace.illumina.com/)
- [AWS HealthOmics](https://aws.amazon.com/healthomics/)
- [Google Cloud Healthcare API](https://cloud.google.com/healthcare-api)
- [Microsoft Genomics](https://www.microsoft.com/en-us/genomics/)
- [韓国生命工学研究院 (KRIBB)](https://www.kribb.re.kr/)
- [国家生命研究資源情報センター (KOBIC)](https://www.kobic.re.kr/)
- [理研 (RIKEN)](https://www.riken.jp/)
- [国立遺伝学研究所 (NIG)](https://www.nig.ac.jp/)
- [DDBJ](https://www.ddbj.nig.ac.jp/)
- [2024 年ノーベル化学賞 — Baker・Hassabis・Jumper](https://www.nobelprize.org/prizes/chemistry/2024/summary/)
현재 단락 (1/446)
2024 年 10 月、ノーベル化学賞は三人に贈られた。**David Baker**(ワシントン大学、*計算機によるタンパク質設計*)、**Demis Hassabis**、**John Jumpe...