필사 모드: AI 生物学 & 創薬 2026 完全ガイド — AlphaFold 3・RoseTTAFold・ESM Atlas・Boltz・Chai-1・RFdiffusion・Isomorphic Labs・Recursion・Insilico 徹底解説
日本語プロローグ — 2024 年ノーベル化学賞が意味するもの
2024 年 10 月 9 日、スウェーデン王立科学アカデミーは化学賞の受賞者を発表した。**David Baker**(ワシントン大学)、**Demis Hassabis**(DeepMind CEO)、**John Jumper**(DeepMind シニアディレクター)。半分は Baker のタンパク質設計(de novo protein design)、もう半分は Hassabis と Jumper が作った **AlphaFold 2** のタンパク質構造予測に贈られた。
これは単なる学術的な評価以上の意味を持つ。**AI が 50 年来の生物学の未解決問題(protein folding problem)を解いた**という公式宣言であり、同時にその AI を産業化した企業(DeepMind、Isomorphic Labs、Generate:Biomedicines、Recursion、Insilico Medicine など)が創薬の未来を描き直しているという合図でもあった。
> **「タンパク質構造予測は死んだ。本当のゲームはこれからだ。」** — ある分子生物学者がノーベル賞発表直後に X に残した言葉だ。AlphaFold 2 が静的構造予測を解いたとすれば、次のステージは**動的な相互作用・薬物結合・新規タンパク質設計**だ。そして 2026 年現在、これらがすべて同時に爆発している。
本記事で扱うこと:
1. AI 生物学の地図 — 2026 年の陣営
2. タンパク質構造予測の歴史 — Anfinsen から AlphaFold まで
3. AlphaFold 2・3・Server — DeepMind の系譜
4. RoseTTAFold シリーズ — Baker Lab の答え
5. ESM-2、ESM-3、ESM Atlas — Meta から EvolutionaryScale へ
6. Boltz-1、Boltz-2 — MIT のオープン再現
7. Chai-1、Protenix — 新しい後発勢
8. ColabFold、OmegaFold — アクセシビリティ革命
9. RFdiffusion + ProteinMPNN — タンパク質設計の新パラダイム
10. 抗体設計 — AbDesign、IgFold、Absci
11. 低分子 + ドッキング — MolMIM、DiffDock、NeuralPLexer
12. Isomorphic Labs — DeepMind の創薬子会社
13. Recursion Pharmaceuticals + Exscientia 合併
14. Insilico Medicine — 生成 AI 創薬のパイオニア
15. Schrödinger、Atomwise、BenevolentAI、Cradle
16. ゲノミクス AI — DeepVariant、Enformer、Geneformer、scGPT
17. 細胞イメージング AI — Cell Painting、JUMP-CP、CellPose
18. 臨床試験 AI — Saama、Unlearn.ai
19. バイオ基盤モデル — BioGPT、GeneGPT、NACL
20. 韓国の AI バイオ — Standigm、Deep Bio、Syntekabio
21. 日本の AI バイオ — Preferred Networks、Elix、MOLCURE
22. データセットとベンチマーク — PDB、UniProt、ChEMBL、AlphaFold DB
23. シミュレーション基盤 — GROMACS、AMBER、DESMOND
24. 倫理と規制 — 安全性評価の新たな基準
25. 参考資料
1. AI 生物学の地図 — 2026 年の陣営
2026 年 5 月時点で、AI 生物学はおおむね 5 つの陣営に分かれる。
**1) 構造予測陣営(Structure Prediction)**
与えられたタンパク質の配列から 3D 構造を予測する。AlphaFold 2/3、RoseTTAFold、ESMFold、Boltz、Chai-1、OmegaFold、ColabFold、Protenix がここに属する。2024 年に AlphaFold 3 がタンパク質だけでなく DNA・RNA・リガンド・イオンまで同時にモデル化したことで、ゲームは一段階上がった。
**2) タンパク質設計陣営(Protein Design)**
「望む機能を持つタンパク質をゼロから作ろう」という流れ。RFdiffusion、ProteinMPNN、ESM3(生成可能版)、Chroma、Genie などが代表的だ。Baker Lab と Generate:Biomedicines がこの陣営の二本柱。
**3) 創薬企業陣営(Drug Discovery Companies)**
実際に臨床パイプラインを走らせる会社たち。Isomorphic Labs(Alphabet)、Recursion(Exscientia 合併)、Insilico Medicine、Schrödinger、Atomwise、BenevolentAI、Cradle、Absci、Generate:Biomedicines がここに属する。
**4) ゲノム + 単一細胞陣営(Genomics + Single-cell)**
DNA 配列、遺伝子発現、細胞状態をモデル化する。DeepVariant(バリアントコール)、Enformer(発現予測)、Geneformer と scGPT(単一細胞基盤モデル)、AlphaMissense(変異影響予測)が代表。
**5) イメージング + 表現型陣営(Imaging + Phenotypic)**
細胞画像から薬の効果を直接読み取る。Recursion の「Maps」プラットフォーム、JUMP-CP 公開データセット、CellPose・CellProfiler のような解析ツールが核となる。
これら 5 つの陣営は互いに重なる。Recursion はイメージング + 設計 + 創薬をすべて手がける。EvolutionaryScale は ESM3 で予測 + 設計を同時に行う。だからある会社を「どの陣営」に当てはめるかよりも、**それぞれの会社がどの問題を解こうとしているのか**を見るべきだ。
2. タンパク質構造予測の歴史 — Anfinsen から AlphaFold まで
まずは短い歴史から。タンパク質構造予測は **50 年来の問題**だった。
**1972 年**: Christian Anfinsen、ノーベル化学賞受賞。「タンパク質の三次元構造は、その一次元アミノ酸配列によって決定される」という仮説(Anfinsen dogma)を実験で証明する。この仮説が正しいなら、**理論的には**配列だけで構造を予測できるはずだ。
**1994 年〜 2020 年**: CASP(Critical Assessment of protein Structure Prediction)が隔年で開催される。従来手法(homology modeling、threading、fragment assembly、Rosetta など)が漸進的に改善されたが、GDT-TS(構造精度指標)は 60〜70 のボックスを抜け出せなかった。
**2018 年 CASP13**: DeepMind 初の **AlphaFold 1** が GDT-TS 58.9 を記録し、2 位グループを 6 点差で引き離す。アカデミアが衝撃を受けた。
**2020 年 12 月 CASP14**: **AlphaFold 2** が GDT-TS 92.4 を記録。実質的に実験レベル(〜95)に到達。CASP14 主催者の John Moult は「タンパク質構造予測問題は largely solved」と宣言した。
**2021 年 7 月**: AlphaFold 2 のコードと重みがオープンソースで公開。同時に **AlphaFold DB** が始動 — まずヒトプロテオーム(約 20,000 タンパク質)を公開し、2022 年には 2 億以上の予測構造へと拡張した。
**2021 年 7 月**: David Baker チームが **RoseTTAFold** を発表。AlphaFold 2 と同時期、同程度の精度。attention ベースの 3 トラック(配列、距離、座標)アーキテクチャ。
**2022 年 11 月**: Meta AI(FAIR)が **ESMFold** と **ESM Atlas** を公開。6 億以上のメタゲノムタンパク質構造を予測して公開。多重配列アラインメント(MSA)なしで言語モデルだけで素早く予測する。
**2024 年 5 月**: **AlphaFold 3** 発表。タンパク質だけでなく DNA・RNA・小分子(リガンド)・イオンまで同時にモデル化。ただしモデルは非公開で、AlphaFold Server という Web インターフェース経由でのみ提供。
**2024 年 10 月**: ノーベル化学賞 — David Baker(半分)、Demis Hassabis + John Jumper(半分)。
**2024 年 5 月〜 2025 年**: MIT の Boltz-1、Chai Discovery の Chai-1、ByteDance の Protenix が AlphaFold 3 級のオープンモデルを順次公開。
**2025 年 6 月**: EvolutionaryScale の **ESM-3** が登場。生成モデルへ進化(ESMFold = 予測、ESM-3 = 予測 + 生成)。
**2026 年現在**: Boltz-2 リリース、AlphaFold 4 の噂、RFdiffusion All-Atom の臨床候補化合物が登場。そして**構造予測そのものはもはや差別化ポイントではない**ことが明確になった。
3. AlphaFold 2・3・Server — DeepMind の系譜
**AlphaFold 2**(2021)のアーキテクチャの核心。
- 入力: 対象タンパク質の配列 + MSA(多重配列アラインメント、進化情報)
- Evoformer: 配列表現とペア表現を attention で精製
- Structure module: 3D 座標を直接生成。回転と並進を SE(3) equivariant で処理
- pLDDT、pTM などの信頼度指標も出力
AlphaFold 2 は**静的構造**予測に特化している。動的コンフォメーション、結合状態の変化、低分子との相互作用には別のツールが必要だった。
**AlphaFold 3**(2024)はその限界を正面から突破した。
- タンパク質 + DNA + RNA + リガンド + イオンを 1 モデルで処理
- Diffusion ベースの座標生成 — Structure module を拡散モデルに置き換え
- 平均精度は AlphaFold 2 対比で約 50% 向上(特にタンパク質-リガンド相互作用で)
- ただしコードと重みは非公開。AlphaFold Server 経由のみ。学術・非商用は無料。
この非公開ポリシーはアカデミアで大きな論争を引き起こした。DeepMind の立場は明確だった。**「Isomorphic Labs(姉妹会社)が商用利用する必要があるためモデルは非公開」**。結果として、MIT、Chai Discovery、ByteDance が即座にオープン再現に着手し、1 年以内にほぼ同等のモデルが公開された。
**AlphaFold Server** は 2024 年 5 月にローンチ。誰でも Google アカウントでログインして配列を入力すれば、24 時間以内に構造を受け取れる。学術利用は爆発的だった。ただし:
- 結果はダウンロード可、モデル自体は非公開
- 非商用利用のみ
- 1 日あたりのジョブ上限あり
2026 年現在、AlphaFold DB は約 **2 億 1,400 万**の構造を無料で提供している。ヒトプロテオームだけでなく、UniProt に登録されたほぼすべてのタンパク質について予測が用意されている。
4. RoseTTAFold シリーズ — Baker Lab の答え
ワシントン大学の **David Baker 研究室**(ノーベル賞受賞)は、タンパク質構造予測と設計の両方で DeepMind のライバル関係にある。彼らの答えが RoseTTAFold シリーズだ。
**RoseTTAFold**(2021)
- 3-track アーキテクチャ: 配列、距離、座標を同時に学習
- AlphaFold 2 とほぼ同時期、同程度の精度(やや劣るが高速)
- オープンソースで公開
**RoseTTAFold2**(2023)
- AlphaFold 2 とほぼ同等の精度
- より大きなタンパク質を処理可能
- タンパク質-タンパク質複合体(complex)の予測を強化
**RoseTTAFold All-Atom**(RFAA、2023)
- タンパク質 + DNA + RNA + リガンド + 補因子を 1 モデルで
- AlphaFold 3 と似たコンセプトだがより早く公開
- オープンソース + 重み公開
**RFdiffusion**(2023、設計用)
- タンパク質バックボーン(backbone)をゼロから生成する拡散モデル
- 結合タンパク質(binder)、酵素、抗体の設計に利用
- ノーベル賞の中核的な貢献の 1 つ
**RFdiffusion All-Atom**(2024)
- バックボーンだけでなく側鎖(side chain)とリガンドまで同時設計
- 実測でより結合親和性の高いタンパク質を生成
Baker Lab の価値提案は明確だ:**「オープン、設計、応用」**。すべてのモデルを公開し、単純な予測を超えた設計ツールも併せて提供する。
5. ESM-2、ESM-3、ESM Atlas — Meta から EvolutionaryScale へ
**ESM(Evolutionary Scale Modeling)** シリーズは Meta AI(旧 FAIR)のタンパク質言語モデルプロジェクトだった。
**ESM-1、ESM-2**(2019-2022)
- タンパク質配列をテキストのように扱う transformer
- UniRef50 の約 6,500 万配列で事前学習
- 最大の ESM-2 は 150 億パラメータ
**ESMFold**(2022)
- ESM-2 の上に構造予測ヘッドを付ける
- **MSA なし**で配列のみから構造予測 — AlphaFold 2 対比で約 60 倍高速
- 精度はやや劣るが、メタゲノムタンパク質のように MSA を作りにくい場合に強い
**ESM Atlas**(2022)
- ESMFold で 6 億 1,700 万のメタゲノムタンパク質構造を予測
- 土壌、海洋、ヒト微生物叢などからの「ダークプロテオーム」を初めて可視化
- AlphaFold DB と並んでプロテオーム宇宙の二本柱
**2024 年**: Meta が FAIR タンパク質チームをスピンアウト。**EvolutionaryScale** として独立企業化。Alex Rives(ESM の筆頭著者)が共同創業者。
**ESM-3**(2024、EvolutionaryScale)
- 配列・構造・機能を統合した多モーダル生成モデル
- 予測だけでなく**生成**も可能 — 望む機能を持つタンパク質を設計
- 最大の ESM-3 は 980 億パラメータ
- 部分的にオープン重み(最大モデルは API のみ)
- 7B/24B モデルは非商用ライセンスで公開
EvolutionaryScale は ESM-3 を使い、蛍光タンパク質の進化シミュレーション実験(esmGFP)を発表した — 約 5 億年分の進化軌跡を圧縮して新しい GFP 変異体を設計した。
6. Boltz-1、Boltz-2 — MIT のオープン再現
AlphaFold 3 が非公開になると、MIT の **Regina Barzilay** グループと共同研究者は 2024 年 5 月に **Boltz-1** を発表した。
**Boltz-1**(2024)
- AlphaFold 3 級の精度(タンパク質 + 核酸 + リガンド + イオン)
- MIT ライセンスで完全公開 — コード、重みすべて
- 自社データ + 公開データで学習
- AlphaFold Server を使えない商用研究者にとってのゲームチェンジャー
**Boltz-2**(2025)
- Boltz-1 より約 1.5 倍高速
- 結合親和性(affinity)予測を追加
- メモリ効率改善でより大きな系を処理可能
- 同じ MIT ライセンス
Boltz の意義は単純だ:**「AlphaFold 3 が使えなくても Boltz-2 は使える。」** 製薬会社の社内 R&D、学術研究、商用応用、すべてに無料で利用できる。
以下は Boltz-2 をコマンドラインから呼び出す例。
Boltz-2 のインストール(PyPI)
pip install boltz
入力 FASTA の準備
cat > target.fasta <<EOF
>protein|name=kinase
MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK
EOF
単一タンパク質構造の予測
boltz predict target.fasta --use_msa_server --out_dir results/
結果 — results/predictions/target/ 配下に PDB と mmCIF が出力される
YAML 入力でタンパク質-リガンド複合体もサポート。
version: 1
sequences:
- protein:
id: A
sequence: MKTLLLTLVVVTIVCLDLGYTEEEEYNEELEKKMEEILSKLEKK
- ligand:
id: B
smiles: "CC(=O)OC1=CC=CC=C1C(=O)O" # アスピリン
properties:
- affinity:
binder: B
GPU 1 枚(A100 80GB)で中程度のサイズのタンパク質を 1〜5 分で処理する。
7. Chai-1、Protenix — 新しい後発勢
**Chai Discovery** は 2024 年秋に登場した新興スタートアップで、AlphaFold 3 級のモデルを自社開発した。
**Chai-1**(2024)
- タンパク質 + 核酸 + リガンド + イオン
- AlphaFold 3 よりやや劣る、Boltz-1 に近い精度
- 一部の重みを公開(非商用ライセンス)
- Web UI も提供 — 誰でも試せる
- 抗体モデリングが特に強い
**Chai-1r**(2025)
- 結合親和性予測を追加
- 強化学習ベースの後処理(re-ranking)
- 結合タンパク質設計シミュレーションに利用
**Protenix**(ByteDance、2024)
- 中国 ByteDance(TikTok の親会社)の ByteDance Research が公開
- AlphaFold 3 の再現、Apache 2.0 ライセンスで完全公開
- 重み + 学習コードまで
- 精度は Boltz-1 と同水準
これら 3 モデル(Boltz、Chai、Protenix)のおかげで、**2025 年春には事実上 AlphaFold 3 級のオープンモデルが 3 つ**存在することになった。DeepMind の非公開ポリシーが逆説的にオープン生態系を加速させたのだ。
8. ColabFold、OmegaFold — アクセシビリティ革命
AlphaFold 2 が公開されたとはいえ、実行には高価な GPU と巨大な MSA データベース(BFD、Uniref30 など数 TB)が必要だった。これを誰でも使えるようにしたのが **ColabFold** だ。
**ColabFold**(2022)
- Sergey Ovchinnikov と共同研究者が作ったノートブック
- AlphaFold 2 + RoseTTAFold + ESMFold を Google Colab で実行
- MSA を MMseqs2 ベースの高速検索に置き換え(BFD の代わりに)
- 学部生でも 30 分以内にタンパク質構造予測が可能
- 2025 年までに約 100 万人以上が利用
**OmegaFold**(2022)
- Helixon が発表
- MSA なしでも動作
- ESMFold と似たコンセプトだが別途学習
- 一部のケースでは ESMFold より高精度
ColabFold の意義は**民主化**だ。ノーベル賞級の技術がノートパソコンで動く。2025 年現在、ColabFold は AlphaFold 3、Boltz-2、Chai-1 まで段階的に統合中だ。
9. RFdiffusion + ProteinMPNN — タンパク質設計の新パラダイム
ここまでは**予測**(prediction)の話だった。次は**設計**(design)へ。
伝統的なタンパク質設計は Rosetta のような物理ベースシミュレーションで試みられてきた。可能な側鎖の組み合わせを評価し、エネルギーの低い構造を探す方式。遅く、新しいタンパク質フォールドを作りにくかった。
**RFdiffusion**(Baker Lab、2023)がゲームを変えた。
- 拡散モデルでタンパク質バックボーンをゼロから生成
- 入力: 結合したい標的タンパク質の構造の一部 + 結合位置
- 出力: その位置に結合できる新しいタンパク質バックボーン
- ノーベル賞の中核技術の 1 つ
**ProteinMPNN**(Baker Lab、2022)
- バックボーンが与えられると、それに適合するアミノ酸配列を生成
- メッセージパッシンググラフニューラルネットワーク
- 「バックボーンを RFdiffusion で作り、配列を ProteinMPNN で埋める」が標準パイプライン
**RFdiffusion + ProteinMPNN パイプライン**の実際のワークフロー:
1. 標的タンパク質の結合位置を選ぶ
2. RFdiffusion でその位置に結合できるバックボーンを 1 万個生成
3. ProteinMPNN で各バックボーンに配列を与える(バックボーン 1 つあたり 8 つずつ)
4. AlphaFold 2 でその配列を再度折りたたみ、バックボーンと一致するか検証
5. 上位 100 個を wet lab で発現させ、結合親和性を測定
このパイプラインによって、**2024 年だけで 10 以上の新しい結合タンパク質が前臨床/臨床段階**に到達した。
**RFdiffusion All-Atom**(2024)は、バックボーンだけでなく側鎖とリガンドまで一度に設計する。例えば薬物分子の周りに正確にフィットする酵素を設計できる。
10. 抗体設計 — AbDesign、IgFold、Absci
抗体(antibody)は最も重要なバイオ医薬品カテゴリ(2024 年売上高約 2,000 億ドル)だ。そのため抗体設計 AI は独立した大きな市場を形成する。
**IgFold**(Johns Hopkins、2022)
- 抗体構造予測に特化(通常の AlphaFold より高精度)
- CDR(complementarity-determining region)モデリングを強化
- オープンソース
**ABodyBuilder**(Oxford OPIG、2024)
- 抗体可変領域の高速モデリング
- 単一 GPU で 1 秒未満で予測
**AbDesign / RFdiffusion-Ab**(Baker Lab、2024)
- RFdiffusion を抗体設計向けに fine-tune
- 標的抗原に結合する抗体をゼロから生成
- 実験検証で約 1% 以上の hit rate(従来のディスプレイ法に対して 10〜100 倍)
**Absci**(ナスダック上場、2021)
- 「Generative AI for antibody discovery」
- 自社の機械学習 + wet lab を統合
- 2024 年に GSK、Merck などとパートナーシップ
- 標的結合抗体を 6 週間以内に設計 + 発現
**Generate:Biomedicines**(2022 年スピンアウト、2024 年シリーズ C で 2 億 7,000 万ドル)
- Flagship Pioneering がインキュベート
- 自社モデル Chroma を開発 — 抗体 + 一般タンパク質設計
- グローバル製薬大手と多数の協業
抗体設計の中心 KPI は **affinity**(結合親和性、Kd 値)と **developability**(開発可能性 — 凝集、粘度、免疫原性)。この 2 軸を同時に最適化するのが AI の課題だ。
11. 低分子 + ドッキング — MolMIM、DiffDock、NeuralPLexer
タンパク質ではなく**低分子(small molecule)** の側面でも AI が急速に入ってきた。
**SMILES と SELFIES**
- SMILES: 分子を文字列で表現する標準(例:`CC(=O)OC1=CC=CC=C1C(=O)O` はアスピリン)
- SELFIES: SMILES の制限を補い、常に有効な分子のみを表現
**Mol-BERT、ChemBERTa、MoLFormer**(2020-2022)
- SMILES で事前学習された transformer
- 分子物性予測に利用
**MolMIM**(NVIDIA、2024)
- 分子生成モデル、NVIDIA BioNeMo の一部
- 入力分子から類似だが改良された性質を持つ分子を生成
- 創薬化学者の hit-to-lead 段階を加速
**DiffDock**(MIT、2023)
- 拡散ベースのドッキングモデル
- タンパク質-リガンドの結合ポーズを直接生成
- 従来のドッキング(AutoDock Vina など)対比で数十倍高速
**NeuralPLexer**(2024、Caltech)
- タンパク質とリガンドを同時に入力し結合複合体を予測
- 補因子や補助タンパク質も考慮
**AlphaFold 3 + Boltz-2 + Chai-1** も結局は低分子の結合を予測するため、ドッキング分野と構造予測分野は実質的に統合されつつある。
12. Isomorphic Labs — DeepMind の創薬子会社
**Isomorphic Labs** は 2021 年 11 月に Alphabet が分社化した創薬子会社。Demis Hassabis が CEO を兼務する。
**ミッション**:「Re-imagining drug discovery through AI」。AlphaFold を創薬の基本ツールとして使う。
**戦略**:
- 自社パイプライン + 製薬大手とのパートナーシップの両面戦略
- 2024 年 Eli Lilly と 1.7 億ドル + マイルストーン契約
- 2024 年 Novartis と 1.2 億ドル + マイルストーン契約
- 自社候補は腫瘍学 + 免疫学が中心
**技術スタック**:
- AlphaFold 3 が核(社外には非公開、社内で優先利用)
- 自社設計モデル + ドッキング + ADMET 予測
- 自社の wet lab は最小限、CRO と連携
**非公開ポリシー**: Isomorphic の存在こそが AlphaFold 3 非公開の理由だ。もし AF3 がオープンだったら、すべての製薬大手が自社で使っただろうし、Isomorphic のビジネスモデルは弱まっていただろう。
**2025 年の現状**: 最初の IND-enabling 候補の到達が間近。2026 年中に初の第 1 相試験入りが目標。
13. Recursion Pharmaceuticals + Exscientia 合併
**Recursion**(ナスダック RXRX)はソルトレイクシティの AI 創薬会社。2021 年に IPO。
**コア技術**:
- 「Recursion Maps」 — 細胞イメージングベースの phenotypic screening
- 1 実験で約 100 万の細胞画像を自動解析
- 薬物-遺伝子-疾患関係をグラフでモデル化
- NVIDIA と BioHive-1、BioHive-2 スーパーコンピュータ協業(NVIDIA 投資)
**2024 年 1 月**: **Exscientia 買収を発表**(約 7 億ドル)。Exscientia は英国の AI 創薬会社で、自社分子設計プラットフォームに強み。合併により**イメージング + 分子設計**を 1 社に統合。
**パイプライン**:
- 11 以上の臨床/前臨床資産
- 腫瘍学 + 神経系 + 希少疾患
- 2024 年 Bayer、Roche、Sanofi など多数と協業
**ビジョン**:
- 「Industrialize drug discovery」 — 創薬を産業化する
- AI + 自動化された wet lab + クラウドコンピューティング
14. Insilico Medicine — 生成 AI 創薬のパイオニア
**Insilico Medicine** は香港・ニューヨーク・上海に本社を構える AI 創薬会社。2014 年設立。2025 年 IPO を進行中(香港証券取引所)。
**コア技術**:
- **Pharma.AI** プラットフォーム — 標的探索 + 分子設計 + 臨床試験設計
- PandaOmics(標的)、Chemistry42(分子)、InClinico(臨床)で構成
- 自社生成モデル + 強化学習の組み合わせ
**ヒット作**:
- **INS018_055**(IPF 治療薬候補) — 2023 年に第 2 相試験入り。**世界初の「AI 発見 + AI 設計」臨床段階医薬品**
- 標的探索(TNIK)と分子設計の両方を AI が実行
- 候補化合物到達まで 18 か月、従来方式対比で半分以上短縮
**パイプライン**: 30 以上のプログラム、7 以上の臨床資産。
**2025 年動向**:
- Sanofi との協業を拡大
- INS018_055 の第 2 相結果発表予定
- 香港 IPO を推進
Insilico の価値提案は明確だ:**「AI が発見し、AI が設計し、人間が検証する。」** 時間とコストを半分にする。
15. Schrödinger、Atomwise、BenevolentAI、Cradle
**Schrödinger**(ナスダック SDGR)
- 1990 年代から分子動力学(MD)と量子化学ソフトウェアの最大手
- DESMOND、Maestro、Glide など業界標準ツール
- 2020 年代から AI を積極的に統合
- 自社パイプラインも運営 — Nimbus Therapeutics と協業
**Atomwise**
- 2012 年設立、「AtomNet」という CNN ベースのドッキングモデル
- 製薬大手との協業多数(Pfizer、Bayer、Merck など)
- 200 以上の標的で仮想スクリーニングを実施
**BenevolentAI**(ロンドン証券取引所 BAI)
- 知識グラフ + 自然言語 + 分子設計を統合
- COVID-19 初期に baricitinib を候補薬として提案 → FDA 緊急使用許可
- 2024 年に再構築(業績不振)、2025 年に回復モード
**Cradle**
- オランダ/スイス、2021 年設立
- タンパク質エンジニアリングに特化(産業用酵素、医薬品タンパク質)
- Novartis、BASF、AstraZeneca と提携
- 2024 年シリーズ B 7,300 万ドル
**EvolutionaryScale**(第 5 章ですでに扱った)
- ESM3 本体の会社
- 2024 年シリーズ A 1.42 億ドル、Amazon・NVIDIA などが投資
- モデル + コンサルティングビジネス
16. ゲノミクス AI — DeepVariant、Enformer、Geneformer、scGPT
タンパク質だけでなく DNA・RNA・遺伝子発現も AI の大きな領域だ。
**DeepVariant**(Google、2018)
- シーケンシングリードから変異(SNP、indel)を検出
- CNN ベース、従来の GATK 対比で精度向上
- 2025 年には PacBio HiFi、ONT(ナノポア)ロングリードのいずれもサポート
**Enformer**(DeepMind + Calico、2021)
- 約 20 万 bp の DNA 入力から遺伝子発現を予測
- transformer ベース
- 臨床変異の発現影響予測に利用
**AlphaMissense**(DeepMind、2023)
- ミスセンス変異(アミノ酸 1 つの置換)の病原性予測
- ヒトの 7,100 万ミスセンス変異について予測を公開
**Geneformer**(MIT Broad、2023)
- 単一細胞 transcriptomic データの transformer
- 「rank-value encoding」 — 発現量のランクでトークン化
- 約 3,000 万の単一細胞で事前学習
**scGPT**(University of Toronto + Wang Lab、2023)
- 単一細胞基盤モデル
- 3,300 万セルで事前学習
- 細胞型分類、バッチ補正、摂動予測などマルチタスク
**Universal Cell Embeddings (UCE)**(スタンフォード、2023)
- 種間(human + mouse + fly など)の単一細胞モデル
これらのモデルは GTEx、Tabula Sapiens、Human Cell Atlas のような公開データセットで学習する。
17. 細胞イメージング AI — Cell Painting、JUMP-CP、CellPose
**Cell Painting** は蛍光染色 + 自動化顕微鏡をベースとした phenotypic profiling 手法だ。1 つの化合物を細胞に処理した後、5 チャネルの蛍光画像を自動撮影し、約 1,500 の形態学的特徴量を抽出する。
**JUMP-CP**(2023、Broad + 製薬大手コンソーシアム)
- 11 万 6,000 化合物 + 1 万 2,000 遺伝子の摂動
- Cell Painting で表現型プロファイルを公開
- 共同出資した製薬大手 12 社(Bayer、Janssen など)が使用
- 2024 年 5 月に完全公開
**CellPose**(Janelia、2021)
- 細胞分割(segmentation)モデル — U-Net の変形
- 多様な細胞型に汎化
- オープンソース、ImageJ/Fiji プラグインも存在
**CellProfiler**(Broad)
- 1990 年代から続く細胞画像解析ツール
- 2023 年からディープラーニングモデルを統合
**Recursion Maps**
- Recursion の自社プラットフォーム
- 約 60 億の細胞画像データベース
- 薬物-疾患-遺伝子グラフ
- BioHive-1、BioHive-2(NVIDIA)スーパーコンピュータで学習
この分野の核心は**「表現型ファースト」**のアプローチ。標的が分かっていなくても、細胞表現型が正常化する化合物を先に見つける。
18. 臨床試験 AI — Saama、Unlearn.ai
新薬は発見と同程度に**臨床試験**のコストが大きい(平均臨床コストは約 19 億ドル)。この段階でも AI が入る。
**Saama Technologies**
- 2015 年設立、臨床データ管理に特化
- 自社の LLM ベースのデータ整合性自動チェック
- 製薬大手と多数協業
**Unlearn.ai**
- 2018 年設立、**「デジタルツイン」ベースの合成対照群**(synthetic control arm)
- 患者の仮想ツインを生成してプラセボ対照群の一部を置き換え
- FDA と連携してアルツハイマー臨床に試験適用
**TriNetX**
- グローバル患者データネットワーク、臨床デザインの最適化
- どのコホートが組み入れ可能かを事前分析
**Owkin**(パリ)
- 連合学習(federated learning)ベースの多施設臨床データ解析
- 患者データを移動させず、モデルだけを共有
臨床試験 AI の核心価値は**時間短縮**だ。臨床 1 段階を 1 年短縮できれば 1 億ドル以上の節約が可能。
19. バイオ基盤モデル — BioGPT、GeneGPT、NACL
自然言語側のバイオ基盤モデルも活発だ。
**BioGPT**(Microsoft、2022)
- PubMed の約 1,500 万抄録で事前学習した GPT-2 の変形
- 薬物副作用、タンパク質-薬物関係抽出などに利用
**GeneGPT**(NCBI、2023)
- ゲノミクスツール API 呼び出しを学習したモデル
- BLAST、dbSNP、ClinVar などを自然言語で問い合わせ
**NACL biomedical Llamas**(NIH NACL、2024)
- 生命医療分野の Llama fine-tune シリーズ
- 臨床、ゲノム、薬物などドメイン別モデル
**Med-PaLM**(Google、2022-2024)
- 医学 QA に特化した PaLM の変形
- USMLE(米国医師国家試験)合格レベル
**Med-Gemini**(Google、2024)
- Gemini ベースの医学マルチモーダルモデル
- 画像 + テキスト + 臨床ノート
これらのモデルの共通課題は**ハルシネーション(hallucination)制御**だ。医学的正確性が生命に直結するため、強力な RAG と人間の検証が必須。
20. 韓国の AI バイオ — Standigm、Deep Bio、Syntekabio
韓国の AI バイオエコシステムは急成長中だ。
**Standigm**(スタンダイム)
- 2015 年設立、韓国第 1 世代の AI 創薬会社
- 自社 AI プラットフォーム + wet lab
- SK ケミカル、JW 中外製薬と協業
- 2024 年シリーズ C 約 600 億ウォン
**Deep Bio**(ディープバイオ)
- 病理 AI に特化
- 前立腺がんグレーディング AI(DeepDx-Prostate)が FDA 登録
- 米国、日本、韓国で商用サービス
**Syntekabio**(シンテカバイオ、KOSDAQ 上場)
- スーパーコン + AI ベースの仮想スクリーニング
- 自社クラウド STB Cloud を運営
- KT、セルトリオンなどと協業
**JLK Inspection**(ジェイエルケイ)
- 医療画像 AI から出発し、創薬へ拡張
- 脳卒中、脳疾患の画像解析 → 標的探索へ連結
**Macrogen**(マクロジェン)
- 韓国最大のシーケンシング + ゲノム解析会社
- AI 変異解釈プラットフォームを自社開発
**Lunit**(ルニット)
- 医療画像 AI のリーダー、病理 AI にも拡張
- 2024 年 Volpara 買収でグローバル拡大
**投資動向**: 2024 年韓国の AI バイオ分野投資は約 5,000 億ウォン。グローバル対比では小さいが、政府支援(保健福祉部のデータ事業)が活発。
21. 日本の AI バイオ — Preferred Networks、Elix、MOLCURE
日本も AI バイオに積極的だ。
**Preferred Networks**
- 日本最大の AI スタートアップ、Chainer で著名
- 2024 年以降 Materials Project + タンパク質設計
- ENEOS、トヨタなど産業パートナー
**Elix Inc**
- 東京、2016 年設立、創薬 AI
- 自社 Elix Discovery プラットフォーム
- 第一三共、塩野義と協業
**MOLCURE**
- 抗体探索 AI に特化
- 自社 wet lab + ML 統合
**Healios**
- iPS 細胞ベースの再生医療 + AI
- 東証マザーズに上場
**Spiber**
- 人工クモ糸タンパク質 — タンパク質設計 AI を活用
- ユニクロ、GAP と協業
**日本の強み**: 化学 + 精密工学 + 大学研究が強いが、IPO 市場は米国対比で弱い。PFN や Elix のような企業がグローバル化の可能性を見せている。
22. データセットとベンチマーク — PDB、UniProt、ChEMBL、AlphaFold DB
AI 生物学を支える中核データセットたち。
**PDB**(Protein Data Bank、1971-)
- タンパク質の実験構造の標準リポジトリ
- 2025 年時点で約 23 万構造
- X 線結晶構造解析、cryo-EM、NMR など実験データ
- AlphaFold 学習の中核データ
**UniProt**
- タンパク質配列の標準データベース
- 約 2 億 5,000 万の配列(多くは自動アノテーション)
- キュレートされた部分は SwissProt(約 57 万)
**ChEMBL**(EMBL-EBI)
- 生理活性分子(bioactive molecules)データベース
- 2025 年時点で約 230 万化合物、2,000 万活性測定値
- 創薬化学 ML の基本
**AlphaFold DB**
- AlphaFold 2/3 で予測した構造約 2 億 1,400 万
- すべての UniProt タンパク質について予測を公開
- 無料、学術 + 商用ともに利用可
**ESM Atlas**
- ESMFold で予測したメタゲノムタンパク質約 6 億 1,700 万
- 土壌、海洋、ヒト微生物叢のタンパク質
**The Human Cell Atlas**
- 世界規模のコンソーシアム
- ヒト細胞型の単一細胞地図
- 2025 年までに約 1 億セル
**JUMP-CP**(第 17 章を参照)
**Open Targets**(GSK + Sanofi + Bristol Myers Squibb + ...)
- 創薬標的の優先順位データベース
- ゲノム + 臨床 + 化学を統合
**ClinicalTrials.gov + clinicaltrialsregister.eu**
- 臨床試験のメタデータ
データの多様性と品質が AI モデルの限界を決める。2026 年現在、最大のボトルネックは **wet lab 検証データの不足**だ。
23. シミュレーション基盤 — GROMACS、AMBER、DESMOND
AI は静的構造の予測には強いが、**動的挙動**(dynamics)は依然として分子動力学(molecular dynamics、MD)が強い。
**GROMACS**(スウェーデン KTH など)
- オープンソース、学術 + 産業ともに使用
- GPU アクセラレーションが優秀
- タンパク質、膜、核酸の系に利用
**AMBER**(UCSF + Rutgers など)
- 最も古い MD パッケージの 1 つ
- 多様な force field オプション
- AMBER force field は事実上の標準の 1 つ
**NAMD**(University of Illinois)
- 非常に大きな系(1,000 万原子以上)を処理
- COVID-19 spike protein シミュレーションに利用された
**DESMOND**(Schrödinger 商用)
- D.E. Shaw Research が開発 → Schrödinger が商用化
- 高速 + 商用サポート
- D.E. Shaw の Anton スパコンは別個の専用ハードウェア
**OpenMM**(スタンフォード)
- Python から呼び出せる MD ライブラリ
- AI ワークフローと統合しやすい
- AlphaFold の relaxation ステップも OpenMM を使う
**ML potential** の台頭:
- AIMNet2、ANI、MACE のような ML force field が量子化学レベルの精度を高速で提供
- NequIP、Allegro のような equivariant モデル
- 2025 年以降、事実上の標準ツールになりつつある
GPU 基盤としては NVIDIA H100 / B100、AMD MI300、Google TPU がいずれも使われる。Recursion の BioHive-2 は H100 約 600 枚で構成。
24. 倫理と規制 — 安全性評価の新たな基準
AI 生物学の発展は同時に**悪用懸念**も増幅させる。
**Dual-use 懸念**:
- タンパク質設計 AI で新しい毒素や病原体を設計できるか?
- 2022 年のある研究が薬物設計 AI を逆向きに回し、4 万個の潜在毒素を生成(Urbina et al, Nature Machine Intelligence)
- 米 NSABB、英 SAGE などで dual-use ガイドラインを議論中
**規制動向**:
- FDA: 2024 年から「AI in Drug Discovery」ガイダンスの草案を公開
- EMA: 臨床での AI 利用に関する reflection paper を発表(2024)
- 日本の PMDA: 医療 AI 認証を加速
**オープン vs クローズ**:
- DeepMind の AlphaFold 3 非公開は安全 + 商用の両面ロジック
- Baker Lab は「オープンが安全を高める」立場
- EvolutionaryScale は折衷 — 小さいモデルはオープン、大きいモデルは API
**バイオセキュリティ評価**:
- 責任ある AI ポリシー — 危険なタンパク質設計を検出するフィルタ
- 「DNA 合成会社は怪しい配列を拒否すべき」というガイドライン
- IGSC(International Gene Synthesis Consortium)の自主規制
2026 年現在、この分野の規制フレームワークはまだ形成途上だ。AI 安全コミュニティ(MIRI、ARC、METR)とバイオ安全コミュニティ(NTI、Johns Hopkins CHS)の協力が増えている。
25. まとめ — 2026 年から 2030 年まで
2024 年のノーベル賞は AI 生物学に対するアカデミアの承認だった。2026 年現在、その下流効果が産業へと広がりつつある。
**予想される流れ**(2026-2030):
1. **AI 発見 + AI 設計薬の初の FDA 承認** — 2027〜2029 年に可能。Insilico の INS018_055 が最有力候補の 1 つ
2. **タンパク質設計ツールのクラウド SaaS の一般化** — 創薬化学者が RFdiffusion を Excel のように使う時代
3. **単一細胞 + 表現型 + 構造の統合基盤モデル** — Recursion Maps、ESM3、Geneformer が合流する流れ
4. **個別化抗体** — 患者ごとの抗原に合わせて設計された治療薬
5. **製薬大手と AI 企業の統合** — Recursion-Exscientia のような合併がさらに起きる可能性
6. **dual-use 規制の強化** — リスク設計検出フィルタの義務化の可能性
> **ノーベル賞発表直後、Demis Hassabis は X に短く書いた。** 「This is just the beginning.」タンパク質フォールディング問題は解けたが、生物学全体で見れば AI はまだ 1 パーセントすら進んでいない。動的挙動、細胞レベルのシミュレーション、組織モデル、人体モデルまで — 行く道は長く、その道こそが今後 10 年で最大の科学 + ビジネス機会だ。
26. 参考資料
主要論文:
- AlphaFold 2 (Jumper et al, Nature 2021) — https://www.nature.com/articles/s41586-021-03819-2
- AlphaFold 3 (Abramson et al, Nature 2024) — https://www.nature.com/articles/s41586-024-07487-w
- RoseTTAFold (Baek et al, Science 2021) — https://www.science.org/doi/10.1126/science.abj8754
- RoseTTAFold All-Atom (Krishna et al, Science 2024) — https://www.science.org/doi/10.1126/science.adl2528
- ESM-2 / ESMFold (Lin et al, Science 2023) — https://www.science.org/doi/10.1126/science.ade2574
- ESM-3 (Hayes et al, bioRxiv 2024) — https://www.biorxiv.org/content/10.1101/2024.07.01.600583
- RFdiffusion (Watson et al, Nature 2023) — https://www.nature.com/articles/s41586-023-06415-8
- ProteinMPNN (Dauparas et al, Science 2022) — https://www.science.org/doi/10.1126/science.add2187
- DiffDock (Corso et al, ICLR 2023) — https://arxiv.org/abs/2210.01776
- Boltz-1 — https://github.com/jwohlwend/boltz
- Chai-1 — https://www.chaidiscovery.com/
- Protenix — https://github.com/bytedance/Protenix
- AlphaMissense (Cheng et al, Science 2023) — https://www.science.org/doi/10.1126/science.adg7492
- Enformer (Avsec et al, Nature Methods 2021) — https://www.nature.com/articles/s41592-021-01252-x
データベースとサービス:
- AlphaFold Server — https://alphafoldserver.com/
- AlphaFold DB — https://alphafold.ebi.ac.uk/
- PDB — https://www.rcsb.org/
- UniProt — https://www.uniprot.org/
- ChEMBL — https://www.ebi.ac.uk/chembl/
- ESM Atlas — https://esmatlas.com/
- Human Cell Atlas — https://www.humancellatlas.org/
- JUMP-CP — https://jump-cellpainting.broadinstitute.org/
- Open Targets — https://www.opentargets.org/
企業と公式サイト:
- DeepMind — https://deepmind.google/
- Isomorphic Labs — https://www.isomorphiclabs.com/
- Recursion — https://www.recursion.com/
- Insilico Medicine — https://insilico.com/
- Schrödinger — https://www.schrodinger.com/
- Atomwise — https://www.atomwise.com/
- BenevolentAI — https://www.benevolent.com/
- Cradle — https://www.cradle.bio/
- Absci — https://www.absci.com/
- Generate:Biomedicines — https://generatebiomedicines.com/
- EvolutionaryScale — https://www.evolutionaryscale.ai/
- Chai Discovery — https://www.chaidiscovery.com/
ノーベル賞関連:
- Nobel Prize 2024 — https://www.nobelprize.org/prizes/chemistry/2024/
基礎ツール:
- ColabFold — https://github.com/sokrypton/ColabFold
- CellPose — https://www.cellpose.org/
- CellProfiler — https://cellprofiler.org/
- OpenMM — https://openmm.org/
- GROMACS — https://www.gromacs.org/
- AMBER — https://ambermd.org/
> **結びに。** AI はタンパク質フォールディング問題を解いたが、生物学はフォールディングの先にある。動的相互作用、細胞レベル、組織レベル、人体レベル — 本当に難しい問題はすべてその境界の向こうにある。だからこそこの分野はこれからの 10 年が最もエキサイティングだ。コンピュータ科学者にとっては輝かしい時代であり、生物学者にとっては道具が初めて十分強力になった時代だ。両分野に幸運を。
현재 단락 (1/545)
2024 年 10 月 9 日、スウェーデン王立科学アカデミーは化学賞の受賞者を発表した。**David Baker**(ワシントン大学)、**Demis Hassabis**(DeepMind CE...