필사 모드: モダン Hadoop & ビッグデータエコシステム 2026 完全ガイド - Hadoop 3.4 · Spark 4 · Hive 4 · Kafka 4 · Flink 2 · Iceberg · Trino 徹底解説
日本語プロローグ — 2026年、Hadoop は死んでいない。再配置されたのだ
「Hadoop は死んだ(Hadoop is dead)」という見出しは、2020年代初頭から毎年のように繰り返されてきた。だが 2026年の実際の風景は、そのスローガンよりずっと繊細だ。
- **新規に HDFS · YARN · MapReduce クラスタをゼロから組む人はほぼいない。** これは事実である。
- **しかし Spark、Hive、Iceberg、Kafka、Flink — Hadoop が生み出したツール群は史上もっとも強力だ。** ただ、それらが動く舞台が HDFS から S3/GCS/ADLS へ、YARN から Kubernetes へ移っただけだ。
- **Cloudera Data Platform 7** は健在で、オンプレ金融 · 公共 · 通信領域では今も大きな比重を占める。**MapR** は HPE に吸収されて HPE Ezmeral として再生した。
- **レイクハウス(Lakehouse) アーキテクチャ**こそ、Hadoop が約束した「データの単一保存場所」というビジョンの真の後継者だ。
本稿はその全景を一気に広げる。Hadoop 3.4 とその後継コンポーネント、Spark 4 · Hive 4 · Kafka 4 · Flink 2 の本当の 2026年仕様、Iceberg vs Delta vs Hudi のテーブルフォーマット戦争、Trino · Presto C++ · DuckDB · ClickHouse · StarRocks · Druid · Pinot の OLAP 風景、そして韓国 · 日本企業の実際の導入事例まで。
> 一行要約: **「Hadoop はインフラではなく語彙になった」**。HDFS/YARN/MR のような具体コンポーネントは引いていき、分散処理 · テーブルフォーマット · ストリーム · カタログのような概念だけが残り、クラウドの上で再び組み立てられている。
1章 · 全体像 — Hadoop エコシステム 25年の軌跡
2006年に Doug Cutting が Hadoop を始めた。2026年時点で、その上に育ったツール群は次の表に圧縮される。
| 時期 | キーワード | 代表ツール |
| --- | --- | --- |
| 2006~2012 | HDFS + MapReduce | Hadoop 1.x, Hive 0.x, Pig |
| 2013~2016 | YARN + インメモリ | Hadoop 2, Spark, Tez, Impala |
| 2017~2020 | クラウド移行 | EMR, Dataproc, HDInsight |
| 2021~2024 | レイクハウス | Iceberg, Delta, Hudi, Trino, dbt |
| 2025~2026 | モジュラー · ストリーム優先 | Kafka 4, Flink 2, Polaris, Lakekeeper |
「Hadoop = HDFS + YARN + MapReduce」と狭く定義することもできるが、現場の会話で「Hadoop エコシステム」は **それらと隣り合って成長してきた分散データツール全体**を指す語彙として定着している。本稿も広い意味に従う。
主要な変化を三つに絞ると次のとおりだ。
1. **ストレージ**が HDFS からオブジェクトストレージ(S3/GCS/ADLS) と Ozone へ分岐した。
2. **リソースマネージャ**が YARN から Kubernetes へ急速に移った。
3. **テーブル抽象**が Hive Metastore から Iceberg · Delta · Hudi のようなオープンテーブルフォーマットへ進化した。
この三軸が 2026年のデータプラットフォーム設計におけるほぼ全ての意思決定を支配する。
2章 · Hadoop 3.4 と 3.5 — 核心は Erasure Coding と Ozone
Apache Hadoop の現在の安定ラインは **3.4.x** で、3.5 は 2026年前半にベータとして動いている。新規クラスタを組むことはなくても、既存オンプレ運用チームにとっては依然として重要なラインだ。
3.x ラインの最大の変化は二つだ。
**第一に、Erasure Coding(EC)**。HDFS は伝統的にデータを 3重レプリケーション(3x replication) して信頼性を得ていた。1PB を保存するには実際 3PB が必要だった。EC はデータを k 個のブロックと m 個のパリティブロックに分けて保存する。RS-10-4(10 データ + 4 パリティ) を使うと約 1.4PB だけで同じ信頼度を得られる。**約 40% のストレージ節約**である。代わりに符号化 · 復号化に CPU をより使い、小さいファイルには不向きだ。だから EC は **コールド階層**にまず適用する。
**第二に、Apache Ozone**。Hadoop のサブプロジェクトとして始まったオブジェクトストレージだ。核は「S3 API を提供しながら HDFS のスループットと強整合性を保つ」こと。NameNode 単一ボトルネック問題を、分散型 Ozone Manager + Storage Container Manager 構造で解いた。数十億ファイルを扱うオンプレ環境で HPDF の実質的な後継者として定着しつつある。
3.4 ラインのその他の主な変更:
- **YARN の GPU · FPGA リソースモデル**安定化。ML ワークロードを YARN 上でも自然に。
- **HDFS Router-based Federation** 成熟。複数 NameNode をルーターの背後に隠して水平拡張。
- **Java 17/21 ランタイム**正式サポート。
「Hadoop を新規に敷く」シナリオは稀だが、通信 · 金融 · 公共 · 研究所の既存クラスタが 3.4 へ移行する流れは確かに存在する。
3章 · 「Hadoop は死んだか」— 事実関係
この問いに答えるには、まず何を「Hadoop」と呼ぶかを絞る必要がある。
**狭義の Hadoop(HDFS + YARN + MapReduce コア)**:
- 新規採用: 事実上停滞。新規 SaaS · スタートアップはほぼ全て、初日からクラウドオブジェクトストレージを使う。
- 既存運用: 依然として巨大。CDP 7 ベースの大規模クラスタが世界中で数千動いており、韓国でも通信 · 金融 · 公共 · ゲーム企業が運用中だ。
- 新機能追加: 鈍化。コアより Ozone · Erasure Coding のような補完コンポーネント中心へ。
**広義の Hadoop エコシステム(Spark/Hive/Kafka/Flink/Iceberg/...)**:
- 爆発的に成長中。Spark のダウンロードは毎年最高記録。Iceberg は標準化が進行。Kafka は KRaft への切り替え完了。
- ただし、それらが **HDFS の上で動く必要はない**。同じコンポーネントが S3/GCS/ADLS 上で、Kubernetes 上で、EMR/Dataproc/HDInsight/Databricks/Snowflake 上で動く。
**企業事情**:
- **Cloudera + Hortonworks** 合併後 CDP(Cloudera Data Platform) 7 へ統合。2021年に KKR · CD&R が約 53億ドルで買収して非公開化。売上は依然大きい。
- **MapR** は 2019年に HPE が買収、2024年時点で HPE Ezmeral Data Fabric として再ブランディング。
- **Pivotal** の Hadoop ラインは消えた。分離された Greenplum ラインのみ残る。
- **DataStax · Confluent · Databricks** のような「ポスト Hadoop」企業群が市場影響力としてはより大きい状態にある。
**結論**: HDFS/YARN/MR の新規採用は減ったが、「Hadoop が作った語彙の上で動く分散データツール」は史上もっとも活発だ。スローガンと現実の距離、そこに本稿の出発点がある。
4章 · HDFS + Ozone — オブジェクトストレージへの橋
HDFS はブロックベース · 強整合性 · POSIX-like なセマンティクスを持つ分散ファイルシステムだ。S3 はオブジェクトベース · 結果整合性(2020年以降は強整合性に改善) · HTTP API である。二つのモデルは遠く見えるが、2020年代半ばの大きな出来事は **HDFS ユーザが S3 互換 API へ自然に渡る通路ができた**ことだ。
代表的なツールは三つ:
- **Apache Ozone** — Hadoop サブプロジェクト。S3 互換オブジェクトストレージ + HDFS 級スループット。
- **MinIO** — S3 互換のセルフホストオブジェクトストレージ。Kubernetes ネイティブ。
- **JuiceFS** — オブジェクトストレージの上に POSIX 互換ファイルシステムを載せるメタデータレイヤー。
これらはみな同じ流れの産物だ。**「ファイルシステムのように見えるが、中身はオブジェクトストレージ」**。Spark/Hive/Trino のような計算エンジンが hdfs://、s3a://、ofs://、jfs:// など多様な URI スキームの背後で抽象化され、同じコードが動く。
韓国ではこの流れの代表が **Kakao i Cloud Object Storage**、**Naver Cloud Object Storage**、**NHN NCP Object Storage** のような自社オブジェクトストレージへの移行だ。日本では **NTT ドコモ**、**KDDI**、**SoftBank** がいずれも自社オブジェクトストレージを持つ。
5章 · Apache Spark 3.5 と 4.0 — ANSI モード、Spark Connect、English SDK
Spark は 2026年も依然として分散データ処理の事実上の標準だ。安定ラインは **3.5.x**、4.0 は 2024年 6月正式リリース後に安定化し、2026年には 4.x が本格普及する時期にある。
4.0 の核心的な変化は五つ。
**1. ANSI モードのデフォルト ON**。これまで Spark の SQL は PostgreSQL/Snowflake に比べ寛容(forgiving) な振る舞いだった。オーバーフローや誤ったキャストが黙って NULL を返すような挙動だ。4.0 から ANSI モードがデフォルトなので、明示的にオフにしない限り SQL 標準に沿った強い検査が走る。移行時に最もよく見る破綻原因である。
**2. Spark Connect の安定化**。クライアントとサーバーを gRPC で分離するアーキテクチャ。ノートブックで巨大な Spark Driver JVM を立ち上げる必要なく、軽いクライアントがリモートクラスタに接続する。Databricks Connect、JetBrains の Big Data Tools などがこの上で動く。
**3. PySpark の Python UDF 安定化と Pandas API on Spark**。Koalas で始まった取り組みが Pandas API on Spark に統合され、4.0 では Pandas 2.x と互換になる。
**4. Streaming 強化**。Structured Streaming のステートフル処理(stateful processing) API が整理された。`transformWithState` という統一 API を通じ、RocksDB · インメモリなどの状態ストアを同じ抽象で扱う。
**5. English SDK プレビュー**。「自然言語で PySpark を書く」試み。実験段階だが、LLM との統合が 4.x ラインの大きな方向性を示している。
Databricks の **Photon** エンジンは別の話だ。Spark API 互換の C++ ベクトル化実行器で、Databricks Runtime のみに入る。オープンソース Spark とは別トラックである。
6章 · Apache Hive 4.0 — 死ななかった SQL 標準、Iceberg を抱える
Hive はかつて「Hadoop の SQL」だった。2010年代後半には Spark SQL と Presto に押されて消えるように見えたが、**Hive 4.0**(2023年 4月 GA) を契機に明確な復活シグナルを送っている。
Hive 4.0 の核心:
- **Iceberg ネイティブ統合**。`CREATE TABLE ... STORED BY ICEBERG` 一行で Iceberg テーブルが作られる。既存 Hive テーブル ↔ Iceberg テーブル間の移行も SQL で支援。
- **LLAP(Live Long And Process)** 安定化。デーモンプロセスを生かしておくことでクエリ起動遅延を大きく削減。短いインタラクティブクエリに適する。
- **Tez を既定実行エンジンに**。旧 MapReduce エンジンは deprecated。Tez DAG が標準。
- **ACID トランザクション v2**。Merge · Update · Delete が安定。コンパクションが自動。
依然 Hive を使う領域は明確だ。**大規模バッチ、メタデータが巨大なデータウェアハウス、既存 Hive UDF 資産が大きい現場**である。2026年の韓国 · 日本 · 中国の通信 · 金融 · ゲーム企業の多くが Hive を中核 SQL エンジンとして維持している。
7章 · Apache Kafka 4.0 — Zookeeper の時代を終わらせる
Kafka は 2026年のビッグデータエコシステムにおいて最強の単一コンポーネントの一つだ。**Kafka 4.0**(2025年 3月 GA) はその地位を固めた。
核心的な変化:
- **KRaft モード GA、Zookeeper 削除完了**。Kafka はこれまで Zookeeper を依存として要求してきた。KRaft(Kafka Raft Metadata mode) が 2023年から段階導入され、4.0 で Zookeeper モードは完全に deprecated。運用が圧倒的に単純になった。
- **Tiered Storage の安定化**。ホットデータはローカルディスク、コールドデータは S3 のようなオブジェクトストレージへ自動移動。保持期間の長いトピックの保存コストを大きく下げる。
- **キューセマンティクスの導入**。従来のトピックは publish-subscribe だった。KIP-932 で「Share Group」概念が導入され、真のキューパターンが Kafka に到来。RabbitMQ 的ワークロードの一部が Kafka に移る可能性。
- **Kafka Streams** と **ksqlDB** も一緒に進化。Confluent が ksqlDB のオープンソースラインを整理し、Confluent Cloud 寄りに重心を移している。
Kafka のライバルも強くなった。
- **Apache Pulsar 4.0** — BookKeeper ベースの分離ストレージアーキテクチャ。マルチテナンシーとジオレプリケーションが強い。
- **Redpanda 24.x** — C++ で書き直された Kafka 互換ブローカー。Zookeeper も JVM も不要。Kafka API 100% 互換を保ちつつ単一バイナリ。
- **WarpStream** — Confluent に買収された「S3 上の Kafka」変種。
2026年に新規にキュー / ストリームのバックボーンを選ぶなら、「Kafka + KRaft + Tiered Storage」あるいは「Redpanda 単一バイナリ」の二つが最も一般的な選択だ。
8章 · Apache Flink 2.0 — Disaggregated State と ForSt
Flink はかつて Spark Streaming に押されているように見えたが、「ストリームを一級市民(stream-first)」とする哲学で、真の低遅延 · 厳密 1回(exactly-once) 処理が必要な領域を獲った。**Flink 2.0**(2025年 3月 GA) はその強みをさらに押し進めた。
Flink 2.0 の核心:
- **Disaggregated State Storage**。伝統的に Flink はタスクマネージャ(Task Manager) に張り付くローカルディスクに RocksDB の状態を置いていた。Kubernetes · クラウド環境ではノード入れ替え時の状態復元が高価だ。2.0 は状態をオブジェクトストレージ(S3 等) に置き、その上にキャッシュ · ローカル SSD を配する分離アーキテクチャを正式採用。
- **ForSt** — Flink 専用に作られた RocksDB ベースの状態エンジン。オブジェクトストレージ親和的に LSM ツリーを調整。
- **Materialized Tables**。SQL で「この結果をリアルタイムに保て」と宣言すれば、Flink がバックグラウンドのストリームジョブとしてそれを維持。dbt 風の宣言的モデリング + Flink ストリーミング。
- **Flink CDC** が独立したサブプロジェクトとして安定化。Debezium の代替。
ストリーミング SQL の風景は 2026年にこう整理される。
| ツール | モデル | 強み |
| --- | --- | --- |
| Flink SQL | DataStream 上の SQL | 厳密 1回、豊富な状態処理 |
| ksqlDB | Kafka Streams 上の SQL | Kafka 統合、軽量 |
| Materialize | 外部システム上の SQL view | OLTP 親和、Differential Dataflow |
| RisingWave | 新しいストリーミング DB | PostgreSQL 互換 |
| Arroyo | 新しい Rust ストリーミング SQL | クラウドネイティブ |
9章 · YARN vs Kubernetes — リソースマネージャの世代交代
Hadoop YARN は 2013年の登場以来、「分散データワークロードのリソースマネージャ」の事実上の標準だった。2020年代にその座を **Kubernetes** が急速に獲った。
| 項目 | YARN | Kubernetes |
| --- | --- | --- |
| 対象ワークロード | ビッグデータ中心 | 汎用(Web · ML · データ) |
| コンテナ | 独自(LXC/cgroups) | OCI |
| リソースモデル | CPU/メモリ/GPU | 豊富、拡張可能 |
| マルチテナンシー | キューベース | ネームスペースベース |
| エコシステム | Hadoop 中心 | CNCF 全体 |
| 学習曲線 | ビッグデータチームに馴染む | プラットフォームチームに馴染む |
K8s 上でビッグデータを動かす標準パターン:
- **Spark on Kubernetes** — 公式サポート。Spark Operator(Google) と native scheduler の二つの道。
- **Flink Kubernetes Operator** — Flink 1.15+ で公式。
- **Kafka は Strimzi Operator で**。
- **YuniKorn** — Apache YuniKorn は K8s 上でキュー · リソース共有 · スケジュールポリシーといった YARN 的機能を提供する。
依然 YARN の居場所はある。**CDP を運用している現場、巨大な単一クラスタにビッグデータだけを動かす場所、セキュリティ · 隔離要件が非常に強い場所**。だが新規プラットフォーム設計の最初の選択肢はほぼ常に K8s だ。
10章 · テーブルフォーマット戦争 — Iceberg、Delta、Hudi
データレイクに ACID トランザクション · スキーマ進化 · タイムトラベルといったデータウェアハウス機能を加えるのが **オープンテーブルフォーマット**の約束だ。2026年の風景は三候補に圧縮される。
**Apache Iceberg 1.7 と 1.8**
- 最も速く標準化中。AWS · Snowflake · Databricks · Google · Cloudera が皆サポート。
- **REST カタログ仕様** が標準化。エンジン非依存性が本物に。
- **Iceberg-Rust** — Rust 実装が安定化。DuckDB · Polars · Trino C++ のような軽量エンジンが Iceberg を直接読む。
- **Apache Polaris**(Snowflake 寄贈)、**Lakekeeper**(Rust ベース)、**Apache Gravitino**(データカタログ) のようなカタログ選択肢が豊富。
**Delta Lake 4.0**
- Databricks が作ったフォーマット。2022年に Linux Foundation に移管。
- Delta Universal Format(UniForm) — Delta で書けば Iceberg · Hudi としても読める。
- Delta Sharing — Delta テーブルを安全に共有。
- 強み: Databricks 統合、最も成熟した ACID 実装。
**Apache Hudi 1.0**
- Uber 発。アップサート · CDC に特化。
- Merge-on-Read と Copy-on-Write の 2モード。
- カタログ統合 · インデックスが強い。
**選び方ガイド**:
- エンジン非依存が最優先なら Iceberg。
- Databricks 中心なら Delta。
- 頻繁なアップサート · リアルタイム CDC が中心なら Hudi。
三フォーマットは次第に収束しつつある。2026年時点では、同じデータを Iceberg と Delta の両方で読めるようにする変換 · ミラーツールがありふれている。
11章 · カタログの時代 — Polaris、Lakekeeper、Gravitino、Unity
テーブルフォーマットが標準になると、次の戦線は **カタログ**だ。カタログとは「どのテーブルがどこにあり、どのスキーマで、誰がアクセスできるか」を管理するサービスだ。
- **Apache Polaris** — Snowflake が 2024年に寄贈した Iceberg REST カタログ実装。クラウド中立を標榜。
- **Lakekeeper** — Rust で書かれた Iceberg REST カタログ。軽量で K8s 親和的。
- **Apache Gravitino** — Datastrato が作ったメタカタログ。Iceberg · Delta · Hudi · Hive を一つのインターフェイスで。
- **Unity Catalog** — Databricks のカタログ。2024年に一部オープンソース化。データ · AI 資産を統合管理。
- **Nessie** — Dremio が始めた Git のようなデータカタログ。ブランチ · タグ · マージでデータバージョン管理。
- **AWS Glue Data Catalog**、**Google Dataplex** — クラウド事業者のカタログ。
選定時の核心質問は三つ。
1. **Iceberg REST 仕様**に従うか?
2. **権限管理**(RBAC/ABAC) が十分か?
3. **データ資産だけでなく AI 資産**(モデル · 特徴量 · ノートブック) まで含むか?
2026年に新たにカタログを定めるなら、Polaris · Lakekeeper · Unity の中から自分のインフラに合うものを選ぶ流れだ。
12章 · Trino、Presto、DuckDB — クエリエンジンの三階級
レイクの上で SQL を動かすエンジンは、2026年時点で三階級に分かれる。
**Trino 460+** — 旧 PrestoSQL の分岐。Starburst が商用化。ペタバイト規模のフェデレーション SQL。
- Fault-tolerant execution(FTE) — 大きなクエリでノード障害時に部分再起動。Exchange データを外部ストレージに置く。
- Pinot/Druid/Iceberg/Delta/Hudi などを一つの SQL で束ねる。
- Velocity が非常に速い。2025年中に 460 を超えた。
**Presto / PrestoDB**
- 元祖 Presto。2019年に Linux Foundation へ。Meta が主に貢献。
- 2024年以降 **Presto C++(Velox ベース)** が主力。Meta は社内で Presto C++ にデータを流している。
**DuckDB 1.x**
- 組み込み型分析 DB。単一バイナリ。Pandas · Polars · R · CSV · Parquet · Iceberg を全て SQL で。
- ノートブックの中、Lambda の中、エッジで動く新カテゴリ。
- 「クエリエンジンはもう巨大なクラスタである必要がない」というパラダイムの代表。
**MotherDuck** — DuckDB をクラウドホスティングで束ねる会社。ローカル + クラウドのハイブリッド。
**Velox** — Meta が作った C++ ベクトル化実行エンジン。Presto C++ · Spark Gluten · Verdict などが、その上で動く共通エンジンを目指す。
選択はデータ規模と実行モデルによる。
- 巨大なフェデレーション SQL → Trino
- Meta · 一部ビッグテックの社内標準 → Presto C++
- 単一ノード · 組み込み · ノートブック → DuckDB
13章 · OLAP の風景 — Druid、Pinot、ClickHouse、StarRocks
リアルタイム分析(OLAP) カテゴリの 2026年風景。
**Apache Druid** — 時系列 · イベント分析。2011年に Metamarkets で開始。リアルタイム取り込み + 事前集計。
**Apache Pinot** — LinkedIn 発。リアルタイム取り込み + ユーザー対向分析。Uber · LinkedIn · Stripe のような巨大トラフィックで実証済み。
**ClickHouse 24.x** — Yandex(現在は ClickHouse Inc.) が作ったカラム型 OLAP DB。単一ノード性能が圧倒的。ClickHouse Cloud は 2022年リリース後に急成長。
**StarRocks** — Apache Doris の商用分岐。MPP OLAP DB。Iceberg · Hudi · Delta を直接クエリ。
**Apache Doris** — Baidu 発の MPP OLAP。中国 · 東アジアで強い。
これらの共通点は、次の三つを同時に追求することだ。
1. **ミリ秒~秒単位の応答**。
2. **数十億行のスキャン**。
3. **ユーザー対向ダッシュボードに直接付く**(BI ツールではなくアプリのバックエンド)。
選び方ガイド:
- 単一クラスタ · 複雑なクエリ → ClickHouse
- リアルタイム取り込み · ユーザー対向 → Pinot、Druid
- Iceberg / レイクの上でクエリ → StarRocks、Trino
- 一つのノートブック · 組み込み → DuckDB
14章 · dbt 1.9 と dbt Mesh — 変換レイヤーの標準
dbt(data build tool) は「SQL でデータモデリングをする」という単純なアイデアで、モダンデータスタックの変換レイヤー標準になった。
dbt 1.9 の核心:
- **dbt Mesh** — 大組織で dbt プロジェクトをドメイン別に分割し、互いのモデルをコントラクトで公開。
- **Group / Access** — モデルをグループ化し、外部公開可否を明示。
- **Semantic Layer** が dbt Cloud の中核商品として定着。メトリック定義を一箇所で。
- **dbt Fusion**(2025年発表) — 既存の Python ベースコンパイラを Rust で書き直し。実行速度が大幅改善。
dbt のライバル:
- **SQLMesh** — Tobiko Data。dbt の限界(Jinja、実行モデル) を再設計。
- **Coalesce** — GUI ベースのデータ変換。
- **dbt Cloud** と **dbt Core** のライセンス分離が 2024年に話題となったが、コアは依然オープン。
15章 · オーケストレーション — Airflow 3.0、Dagster、Prefect、Argo
データパイプラインをスケジュール · 管理するオーケストレータの風景。
**Apache Airflow 3.0**(2025年 4月 GA)
- 最大の変化: **タスク隔離(task isolation) の安定化**。タスクが別コンテナで動くのが標準に。
- **Task SDK** が分離されワーカー依存性が軽量に。
- **複数 DAG バージョン**のような中核運用機能を整理。
- 依然として最大のコミュニティ。
**Dagster 1.9**
- Software-Defined Assets — DAG のノードが「どのデータを作る責任を持つか」で定義される。Airflow と異なるメンタルモデル。
- 資産カタログ、データ品質、バックフィルが一級市民。
- 次第にデータプラットフォームの一級ツールへ。
**Prefect 3.x**
- 「Pythonic」な使い心地。デコレータ一行で関数がタスクになる。
- 動的ワークフローに強い。
**Argo Workflows**
- Kubernetes ネイティブ。CI/CD のようなコンテナワークフローに強い。
- データパイプライン用にも使われる。
**Mage** — ノートブック + オーケストレーション。ノーコード / ローコード。
**Kestra** — YAML/JS ベースのオーケストレータ。Java バックエンド。
選び方ガイド:
- 大組織 · 既存資産 → Airflow 3
- 資産中心 · データプラットフォーム → Dagster
- 軽量な動的ワークフロー → Prefect
- コンテナ · K8s 中心 → Argo
16章 · CDC の風景 — Debezium 3、Flink CDC、Estuary
運用 DB からデータレイク / ウェアハウスへリアルタイム同期する **Change Data Capture(CDC)** の 2026年風景。
**Debezium 3**
- Red Hat が主導。PostgreSQL · MySQL · MongoDB · Oracle · SQL Server · Db2 などの DB のログを読み Kafka に流す。
- 3.x で運用性 · メモリ · スキーマ進化が大幅改善。
**Flink CDC**
- Debezium のコアを Flink に持ち込む。Kafka なしに DB → Flink → Iceberg を直結。
**Estuary Flow** — SaaS の CDC。
**Airbyte** — オープンソース ELT。CDC も支援するが強みはバッチコネクタ。
**Fivetran** — 最も成熟した商用 CDC/ELT。
**Sequin** — PostgreSQL 専門 CDC。Webhook · Kafka 出力。
**典型アーキテクチャ**:
[PostgreSQL] → [Debezium] → [Kafka] → [Flink/Spark] → [Iceberg] → [Trino/Spark SQL]
または
[PostgreSQL] → [Flink CDC] → [Iceberg]
運用 DB の変化が 1~30秒以内にレイクへ反映されるのが 2026年の標準だ。
17章 · レイクハウスアーキテクチャ — 単一真実保存所の復活
レイクハウスは「データレイク(安価な生保存所) + データウェアハウス(ACID、スキーマ、性能)」の結合だ。2026年標準アーキテクチャはこう整理される。
**Bronze · Silver · Gold メダリオンアーキテクチャ**:
| レイヤー | 形 | ツール |
| --- | --- | --- |
| Bronze(生) | CDC / イベントそのまま | Kafka, Iceberg, S3 |
| Silver(クレンジング) | 標準化 · 重複除去 | Spark, Flink, dbt |
| Gold(サービング) | 集計 · ドメインモデル | dbt, Spark, Trino |
ストレージはオブジェクトストレージ + Iceberg/Delta/Hudi テーブル。コンピュートは Spark/Flink/Trino/DuckDB といったエンジンが同じテーブルを共有する。カタログ(Polaris/Unity/Gravitino) が、どのテーブルがどこにあるか · 誰に見せるかを管理する。
このアーキテクチャの約束は単純だ。**一つのデータ、複数のエンジン、統一された権限**。Hadoop が約束したが実際には難しかったあのビジョンが、2026年クラウドオブジェクトストレージ + オープンテーブルフォーマットの上で本当に動く。
18章 · モダンデータスタックの進化 — 2020 → 2026
2020年代初頭「モダンデータスタック(MDS)」という用語が流行した。その核は **Fivetran(取り込み) + Snowflake(ウェアハウス) + dbt(変換) + Looker(BI)** という四ツールの組合せだった。
2026年にはその定義が揺らいだ。
- **取り込み** → Fivetran/Airbyte 以外に Flink CDC、Debezium のようなストリーム CDC が大きな比重を占める。
- **保存** → Snowflake 単独ではなく Snowflake + Databricks + セルフホストレイクハウスが共存。
- **変換** → dbt 以外に SQLMesh、dbt Fusion、Coalesce。
- **BI** → Looker 以外に Metabase、Superset、Hex、Mode が爆発的。
- **AI/ML 統合** → 以前は別トラックだった ML が同じデータの上で動く。フィーチャストア · ベクトル DB · LLM が追加レイヤーに。
要約すると **「モダンデータスタック → モダンデータ · AI スタック」** に語彙が移った。データエンジニアと ML エンジニアが同じカタログ · 同じテーブルを共有する図が標準になった。
19章 · 韓国企業のビッグデータ導入風景
韓国市場では 2026年時点で次のパターンが明確だ。
**通信 · 金融 · 公共: CDP/Hortonworks の残存**
- KT · SK テレコム · LGU+ · KB · 新韓 · ハナ · NH のような大手は依然として巨大な CDP/HDP ベースクラスタを動かしている。2026年もその上で数万件の Spark/Hive ジョブが動く。
- 同時に自社クラウド(KT Cloud、NCloud、NHN Cloud) の上で Iceberg · Trino ベースのレイクハウスを新規構築する流れ。
**ゲーム · インターネット: モダンデータスタック**
- **Naver** — 社内ビッグデータプラットフォームが Spark 中心。2024年以降 Iceberg と Trino を積極導入。
- **Kakao** — 独自 ML プラットフォームとデータプラットフォーム。Spark、Flink、Druid を広範に使用。
- **Coupang** — かつて Hadoop を広範に使ったが、2020年代半ばから AWS ベースの Iceberg/Spark/Trino へ転換し Hadoop 依存を縮小。
- **LINE+** — Snowflake と独自レイクハウスを併用。2024~2025年の間に一部ドメインを Snowflake へ移行。
- **NCsoft · Nexon · Netmarble** — ゲームログ · 決済 · ゲーム内イベントが巨大で、Kafka + Flink + Iceberg/Druid が中核。
**スタートアップ: クラウドマネージド優先**
- BigQuery · Snowflake · Databricks が第一選択肢。dbt は事実上の標準。
- 一部はセルフホスト ClickHouse/Trino でコスト最適化。
**韓国的特性**:
- 政府 · 公共データ規制により **オンプレ · 自社クラウド**比重がグローバル平均より高い。
- そのため CDP のようなオンプレビッグデータプラットフォームの寿命が長い。
- 同時にゲーム · EC · フィンテックは速やかにクラウドレイクハウスへ移行中。
20章 · 日本企業のビッグデータ導入風景
日本市場は韓国と似ているが、少し色合いが違う。
**Yahoo! Japan / LINE の統合 LY**
- 2023年に Yahoo! Japan と LINE が LY に合流。データプラットフォーム統合は進行中。両社ともに巨大な Hadoop/Spark 資産を持つ。
- 広告 · 検索 · メッセンジャーの巨大イベントストリームを Kafka + Spark Streaming + Hadoop で処理してきた歴史が長い。
**Cookpad** — レシピプラットフォーム。Redshift と BigQuery を中心とした比較的モダンなデータスタック。dbt 導入初期事例。
**Mercari** — 巨大な ML プラットフォーム。BigQuery + Vertex AI + Feast フィーチャストアといったクラウドネイティブ構成。
**Rakuten** — Hadoop ベースの巨大インフラを持つが、2020年代半ばからクラウド移行が進行中。独自のデータメッシュモデルを試行。
**DeNA · CyberAgent · GREE** — モバイルゲーム · 広告データを BigQuery · Snowflake へ。
**日本的特性**:
- 通信(NTT ドコモ、KDDI、ソフトバンク) の自社クラウド比重が大きい。
- 金融は **オンプレ + Cloudera** の比重が依然高い。
- 広告 · ゲーム領域は急速にクラウド + モダンデータスタックへ移行。
韓国 · 日本どちらも「オンプレビッグデータ資産が非常に大きく、その上に新レイクハウスを載せるデュアルトラック」が現実だ。
21章 · 実戦アーキテクチャパターン 5つ
2026年に頻出する五つのパターン。
**パターン 1 · クラシックバッチレイクハウス(中規模)**
[運用 DB] → [Airbyte/Fivetran] → [Iceberg on S3] → [dbt + Spark] → [Trino] → [Metabase]
**パターン 2 · CDC ストリーミングレイクハウス(イベント中心)**
[PostgreSQL/MySQL] → [Debezium → Kafka] → [Flink → Iceberg] → [Trino/Spark]
↘ [ClickHouse/Pinot] (リアルタイムダッシュボード)
**パターン 3 · ゲーム · 広告イベント分析**
[クライアント] → [Kafka] → [Flink] → [Druid/Pinot] → [ユーザー対向ダッシュボード]
↓
[Iceberg] → [Spark バッチ分析]
**パターン 4 · ML プラットフォーム**
[データレイク(Iceberg)] → [Spark/Polars 特徴量化] → [Feast フィーチャストア]
↓ ↓
[学習(Spark MLlib, Ray)] [オンラインサービング]
↓
[モデルレジストリ(MLflow)]
**パターン 5 · 組み込み分析(小チーム · ノートブック)**
[Parquet on S3] → [DuckDB/Polars] → [Streamlit/ノートブック] → [共有]
同じデータの上で五つの異なるアーキテクチャが共存するのが 2026年の風景だ。一つの会社の中で複数のパターンが同時に動くのもよくある。
22章 · 実戦の落とし穴 — やらないと必ず後悔すること
**1. Small file 問題** — オブジェクトストレージに小さなファイルが数億個積もるとメタデータ · リスティングコストが爆発する。Iceberg の compaction、OPTIMIZE のような作業を定期的に走らせること。
**2. スキーマ進化の合意** — Iceberg/Delta はスキーマ進化をサポートするが、「どの変化を許すか」は合意の問題だ。カラム名変更のような壊れる変化を防ぐコントラクトが必要。
**3. コスト可視化** — S3 リクエスト料金、Snowflake クレジット、BigQuery スロット — クラウドビッグデータの本当のコストは計算とデータ移動だ。最初からコストラベリングを強制すること。
**4. CDC のバックフィル** — 新規 CDC パイプラインを起動する時、過去データのバックフィルをどうするかが最も厄介だ。Debezium の snapshot モードと incremental snapshot を事前検証すること。
**5. カタログ · 権限の一元化** — 複数エンジンが同じテーブルを見るなら、権限もカタログ一箇所で管理しなければならない。エンジン別に権限が散る瞬間にガバナンスが崩れる。
**6. ストリームとバッチのセマンティクスの違い** — 「厳密 1回」の定義はシステムごとに違う。Flink · Kafka · Spark Streaming のセマンティクスを正確に理解すること。
**7. テスト環境のデータ** — 運用データをそのまま使うと GDPR/PIPA 違反だ。マスキング · 合成データツールを最初から設計すること。
23章 · 学習ロードマップ — どこから始めるか
2026年に新たにデータエンジニアになるなら、次の順序を勧める。
**0段階 · SQL と Python を深く**。あらゆるツールの共通言語だ。
**1段階 · Spark と dbt**。Spark で「分散処理がどう動くか」を体得し、dbt で「モデリングを SQL でする」という語彙を身につける。
**2段階 · Kafka と Flink**。ストリーム処理のセマンティクスを身につける。厳密 1回 · ウォーターマーク · チェックポイント。
**3段階 · テーブルフォーマット**。Iceberg を直接触り、Delta/Hudi と比較する。
**4段階 · オーケストレーション**。Airflow か Dagster のどちらかを深く。
**5段階 · 運用の視点**。コスト · 観測性(observability) · データ品質 · ガバナンス。ここが本物のシニアを決める段階だ。
**6段階 · ML との結合**。フィーチャストア、ベクトル DB、LLM パイプライン。
この順序で進めば 2~3年以内に「モダンデータプラットフォーム」の全領域を扱えるようになる。
24章 · 5年後、ビッグデータはどこへ向かうか
今後 5年の流れを五行に圧縮するなら。
1. **テーブルフォーマット統一**。Iceberg が事実上の標準として固まり、Delta/Hudi との互換が自然になる。
2. **カタログ標準化**。Iceberg REST カタログ仕様が確定し、誰がホスティングしても同じインターフェイス。
3. **コンピュートの分離**。巨大な単一クラスタから「必要な分だけ立ち上げる」サーバーレスコンピュートへ。DuckDB · MotherDuck · Snowflake · Databricks SQL · Athena が同じ道を歩く。
4. **AI 統合**。データカタログと AI 資産カタログが統合される。モデル · 特徴量 · ノートブックが全て同じガバナンスの中に。
5. **自然言語インターフェイス**。SQL を書く代わりに LLM に問い、データエンジニアが検証するワークフローが標準になる。dbt · Looker · Snowflake が皆その方向。
Hadoop の語彙は 25年経っても生き残る。だがその上で動くツールは進化し続ける。この流れの真ん中にいるということは、2026年でも依然興味深い場所だ。
エピローグ — 死のスローガンと本当の風景
「X is dead」というスローガンはほぼ常に強すぎる。2020年に「Hadoop is dead」だったなら、2024年には「Spark is dead、DuckDB がすべてをやる」、2026年には「データエンジニアは LLM に置き換えられる」が新しいスローガンだ。だが現場はもっと繊細でもっと興味深い。
**Hadoop は死んでいない**。それが作った語彙は 2026年も依然としてあらゆるデータシステムの骨格だ。ただし、その言葉が動く舞台が変わっただけだ。その変化のど真ん中に立っているということは、2026年もビッグデータエンジニアとして最高に面白い瞬間にいるということだ。
References
- Apache Hadoop project · [https://hadoop.apache.org](https://hadoop.apache.org)
- Apache Ozone documentation · [https://ozone.apache.org](https://ozone.apache.org)
- Apache Spark 4.0 release notes · [https://spark.apache.org/releases/spark-release-4-0-0.html](https://spark.apache.org/releases/spark-release-4-0-0.html)
- Apache Hive 4.0 announcement · [https://hive.apache.org](https://hive.apache.org)
- Apache Kafka 4.0 release announcement · [https://kafka.apache.org/blog](https://kafka.apache.org/blog)
- Apache Flink 2.0 release · [https://flink.apache.org/news](https://flink.apache.org/news)
- Apache Iceberg specification · [https://iceberg.apache.org/spec](https://iceberg.apache.org/spec)
- Apache Iceberg REST catalog · [https://iceberg.apache.org/docs/latest/rest-catalog](https://iceberg.apache.org/docs/latest/rest-catalog)
- Apache Polaris · [https://polaris.apache.org](https://polaris.apache.org)
- Lakekeeper Iceberg catalog · [https://github.com/lakekeeper/lakekeeper](https://github.com/lakekeeper/lakekeeper)
- Apache Gravitino · [https://gravitino.apache.org](https://gravitino.apache.org)
- Delta Lake project · [https://delta.io](https://delta.io)
- Apache Hudi · [https://hudi.apache.org](https://hudi.apache.org)
- Trino documentation · [https://trino.io/docs](https://trino.io/docs)
- Presto C++ on Velox · [https://prestodb.io/blog](https://prestodb.io/blog)
- DuckDB documentation · [https://duckdb.org/docs](https://duckdb.org/docs)
- dbt documentation · [https://docs.getdbt.com](https://docs.getdbt.com)
- Apache Airflow 3 release notes · [https://airflow.apache.org/blog](https://airflow.apache.org/blog)
- Dagster documentation · [https://docs.dagster.io](https://docs.dagster.io)
- Apache Druid · [https://druid.apache.org](https://druid.apache.org)
- Apache Pinot · [https://pinot.apache.org](https://pinot.apache.org)
- ClickHouse documentation · [https://clickhouse.com/docs](https://clickhouse.com/docs)
- StarRocks documentation · [https://docs.starrocks.io](https://docs.starrocks.io)
- Debezium project · [https://debezium.io](https://debezium.io)
- Apache Pulsar · [https://pulsar.apache.org](https://pulsar.apache.org)
- Redpanda documentation · [https://docs.redpanda.com](https://docs.redpanda.com)
- Cloudera Data Platform · [https://www.cloudera.com/products/cloudera-data-platform.html](https://www.cloudera.com/products/cloudera-data-platform.html)
- HPE Ezmeral Data Fabric · [https://www.hpe.com/us/en/software/ezmeral.html](https://www.hpe.com/us/en/software/ezmeral.html)
현재 단락 (1/337)
「Hadoop は死んだ(Hadoop is dead)」という見出しは、2020年代初頭から毎年のように繰り返されてきた。だが 2026年の実際の風景は、そのスローガンよりずっと繊細だ。