- Published on
모던 클라우드 데이터 웨어하우스 2026 완벽 가이드 - Snowflake · Databricks SQL · BigQuery · Redshift · Firebolt · Azure Synapse · MotherDuck 심층 분석
- Authors

- Name
- Youngju Kim
- @fjvbn20031
"Lakehouse is not a product, it is an architecture. By 2026, every serious data platform either is one or sells against one." — Matei Zaharia, Databricks CTO, Data + AI Summit 2025 keynote
데이터 웨어하우스(DW)는 1980년대 Teradata와 IBM DB2 Parallel Edition에서 출발해, 2000년대 Vertica · Greenplum · Netezza 같은 MPP(Massively Parallel Processing) 어플라이언스로 진화했고, 2014년 Snowflake가 "스토리지와 컴퓨트를 완전히 분리한 SaaS DW"를 선보이면서 클라우드 시대로 넘어왔습니다. 2020년 Databricks가 "Lakehouse"라는 용어를 정의하면서 데이터 레이크와 DW의 경계가 흐려졌고, 2024년 Apache Iceberg가 사실상 표준 오픈 테이블 포맷으로 자리잡으면서 "어떤 엔진을 쓰든 같은 데이터에 붙는다"는 새 시대가 열렸습니다.
2026년 5월 현재, 모던 DW 시장은 Snowflake · Databricks SQL · Google BigQuery · AWS Redshift · Azure Synapse · Firebolt · MotherDuck · ClickHouse Cloud · StarRocks Cloud · Apache Druid/Pinot · Doris · DuckDB · CrateDB 등 20개 이상의 엔진이 공존하는 다극 체제입니다. 이 글에서는 각 엔진의 아키텍처, 가격 모델, AI 통합, 락인 정도, 그리고 쿠팡 · Naver · Mercari · LINE Yahoo · CyberAgent · Rakuten 같은 한일 기업의 실제 채택 사례까지 한 번에 정리합니다.
1. MPP DW의 진화 — Teradata에서 Lakehouse까지
데이터 웨어하우스는 거의 50년에 걸쳐 네 번의 큰 패러다임 전환을 겪었습니다.
| 시대 | 대표 제품 | 특징 |
|---|---|---|
| 1세대 (1980-2000) | Teradata, IBM DB2 PE, Oracle Exadata | Shared-nothing MPP 어플라이언스, 전용 하드웨어 |
| 2세대 (2005-2015) | Vertica, Greenplum, Netezza, ParAccel | 컬럼 스토어 MPP, 소프트웨어 중심 |
| 3세대 (2014-2020) | Snowflake, BigQuery, Redshift | 클라우드 네이티브, 스토리지·컴퓨트 분리 |
| 4세대 (2020-) | Databricks Lakehouse, Iceberg + Trino/Spark, Apache Polaris | 오픈 테이블 포맷 + 외부 엔진 자유 선택 |
1세대는 DEC, Tandem 같은 메인프레임급 하드웨어 위에서 동작했고, 100TB 데이터를 다루는 데 수십억 원이 들었습니다. Walmart가 1992년 Teradata로 24TB DW를 운영한 것이 당시 세계 최대 규모였습니다.
2세대는 x86 commodity 하드웨어에 컬럼 스토리지와 압축을 적용해 가격을 한 자릿수 낮췄지만, 여전히 온프레미스가 기본이었고 스토리지·컴퓨트가 한 박스에 묶여 있어 스케일링이 어려웠습니다.
3세대의 혁명은 분리(Decoupling) 입니다. Snowflake는 데이터를 S3에 두고, 컴퓨트(virtual warehouse)를 분 단위로 켰다 끄는 모델을 선보였습니다. BigQuery는 한 발 더 나아가 "쿼리당 과금" 서버리스 모델을 제시했습니다. 이로써 "쿼리 1건 실행에 클러스터 1개 운영"이라는 1·2세대 모델은 완전히 사라졌습니다.
4세대는 개방(Openness) 입니다. Apache Iceberg, Delta Lake, Apache Hudi 같은 오픈 테이블 포맷이 사실상 표준이 되면서, 동일한 데이터에 Snowflake로도, Trino로도, Spark로도, DuckDB로도 붙을 수 있게 되었습니다. 데이터의 "단일 소스(single source of truth)" 가 더 이상 특정 벤더의 독점 포맷이 아닌 시대가 열렸습니다.
2. Snowflake — 시장 리더, 스토리지/컴퓨트 분리의 대명사
Snowflake(snowflake.com)는 2012년 Oracle 출신 Benoit Dageville과 Thierry Cruanes가 창업했고, 2020년 NYSE에 사상 최대 규모 SaaS IPO로 상장했습니다. 2026년 5월 시가총액 약 600억 달러, 분기 매출 약 10억 달러로 클라우드 DW 시장의 부동의 리더입니다.
Snowflake의 핵심 아키텍처는 세 레이어입니다.
- Storage: S3/Azure Blob/GCS에 micro-partition(평균 50-500MB)으로 압축된 컬럼 데이터. 자체 포맷(FDN, columnar)이지만 2025년부터 Iceberg 외부 테이블도 1급 시민으로 지원
- Compute (Virtual Warehouse): 가상 컴퓨트 클러스터. XS/S/M/L/XL/2XL/3XL/4XL/5XL/6XL 사이즈, 초당 과금
- Cloud Services: 메타데이터, 쿼리 옵티마이저, 트랜잭션, 보안 — 사용자에게 보이지 않는 컨트롤 플레인
-- Snowflake 가상 웨어하우스 생성·사용 예시
CREATE WAREHOUSE etl_wh
WAREHOUSE_SIZE = 'LARGE'
AUTO_SUSPEND = 60 -- 60초 idle 후 자동 정지
AUTO_RESUME = TRUE
MIN_CLUSTER_COUNT = 1
MAX_CLUSTER_COUNT = 4 -- multi-cluster, concurrency scaling
SCALING_POLICY = 'STANDARD';
USE WAREHOUSE etl_wh;
-- micro-partition pruning을 활용한 쿼리
SELECT customer_id, SUM(amount) AS total
FROM orders
WHERE order_date BETWEEN '2026-04-01' AND '2026-04-30'
AND region = 'APAC'
GROUP BY customer_id;
2025년 6월 Snowflake Summit에서 발표한 주요 변화는 다음과 같습니다.
- Apache Iceberg native 테이블: Snowflake가 Iceberg 메타데이터를 직접 쓰고 외부 엔진(Trino, Spark)이 같은 데이터를 읽음. 락인 우려 해소의 결정적 한 수
- Dynamic Tables: 선언적 ETL —
CREATE DYNAMIC TABLE로 정의하면 Snowflake가 자동 증분 갱신 - Snowpark Container Services: 컨테이너를 Snowflake 내부에서 실행해 Python/R/Java 워크로드를 데이터 옆에서
- Snowflake Cortex: 내장 LLM API (
SNOWFLAKE.CORTEX.COMPLETE,SUMMARIZE,TRANSLATE) — Mistral, Llama, Reka, Anthropic Claude 직접 호출 - Snowflake Polaris (오픈소스 카탈로그, 2024년 Apache 재단 기증) — REST API 표준 Iceberg 카탈로그
가격은 credit 기반으로, 1 credit는 보통 $2-$4 (Standard에서 Business Critical까지), XS 웨어하우스는 시간당 1 credit, 사이즈가 한 단계 올라갈 때마다 2배가 됩니다. 즉 4XL은 시간당 128 credit, Business Critical 기준 시간당 약 $512 입니다. AUTO_SUSPEND로 idle 비용을 최소화하는 것이 1번 룰입니다.
3. Databricks SQL + Lakehouse — Delta Lake, Photon, Unity Catalog
Databricks(databricks.com)는 2013년 UC Berkeley AMPLab에서 Apache Spark를 만든 Matei Zaharia, Ion Stoica 등이 창업했습니다. 2026년 5월 평가가치 약 620억 달러로 Snowflake와 어깨를 나란히 합니다.
Databricks는 원래 Spark + 노트북 회사였지만, 2020년 "Lakehouse" 비전을 발표하면서 본격적으로 Snowflake와 직접 경쟁하는 SQL 워크로드 시장에 진입했습니다. 핵심 컴포넌트는 다음과 같습니다.
- Delta Lake: 데이터 레이크 위의 ACID 트랜잭션·스키마 진화·time-travel 지원 테이블 포맷. 2019년 오픈소스화, Linux Foundation 산하
- Photon Engine: C++로 다시 쓴 벡터화 쿼리 엔진. Spark API 호환, 평균 3-12배 빠름
- Databricks SQL (DB SQL): BI 워크로드 전용 SQL 웨어하우스. Photon + 자동 스케일링
- Unity Catalog: 통합 거버넌스 카탈로그. 테이블·뷰·노트북·ML 모델·LLM 모두 한 곳에서 권한 관리. 2024년 오픈소스화
- Mosaic AI: ML/AI 워크로드 플랫폼. Vector Search, Model Serving, AI Functions
- DBRX: Databricks가 2024년 3월 공개한 자체 132B MoE LLM. Apache 2.0 라이선스
-- Databricks SQL 예시 — Delta Lake 테이블 + AI Function
SELECT
c.customer_id,
c.name,
AI_SUMMARIZE(
ARRAY_AGG(r.review_text)
) AS review_summary,
AVG(r.rating) AS avg_rating
FROM customers c
JOIN reviews r ON r.customer_id = c.customer_id
WHERE r.created_at > current_date() - INTERVAL 90 DAY
GROUP BY c.customer_id, c.name;
Databricks의 차별점은 하나의 플랫폼에서 SQL + Spark + ML + LLM 을 모두 처리한다는 점입니다. Snowflake가 SQL 워크로드 중심이라면, Databricks는 데이터 사이언티스트와 ML 엔지니어가 같은 데이터에 직접 붙어 모델을 학습·서빙할 수 있습니다.
가격은 DBU(Databricks Unit) 기반이고, 워크로드 타입과 컴퓨트 클래스에 따라 DBU 비용이 달라집니다. SQL 워크로드는 보통 $0.22-$0.55/DBU, 거기에 클라우드 인프라(EC2/GCE/Azure VM) 비용이 별도로 청구됩니다. Snowflake의 all-in 가격과 비교하면 분리 청구라서 처음엔 더 싸 보이지만, 실제로는 비슷한 수준이 되는 경우가 많습니다.
4. Google BigQuery — 서버리스 DW의 원조
BigQuery(cloud.google.com/bigquery)는 2010년 Google 내부 Dremel 페이퍼를 기반으로 출시되었습니다. 가장 큰 차별점은 진정한 서버리스(Serverless) — 사용자는 클러스터, 노드, 스토리지 사이즈를 정의하지 않고 그저 SQL을 던지면 Google이 자동으로 수천 노드를 띄워 실행합니다.
BigQuery 핵심 컴포넌트:
- Dremel: 컬럼 스토리지 위의 분산 쿼리 엔진. tree-based 실행 모델
- Colossus: GFS 후속 분산 파일 시스템 — BigQuery의 백엔드 스토리지
- Jupiter: 페타비트 데이터센터 네트워크 — 컴퓨트와 스토리지 사이 대역폭의 핵심
- BigQuery ML (BQML): SQL로 ML 모델 학습·예측.
CREATE MODEL ... OPTIONS(model_type='linear_reg') - BigQuery Studio: 2024년 GA. 노트북·dbt·Looker Studio 통합 IDE
- BigQuery Omni: AWS/Azure 데이터를 BigQuery 엔진으로 쿼리 (multi-cloud)
- BigQuery GIS: 지리 데이터 타입과 함수 (ST_GEOGFROMTEXT 등)
-- BigQuery 예시 — ML과 GIS 결합
CREATE OR REPLACE MODEL mydataset.churn_model
OPTIONS(
model_type = 'logistic_reg',
input_label_cols = ['churned']
) AS
SELECT
age,
tenure_months,
monthly_spend,
ST_DISTANCE(home_location, store_location) AS distance_m,
churned
FROM `mydataset.customer_features`
WHERE _PARTITIONTIME BETWEEN '2026-01-01' AND '2026-04-30';
-- 예측 + Gemini 텍스트 생성 결합
SELECT
customer_id,
predicted_churned_probs[OFFSET(1)].prob AS churn_prob,
ML.GENERATE_TEXT(
MODEL `mydataset.gemini_model`,
'Suggest 2 retention offers for this customer'
) AS retention_suggestion
FROM ML.PREDICT(MODEL mydataset.churn_model, TABLE customer_segment_apac);
가격 모델은 두 가지입니다.
- On-demand: 스캔한 데이터 1TB당
$5(us 리전 기준). 첫 1TB는 매월 무료. 예측 가능성이 떨어지지만 작은 워크로드는 유리 - Slot-based (Editions): Standard/Enterprise/Enterprise Plus 에디션, slot-hour 기준
$0.04-$0.10. 대규모 안정 워크로드에 유리
BigQuery는 락인이 가장 강한 DW로 분류됩니다. 데이터는 BigQuery 전용 capacitor 포맷에 저장되고, 다른 엔진에서 직접 읽기 어렵습니다. 2024년부터 BigLake로 Iceberg 외부 테이블을 지원해 락인 우려를 어느 정도 해소했지만, 진정한 멀티엔진 호환은 아직 Snowflake보다 약합니다.
5. AWS Redshift Serverless — RA3, Aqua, 그리고 새 Serverless 모델
AWS Redshift는 2012년 ParAccel을 기반으로 출시된 AWS의 첫 DW 서비스입니다. 한때 클라우드 DW 시장 점유율 1위였지만, Snowflake에 밀려 한동안 정체했다가 2022년 Redshift Serverless 출시 이후 다시 활기를 찾았습니다.
핵심 컴포넌트:
- RA3 노드: 컴퓨트와 스토리지가 분리된 신세대 노드 타입. 관리형 스토리지(S3 기반), 노드별 SSD 캐시
- Aqua (Advanced Query Accelerator): FPGA 기반 하드웨어 가속. 압축 해제·필터링을 노드 외부에서 처리
- Concurrency Scaling: 동시 쿼리 폭증 시 임시 컴퓨트 추가 (시간당 무료 시간 제공)
- Redshift Spectrum: S3 외부 테이블 쿼리 (Parquet, ORC, Avro)
- Redshift Serverless: 2022년 GA. RPU(Redshift Processing Unit) 단위 과금, RPU-hour당
$0.36 - Zero-ETL: 2023년부터 Aurora/RDS/DynamoDB에서 Redshift로 자동 복제 (변경 데이터 캡처)
- Redshift + Bedrock: 2024년 GA. SQL에서 직접 Bedrock LLM 호출
-- Redshift Serverless 워크그룹 + 외부 테이블 + Bedrock 결합
CREATE EXTERNAL TABLE spectrum.orders_raw (
order_id BIGINT,
customer_id BIGINT,
amount DECIMAL(18, 2),
order_date DATE
)
STORED AS PARQUET
LOCATION 's3://my-data-lake/orders/'
TABLE PROPERTIES ('skip.header.line.count'='1');
-- Bedrock LLM을 SQL에서 호출
SELECT
o.order_id,
o.customer_id,
AWS.BEDROCK.INVOKE_MODEL(
'anthropic.claude-sonnet-20240229-v1:0',
'Summarize this order: ' || o.notes
) AS summary
FROM spectrum.orders_raw o
WHERE o.order_date >= current_date - 7;
Redshift Serverless는 BigQuery 스타일의 사용량 기반 과금으로 진입 장벽을 낮췄지만, "최소 베이스 RPU"가 있어 완전 0에서 시작하지는 않습니다. 가벼운 워크로드에는 BigQuery가 여전히 유리합니다.
6. Azure Synapse Analytics — Dedicated/Serverless SQL + Spark + Kusto
Microsoft Azure Synapse Analytics(azure.microsoft.com/services/synapse-analytics)는 2019년에 Azure SQL Data Warehouse(구 SQL DW)를 리브랜딩해서 출시한 통합 분석 플랫폼입니다.
세 가지 엔진을 한 워크스페이스에서 통합 제공합니다.
- Dedicated SQL Pool (구 Azure SQL DW): MPP SQL, DWU(Data Warehouse Unit) 단위 프로비저닝
- Serverless SQL Pool: Azure Data Lake Storage Gen2의 Parquet/CSV/JSON을 T-SQL로 쿼리. 스캔 1TB당
$5 - Spark Pool: Synapse Spark, .NET for Spark 지원
- Data Explorer Pool (Kusto): KQL(Kusto Query Language) 기반 로그·시계열 분석
- Synapse Link: Cosmos DB, Dataverse, SQL DB의 데이터를 ETL 없이 분석 (HTAP 패턴)
2024년 11월 Microsoft Ignite에서 발표된 Microsoft Fabric는 Synapse를 흡수·확장한 차세대 SaaS 분석 플랫폼으로, OneLake(Iceberg/Delta 기반 단일 스토리지), Power BI, Data Factory, Synapse Real-Time Intelligence를 한 SKU로 묶었습니다. 2026년 현재 Synapse는 여전히 사용 가능하지만, 신규 도입은 Fabric로 가는 흐름이 명확합니다.
Synapse의 강점은 Microsoft 생태계 통합 — Active Directory, Azure DevOps, Power BI, Office 365가 자연스럽게 연결됩니다. 약점은 다중 엔진을 한 워크스페이스에서 운영하다 보니 사용자 경험이 복잡하고, 비용 예측이 어렵다는 점입니다.
7. Firebolt — "Snowflake-killer"를 표방한 고속 OLAP
Firebolt(firebolt.io)는 2019년 이스라엘에서 창업한 회사로, 이전 Sisense 창업자가 다시 도전한 차세대 OLAP 엔진입니다. "Snowflake보다 10배 빠르고 10배 싸다"를 표방하며 2021년 시리즈 C $127M 펀딩, 2023년 $100M 시리즈 D를 받았습니다.
핵심 차별점은 인덱스 + 컴퓨트 + 캐시의 적극적 활용입니다. Snowflake가 micro-partition pruning에 의존한다면, Firebolt는 다음을 추가로 가집니다.
- Sparse Index: 컬럼별 sparse 인덱스로 정확한 row 위치 찾기
- Aggregate Indexes: pre-aggregated 인덱스, materialized view보다 가벼움
- Result + Sub-result Cache: 쿼리 결과뿐 아니라 중간 결과도 캐시
- F3 Engine: 자체 컬럼 포맷(F3), Parquet 대비 더 작은 사이즈
- SSD Direct Cache: F3 데이터를 컴퓨트 노드의 NVMe SSD에 캐시
-- Firebolt 예시 — Aggregate Index + dimension table
CREATE AGGREGATING INDEX orders_daily_agg ON orders (
order_date,
region,
SUM(amount),
COUNT(*)
);
-- 인덱스를 자동으로 활용한 쿼리
SELECT order_date, region, SUM(amount), COUNT(*)
FROM orders
WHERE order_date BETWEEN '2026-01-01' AND '2026-04-30'
AND region IN ('APAC', 'EMEA')
GROUP BY order_date, region;
Firebolt의 약점은 생태계의 좁음입니다. Snowflake가 Tableau, Looker, dbt, Fivetran 등 수백 개 도구와 1급 시민으로 통합되어 있다면, Firebolt는 아직 통합 범위가 좁습니다. 다만 일부 dashboarding-heavy 워크로드(Looker/Tableau에서 매일 수천 사용자가 쿼리 실행)에서는 가격대비 성능이 매우 좋은 것으로 보고됩니다.
8. MotherDuck — DuckDB-as-a-Service
MotherDuck(motherduck.com)는 2023년 출시한 DuckDB 기반 클라우드 DW로, DuckDB의 창업자 Hannes Mühleisen이 공동 창업했습니다. "단일 노드 DW가 다시 매력적인 시대"를 만들겠다는 비전을 내세웁니다.
핵심 아이디어는 하이브리드 실행(Hybrid Execution) 입니다.
- 작은 데이터·인터랙티브 쿼리는 사용자의 노트북에서 DuckDB가 직접 실행
- 큰 데이터·복잡한 쿼리는 클라우드(MotherDuck 서버)에서 실행
- 같은 SQL, 같은 SDK로 두 모드를 자동 라우팅
# MotherDuck Python 예시 — 로컬 + 클라우드 결합
import duckdb
# md:로 시작하면 MotherDuck 클라우드 연결
conn = duckdb.connect('md:my_db?motherduck_token=...')
# 로컬 Parquet과 클라우드 테이블을 함께 조인
df = conn.execute("""
SELECT
l.customer_id,
l.local_event_count,
c.lifetime_value
FROM read_parquet('local_events.parquet') l
JOIN my_db.customers c ON c.customer_id = l.customer_id
WHERE c.region = 'JP'
""").df()
MotherDuck는 2025년부터 Iceberg 외부 테이블, Snowflake 직접 연결, 그리고 자체 노트북 UI를 제공합니다. 가격은 사용량 기반으로 매우 저렴해(월 $15-$25 부터 본격 사용), 작은 팀에게 매력적입니다. 다만 페타바이트급 워크로드에는 적합하지 않고, "100TB까지의 sweet spot"을 노립니다.
9. DuckDB 1.x — 임베디드 분석의 표준
DuckDB(duckdb.org)는 2018년 네덜란드 CWI 연구소에서 Hannes Mühleisen과 Mark Raasveldt가 만든 임베디드 OLAP 데이터베이스입니다. "SQLite for analytics"를 표방하며, 2024년 6월 1.0 GA, 2025년 11월 1.3 stable이 나왔습니다.
DuckDB의 위력은 다음 시나리오에서 압도적입니다.
- 노트북에서 10GB Parquet 분석: pandas 대비 10-100배 빠름
- CI/CD에서 데이터 검증: dbt + DuckDB로 PR 단위 데이터 테스트
- ML 전처리: PyTorch DataLoader 앞단에서 윈도우 집계
- MotherDuck/Definite의 backend: 클라우드 DW의 로컬 엔진
# DuckDB로 S3 Parquet + Postgres + 로컬 CSV를 한 쿼리에서
import duckdb
con = duckdb.connect()
con.execute("INSTALL httpfs; LOAD httpfs;")
con.execute("INSTALL postgres; LOAD postgres;")
con.execute("""
CREATE SECRET s3 (
TYPE S3,
KEY_ID '...',
SECRET '...',
REGION 'ap-northeast-1'
);
""")
result = con.execute("""
SELECT
s.customer_id,
s.order_count,
p.tier,
l.city
FROM read_parquet('s3://my-bucket/orders/*.parquet') s
JOIN postgres_scan(
'host=db.example.com user=admin password=...',
'public', 'customers'
) p ON p.id = s.customer_id
JOIN read_csv('regions.csv') l ON l.code = p.region_code
""").df()
DuckDB의 인기는 폭발적이어서, 2026년 GitHub star가 25,000개를 넘었고, dbt-duckdb, ibis-duckdb, datafusion-duckdb 등 어댑터가 활발히 개발됩니다. 작은 조직은 DW를 별도로 사지 않고 S3 + Parquet + DuckDB + dbt-duckdb 로 충분한 경우가 많아졌습니다.
10. ClickHouse Cloud — 컬럼 스토어 SaaS
ClickHouse(clickhouse.com)는 2009년 러시아 Yandex에서 시작된 오픈소스 컬럼 스토어 DBMS로, 2016년 오픈소스화 후 폭발적으로 성장했습니다. 2021년 미국으로 본사 이전 및 ClickHouse Inc 설립, 2022년 ClickHouse Cloud GA, 2024년 후반에 시리즈 C $350M를 유치했습니다.
ClickHouse의 특기는 수십억 행에 대한 실시간 분석입니다. MergeTree 엔진은 컬럼별 압축 + 파티션 + primary key (sparse index) 조합으로 일반 DW의 1/10 비용으로 1/10 응답 시간을 냅니다. Cloudflare Analytics, Uber, Shopify, eBay가 ClickHouse 위에서 실시간 분석을 운영합니다.
-- ClickHouse 테이블 정의 — 시계열 이벤트 분석
CREATE TABLE events (
event_time DateTime,
user_id UInt64,
event_type LowCardinality(String),
properties JSON
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_time)
ORDER BY (event_type, event_time, user_id)
TTL event_time + INTERVAL 90 DAY;
-- 1초 안에 수십억 행 집계
SELECT
event_type,
toStartOfHour(event_time) AS hour,
count() AS events,
uniq(user_id) AS uniq_users
FROM events
WHERE event_time >= now() - INTERVAL 24 HOUR
GROUP BY event_type, hour
ORDER BY hour DESC;
ClickHouse Cloud는 stateless compute + S3 스토리지 분리, 자동 스케일링, replicated MergeTree 매니지드 운영을 제공합니다. 가격은 분당 컴퓨트 시간 + 스토리지 GB 기반으로, dev tier는 시간당 $0.31 부터 시작합니다.
ClickHouse의 약점은 트랜잭션과 UPDATE의 어려움입니다. UPDATE/DELETE는 비동기 mutation으로만 가능하고, 일반 DW의 row-level transaction과는 의미가 다릅니다. CDC 기반 DW 적재에는 추가 설계가 필요합니다.
11. StarRocks / Apache Doris — 차세대 MPP 오픈소스
StarRocks(starrocks.io)는 중국 Baidu Apache Doris(구 Palo)에서 포크한 차세대 MPP OLAP 엔진으로, 2021년 미국 CelerData가 상용화했습니다. Apache Doris(doris.apache.org)는 그대로 Apache 재단에서 발전 중입니다.
두 엔진 모두 MPP + 벡터화 + materialized view + 일부 lakehouse 기능 을 결합해 ClickHouse와 다른 측면에서 강점을 가집니다.
- StarRocks: shared-data 아키텍처(컴퓨트/스토리지 분리), Iceberg/Hudi/Delta 외부 카탈로그 1급 시민
- Doris: MySQL 호환 프로토콜 + ANSI SQL, materialized view + rollup 자동화
StarRocks가 ClickHouse 대비 강한 점은 다중 테이블 조인 입니다. ClickHouse가 거대한 단일 fact 테이블 집계에 최적화되어 있다면, StarRocks는 fact-dimension star schema에서 더 좋은 성능을 보입니다.
CelerData Cloud는 StarRocks의 매니지드 SaaS 버전으로, AWS/GCP 위에서 동작합니다. 한국에서는 NHN과 Kakao 일부 팀이 StarRocks 자체 호스팅으로 사용한다고 알려져 있습니다.
12. Apache Druid + Imply — 실시간 OLAP
Apache Druid(druid.apache.org)는 2011년 Metamarkets(현 Imply)에서 만든 실시간 OLAP 데이터스토어입니다. 핵심 특징은 밀리초~초 단위 응답 시간으로 페타바이트급 데이터 집계입니다.
Druid의 구조:
- Real-time Indexer: Kafka/Kinesis에서 스트리밍 적재, 즉시 쿼리 가능
- Historical Node: 오래된 데이터 보관, S3/HDFS 기반
- Broker Node: 쿼리 라우팅 및 결과 병합
- Coordinator: 세그먼트 분배 관리
{
"type": "kafka",
"ioConfig": {
"topic": "user-events",
"consumerProperties": {
"bootstrap.servers": "kafka:9092"
},
"taskCount": 4,
"replicas": 1,
"useEarliestOffset": false
},
"dataSchema": {
"dataSource": "events",
"timestampSpec": { "column": "event_time", "format": "iso" },
"dimensionsSpec": {
"dimensions": ["user_id", "event_type", "country"]
},
"metricsSpec": [
{ "type": "count", "name": "events" },
{ "type": "longSum", "name": "amount_sum", "fieldName": "amount" }
],
"granularitySpec": {
"segmentGranularity": "HOUR",
"queryGranularity": "MINUTE"
}
}
}
Imply(imply.io)는 Druid의 상용 매니지드 서비스로, Polaris(SaaS), Hybrid(자체 클라우드), Enterprise(자체 호스팅) 세 가지로 제공됩니다. Twitch, Lyft, Wikimedia, Confluent가 Druid 위에서 실시간 대시보드를 운영합니다.
13. Apache Pinot + StarTree — 사용자 직접 노출 분석
Apache Pinot(pinot.apache.org)은 2014년 LinkedIn에서 만든 실시간 OLAP 데이터스토어로, 2018년 Apache 인큐베이션, 2021년 TLP(Top-Level Project) 졸업했습니다. 2019년 Apache Druid 코어 개발자가 합류해 StarTree를 창업했습니다.
Pinot의 차별점은 user-facing analytics에 특화 — 즉 최종 사용자가 직접 보는 대시보드, 게임 리더보드, 추천 피드 같은 곳에서 <100ms 응답을 보장합니다. LinkedIn Feed의 "Who viewed your profile", Uber Eats의 주문 실시간 보드가 대표 사례입니다.
핵심 기술:
- Star-tree Index: pre-aggregation 인덱스. SUM, COUNT을 사전에 계산해 쿼리 시간 단축
- Real-time + Offline Hybrid: Kafka 적재 + S3 배치를 한 테이블로
- Multi-stage Query Engine: 2023년부터 복잡한 JOIN 지원
StarTree Cloud는 Pinot의 매니지드 SaaS로, 다중 클러스터·자동 스케일링·세그먼트 라이프사이클을 관리합니다.
14. Vertica · Greenplum · Yellowbrick — 레거시·하이브리드 DW
- Vertica(
vertica.com): 2005년 Michael Stonebraker가 창업, 2011년 HP 인수, 2017년 Micro Focus, 2023년 OpenText로 다시 매각. 여전히 일부 금융·통신 산업에서 사용. 컬럼 스토어 MPP의 원형 중 하나 - Greenplum(
greenplum.org): Postgres 기반 MPP, 2010년 EMC 인수, 2020년 Pivotal 매각으로 VMware Tanzu Data, 2023년 Broadcom. 2026년 현재 오픈소스로 유지되지만 본격 신규 도입은 거의 없음 - Yellowbrick(
yellowbrick.com): 2014년 창업, 어플라이언스 + 클라우드 하이브리드 DW. Kubernetes 기반 컨테이너 배포가 특징 - Netezza: IBM에 인수된 후 Cloud Pak for Data Netezza Performance Server로 잔존
이들은 신규 도입 권장 대상은 아니지만, 마이그레이션 컨설팅 시장은 활발합니다. Snowflake와 Databricks 모두 "Vertica/Teradata에서 우리로 옮겨오세요" 마이그레이션 인센티브 프로그램을 운영합니다.
15. 모던 오픈 테이블 포맷 — Iceberg vs Delta vs Hudi
2026년의 가장 큰 변화는 오픈 테이블 포맷의 표준화입니다. 세 가지가 경쟁합니다.
| 포맷 | 출신 | 강점 | 약점 |
|---|---|---|---|
| Apache Iceberg | Netflix, 2018년 Apache 기증 | 광범위한 엔진 지원, 스키마 진화, 시간 여행, hidden partitioning | UPDATE/MERGE 성능이 Delta 대비 약함 (개선 중) |
| Delta Lake | Databricks, 2019년 오픈소스 | Photon 등 Databricks 엔진과 깊은 통합, ACID, MERGE 성능 우수 | 외부 엔진 지원이 Iceberg 대비 적음 (delta-rs로 개선 중) |
| Apache Hudi | Uber, 2016년 오픈소스 | upsert/CDC 최강, 인덱스 다양 | 개념이 복잡 (Copy-on-Write vs Merge-on-Read), 학습 곡선 |
2024년부터 시장은 Iceberg로 빠르게 표준화되고 있습니다. AWS, Google, Snowflake, Salesforce, Tabular, Confluent 모두 Iceberg를 1급 지원합니다. Databricks는 2024년 Tabular(Iceberg 창업자가 만든 회사)를 $2B에 인수하면서 Delta와 Iceberg 양쪽을 지원하는 전략으로 선회했습니다.
-- Iceberg 테이블을 다양한 엔진에서 (같은 데이터)
-- 1) Snowflake
CREATE OR REPLACE EXTERNAL VOLUME my_vol ...;
CREATE ICEBERG TABLE orders
EXTERNAL_VOLUME = my_vol
CATALOG = 'snowflake_polaris'
BASE_LOCATION = 'orders/';
-- 2) Spark
spark.sql("""
CREATE TABLE polaris.production.orders (
order_id BIGINT, amount DECIMAL(18,2), order_date DATE
)
USING iceberg
PARTITIONED BY (days(order_date))
""")
-- 3) Trino
CREATE TABLE polaris.production.orders (
order_id BIGINT, amount DECIMAL(18,2), order_date DATE
)
WITH (
partitioning = ARRAY['day(order_date)'],
format = 'PARQUET'
);
-- 4) DuckDB
INSTALL iceberg; LOAD iceberg;
SELECT * FROM iceberg_scan('s3://my-bucket/orders/');
16. 오픈 카탈로그 — Polaris · Lakekeeper · Unity · Gravitino
테이블 포맷이 표준화되자, 다음 전선은 메타데이터 카탈로그(Catalog) 입니다. 카탈로그는 "어떤 테이블이 어디에 있고 누가 권한이 있는지"를 관리합니다.
- Apache Polaris (
polaris.apache.org): Snowflake가 2024년 6월 오픈소스화하고 Apache 재단에 기증. REST API 표준 Iceberg 카탈로그. Snowflake, Trino, Spark, Flink, Dremio가 모두 지원 - Lakekeeper (
lakekeeper.io): 독일에서 시작된 Rust 기반 Iceberg REST 카탈로그. 가볍고 빠름. 자체 호스팅 친화적 - Apache Gravitino (
gravitino.apache.org): 중국 Datastrato가 만든 다중 메타데이터 카탈로그. Iceberg + Hive + 관계형 DB까지 통합 - Unity Catalog (
unitycatalog.io): Databricks가 2024년 6월 오픈소스화. 테이블·뷰·노트북·ML 모델·LLM 토큰까지 통합 관리 - AWS Glue Data Catalog: AWS의 매니지드 카탈로그. Athena, EMR, Redshift Spectrum의 기본 백엔드
- Nessie (
projectnessie.org): Dremio가 주도하는 Git-style 카탈로그. branch/merge/tag로 데이터 버저닝
2026년 시장은 Polaris vs Unity Catalog 두 진영으로 좁혀지는 추세입니다. Polaris는 Iceberg 표준에 충실하고, Unity는 Iceberg + Delta 양쪽 + 더 넓은 자산 관리(노트북·모델)를 강조합니다.
17. 락인 매트릭스 — 누가 가장 많이 묶이는가
엔진별 락인 정도를 정리하면 다음과 같습니다.
| 엔진 | 데이터 락인 | 컴퓨트 락인 | 마이그레이션 난이도 | 주된 이유 |
|---|---|---|---|---|
| BigQuery | 매우 높음 | 매우 높음 | 매우 어려움 | Capacitor 포맷, GCP 전용 |
| Redshift (Dense) | 높음 | 높음 | 어려움 | 자체 컬럼 포맷, AWS 전용 |
| Redshift Spectrum + RA3 | 중간 | 중간 | 보통 | S3 외부 테이블 가능 |
| Snowflake | 중간 | 중간 | 보통 | FDN 포맷이지만 Iceberg 외부 테이블 지원 |
| Snowflake + Iceberg | 낮음 | 낮음 | 쉬움 | 외부 Iceberg를 공식 지원 |
| Databricks + Delta | 낮음 | 낮음 | 쉬움 | Delta는 오픈, Unity Catalog 오픈 |
| ClickHouse Cloud | 낮음 | 중간 | 보통 | OSS 자체 호스팅 가능 |
| StarRocks / Doris | 매우 낮음 | 낮음 | 쉬움 | OSS, 외부 카탈로그 지원 |
| Trino + Iceberg | 매우 낮음 | 매우 낮음 | 매우 쉬움 | 양쪽 모두 OSS, 데이터 그대로 |
핵심 인사이트: 데이터가 Iceberg/Delta 같은 오픈 포맷에 있으면 컴퓨트 락인은 거의 0입니다. 락인을 진정으로 피하고 싶다면, 어떤 DW를 쓰든 "데이터는 외부 오픈 포맷에" 원칙을 지키세요.
18. 가격 모델 비교 — Credit · Slot · DBU · RPU
각 엔진의 가격 단위는 모두 다릅니다.
| 엔진 | 단위 | 가격 (2026년 5월) | 비고 |
|---|---|---|---|
| Snowflake | Credit | $2-$4 per credit | XS = 1 credit/hr, 사이즈마다 2배 |
| BigQuery on-demand | TB scanned | $5 per TB | us 리전, 첫 1TB 무료/월 |
| BigQuery Editions | Slot-hour | $0.04-$0.10 per slot-hour | Standard/Enterprise/Enterprise Plus |
| Databricks DB SQL | DBU | $0.22-$0.55 per DBU | + 클라우드 컴퓨트 별도 |
| Redshift Serverless | RPU-hour | $0.36 per RPU-hour | 최소 베이스 RPU 있음 |
| Redshift RA3 | 시간당 노드 | $3.26-$13.04 per node-hour | ra3.xlplus ~ ra3.16xlarge |
| Azure Synapse Dedicated | DWU | $1.20 per 100 DWU/hr | Gen2 기준 |
| Synapse Serverless | TB scanned | $5 per TB | BigQuery와 동일 |
| Firebolt | F-credit | $1-$3 per F-credit | 엔진 사이즈별 가변 |
| ClickHouse Cloud | Compute-min + storage | $0.31/hr 부터 | dev tier |
| MotherDuck | 사용량 기반 | $15-$25/month 부터 | personal/team/scale |
가격 비교의 함정: "TB당 $5" 같은 표면 가격만 봐서는 실제 비용을 알기 어렵습니다. 클러스터링/파티셔닝/캐시 히트율/idle time에 따라 같은 워크로드가 10배 차이로 청구될 수 있습니다. 실제 PoC를 같은 데이터·같은 쿼리로 돌려보는 것이 유일한 정답입니다.
19. 비용 최적화 — Materialized Views, Clustering, Auto-Suspend
DW 비용을 30-70% 절감하는 7가지 패턴.
1) Auto-suspend / Auto-resume: Snowflake는 idle 시간 1분 이상 자동 정지가 표준. 야간 idle을 막는 것만으로 비용이 60% 줄어드는 경우 흔합니다.
2) Materialized Views: 자주 쓰는 집계를 미리 계산해 저장. Snowflake는 자동 갱신, BigQuery는 별도 갱신 정책 지정.
3) Clustering Keys / Partitioning: Snowflake의 cluster key, BigQuery의 partition + cluster column. 쿼리가 stat을 통해 불필요한 파티션을 건너뛰면 스캔 비용이 1/10까지 떨어집니다.
-- Snowflake clustering key
ALTER TABLE orders CLUSTER BY (order_date, region);
-- BigQuery partitioning + clustering
CREATE TABLE orders_p (
order_id INT64, customer_id INT64, region STRING, amount NUMERIC, order_date DATE
)
PARTITION BY order_date
CLUSTER BY region, customer_id;
4) Result Caching: Snowflake는 24시간 동안 같은 쿼리 결과 캐시(테이블 변경이 없으면). BigQuery도 24시간 캐시. 캐시 히트는 비용 0.
5) Column Pruning + Predicate Pushdown: SELECT * 절대 금지. 필요한 컬럼만 명시.
6) 적절한 웨어하우스 사이징: Snowflake에서 XL을 24시간 켜두는 것보다 4XL을 1시간만 켜는 것이 같은 64 credit이지만 응답 시간은 16배 빠릅니다. 빠르고 짧게가 거의 항상 정답.
7) Reserved Capacity / Slot Commitment: BigQuery slot commitment, Redshift Reserved Instances는 1-3년 약정으로 40-65% 할인. 안정 워크로드에 유리.
20. AI 통합 — Cortex · AI Functions · Gemini · Bedrock
2025-2026년의 DW 트렌드는 SQL에서 직접 LLM 호출 입니다.
Snowflake Cortex (SNOWFLAKE.CORTEX.*):
SELECT
customer_id,
review_text,
SNOWFLAKE.CORTEX.SENTIMENT(review_text) AS sentiment_score,
SNOWFLAKE.CORTEX.SUMMARIZE(review_text) AS summary,
SNOWFLAKE.CORTEX.COMPLETE(
'claude-3-5-sonnet',
'Suggest a follow-up email: ' || review_text
) AS followup
FROM product_reviews
WHERE review_date > current_date - 30;
Cortex는 Mistral, Llama, Reka, Claude를 내장 함수처럼 호출합니다. credit 기반 과금이고, 데이터가 Snowflake 밖으로 나가지 않습니다.
Databricks AI Functions:
SELECT
customer_id,
AI_SUMMARIZE(notes) AS summary,
AI_CLASSIFY(notes, ARRAY('billing', 'support', 'sales')) AS category,
AI_EXTRACT(notes, ARRAY('date', 'amount', 'product')) AS extracted
FROM customer_notes;
BigQuery + Gemini (ML.GENERATE_TEXT):
SELECT
product_id,
description,
ml_generate_text_result['predictions'][0]['content'] AS marketing_copy
FROM ML.GENERATE_TEXT(
MODEL `mydataset.gemini_pro_model`,
TABLE `mydataset.products`,
STRUCT(
0.4 AS temperature,
200 AS max_output_tokens,
'Write a marketing tagline for this product: ' || description AS prompt
)
);
Redshift + Bedrock:
SELECT
feedback_id,
feedback_text,
AWS.BEDROCK.INVOKE_MODEL(
'anthropic.claude-sonnet-20240229-v1:0',
JSON_OBJECT('prompt' VALUE 'Analyze: ' || feedback_text)
) AS analysis
FROM customer_feedback
WHERE submitted_at >= current_date - 7;
DW에서 LLM을 직접 호출하면 데이터 이동이 없어 보안·컴플라이언스가 단순해지지만, 토큰 비용이 빠르게 누적될 수 있어 모니터링이 필수입니다. 100만 행에 Claude Sonnet을 1회씩 부르면 1회당 평균 1,000 토큰만 잡아도 100만 행 × $0.003/1K 입력 + 출력 = 수천 달러가 한 쿼리에 청구됩니다.
21. Reverse ETL · 데이터 옵저버빌리티 · 카탈로그 거버넌스
DW를 도입했으면 그 주변 생태계도 함께 따라옵니다.
- Reverse ETL: DW의 데이터를 Salesforce, HubSpot, Iterable 같은 SaaS로 다시 보냅니다. Hightouch(
hightouch.com), Census(getcensus.com)가 양강이고, 둘 다 Snowflake/BigQuery/Databricks를 1급 소스로 지원합니다. - 데이터 옵저버빌리티: 데이터 품질·신선도·계보(lineage)를 모니터링. Monte Carlo(
montecarlodata.com), Anomalo(anomalo.com), Bigeye(bigeye.com), Datafold(datafold.com), Metaplane(metaplane.com)가 주요 플레이어. - 카탈로그·거버넌스: 데이터 자산 검색·문서화·접근 관리. Atlan(
atlan.com), Castor(castordoc.com), Data.world(data.world), Alation(alation.com), Collibra(collibra.com), Apache Atlas(atlas.apache.org).
데이터 옵저버빌리티 도구는 DW의 메타데이터(query log, table stat)를 받아 자동으로 anomaly를 탐지합니다. 예) "어제까지 매일 1억 row가 들어오던 테이블이 오늘 500만 row만 들어왔다 — 알림". Monte Carlo는 이 카테고리를 처음 정의한 회사로 2024년 평가가치 $2.4B를 받았습니다.
22. 한국 기업 사례 — 쿠팡 · Naver · NCsoft · Kakao
쿠팡: 2025년 쿠팡 엔지니어링 블로그에 따르면, 쿠팡은 데이터 플랫폼을 Spark + Snowflake + 자체 데이터 카탈로그 조합으로 운영합니다. 상품·주문·결제 같은 핵심 도메인은 Snowflake에 적재하고, 로그·이벤트 분석은 자체 ClickHouse 클러스터를 사용합니다. 마케팅 ML 학습은 Databricks Lakehouse 위에서 진행하며, Reverse ETL은 Hightouch를 통해 광고 플랫폼에 다시 보냅니다. 일 처리량은 페타바이트급이고, BigQuery → Snowflake 마이그레이션을 2023년에 완료했습니다.
Naver Cloud: Naver는 자체 클라우드(NCP) 위에서 자체 DW와 Trino 기반 자체 쿼리 엔진을 운영합니다. 검색 로그·광고 클릭 분석은 자체 컬럼 스토어, 비즈니스 분석(쇼핑, 페이)은 Snowflake on AWS Tokyo를 사용한다고 2024년 DEVIEW에서 공유했습니다. 2025년부터 자체 LLM HyperCLOVA X를 DW와 결합한 사내 BI 도구를 개발 중입니다.
NCsoft: 게임 데이터는 양과 시간 민감도가 모두 극단적입니다. NCsoft는 Lineage W, Throne and Liberty의 실시간 로그·이벤트를 Apache Druid + Imply로 처리하고, 장기 보관·분석은 Snowflake에 적재합니다. 2024년 NDC(Nexon Developers Conference) 발표에 따르면, 단일 게임에서 일 수십억 이벤트가 발생하며, Druid의 sub-second 응답이 라이브 운영(어뷰징 탐지, 매출 모니터링)의 핵심입니다.
Kakao: Kakao는 카카오톡·다음·페이 등 거대 트래픽 서비스의 데이터 분석을 자체 Hadoop + Hive + Trino + 자체 데이터 카탈로그로 처리해왔습니다. 2024년부터 Apache Iceberg + Polaris로 마이그레이션 중이며, 일부 워크로드는 Databricks on AWS Seoul로 옮겼다고 if(kakao) 2024 발표에서 공유했습니다.
우아한형제들 (배민): 주문·라이더 데이터는 BigQuery에 적재되며, 광고 ML과 추천은 Vertex AI + BigQuery ML 조합으로 운영됩니다. 2025년부터 일부 실시간 분석을 ClickHouse Cloud로 옮겼다고 우아콘 2024에서 발표했습니다.
23. 일본 기업 사례 — Mercari · LINE Yahoo · CyberAgent · Rakuten
Mercari: 메르카리는 GCP 깊은 채택 사례로, BigQuery를 핵심 DW로 운영합니다. 2024년 Mercari Engineering Blog에 따르면, BigQuery에서 일 수페타바이트의 스캔이 발생하고, dbt + BigQuery Studio + Looker Studio 조합으로 분석 워크플로를 표준화했습니다. 2025년부터 Gemini + BigQuery ML 통합으로 자연어 쿼리(NLQ) 사내 도구를 개발했고, 사용자에게는 더 정교한 추천(개인화)을 제공합니다.
LINE Yahoo Japan: 합병 이전 LINE은 Hadoop 기반 자체 DW를 운영했고, Yahoo Japan은 Teradata + 자체 분석 플랫폼을 사용했습니다. 합병 후 2024년부터 통합 데이터 플랫폼으로 BigQuery + Iceberg + Trino를 채택했다고 LINE DEVELOPER DAY 2024에서 발표했습니다. 페타바이트급 Hive 자산을 Iceberg로 마이그레이션하면서 BigLake 외부 테이블로 BigQuery에서도 쿼리 가능하게 했습니다.
CyberAgent: AbemaTV(현재 ABEMA), 광고 사업 데이터를 Snowflake on AWS Tokyo로 통합 운영합니다. 2025년 CyberAgent Developers Conference 발표에 따르면, 광고 입찰 로그(일 수십억 건)는 BigQuery, 비즈니스 분석은 Snowflake, 실시간 어트리뷰션은 ClickHouse 조합으로 다중 엔진 전략을 펼칩니다. dbt + Airflow + Datadog로 모든 파이프라인 관측.
Rakuten: 라쿠텐은 일찍부터 Treasure Data(treasuredata.com)를 채택했고, 2020년대 들어 Snowflake에 워크로드를 점진적으로 이관 중입니다. Treasure Data는 Hive 기반 매니지드 CDP이고, Snowflake로 옮긴 핵심 이유는 ML 워크로드 통합과 비용 예측 가능성입니다. 2025년 Rakuten Tech Conference 발표에 따르면, 라쿠텐 쇼핑·증권·이동통신의 데이터가 모두 Snowflake 한 계정 안에서 거버넌스됩니다.
DeNA: 게임·헬스케어 데이터에 BigQuery, ML 워크로드에 Vertex AI를 사용하며, Pokémon GO 운영사 Niantic과의 협업 데이터도 BigQuery로 통합. 2024년부터 Apache Iceberg 채택으로 락인 분산 전략을 시작했다고 DeNA TechCon 2024에서 발표.
24. 의사결정 체크리스트 — 어떻게 고를 것인가
DW 선택은 거의 항상 "팀 + 데이터 형태 + 예산 + 락인 위험 수용도"의 함수입니다.
팀이 SQL 중심이고 분석이 메인 → Snowflake. 가장 매끄러운 SQL UX, 가장 큰 생태계.
팀에 ML 엔지니어와 데이터 사이언티스트가 같이 있고, Spark/Python 워크로드가 큼 → Databricks Lakehouse. SQL + Spark + ML이 한 플랫폼.
GCP 중심 인프라, 작은 워크로드도 자주 돌리는 PMF 이전 스타트업 → BigQuery on-demand. 초기에 0원에서 시작 가능, BQML로 ML 무료 학습.
AWS 중심 인프라, 기존 Redshift 운영 중 → Redshift Serverless로 이전. Zero-ETL과 Bedrock 통합이 강점.
Microsoft 365·Power BI 중심 엔터프라이즈 → Microsoft Fabric (또는 Synapse). 강한 ID/접근 통합.
실시간 사용자 노출 분석이 핵심 → Apache Pinot (StarTree) 또는 Apache Druid (Imply).
수십억 행 로그 분석, 빠른 응답이 핵심 → ClickHouse Cloud.
100TB 이하, 1-10인 팀, 비용 최소화가 1번 → MotherDuck (또는 DuckDB + S3 + dbt).
락인 회피가 1번 원칙 → Trino + Apache Iceberg + Polaris (자체 호스팅 또는 Starburst Galaxy).
대부분의 회사는 결국 다중 엔진 전략(Multi-engine) 으로 갑니다. Snowflake로 일반 분석, ClickHouse로 실시간, BigQuery로 광고, 그리고 같은 데이터를 Iceberg에 두는 식입니다. 2026년 모범 패턴은 "데이터는 Iceberg, 엔진은 워크로드별로" 입니다.
25. 참고 / References
- Snowflake documentation —
https://docs.snowflake.com/ - Snowflake Cortex AI —
https://docs.snowflake.com/en/guides-overview-ai-features - Apache Polaris —
https://polaris.apache.org/ - Databricks documentation —
https://docs.databricks.com/ - Databricks Lakehouse Architecture —
https://www.databricks.com/glossary/data-lakehouse - Delta Lake —
https://delta.io/ - Unity Catalog (OSS) —
https://www.unitycatalog.io/ - Apache Spark —
https://spark.apache.org/ - DBRX model —
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm - Google BigQuery documentation —
https://cloud.google.com/bigquery/docs - BigQuery ML —
https://cloud.google.com/bigquery/docs/bqml-introduction - BigQuery Omni —
https://cloud.google.com/bigquery/docs/omni-introduction - AWS Redshift documentation —
https://docs.aws.amazon.com/redshift/ - Redshift Serverless —
https://docs.aws.amazon.com/redshift/latest/mgmt/serverless-whatis.html - Azure Synapse Analytics —
https://learn.microsoft.com/en-us/azure/synapse-analytics/ - Microsoft Fabric —
https://learn.microsoft.com/en-us/fabric/ - Firebolt documentation —
https://docs.firebolt.io/ - MotherDuck —
https://motherduck.com/docs/ - DuckDB —
https://duckdb.org/docs/ - ClickHouse —
https://clickhouse.com/docs - StarRocks —
https://docs.starrocks.io/ - Apache Doris —
https://doris.apache.org/docs/ - Apache Druid —
https://druid.apache.org/docs/latest/ - Apache Pinot —
https://docs.pinot.apache.org/ - StarTree —
https://startree.ai/ - Apache Iceberg —
https://iceberg.apache.org/ - Apache Hudi —
https://hudi.apache.org/docs/overview - Lakekeeper —
https://lakekeeper.io/ - Apache Gravitino —
https://gravitino.apache.org/ - Project Nessie —
https://projectnessie.org/ - Trino —
https://trino.io/docs/current/ - Starburst Galaxy —
https://www.starburst.io/platform/starburst-galaxy/ - dbt documentation —
https://docs.getdbt.com/ - Hightouch —
https://hightouch.com/docs - Census —
https://docs.getcensus.com/ - Monte Carlo Data —
https://www.montecarlodata.com/ - Atlan —
https://atlan.com/ - 쿠팡 엔지니어링 블로그 —
https://medium.com/coupang-engineering/kr/home - Naver DEVIEW archive —
https://deview.kr/ - LINE DEVELOPER DAY —
https://linedevday.linecorp.com/ - Mercari Engineering Blog —
https://engineering.mercari.com/ - CyberAgent Developers Blog —
https://developers.cyberagent.co.jp/blog/ - Rakuten Tech Conference —
https://tech.rakuten.com/