Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

Season 5 Ep 6 — Ep 5가 "지표의 언어"였다면 Ep 6은 "AI·ML이 요구하는 특수 저장소들". 이들은 서로 다른 카테고리로 시작했지만 2025년에는 놀랍도록 수렴하고 있다.

Prologue — "DB 지형이 AI 때문에 재그려졌다"
1장 · Feature Store — ML의 언어
2장 · Vector DB — AI의 언어
3장 · Graph DB — 관계의 언어
4장 · 시계열 DB — 운영의 언어
5장 · "Unified DB"의 등장
6장 · AI가 DB 지형에 준 충격
7장 · 선택 가이드
8장 · 한국 기업 실무
9장 · 케이스 스터디 3
10장 · 안티패턴 10선
11장 · 체크리스트 — 특수 DB 도입 12가지
12장 · 다음 글 예고 — Season 5 Ep 7: "데이터 거버넌스·Lineage·PII"

Prologue — "DB 지형이 AI 때문에 재그려졌다"

2015–2020년에는 DB 카테고리가 선명했다:

OLTP: Postgres/MySQL
OLAP: Warehouse
NoSQL: Mongo/Cassandra/Redis
시계열: InfluxDB

2022년 LLM 붐 이후 벡터 DB가 폭발했고, 2024–2025년에는 반대로:

Postgres + pgvector → 범용 DB가 벡터 삼킴
Lakehouse → 피처·벡터·시계열 통합 수용
시계열 DB가 벡터 지원 추가
Graph DB가 AI 추천·GraphRAG로 재부상

경계가 흐려지고 있다. 이 글은 그 혼돈을 정리한다.

1장 · Feature Store — ML의 언어

1.1 왜 필요한가

ML 모델 학습과 추론이 다른 피처를 쓰면 온라인-오프라인 skew
각 팀이 자기 피처를 재계산 → 중복·불일치
재현성·감사·거버넌스 부재

1.2 Feature Store의 2계층

Offline Store: 배치 학습·백필 (Lakehouse/Iceberg/BigQuery)
Online Store: 저지연 추론 (Redis/DynamoDB/Cassandra)
두 계층이 같은 정의에서 생성됨

1.3 주요 도구

Feast (오픈): 가장 인기, Tecton이 주도
Tecton (상용): 실시간 Feature Pipeline
Hopsworks: End-to-End ML 플랫폼
Databricks Feature Store: Delta 통합
Vertex AI Feature Store: GCP
SageMaker Feature Store: AWS

1.4 Feast 예시

from feast import Entity, FeatureView, Field
from feast.types import Float32

user = Entity(name='user', join_keys=['user_id'])

driver_stats = FeatureView(
    name='user_stats',
    entities=[user],
    schema=[Field(name='avg_order_value', dtype=Float32)],
    source=...
)

1.5 Online-Offline Skew 방지

같은 SQL/코드로 양쪽 피처 생성
Point-in-time correctness: 학습용 피처는 당시 시점 값
Materialization: Offline → Online 주기적 동기화
Data validation: 분포 이상 감지

1.6 2024–2025 동향

Iceberg·Delta 위에 Feature Store 구축 증가
실시간 Feature Pipeline(Flink/RisingWave)과 결합
LLM RAG의 컨텍스트 데이터도 Feature Store로 관리 시도

2장 · Vector DB — AI의 언어

2.1 2022–2024 폭발

LLM RAG 열풍으로 벡터 DB 카테고리 급부상
Pinecone 시리즈 B $100M (2023)
Weaviate·Qdrant·Milvus·Chroma·LanceDB 등 대거 등장

2.2 주요 벡터 DB

이름	타입	특징
Pinecone	SaaS	업계 선도, 관리 편함
Weaviate	오픈+SaaS	하이브리드 검색·모듈
Milvus	오픈+SaaS	대규모, Zilliz 상용
Qdrant	오픈+SaaS	Rust, 빠른 성능
Chroma	오픈	임베디드/개발자 친화
LanceDB	오픈	파일 기반, 임베디드
pgvector	Postgres 확장	범용 DB 통합
Vespa	오픈	Yahoo 기원, 랭킹 강점
Elasticsearch	검색 + 벡터	기존 검색+벡터
Redis Vector	메모리	초저지연

2.3 주요 알고리즘

HNSW: 업계 표준 근사 근접 검색
IVF: 대규모에 효율
ScaNN(Google): 대규모 + 정확도
DiskANN(Microsoft): SSD 기반 초대용량

2.4 하이브리드 검색

Dense(벡터) + Sparse(BM25) 결합
2024–2025 기본 표준으로 자리잡음
Weaviate, Vespa, Elastic, OpenSearch 모두 지원

2.5 Postgres + pgvector의 반격

2023–2024 pgvector가 폭발적 개선
HNSW 인덱스, 메타 필터링, 하이브리드 검색
"DB를 하나 더 만들지 말고 Postgres에서"가 2025년 흔한 선택

2.6 쓰는 곳

RAG의 컨텍스트 검색
추천 시스템
이미지·비디오·오디오 유사도
클러스터링·이상탐지

3장 · Graph DB — 관계의 언어

3.1 왜 다시 뜨나

지식 그래프 기반 RAG(GraphRAG)가 2024 부상
추천·사기탐지·공급망 분석
LLM이 구조화된 지식을 활용하는 패턴

3.2 주요 Graph DB

Neo4j: 업계 선도, Cypher 언어
NebulaGraph: 중국 기원, 대규모
Dgraph: 분산 GraphQL
TigerGraph: 고성능 분석
Amazon Neptune: AWS 관리형
ArangoDB: 멀티모델(document+graph)
Apache AGE: Postgres 확장(graph)
Kuzu: 임베디드 Graph (최근 주목)

3.3 쿼리 언어

Cypher: Neo4j 표준, 가장 널리 쓰임
Gremlin: Apache TinkerPop
GQL: ISO 표준화 진행 중
GraphQL: API 언어로 Dgraph 등이 채택

3.4 GraphRAG

LLM에 관련 엔티티·관계를 그래프로 제공
"이 사람이 관여한 프로젝트들의 핵심 담당자는?" 류 질의에 강점
Microsoft GraphRAG(2024), LlamaIndex KnowledgeGraph 등

3.5 쓰는 곳

사기탐지(거래 네트워크)
추천(사용자-상품-속성 관계)
지식 그래프(기업 정보·학술·의료)
Supply chain, 사이버 보안

3.6 한계와 현실

Graph DB는 "한 부분"을 담당하는 경우가 많음
메인은 Postgres/Warehouse, Graph는 특정 워크로드
Apache AGE·Kuzu 같은 경량 옵션으로 진입장벽 하락

4장 · 시계열 DB — 운영의 언어

4.1 카테고리

전용: InfluxDB, TimescaleDB, VictoriaMetrics, QuestDB
관측성 친화: Prometheus, M3, Cortex, Mimir, Thanos
범용에 내장: ClickHouse, BigQuery, Snowflake도 시계열 처리 가능

4.2 주요 도구

InfluxDB 3: 2024 Parquet/Arrow 기반 재설계
TimescaleDB: Postgres 확장, 가장 범용적
VictoriaMetrics: Prometheus 호환, 초고성능
QuestDB: 초고속 ingest, SQL
Prometheus: 모니터링 표준, 장기 보관은 Thanos/Cortex
ClickHouse: 로그·메트릭·트레이스 통합

4.3 AI·ML과의 만남

시계열 피처 생성(Feature Store의 source)
LLM으로 시계열 이상탐지·요약
예측 모델(Prophet, Nixtla)과 결합

4.4 2024–2025 트렌드

OpenTelemetry가 3대 시그널(Metric·Log·Trace) 통합
ClickHouse·SigNoz·Grafana Cloud Loki/Mimir/Tempo가 통합 백엔드
TimescaleDB는 Postgres 에코 흡수 + 벡터도 지원(pgvector)

4.5 쓰는 곳

APM·인프라 모니터링
IoT·센서 데이터
금융 거래 타임라인
사용자 행동 타임라인

5장 · "Unified DB"의 등장

5.1 2024–2025 현상

Postgres + 확장: OLTP + 벡터 + 시계열 + Graph (AGE)
ClickHouse: OLAP + 로그/메트릭 + 벡터(2024 확대) + 유사도
MongoDB: Document + Atlas Vector Search
Elastic: 검색 + 벡터 + 관측성
Snowflake/Databricks: Warehouse + 벡터 + ML + 스트리밍

5.2 왜 통합되나

여러 DB 운영 비용
데이터 복제·일관성 부담
스타트업은 하나로 시작 선호

5.3 통합의 한계

전문 엔진(Pinecone·Neo4j·InfluxDB)의 성능·기능 깊이 못 따라옴
대규모에서는 다시 분리 필요
"단일 DB vs 다중 전문 DB"는 규모·워크로드별 균형

5.4 2025 권고

초기 < 10M 레코드: 단일 DB(Postgres + 확장)로 충분
중기 10M–1B: 통합 DB + 일부 전용
대규모 1B+: 워크로드별 전문 DB 분리

6장 · AI가 DB 지형에 준 충격

6.1 벡터 DB 폭발 → 수렴

2022: 카테고리 탄생
2023: 수십 개 벤더
2024: Postgres/ES/Mongo가 흡수 → 전문 벡터 DB는 대규모·초저지연에 집중

6.2 Graph의 재발견

GraphRAG·LLM 지식 기반
기업 데이터 통합(지식 그래프)
Neo4j·Microsoft GraphRAG 확산

6.3 시계열 + LLM

로그·메트릭에 LLM 자연어 질의
예측·이상탐지에 LLM 보조
OpenTelemetry + LLM 관측성 플랫폼

6.4 Feature Store의 확장

전통 ML 피처 → LLM RAG 컨텍스트도 관리
Vector + Feature 통합 저장소 실험
온라인-오프라인 동기화 패턴 재사용

6.5 DB Sprawl 경계

제품별 DB 2–5개 → 관리 부담
2025년 지혜: "전문성의 깊이 vs 운영의 간결함" 균형

7장 · 선택 가이드

7.1 "전용 벡터 DB가 필요한 경우"

1억+ 벡터, 초저지연 필요
복잡 메타 필터링 + 하이브리드
ML 전용 팀 존재

→ Pinecone, Weaviate, Milvus, Qdrant

7.2 "Postgres + pgvector로 충분"

< 1천만 벡터
기존 Postgres 스택 활용
운영·감사 편의 우선

7.3 "Graph DB가 필요한 경우"

관계가 핵심 비즈니스 로직(사기탐지·추천)
재귀/경로 쿼리 빈번
지식 그래프 대규모

→ Neo4j, NebulaGraph, Neptune

7.4 "시계열 DB가 필요한 경우"

초당 만 건+ metric/log
장기 보관 + 집계 쿼리

→ TimescaleDB(범용), VictoriaMetrics/ClickHouse(대규모)

7.5 "Feature Store가 필요한 시점"

ML 모델 2개 이상 프로덕션
피처 10개 이상 공유
학습-추론 skew 문제 발생

→ Feast(경량), Tecton/Databricks(엔터프라이즈)

8장 · 한국 기업 실무

8.1 도입 현황

Vector DB: 2023–2024 대부분 Pinecone/Weaviate 시작, 2025년 pgvector·Elastic 이전 증가
Graph DB: 금융(사기탐지)·통신(네트워크) 전통 사용, LLM 시대 재도약
시계열 DB: APM·IoT는 InfluxDB/Prometheus 중심
Feature Store: 쿠팡·당근·토스·네이버가 자체 구축 사례

8.2 망분리·온프레 요구

금융·공공: 오픈소스(Milvus·Qdrant·Neo4j Community) 자체 운영
Vector DB 온프레 배포 SI가 성장 중
한국어 임베딩 모델(Solar·KoSimCSE·E5-Korean) + 현지 벡터 DB 조합

8.3 비용·성능 팁

임베딩 차원을 낮출 수 있는지 실험(dimension reduction)
Dense+Sparse 하이브리드로 정확도 개선
Cold 데이터는 Parquet + Iceberg에, Hot은 Vector DB에

8.4 2025 한국 참여 동향

Upstage Embedding / Solar → 국산 임베딩 모델 확산
삼성 SDS·LG CNS·네이버클라우드가 Vector·Graph·LLM 통합 패키지
스타트업들의 GraphRAG·온프레 Vector DB 구축 수요

9장 · 케이스 스터디 3

9.1 이커머스 추천

User·Item·Order 그래프: Neo4j
Item 임베딩: pgvector 또는 Pinecone
실시간 피처: Feast + Redis
결과: "다음 구매 가능 상품" 정확도 +20%

9.2 금융 사기 탐지

거래 그래프: NebulaGraph
사용자 행동 시계열: TimescaleDB
실시간 룰 + ML 스코어: Feast + Flink
결과: 오탐률 감소, 대응 시간 단축

9.3 기업 AI Assistant (RAG)

문서 임베딩: Weaviate
사내 지식 그래프: Neo4j + GraphRAG
사용자 권한·메타: Postgres
LLM은 Semantic Layer와 결합

10장 · 안티패턴 10선

10.1 "모든 제품에 Vector DB"

pgvector로 충분한데 과투자.

10.2 Graph DB를 OLTP 교체 용도로

트랜잭션 처리에 부적합.

10.3 시계열 데이터 OLTP에 그대로 쌓기

테이블 비대, 쿼리 폭주.

10.4 Feature Store 없이 ML 5개 운영

피처 계산 중복·skew.

10.5 Online-Offline 동기화 부재

학습 잘 된 모델이 프로덕션에선 엉망.

10.6 벡터 인덱스 튜닝 부재

HNSW/IVF 기본값으로 성능 저하.

10.7 하이브리드 검색 무시

Dense-only로 키워드 쿼리 약함.

10.8 GraphRAG 없이 LLM에 raw 문서만

관계형 질의 정확도 저하.

10.9 여러 전문 DB를 초기에 모두

운영 부담 과다.

10.10 데이터 거버넌스 분산

DB 5종에 각각의 PII/감사, 일관성 붕괴.

11장 · 체크리스트 — 특수 DB 도입 12가지

12장 · 다음 글 예고 — Season 5 Ep 7: "데이터 거버넌스·Lineage·PII"

특수 DB가 늘어날수록 거버넌스가 어려워진다. Ep 7은 데이터가 흐르는 전 과정의 관리를 다룬다.

OpenLineage 표준
Collibra / Atlan / DataHub / Alation
Unity Catalog / Polaris / Glue의 거버넌스 계층
PII 탐지·마스킹·토큰화
GDPR·한국 개인정보보호법의 데이터 주체 권리
민감 데이터 분류
데이터 계약(Ep 4 연장)과 감사
멀티 클라우드·멀티 DB 거버넌스
한국 기업의 거버넌스 현실
AI 시대의 거버넌스 확장

"데이터를 관리하지 않으면 데이터가 회사를 지배한다." Ep 7의 화두.

다음 글에서 만나자.

요약: 2025년 DB 지형은 AI·ML이 흔든 뒤 수렴하는 국면. Vector DB는 전문 벤더와 Postgres/ES/Mongo 통합이 공존, Graph DB는 GraphRAG와 사기탐지로 재부상, 시계열 DB는 OpenTelemetry와 결합, Feature Store는 Iceberg·실시간 스트리밍과 융합. "단일 DB로 시작 → 규모별 전문화"가 지배적 패턴이며, 한국 기업은 망분리·한국어 임베딩·Feast/Neo4j/Milvus 자체 운영이 특수성. 다음 편은 이 모든 것 위의 데이터 거버넌스 · Lineage · PII.