Skip to content

✍️ 필사 모드: Feature Store와 Vector·Graph·시계열 DB 융합 가이드: Feast·Tecton·Pinecone·Weaviate·Milvus·Neo4j·TimescaleDB (2025)

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

Season 5 Ep 6 — Ep 5가 "지표의 언어"였다면 Ep 6은 "AI·ML이 요구하는 특수 저장소들". 이들은 서로 다른 카테고리로 시작했지만 2025년에는 놀랍도록 수렴하고 있다.

Prologue — "DB 지형이 AI 때문에 재그려졌다"

2015–2020년에는 DB 카테고리가 선명했다:

  • OLTP: Postgres/MySQL
  • OLAP: Warehouse
  • NoSQL: Mongo/Cassandra/Redis
  • 시계열: InfluxDB

2022년 LLM 붐 이후 벡터 DB가 폭발했고, 2024–2025년에는 반대로:

  • Postgres + pgvector → 범용 DB가 벡터 삼킴
  • Lakehouse → 피처·벡터·시계열 통합 수용
  • 시계열 DB가 벡터 지원 추가
  • Graph DB가 AI 추천·GraphRAG로 재부상

경계가 흐려지고 있다. 이 글은 그 혼돈을 정리한다.


1장 · Feature Store — ML의 언어

1.1 왜 필요한가

  • ML 모델 학습과 추론이 다른 피처를 쓰면 온라인-오프라인 skew
  • 각 팀이 자기 피처를 재계산 → 중복·불일치
  • 재현성·감사·거버넌스 부재

1.2 Feature Store의 2계층

  • Offline Store: 배치 학습·백필 (Lakehouse/Iceberg/BigQuery)
  • Online Store: 저지연 추론 (Redis/DynamoDB/Cassandra)
  • 두 계층이 같은 정의에서 생성됨

1.3 주요 도구

  • Feast (오픈): 가장 인기, Tecton이 주도
  • Tecton (상용): 실시간 Feature Pipeline
  • Hopsworks: End-to-End ML 플랫폼
  • Databricks Feature Store: Delta 통합
  • Vertex AI Feature Store: GCP
  • SageMaker Feature Store: AWS

1.4 Feast 예시

from feast import Entity, FeatureView, Field
from feast.types import Float32

user = Entity(name='user', join_keys=['user_id'])

driver_stats = FeatureView(
    name='user_stats',
    entities=[user],
    schema=[Field(name='avg_order_value', dtype=Float32)],
    source=...
)

1.5 Online-Offline Skew 방지

  • 같은 SQL/코드로 양쪽 피처 생성
  • Point-in-time correctness: 학습용 피처는 당시 시점 값
  • Materialization: Offline → Online 주기적 동기화
  • Data validation: 분포 이상 감지

1.6 2024–2025 동향

  • Iceberg·Delta 위에 Feature Store 구축 증가
  • 실시간 Feature Pipeline(Flink/RisingWave)과 결합
  • LLM RAG의 컨텍스트 데이터도 Feature Store로 관리 시도

2장 · Vector DB — AI의 언어

2.1 2022–2024 폭발

  • LLM RAG 열풍으로 벡터 DB 카테고리 급부상
  • Pinecone 시리즈 B $100M (2023)
  • Weaviate·Qdrant·Milvus·Chroma·LanceDB 등 대거 등장

2.2 주요 벡터 DB

이름타입특징
PineconeSaaS업계 선도, 관리 편함
Weaviate오픈+SaaS하이브리드 검색·모듈
Milvus오픈+SaaS대규모, Zilliz 상용
Qdrant오픈+SaaSRust, 빠른 성능
Chroma오픈임베디드/개발자 친화
LanceDB오픈파일 기반, 임베디드
pgvectorPostgres 확장범용 DB 통합
Vespa오픈Yahoo 기원, 랭킹 강점
Elasticsearch검색 + 벡터기존 검색+벡터
Redis Vector메모리초저지연

2.3 주요 알고리즘

  • HNSW: 업계 표준 근사 근접 검색
  • IVF: 대규모에 효율
  • ScaNN(Google): 대규모 + 정확도
  • DiskANN(Microsoft): SSD 기반 초대용량

2.4 하이브리드 검색

  • Dense(벡터) + Sparse(BM25) 결합
  • 2024–2025 기본 표준으로 자리잡음
  • Weaviate, Vespa, Elastic, OpenSearch 모두 지원

2.5 Postgres + pgvector의 반격

  • 2023–2024 pgvector가 폭발적 개선
  • HNSW 인덱스, 메타 필터링, 하이브리드 검색
  • **"DB를 하나 더 만들지 말고 Postgres에서"**가 2025년 흔한 선택

2.6 쓰는 곳

  • RAG의 컨텍스트 검색
  • 추천 시스템
  • 이미지·비디오·오디오 유사도
  • 클러스터링·이상탐지

3장 · Graph DB — 관계의 언어

3.1 왜 다시 뜨나

  • 지식 그래프 기반 RAG(GraphRAG)가 2024 부상
  • 추천·사기탐지·공급망 분석
  • LLM이 구조화된 지식을 활용하는 패턴

3.2 주요 Graph DB

  • Neo4j: 업계 선도, Cypher 언어
  • NebulaGraph: 중국 기원, 대규모
  • Dgraph: 분산 GraphQL
  • TigerGraph: 고성능 분석
  • Amazon Neptune: AWS 관리형
  • ArangoDB: 멀티모델(document+graph)
  • Apache AGE: Postgres 확장(graph)
  • Kuzu: 임베디드 Graph (최근 주목)

3.3 쿼리 언어

  • Cypher: Neo4j 표준, 가장 널리 쓰임
  • Gremlin: Apache TinkerPop
  • GQL: ISO 표준화 진행 중
  • GraphQL: API 언어로 Dgraph 등이 채택

3.4 GraphRAG

  • LLM에 관련 엔티티·관계를 그래프로 제공
  • "이 사람이 관여한 프로젝트들의 핵심 담당자는?" 류 질의에 강점
  • Microsoft GraphRAG(2024), LlamaIndex KnowledgeGraph 등

3.5 쓰는 곳

  • 사기탐지(거래 네트워크)
  • 추천(사용자-상품-속성 관계)
  • 지식 그래프(기업 정보·학술·의료)
  • Supply chain, 사이버 보안

3.6 한계와 현실

  • Graph DB는 "한 부분"을 담당하는 경우가 많음
  • 메인은 Postgres/Warehouse, Graph는 특정 워크로드
  • Apache AGE·Kuzu 같은 경량 옵션으로 진입장벽 하락

4장 · 시계열 DB — 운영의 언어

4.1 카테고리

  • 전용: InfluxDB, TimescaleDB, VictoriaMetrics, QuestDB
  • 관측성 친화: Prometheus, M3, Cortex, Mimir, Thanos
  • 범용에 내장: ClickHouse, BigQuery, Snowflake도 시계열 처리 가능

4.2 주요 도구

  • InfluxDB 3: 2024 Parquet/Arrow 기반 재설계
  • TimescaleDB: Postgres 확장, 가장 범용적
  • VictoriaMetrics: Prometheus 호환, 초고성능
  • QuestDB: 초고속 ingest, SQL
  • Prometheus: 모니터링 표준, 장기 보관은 Thanos/Cortex
  • ClickHouse: 로그·메트릭·트레이스 통합

4.3 AI·ML과의 만남

  • 시계열 피처 생성(Feature Store의 source)
  • LLM으로 시계열 이상탐지·요약
  • 예측 모델(Prophet, Nixtla)과 결합

4.4 2024–2025 트렌드

  • OpenTelemetry가 3대 시그널(Metric·Log·Trace) 통합
  • ClickHouse·SigNoz·Grafana Cloud Loki/Mimir/Tempo가 통합 백엔드
  • TimescaleDB는 Postgres 에코 흡수 + 벡터도 지원(pgvector)

4.5 쓰는 곳

  • APM·인프라 모니터링
  • IoT·센서 데이터
  • 금융 거래 타임라인
  • 사용자 행동 타임라인

5장 · "Unified DB"의 등장

5.1 2024–2025 현상

  • Postgres + 확장: OLTP + 벡터 + 시계열 + Graph (AGE)
  • ClickHouse: OLAP + 로그/메트릭 + 벡터(2024 확대) + 유사도
  • MongoDB: Document + Atlas Vector Search
  • Elastic: 검색 + 벡터 + 관측성
  • Snowflake/Databricks: Warehouse + 벡터 + ML + 스트리밍

5.2 왜 통합되나

  • 여러 DB 운영 비용
  • 데이터 복제·일관성 부담
  • 스타트업은 하나로 시작 선호

5.3 통합의 한계

  • 전문 엔진(Pinecone·Neo4j·InfluxDB)의 성능·기능 깊이 못 따라옴
  • 대규모에서는 다시 분리 필요
  • "단일 DB vs 다중 전문 DB"는 규모·워크로드별 균형

5.4 2025 권고

  • 초기 < 10M 레코드: 단일 DB(Postgres + 확장)로 충분
  • 중기 10M–1B: 통합 DB + 일부 전용
  • 대규모 1B+: 워크로드별 전문 DB 분리

6장 · AI가 DB 지형에 준 충격

6.1 벡터 DB 폭발 → 수렴

  • 2022: 카테고리 탄생
  • 2023: 수십 개 벤더
  • 2024: Postgres/ES/Mongo가 흡수 → 전문 벡터 DB는 대규모·초저지연에 집중

6.2 Graph의 재발견

  • GraphRAG·LLM 지식 기반
  • 기업 데이터 통합(지식 그래프)
  • Neo4j·Microsoft GraphRAG 확산

6.3 시계열 + LLM

  • 로그·메트릭에 LLM 자연어 질의
  • 예측·이상탐지에 LLM 보조
  • OpenTelemetry + LLM 관측성 플랫폼

6.4 Feature Store의 확장

  • 전통 ML 피처 → LLM RAG 컨텍스트도 관리
  • Vector + Feature 통합 저장소 실험
  • 온라인-오프라인 동기화 패턴 재사용

6.5 DB Sprawl 경계

  • 제품별 DB 2–5개 → 관리 부담
  • 2025년 지혜: "전문성의 깊이 vs 운영의 간결함" 균형

7장 · 선택 가이드

7.1 "전용 벡터 DB가 필요한 경우"

  • 1억+ 벡터, 초저지연 필요
  • 복잡 메타 필터링 + 하이브리드
  • ML 전용 팀 존재

→ Pinecone, Weaviate, Milvus, Qdrant

7.2 "Postgres + pgvector로 충분"

  • < 1천만 벡터
  • 기존 Postgres 스택 활용
  • 운영·감사 편의 우선

7.3 "Graph DB가 필요한 경우"

  • 관계가 핵심 비즈니스 로직(사기탐지·추천)
  • 재귀/경로 쿼리 빈번
  • 지식 그래프 대규모

→ Neo4j, NebulaGraph, Neptune

7.4 "시계열 DB가 필요한 경우"

  • 초당 만 건+ metric/log
  • 장기 보관 + 집계 쿼리

→ TimescaleDB(범용), VictoriaMetrics/ClickHouse(대규모)

7.5 "Feature Store가 필요한 시점"

  • ML 모델 2개 이상 프로덕션
  • 피처 10개 이상 공유
  • 학습-추론 skew 문제 발생

→ Feast(경량), Tecton/Databricks(엔터프라이즈)


8장 · 한국 기업 실무

8.1 도입 현황

  • Vector DB: 2023–2024 대부분 Pinecone/Weaviate 시작, 2025년 pgvector·Elastic 이전 증가
  • Graph DB: 금융(사기탐지)·통신(네트워크) 전통 사용, LLM 시대 재도약
  • 시계열 DB: APM·IoT는 InfluxDB/Prometheus 중심
  • Feature Store: 쿠팡·당근·토스·네이버가 자체 구축 사례

8.2 망분리·온프레 요구

  • 금융·공공: 오픈소스(Milvus·Qdrant·Neo4j Community) 자체 운영
  • Vector DB 온프레 배포 SI가 성장 중
  • 한국어 임베딩 모델(Solar·KoSimCSE·E5-Korean) + 현지 벡터 DB 조합

8.3 비용·성능 팁

  • 임베딩 차원을 낮출 수 있는지 실험(dimension reduction)
  • Dense+Sparse 하이브리드로 정확도 개선
  • Cold 데이터는 Parquet + Iceberg에, Hot은 Vector DB에

8.4 2025 한국 참여 동향

  • Upstage Embedding / Solar → 국산 임베딩 모델 확산
  • 삼성 SDS·LG CNS·네이버클라우드가 Vector·Graph·LLM 통합 패키지
  • 스타트업들의 GraphRAG·온프레 Vector DB 구축 수요

9장 · 케이스 스터디 3

9.1 이커머스 추천

  • User·Item·Order 그래프: Neo4j
  • Item 임베딩: pgvector 또는 Pinecone
  • 실시간 피처: Feast + Redis
  • 결과: "다음 구매 가능 상품" 정확도 +20%

9.2 금융 사기 탐지

  • 거래 그래프: NebulaGraph
  • 사용자 행동 시계열: TimescaleDB
  • 실시간 룰 + ML 스코어: Feast + Flink
  • 결과: 오탐률 감소, 대응 시간 단축

9.3 기업 AI Assistant (RAG)

  • 문서 임베딩: Weaviate
  • 사내 지식 그래프: Neo4j + GraphRAG
  • 사용자 권한·메타: Postgres
  • LLM은 Semantic Layer와 결합

10장 · 안티패턴 10선

10.1 "모든 제품에 Vector DB"

pgvector로 충분한데 과투자.

10.2 Graph DB를 OLTP 교체 용도로

트랜잭션 처리에 부적합.

10.3 시계열 데이터 OLTP에 그대로 쌓기

테이블 비대, 쿼리 폭주.

10.4 Feature Store 없이 ML 5개 운영

피처 계산 중복·skew.

10.5 Online-Offline 동기화 부재

학습 잘 된 모델이 프로덕션에선 엉망.

10.6 벡터 인덱스 튜닝 부재

HNSW/IVF 기본값으로 성능 저하.

10.7 하이브리드 검색 무시

Dense-only로 키워드 쿼리 약함.

10.8 GraphRAG 없이 LLM에 raw 문서만

관계형 질의 정확도 저하.

10.9 여러 전문 DB를 초기에 모두

운영 부담 과다.

10.10 데이터 거버넌스 분산

DB 5종에 각각의 PII/감사, 일관성 붕괴.


11장 · 체크리스트 — 특수 DB 도입 12가지

  • 워크로드 분류(ML 피처·벡터·그래프·시계열)
  • 규모별 단일 vs 전문 DB 의사결정
  • Feature Store 필요성 평가
  • 벡터 인덱스 알고리즘·파라미터 벤치마크
  • 하이브리드 검색 도입 여부
  • Graph 쿼리 패턴 정리(Cypher/GQL)
  • 시계열 수집 파이프라인
  • Online-Offline skew 감지·경보
  • 보안·권한·감사 통합
  • PII·암호화 정책
  • 비용 예측·모니터링
  • 운영·백업·DR 플랜

12장 · 다음 글 예고 — Season 5 Ep 7: "데이터 거버넌스·Lineage·PII"

특수 DB가 늘어날수록 거버넌스가 어려워진다. Ep 7은 데이터가 흐르는 전 과정의 관리를 다룬다.

  • OpenLineage 표준
  • Collibra / Atlan / DataHub / Alation
  • Unity Catalog / Polaris / Glue의 거버넌스 계층
  • PII 탐지·마스킹·토큰화
  • GDPR·한국 개인정보보호법의 데이터 주체 권리
  • 민감 데이터 분류
  • 데이터 계약(Ep 4 연장)과 감사
  • 멀티 클라우드·멀티 DB 거버넌스
  • 한국 기업의 거버넌스 현실
  • AI 시대의 거버넌스 확장

"데이터를 관리하지 않으면 데이터가 회사를 지배한다." Ep 7의 화두.

다음 글에서 만나자.


요약: 2025년 DB 지형은 AI·ML이 흔든 뒤 수렴하는 국면. Vector DB는 전문 벤더와 Postgres/ES/Mongo 통합이 공존, Graph DB는 GraphRAG와 사기탐지로 재부상, 시계열 DB는 OpenTelemetry와 결합, Feature Store는 Iceberg·실시간 스트리밍과 융합. **"단일 DB로 시작 → 규모별 전문화"**가 지배적 패턴이며, 한국 기업은 망분리·한국어 임베딩·Feast/Neo4j/Milvus 자체 운영이 특수성. 다음 편은 이 모든 것 위의 데이터 거버넌스 · Lineage · PII.

현재 단락 (1/218)

2015–2020년에는 DB 카테고리가 선명했다:

작성 글자: 0원문 글자: 6,841작성 단락: 0/218