Skip to content
Published on

MLOps 플랫폼 2026 완전판 - MLflow · Kubeflow · W&B · Vertex AI · SageMaker · Databricks · BentoML · Ray · Modal · Hugging Face 심층 가이드

Authors

들어가며 — 2026년 5월, MLOps는 LLMOps와 같은 표면을 공유한다

2024년까지만 해도 "MLOps"와 "LLMOps"는 서로 다른 단어처럼 쓰였다. 2026년 5월 현재 두 분야는 거의 같은 표면을 공유한다. 실험 추적기는 prompt run을 추적하고, 모델 레지스트리는 LoRA adapter를 버전 관리하고, 서빙 플랫폼은 vLLM과 TGI를 공식 백엔드로 끼운다. 모니터링 도구는 데이터 드리프트뿐 아니라 hallucination rate, toxicity, faithfulness를 같은 대시보드에 올린다.

이 글은 마케팅용 plat-form-of-the-month 매트릭스가 아니다. 2026년 프로덕션 ML 팀이 실제로 어떤 조합을 굴리고 있는가를 30개 도구로 정리한다. 오픈소스 OSS 우선 스택, 클라우드 매니지드 스택, "GPU만 빌리는" 서버리스 스택, 한국·일본 빅테크의 사내 플랫폼까지 동일한 잣대로 본다.

2026 MLOps 스택을 8개 레이어로 본다

먼저 큰 그림이다. 2026년의 표준 MLOps 스택은 다음 8개 레이어로 분해할 수 있다.

  1. 실험 추적(experiment tracking): 런, 파라미터, 메트릭, 아티팩트
  2. 모델 레지스트리(model registry): 버전, 스테이지, 모델 카드
  3. 파이프라인 오케스트레이션(orchestration): DAG, 캐싱, 재시도
  4. 학습 인프라(training infra): GPU 스케줄링, 분산 학습, HPO
  5. 모델 서빙(serving): 온라인 / 배치 / 엣지
  6. 데이터 버저닝(data versioning): 데이터셋, 피처, 인덱스
  7. 모니터링(monitoring): 데이터 드리프트, 개념 드리프트, 예측 드리프트
  8. LLM 평가(LLM eval): faithfulness, toxicity, jailbreak 탐지

각 레이어를 한 두 도구로 끝낼 수 있던 시대는 끝났다. 같은 레이어 안에서도 고전 ML 트랙과 LLM 트랙이 갈라진다.

실험 추적 — MLflow 3, Weights & Biases, Comet, Neptune.ai

실험 추적 레이어의 90%는 두 도구가 차지한다. MLflow 3.0Weights & Biases다. MLflow는 Databricks가 만들고 Linux Foundation으로 옮긴 BSD 라이선스 OSS, 3.0에서 GenAI 트레이싱·평가·프롬프트 레지스트리가 1급 시민이 됐다. W&B는 SaaS 우선이지만 SDK는 오픈이고, Models / Weave / Launch / Sweeps를 한 묶음으로 판다.

대안군도 적지 않다. Comet ML은 ML + LLM 실험 + 프로덕션 모니터링을 통합한 SaaS, Neptune.ai는 foundation model 학습용 메타데이터 스토어로 포지셔닝을 강화했다. OSS 자체 호스팅 진영에서는 AimClearML이 견고하다.

대표적인 MLflow 3 코드는 다음과 같다.

import mlflow
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

mlflow.set_tracking_uri("http://mlflow.internal:5000")
mlflow.set_experiment("iris-rf-2026")

X, y = load_iris(return_X_y=True)
with mlflow.start_run() as run:
    mlflow.log_param("n_estimators", 200)
    model = RandomForestClassifier(n_estimators=200).fit(X, y)
    mlflow.log_metric("train_acc", model.score(X, y))
    mlflow.sklearn.log_model(
        model,
        artifact_path="model",
        registered_model_name="iris-rf",
    )
    print(run.info.run_id)

같은 흐름을 W&B로 쓰면 다음과 같다.

import wandb
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

run = wandb.init(project="iris-rf-2026", config={"n_estimators": 200})
X, y = load_iris(return_X_y=True)
model = RandomForestClassifier(n_estimators=200).fit(X, y)
wandb.log({"train_acc": model.score(X, y)})
artifact = wandb.Artifact("iris-rf", type="model")
artifact.add_file("model.pkl")
run.log_artifact(artifact)
wandb.finish()

저장 모델과 거버넌스에서 갈린다. MLflow는 자체 호스팅이 기본이고 라이선스가 친화적이지만 UI는 평범하다. W&B는 협업 UX가 매끄럽고 LLM 평가까지 한 묶음이지만 비용이 빠르게 누적된다.

ClearML, DagsHub, MLEM — OSS 진영의 통합 도구

ClearML은 실험 추적 + 오케스트레이션 + 데이터 관리 + 서빙을 하나의 패키지로 묶은 OSS다. agent-worker 패턴으로 큐에 job을 던지면 GPU 노드가 받아서 실행한다. 단일 도구로 끝내고 싶은 중소 팀이 자주 고른다.

DagsHub은 DVC + MLflow + Git LFS를 하나의 SaaS UI로 묶는다. 데이터 버저닝과 실험 추적을 같은 화면에서 본다는 점이 강점이다. MLEM은 Iterative.ai가 만든 모델 패키징 도구로, scikit-learn / PyTorch 모델을 FastAPI 서비스로 한 줄에 내보낸다.

Kubeflow 1.10 — K8s 위 풀스택 ML 플랫폼

Kubeflow는 단일 도구가 아니라 K8s 위에 올린 풀스택이다. 2026년 5월 1.10 라인업의 핵심 컴포넌트는 다음과 같다.

  • Kubeflow Pipelines (KFP): DAG 파이프라인 SDK + UI
  • Katib: 분산 하이퍼파라미터 튜닝
  • KServe: 모델 서빙 (InferenceService CRD)
  • Training Operator: PyTorch / TensorFlow / MPI 분산 학습 오퍼레이터
  • Spark Operator, Notebook Controller, Central Dashboard

KFP 파이프라인은 Python으로 작성하고 YAML로 컴파일한다.

from kfp import dsl, compiler

@dsl.component(base_image="python:3.11")
def preprocess(input_path: str, output_path: dsl.OutputPath(str)) -> None:
    import pandas as pd
    df = pd.read_csv(input_path)
    df.to_parquet(output_path)

@dsl.component(base_image="ghcr.io/myorg/trainer:1.4")
def train(data_path: dsl.InputPath(str), model_path: dsl.OutputPath(str)) -> None:
    import joblib, pandas as pd
    from sklearn.ensemble import RandomForestClassifier
    df = pd.read_parquet(data_path)
    model = RandomForestClassifier().fit(df.drop("y", axis=1), df["y"])
    joblib.dump(model, model_path)

@dsl.pipeline(name="iris-pipeline")
def iris_pipeline(input_path: str) -> None:
    p = preprocess(input_path=input_path)
    train(data_path=p.output)

compiler.Compiler().compile(iris_pipeline, "iris.yaml")

Kubeflow는 K8s 운영 부담이 크다. EKS / GKE / AKS의 매니지드 Kubeflow를 쓰지 않으면 사실상 플랫폼 팀이 필수다.

Metaflow, Flyte, ZenML, Prefect ML, Airflow ML

K8s 네이티브가 부담스러우면 Python 우선 도구를 쓴다. Metaflow는 Netflix가 만들고 Outerbounds가 상용화했다. AWS Batch + Step Functions과 깊이 통합되어 있고, decorator 한 줄로 GPU step을 선언한다. Flyte는 Lyft가 만들고 Union.ai가 상용화했다. K8s 네이티브 + 타입 안전성이 강점이다.

ZenML은 "프레임워크 무관 추상화 레이어"로 포지셔닝한다. MLflow / W&B / Kubeflow / Airflow / Sagemaker를 백엔드로 끼우고 같은 코드를 옮긴다. Prefect 3 + Prefect ML은 데이터 파이프라인과 ML 파이프라인을 한 UI에서 본다. Airflow 3은 ML DAG 전용 데코레이터(@task.virtualenv, @task.kubernetes)를 추가했지만 여전히 ML 우선 도구는 아니다.

Vertex AI — Google Cloud의 풀매니지드 ML

GCP의 Vertex AI는 학습 + 튜닝 + 서빙 + 파이프라인 + 피처 스토어 + 모니터링을 단일 콘솔로 묶는다. Custom Training, AutoML, Workbench(노트북), Pipelines(KFP 기반), Endpoints, Model Garden, Vertex AI Agent Builder, Vertex AI Search 등으로 갈라진다.

Vertex AI Custom Job은 다음처럼 띄운다.

from google.cloud import aiplatform

aiplatform.init(project="my-project", location="us-central1")

job = aiplatform.CustomContainerTrainingJob(
    display_name="iris-rf-2026",
    container_uri="us-central1-docker.pkg.dev/my-project/ml/iris-trainer:1.4",
    model_serving_container_image_uri="us-docker.pkg.dev/vertex-ai/prediction/sklearn-cpu.1-3:latest",
)
model = job.run(
    args=["--n_estimators=200"],
    replica_count=1,
    machine_type="n1-standard-8",
    accelerator_type="NVIDIA_TESLA_T4",
    accelerator_count=1,
)

Vertex AI의 강점은 BigQuery + Dataplex + Looker와의 자연스러운 결합, Gemini 학습 인프라 노하우, Model Garden을 통한 70여 개 base model 제공이다. 단점은 GCP 의존, 자체 호스팅 모델 대비 비싼 인스턴스 단가다.

SageMaker — AWS의 ML 산맥

AWS SageMaker는 단일 서비스가 아니라 산맥이다. 2026년 5월 기준 다음과 같이 갈라진다.

  • SageMaker Studio: 통합 IDE
  • SageMaker Training Jobs, Processing Jobs: 배치 학습
  • SageMaker Pipelines: 파이프라인 오케스트레이션
  • SageMaker Endpoints (real-time, async, serverless): 서빙
  • SageMaker Feature Store: 피처 저장소
  • SageMaker Model Monitor, Clarify: 드리프트 + 편향
  • SageMaker JumpStart: 사전 학습 모델 카탈로그
  • SageMaker HyperPod: foundation model 학습 전용 클러스터

Endpoint를 배포하면 다음 코드 한 단락이다.

import boto3
from sagemaker import Session
from sagemaker.sklearn import SKLearnModel

session = Session()
role = "arn:aws:iam::123456789012:role/SageMakerRole"

model = SKLearnModel(
    model_data="s3://my-bucket/iris-rf/model.tar.gz",
    role=role,
    entry_point="inference.py",
    framework_version="1.4-1",
    sagemaker_session=session,
)
predictor = model.deploy(
    initial_instance_count=1,
    instance_type="ml.m5.large",
    endpoint_name="iris-rf-endpoint",
)
print(predictor.predict([[5.1, 3.5, 1.4, 0.2]]))

SageMaker의 강점은 AWS 통합(S3, IAM, VPC, CloudWatch, EventBridge)과 깊은 자동화다. 단점은 인스턴스 단가가 EC2 대비 30~50% 비싸고, JumpStart 모델 라이선스 추적이 따로 필요하다는 점이다.

Azure ML Studio + Microsoft Fabric

Azure Machine Learning Studio는 SageMaker / Vertex AI와 같은 포지션이다. Workspaces, Compute Clusters, Pipelines, Endpoints (Online + Batch), Model Catalog, Prompt Flow, Responsible AI Dashboard를 묶는다. 2026년 들어 Microsoft Fabric + Azure ML 통합이 강화되어 OneLake 데이터를 그대로 학습 입력으로 쓸 수 있다. Azure OpenAI Service는 별도 서비스지만 Azure ML Prompt Flow에서 호출 가능하다.

엔터프라이즈 Microsoft 스택(Entra ID, Purview, Defender for Cloud)과 깊은 통합이 강점이다. 단점은 UI가 일관성이 떨어지고, 자체 서명 인증서·private link 설정 학습 곡선이 가파르다.

Databricks ML + Mosaic AI — Lakehouse 위 ML

Databricks는 Unity Catalog + MLflow + Delta Lake를 한 묶음으로 묶어 "lakehouse ML"을 표방한다. 2024년 Mosaic AI 인수 이후 Mosaic AI Pretraining, Mosaic AI Vector Search, Mosaic AI Model Serving이 추가됐다.

  • Model Serving: GPU + CPU 통합 엔드포인트, Provisioned Throughput
  • AI Gateway: LLM 호출 라우팅 + 비용 한도
  • Mosaic AI Agent Framework: agent 빌드 + 평가
  • Genie Spaces: NLQ → SQL 자동화

데이터를 이미 Databricks에 둔 팀에게는 lock-in 비용 대비 가성비가 가장 좋은 편이다.

Hugging Face Hub + Inference Endpoints + AutoTrain

Hugging Face는 단순 모델 허브를 넘어 풀스택 MLOps 도구로 진화했다. 2026년 5월 기준 핵심 라인업은 다음과 같다.

  • Hub: 130만 개 이상 모델, dataset, space
  • Inference Endpoints: 매니지드 GPU/CPU 서빙 (AWS / Azure / GCP region 선택)
  • Inference Providers: Together / Fireworks / Replicate 등 외부 제공자 통합 라우팅
  • AutoTrain: 코드 없이 fine-tuning UI
  • Spaces: Gradio / Streamlit 앱 호스팅
  • TGI (Text Generation Inference): LLM 서빙 백엔드

Inference Endpoint는 다음처럼 배포한다.

from huggingface_hub import create_inference_endpoint

endpoint = create_inference_endpoint(
    name="llama-3-8b-prod",
    repository="meta-llama/Meta-Llama-3-8B-Instruct",
    framework="pytorch",
    accelerator="gpu",
    instance_size="x1",
    instance_type="nvidia-a10g",
    region="us-east-1",
    vendor="aws",
    type="protected",
)
endpoint.wait()
print(endpoint.url)

OSS 모델과 매니지드 서빙을 같은 UI에서 한 번에 처리한다는 점이 강점이다. 단점은 enterprise SLA가 hyperscaler 대비 짧고, dedicated 인스턴스 비용은 RunPod / Modal 대비 30% 정도 비싸다.

Determined AI, Anyscale + Ray Train — GPU 분산 학습

GPU 클러스터를 직접 굴려야 하는 팀은 분산 학습 전용 도구를 쓴다. Determined AI(2021년 HPE 인수)는 분산 학습 + HPO + 실험 추적을 통합한 OSS다. 노드에 에이전트를 깔면 GPU pool이 자동 스케줄링된다.

Anyscale은 Ray 메인테이너가 만든 SaaS다. Ray Train, Ray Tune, Ray Serve, Ray Data를 한 클러스터에서 굴린다. Ray Train으로 PyTorch DDP를 띄우면 다음 한 함수다.

import ray
from ray.train.torch import TorchTrainer
from ray.train import ScalingConfig

def train_fn(config):
    import torch
    import torch.nn as nn
    from torch.utils.data import DataLoader, TensorDataset
    model = nn.Linear(10, 1)
    opt = torch.optim.SGD(model.parameters(), lr=config["lr"])
    ds = TensorDataset(torch.randn(1024, 10), torch.randn(1024, 1))
    dl = DataLoader(ds, batch_size=32)
    for epoch in range(config["epochs"]):
        for x, y in dl:
            loss = ((model(x) - y) ** 2).mean()
            opt.zero_grad(); loss.backward(); opt.step()

trainer = TorchTrainer(
    train_fn,
    train_loop_config={"lr": 1e-3, "epochs": 10},
    scaling_config=ScalingConfig(num_workers=4, use_gpu=True),
)
result = trainer.fit()

Ray는 LLM 학습뿐 아니라 agent orchestration(다중 LLM 호출 병렬화)에도 쓰여서 LLMOps 스택의 핵심 인프라로 자리잡았다.

BentoML — Python-first 모델 서빙

BentoML은 Python 모델을 컨테이너로 패키징하고 매니지드 BentoCloud로 배포하는 OSS 프레임워크다. 1.4 라인업에서 LLM 서빙 모드(bentoml serve --reload --use-vllm)와 multi-model 라우팅이 정식 지원된다.

서비스 정의는 한 파일이다.

import bentoml
from bentoml import api
from sklearn.ensemble import RandomForestClassifier
import joblib

@bentoml.service(resources={"cpu": "2", "memory": "1Gi"}, traffic={"timeout": 30})
class IrisRF:
    def __init__(self) -> None:
        self.model: RandomForestClassifier = joblib.load("model.pkl")

    @api
    def predict(self, x: list[list[float]]) -> list[int]:
        return self.model.predict(x).tolist()

BentoML은 K8s에 직접 배포하거나 BentoCloud로 매니지드 배포한다. KServe / Seldon Core 2 / Triton과 비교했을 때 Python 친화도가 가장 높다.

GPU만 빌리고 인프라는 사라지길 원하는 팀은 서버리스 GPU 플랫폼을 쓴다.

  • Modal: Python decorator-first 서버리스. cold start 1초대.
  • RunPod: GPU pod + serverless endpoint, A100/H100/H200 단가가 hyperscaler 대비 50% 수준
  • Replicate: API 한 줄로 OSS 모델 호출, cog 형식 패키징
  • Fireworks AI: OSS LLM 최적화 서빙, Llama/Mixtral/Qwen 1초 미만 TTFT
  • Together AI: OSS LLM 호스팅 + custom model 서빙 + fine-tuning
  • Lamini, Predibase: enterprise fine-tuning + 서빙 (LoRA serving)

Modal로 GPU 함수를 띄우는 코드는 다음과 같다.

import modal

app = modal.App("llama-inference")
image = (
    modal.Image.debian_slim()
    .pip_install("torch==2.4.0", "transformers==4.44.0", "vllm==0.6.0")
)

@app.function(image=image, gpu="A100-40GB", timeout=300)
def generate(prompt: str) -> str:
    from vllm import LLM, SamplingParams
    llm = LLM(model="meta-llama/Meta-Llama-3-8B-Instruct")
    out = llm.generate([prompt], SamplingParams(max_tokens=200, temperature=0.7))
    return out[0].outputs[0].text

@app.local_entrypoint()
def main():
    print(generate.remote("MLOps in 2026 means"))

LLM 서빙 백엔드 — vLLM, SGLang, TGI, TensorRT-LLM

LLM 서빙은 별도 카테고리다. 2026년 5월 기준 4개 엔진이 시장을 가른다.

  • vLLM: PagedAttention 발명, 가장 빠른 시작점. 0.6.x에서 멀티 LoRA 동시 서빙 안정화.
  • SGLang: vLLM 다음 세대. RadixAttention으로 prefix cache 최적화.
  • TGI (Hugging Face): HF 모델 친화. Inference Endpoints 백엔드.
  • TensorRT-LLM: NVIDIA 자체. H100 / H200에서 최저 지연.

BentoML 1.4와 KServe 0.13은 위 4개를 모두 백엔드로 끼울 수 있다. vLLM의 OpenAI 호환 서버는 한 명령으로 띄운다.

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Meta-Llama-3-8B-Instruct \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9 \
  --max-model-len 8192 \
  --enable-prefix-caching \
  --enable-lora \
  --max-lora-rank 32 \
  --port 8000

모델 모니터링 — Arize, WhyLabs, Fiddler, TruEra, Galileo, Evidently

학습-서빙 skew, 데이터 드리프트, 개념 드리프트, 예측 드리프트, 그리고 LLM hallucination까지를 함께 본다.

  • Arize AI: ML + LLM 모니터링 통합. Phoenix(OSS) + 매니지드 SaaS.
  • WhyLabs: WhyLogs(OSS) 기반. 자체 호스팅 친화적.
  • Fiddler: ML 모니터링 + explainability + RAG eval.
  • TruEra: TruLens(LLM eval OSS) 메인테이너, 2024년 Snowflake 인수.
  • Galileo: LLM 전용 평가 + 가드레일.
  • Evidently AI: OSS 친화, 보고서 형식 출력.

같은 레이어에 있지만 강점은 다르다. 클래식 ML은 Arize / WhyLabs / Fiddler, LLM 전용은 Galileo / Arize Phoenix / TruLens, OSS 자체 호스팅은 Evidently / WhyLogs / Phoenix를 고른다.

LLM 평가 혁명 — DeepEval, RAGAS, Promptfoo, langwatch

LLM 평가는 별도 스택으로 갈라진다.

  • DeepEval: pytest 친화 LLM 평가 OSS. faithfulness, answer relevancy, bias, toxicity.
  • RAGAS: RAG 파이프라인 평가 표준. context recall, faithfulness, context relevancy.
  • Promptfoo: prompt A/B 테스트, CLI 친화.
  • langwatch: prompt observability + 평가 + 비용 추적.
  • Argilla: human-in-the-loop labeling + 평가. 2024년 HF 인수.

LLM 모델 카드와 데이터셋 카드(datasheet)는 Hugging Face Hub가 사실상 표준 포맷이 됐다.

데이터 버저닝 — DVC, lakeFS, Pachyderm

  • DVC: Iterative.ai가 만든 Git 친화 데이터 버저닝. S3/GCS/Azure 백엔드.
  • lakeFS: Git-like API로 객체 스토리지 branch / merge.
  • Pachyderm: pipeline + 데이터 lineage. 2023년 HPE 인수.
  • DagsHub: DVC + MLflow + Git LFS 통합 SaaS.

데이터 버저닝은 학습 재현성 + GDPR 삭제 요청 추적 + 데이터셋 lineage를 함께 다룬다.

하이퍼파라미터 최적화 — Optuna, Ray Tune, W&B Sweeps, Katib

Optuna는 OSS HPO의 사실상 표준이다. TPE, CMA-ES, NSGA-II 같은 알고리즘을 한 줄 인자로 바꾼다. Ray Tune은 Ray 클러스터 위에서 분산 HPO를 굴린다. W&B Sweeps는 W&B 안에서 grid / random / bayes를 띄운다. Katib는 K8s 위에서 동일한 일을 한다.

study:
  storage: postgresql+psycopg2://user:pw@db/optuna
  direction: maximize
  sampler:
    type: tpe
    n_startup_trials: 20
  pruner:
    type: hyperband
parameters:
  - name: learning_rate
    type: float
    low: 1e-5
    high: 1e-2
    log: true
  - name: hidden_size
    type: categorical
    choices: [128, 256, 512]

CI/CD for ML — Continuous Training(CT)

전통적 CI/CD에 한 단계 더 추가된다. **CT(Continuous Training)**는 새 데이터가 들어오면 자동으로 재학습 → 평가 → 승격하는 파이프라인이다.

핵심 패턴은 다음과 같다.

  • shadow deployment: 새 모델을 실제 트래픽에 노출하지 않고 로그만 수집
  • canary deployment: 5%, 25%, 50%, 100%로 트래픽 비중 점진 증가
  • blue-green for ML: 모델 두 버전을 동시 유지, 라우터로 스위치
  • A/B testing: 사용자 segment별 모델 분기
  • automated rollback: 모니터링 SLO 위반 시 자동 회귀

KServe와 BentoCloud 둘 다 InferenceService 단위로 canary / shadow를 1급 시민으로 지원한다.

엣지/임베디드 추론 — TF Lite, Core ML, ONNX Runtime, OpenVINO, TVM

  • TensorFlow Lite: Android / 마이크로컨트롤러
  • Core ML: Apple Silicon, iOS / macOS / visionOS
  • ONNX Runtime: 크로스 플랫폼 런타임 (CPU, CUDA, DirectML, CoreML, OpenVINO EP)
  • OpenVINO: Intel 친화. CPU / iGPU / NPU 가속.
  • Apache TVM: 컴파일러 우선. MLC LLM과 결합해 모바일 LLM 추론.
  • MediaPipe: 모바일 멀티미디어 ML 파이프라인.

엣지에 갈수록 quantization(INT8 / INT4 / GPTQ / AWQ), pruning, distillation이 필수다.

GPU 비용 비교 — 2026년 5월 기준 시간당 단가

가장 자주 묻는 질문이 GPU 단가다. 같은 H100 80GB가 플랫폼마다 2~3배 차이난다.

플랫폼A100 80GBH100 80GB약정 / 노트
AWS p5.48xlarge (8x H100)n/a5.13/hr가량(5.13/hr 가량 (98/hr / 8)1년 예약 시 50% 추가 절감
GCP A3 (8x H100)n/a$5.5/hr 정도CUD 약정 시 큰 폭 절감
Azure NDv5 (H100)n/a$5.4/hr 정도1년 reserved 시 30~50% 절감
CoreWeave$1.65/hr$4.25/hr 부근spot 할인 별도
Lambda Labs$1.29/hr$2.49/hr 부근on-demand, 4090 / A6000도 저렴
RunPod (Community)$1.19/hr$1.99/hr 부근가용성 변동 큼
Modaln/a$4.0/hr 부근초당 과금, cold start 1초대
Replicaten/a모델별 호출당 과금API per-call 비용

실제 가격은 region, 약정, spot 여부에 따라 크게 변하니 항상 공식 가격표를 확인해야 한다. 그래도 추세는 명확하다. OSS GPU broker(CoreWeave / Lambda / RunPod)가 hyperscaler 대비 40~60% 싸다.

한국 — Naver HyperCLOVA, Coupang ML, Kakao Brain

국내 빅테크 셋이 사내 MLOps를 어떻게 굴리는지 공개된 자료 기준으로 보면 다음과 같다.

  • Naver Cloud / HyperCLOVA X: 대규모 학습은 자체 GPU 클러스터 + Megatron-LM / Slurm 기반. 서빙은 사내 모델 서빙 플랫폼 + Triton + vLLM 조합.
  • Coupang ML 플랫폼: 사내 Bumblebee 플랫폼으로 알려져 있고, KFP / MLflow 기반 파이프라인 + 자체 피처 스토어를 운영.
  • Kakao Brain: 자체 SoftCo 클러스터에서 Karlo 등 모델 학습, 사내 Brain Cloud로 서빙. PyTorch + DeepSpeed + Slurm 라인.
  • LG AI Research (EXAONE 시리즈): 자체 클러스터 + NVIDIA DGX + 자체 학습 프레임워크.

대학·연구기관도 NIPA / NCDS의 K-Cloud / KSC-V 같은 공공 GPU 자원을 쓰기 시작했다.

일본 — Preferred Networks PFCC, Mercari, CyberAgent, ABEJA

일본 측은 다음 4개 회사가 사내 MLOps의 표준을 만들었다.

  • Preferred Networks: 자체 슈퍼컴퓨터 MN-3 / MN-Core, ChainerMN 후속으로 PyTorch + 자체 분산 라이브러리 PFCC.
  • Mercari: 사내 ML 플랫폼 "Mercari ML Platform". KFP + Vertex AI + 자체 피처 스토어.
  • CyberAgent AI Lab: CIU(CyberAgent ML 플랫폼) + 자체 LLM(CyberAgentLM) 학습 인프라.
  • ABEJA Platform: enterprise MLOps SaaS. annotation + 학습 + 서빙 통합.
  • DeNA, Yahoo Japan, Rakuten: 각자 KFP + 자체 피처 스토어 + 자체 모델 레지스트리.

공통적으로 Vertex AI 의존도가 매우 높다. Mercari와 CyberAgent는 공개 블로그에서 GCP 친화 스택을 자세히 공유하고 있다.

스택 추천 — 4개 시나리오

  • 소규모 스타트업 (3~10명): Modal + W&B + Hugging Face Hub + Evidently. K8s 없이 GPU만 빌린다.
  • 중규모 ML 팀 (10~50명): SageMaker 또는 Vertex AI + MLflow + DVC + Arize. 매니지드 풀스택.
  • GPU 클러스터 보유 팀 (50명+): Kubeflow 1.10 + MLflow + Ray + KServe + Argilla + Galileo. 자체 호스팅 풀스택.
  • LLM 우선 팀: vLLM + BentoML + Argilla + DeepEval + RAGAS + langwatch + Modal. 평가와 비용 추적이 핵심.

정답은 없다. 다만 레이어를 의식적으로 분리해 두면 한 도구를 갈아 끼울 때 마이그레이션 비용이 작다는 점은 확실하다.

마치며 — MLOps는 결국 "재현성과 회수 가능성"

2026년 5월의 MLOps 풍경을 한 줄로 압축하면 "재현성(reproducibility)과 회수 가능성(recoverability)이 1급 시민이 됐다"이다. 어떤 데이터로 어떤 코드로 학습한 모델인지, 그 모델이 어떤 트래픽에 노출되고 있는지, 문제가 생겼을 때 몇 분 안에 회귀할 수 있는지가 핵심 평가축이다.

도구는 갈아 끼울 수 있다. 그러나 레이어 경계와 책임 분리는 한 번 잘못 그리면 6~12개월을 잃는다. 이 글이 그 경계를 다시 그리는 데 도움이 되길 바란다.

References