- Published on
집에서 AI 슈퍼컴퓨터를: NVIDIA DGX Spark로 LLM 공부하고 ComfyUI로 콘텐츠 만들기
- Authors

- Name
- Youngju Kim
- @fjvbn20031
- 1. DGX Spark: 개인용 AI 슈퍼컴퓨터의 탄생
- 2. 스펙 심층 비교: DGX Spark vs Mac Studio M4 Ultra vs RTX 5090
- 3. DGX Spark에서 LLM 돌리기: 실전 가이드
- 4. ComfyUI 완전 정복: 노드 기반 AI 이미지/비디오 생성
- 5. DGX Spark + ComfyUI 셋업 가이드
- 6. LLM + ComfyUI 파이프라인: AI가 AI를 위한 프롬프트를 생성
- 7. 콘텐츠 크리에이터를 위한 실전 활용법
- 8. 비용 분석: 클라우드 API vs 로컬 DGX Spark
- 9. DGX Spark vs DGX Station: 누구를 위한 것인가
- 실전 퀴즈
- 참고 자료
1. DGX Spark: 개인용 AI 슈퍼컴퓨터의 탄생
2025년 3월, NVIDIA GTC 2025 키노트에서 젠슨 황 CEO가 무대 위에 작은 상자 하나를 올려놓았다. Mac Mini와 비슷한 크기의 그 장치는 "Project DIGITS"라는 코드명으로 알려져 있었고, 이제 정식 이름 DGX Spark로 세상에 공개되었다. 개인 개발자가 책상 위에서 200B 파라미터 대형 언어 모델(LLM)을 실행할 수 있는 시대가 열린 것이다.
1-1. 왜 DGX Spark인가
AI 개발자들은 오랫동안 딜레마에 빠져 있었다. 클라우드 GPU를 쓰자니 비용이 눈덩이처럼 불어나고, 개인 GPU로는 메모리 한계에 부딪혔다. RTX 4090의 24GB VRAM으로는 70B 모델조차 양자화 없이 돌릴 수 없었다. Mac Studio M4 Ultra의 512GB 통합 메모리는 매력적이지만 CUDA 생태계를 포기해야 했다.
DGX Spark는 이 딜레마를 정면으로 해결한다. 128GB 통합 메모리와 CUDA 12.8 완전 지원이라는 두 마리 토끼를 잡았기 때문이다.
1-2. 하드웨어 스펙 상세
DGX Spark의 핵심 스펙을 하나씩 살펴보자.
프로세서: GB10 Grace Blackwell Superchip
GB10은 NVIDIA와 MediaTek이 공동 설계한 슈퍼칩이다. 하나의 다이 위에 CPU와 GPU가 통합되어 있으며, 내부는 NVLink C2C(Chip-to-Chip)로 연결되어 900 GB/s의 대역폭을 확보한다. 이는 PCIe Gen5의 약 14배에 달하는 수치다.
- CPU: 20코어 Arm Cortex (Grace 아키텍처 기반), 고효율 서버급 설계
- GPU: Blackwell 아키텍처, 5세대 텐서 코어 탑재
- AI 성능: 1 PFLOP (FP4 기준), 페타플롭스급 연산 능력
- 메모리: 128GB LPDDR5X 통합 메모리, 273 GB/s 대역폭
- 스토리지: 4TB NVMe SSD (Founders Edition) / 1TB (ASUS 모델)
- 연결성: ConnectX-7 NIC, NVLink 2대 연결 지원, USB-C, DisplayPort
- 전력: 240W (일반 데스크톱 수준)
- 크기: Mac Mini급 소형 폼팩터, 약 1.2kg
- OS: Ubuntu Linux 기반 DGX OS (NVIDIA AI Enterprise 포함)
1 PFLOP의 의미
1 PFLOP(페타플롭스)는 초당 1,000조 번의 연산을 의미한다. 이는 2008년 세계 최초로 1 PFLOP를 달성한 IBM Roadrunner 슈퍼컴퓨터와 동등한 성능이다. 당시 Roadrunner는 건물 하나를 차지하고 2.35MW의 전력을 소비했다. 그것이 지금 책상 위 240W 장치에 들어간 것이다.
1-3. 가격 및 모델 구성
| 모델 | 가격 | 스토리지 | 비고 |
|---|---|---|---|
| DGX Spark Founders Edition | 3,999달러 | 4TB NVMe | NVIDIA 직접 판매 |
| ASUS DGX Spark | 2,999달러 | 1TB NVMe | 파트너 제조 |
3,999달러라는 가격은 결코 저렴하지 않지만, 동급 클라우드 GPU 인스턴스(A100 80GB 기준 시간당 2-3달러)를 생각하면 몇 개월 만에 손익분기를 넘길 수 있는 투자다. ASUS 모델은 999달러나 저렴하면서 스토리지만 1TB로 줄었으니, SSD는 나중에 교체할 수 있다는 점에서 상당히 매력적인 선택지다.
1-4. Project DIGITS에서 DGX Spark로
원래 CES 2025에서 "Project DIGITS"로 발표되었을 때는 3,000달러의 개발자용 워크스테이션으로 소개되었다. 이후 GTC 2025에서 DGX 브랜드를 달고 정식 출시되면서 가격이 3,999달러로 조정되었고, DGX OS와 NVIDIA AI Enterprise 소프트웨어 스택이 포함되었다. 단순 하드웨어가 아니라 엔터프라이즈급 소프트웨어 에코시스템까지 함께 제공되는 셈이다.
2. 스펙 심층 비교: DGX Spark vs Mac Studio M4 Ultra vs RTX 5090
AI 개발자에게 현실적인 선택지는 크게 세 가지다. NVIDIA DGX Spark, Apple Mac Studio M4 Ultra, 그리고 RTX 5090을 탑재한 고급 데스크톱이다. 각각의 장단점을 면밀히 분석해 보자.
2-1. 핵심 스펙 비교표
| 항목 | DGX Spark | Mac Studio M4 Ultra | RTX 5090 데스크톱 |
|---|---|---|---|
| 가격 | 3,999달러 | 6,999달러 이상 | 약 2,000달러 (GPU만) |
| 메모리 | 128GB 통합 | 최대 512GB 통합 | 32GB VRAM |
| 메모리 대역폭 | 273 GB/s | 819 GB/s | 1,792 GB/s |
| FP16 연산 | 약 100 TFLOPS | 약 26 TFLOPS | 약 209 TFLOPS |
| FP4 연산 | 1,000 TFLOPS (1 PFLOP) | 해당 없음 | 3,352 TFLOPS |
| 전력 소비 | 240W (시스템 전체) | 약 370W (시스템 전체) | 800-900W (시스템 전체) |
| CUDA 지원 | 완전 지원 | 미지원 | 완전 지원 |
| 최대 LLM 크기 | 200B (단일), 405B (2대) | 405B 이상 (512GB 모델) | 약 30B (양자화) |
| 폼팩터 | Mac Mini급 소형 | Mac Mini급 소형 | 풀사이즈 데스크톱 |
| OS | Ubuntu Linux (DGX OS) | macOS | Windows/Linux |
2-2. 메모리 대역폭: Mac의 압도적 우위
숫자만 보면 Mac Studio M4 Ultra의 819 GB/s는 DGX Spark의 273 GB/s를 3배 이상 앞선다. 이것이 실제로 의미하는 바는 무엇인가?
LLM 추론에서 디코딩 단계(토큰을 하나씩 생성하는 과정)는 메모리 대역폭에 병목이 걸린다. 모델의 전체 가중치를 매 토큰마다 읽어야 하기 때문이다. 따라서 동일한 크기의 모델을 돌릴 때, Mac Studio는 디코딩 속도에서 DGX Spark보다 약 3배 빠를 수 있다.
실제 벤치마크에서도 이 차이가 확인된다. Llama 3.1 70B 모델 기준으로 Mac Studio M4 Ultra(192GB)는 약 8-10 tok/s를 달성하는 반면, DGX Spark는 약 2.7 tok/s에 머문다. 단순 추론 속도만 놓고 보면 Mac이 확실히 유리하다.
2-3. 연산 성능: DGX Spark의 CUDA 파워
반면 연산 집약적 작업에서는 판이 뒤집힌다. DGX Spark의 FP16 100 TFLOPS는 Mac Studio의 26 TFLOPS를 약 4배 압도한다. 이 차이가 빛을 발하는 영역은 다음과 같다.
- 파인튜닝(Fine-tuning): LoRA/QLoRA 학습은 연산량이 핵심이다
- 프리필(Prefill): 긴 프롬프트를 처리하는 단계에서 연산 성능이 직접 영향
- 이미지 생성: Stable Diffusion, FLUX 등 디퓨전 모델은 GPU 연산 위주
- CUDA 생태계: PyTorch, TensorRT, cuDNN 등 NVIDIA 전용 최적화 라이브러리 활용
특히 파인튜닝은 Mac에서 사실상 불가능하거나 극도로 비효율적이다. Metal Performance Shaders(MPS)는 PyTorch 학습에서 CUDA 대비 2-5배 느리고, 많은 라이브러리가 아예 지원하지 않는다.
2-4. RTX 5090: 소형 모델의 스피드 킹
RTX 5090은 32GB VRAM이라는 제약이 있지만, 그 안에 들어가는 모델에 한해서는 압도적이다. 1,792 GB/s라는 경이적인 메모리 대역폭 덕분에, 8B-30B 모델에서 DGX Spark 대비 4-5배 빠른 추론 속도를 보여준다.
문제는 32GB라는 벽이다. 70B 모델은 FP16 기준 약 140GB를 차지하므로 RTX 5090 하나로는 절대 불가능하다. 4비트 양자화를 적용해도 약 35GB로, 여전히 넘친다. 결국 RTX 5090은 소형 모델을 극한의 속도로 돌리는 용도에 최적화되어 있다.
2-5. 어떤 선택이 맞는가?
DGX Spark를 선택해야 하는 경우:
- CUDA 생태계에서 파인튜닝과 학습을 해야 할 때
- 100B 이상 대형 모델을 로컬에서 실험하고 싶을 때
- ComfyUI 등 CUDA 기반 이미지 생성 파이프라인을 구축할 때
- 저전력/소형 폼팩터가 필요할 때
Mac Studio를 선택해야 하는 경우:
- LLM 추론 속도가 최우선일 때
- 512GB 메모리로 초대형 모델(405B)을 돌려야 할 때
- macOS 네이티브 앱과의 통합이 중요할 때
- MLX 프레임워크 생태계를 활용할 때
RTX 5090 데스크톱을 선택해야 하는 경우:
- 8B-30B 모델을 최대 속도로 서빙해야 할 때
- 이미지/비디오 생성이 주 용도일 때
- 게임 등 다른 GPU 작업도 병행할 때
- 예산이 제한적일 때
3. DGX Spark에서 LLM 돌리기: 실전 가이드
DGX Spark의 128GB 통합 메모리는 단일 장치에서 최대 200B 파라미터 모델을 실행할 수 있게 해준다. 실제로 어떤 프레임워크를 사용하고, 어느 정도의 성능을 기대할 수 있는지 구체적으로 알아보자.
3-1. 지원 프레임워크
DGX Spark는 NVIDIA CUDA 12.8을 기반으로 주요 LLM 추론 프레임워크를 모두 지원한다.
간편 사용 (GUI/CLI)
- Ollama: 원커맨드 모델 다운로드 및 실행, REST API 기본 제공
- LM Studio: GUI 기반 모델 관리 및 채팅 인터페이스
고성능 서빙
- TensorRT-LLM: NVIDIA 공식 최적화 엔진, 최고 성능
- SGLang: 구조화된 출력에 최적화, RadixAttention
- vLLM: PagedAttention 기반 효율적 배치 처리
학습/파인튜닝
- NeMo Framework: NVIDIA 공식 학습 프레임워크
- Unsloth: LoRA/QLoRA 학습 최적화
- Axolotl: 다양한 학습 방법론 통합
3-2. 벤치마크 데이터
NVIDIA 공식 벤치마크 및 커뮤니티 테스트 결과를 종합하면 다음과 같다.
프리필 속도 (입력 토큰 처리)
| 모델 | 양자화 | 프리필 속도 | 비고 |
|---|---|---|---|
| GPT-OSS 20B | FP8 | 2,053 tok/s | NVIDIA 공식 |
| Llama 3.1 8B | FP8 | 약 3,500 tok/s | TensorRT-LLM |
| Llama 3.1 70B | FP8 | 약 800 tok/s | TensorRT-LLM |
| Qwen2.5 72B | FP8 | 약 750 tok/s | 커뮤니티 테스트 |
디코딩 속도 (출력 토큰 생성)
| 모델 | 양자화 | 디코딩 속도 | 비고 |
|---|---|---|---|
| GPT-OSS 20B | FP8 | 49.7 tok/s | NVIDIA 공식 |
| Llama 3.1 8B | FP8 | 약 20.5 tok/s | 일반 디코딩 |
| Llama 3.1 70B | FP8 | 약 2.7 tok/s | 메모리 대역폭 제약 |
| Llama 3.3 70B | Q4_K_M | 약 5.2 tok/s | 양자화로 속도 향상 |
| DeepSeek-R1 671B | Q4 (2대) | 약 0.8 tok/s | NVLink 2대 연결 |
3-3. EAGLE3 추측적 디코딩으로 2배 속도 향상
DGX Spark의 디코딩 속도가 메모리 대역폭에 병목이 걸린다는 점은 분명하다. 하지만 이를 소프트웨어로 극복할 방법이 있다. 추측적 디코딩(Speculative Decoding) 기법, 특히 EAGLE3이 그 핵심이다.
추측적 디코딩의 원리는 간단하다. 작은 "드래프트 모델"이 여러 토큰을 빠르게 예측하고, 큰 "타겟 모델"이 이를 한 번에 검증한다. 맞는 토큰은 그대로 채택하고, 틀린 토큰만 다시 생성한다.
EAGLE3은 이 기법의 최신 버전으로, DGX Spark에서 약 2배의 디코딩 속도 향상을 달성한다. Llama 3.1 70B 기준으로 2.7 tok/s가 약 5.4 tok/s로 개선되는 것이다.
# SGLang에서 EAGLE3 추측적 디코딩 활성화 예시
python -m sglang.launch_server \
--model-path meta-llama/Llama-3.1-70B-Instruct \
--speculative-algorithm EAGLE \
--speculative-draft-model-path path/to/eagle3-draft \
--speculative-num-steps 5 \
--speculative-eagle-topk 8
3-4. 멀티 노드: 2대 연결로 405B, 4대로 700B
DGX Spark의 또 다른 강점은 NVLink로 여러 대를 연결할 수 있다는 점이다.
| 구성 | 총 메모리 | 실행 가능 모델 | 예상 비용 |
|---|---|---|---|
| 1대 | 128GB | 최대 200B (FP8) | 3,999달러 |
| 2대 (NVLink) | 256GB | Llama 3.1 405B (FP8) | 7,998달러 |
| 4대 (네트워크) | 512GB | 700B+ 모델 | 15,996달러 |
2대를 NVLink로 직접 연결하면 총 256GB의 통합 메모리 풀이 형성된다. 이 구성에서 Llama 3.1 405B를 FP8로 실행할 수 있다. 디코딩 속도는 약 1.2-1.5 tok/s로 실시간 대화에는 부족하지만, 배치 처리나 연구 목적으로는 충분하다.
3-5. 지원 모델 목록
DGX Spark에서 공식적으로 테스트되고 최적화된 모델들은 다음과 같다.
오픈 소스 LLM
- Llama 3.x 시리즈 (8B, 70B, 405B)
- Qwen 2.5/3 시리즈 (7B, 32B, 72B)
- Gemma 3 시리즈 (2B, 9B, 27B)
- DeepSeek-R1 (7B, 70B, 671B)
- Nemotron 시리즈 (8B, 49B, 253B)
- Mistral/Mixtral 시리즈
- Phi-3/4 시리즈
비전-언어 모델
- Llama 3.2 Vision (11B, 90B)
- Qwen2-VL (7B, 72B)
- Gemma 3 멀티모달
코딩 전문
- Qwen2.5-Coder (7B, 32B)
- DeepSeek-Coder-V2
- StarCoder2
3-6. Ollama 기본 셋업
DGX Spark에서 가장 간단하게 LLM을 시작하는 방법은 Ollama를 사용하는 것이다.
# DGX Spark에는 Ollama가 사전 설치되어 있을 수 있음
# 없다면 공식 설치 스크립트 사용
curl -fsSL https://ollama.com/install.sh | sh
# Llama 3.1 70B 모델 다운로드 및 실행
ollama pull llama3.1:70b
# 대화 시작
ollama run llama3.1:70b
# REST API로 접근 (다른 애플리케이션에서 호출)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:70b",
"prompt": "한국의 AI 산업 전망을 분석해주세요."
}'
128GB 통합 메모리 덕분에 70B 모델을 FP16으로도 충분히 로드할 수 있다. 기존 RTX 4090에서 필수였던 4비트 양자화 없이 원본 정밀도로 모델을 실행할 수 있다는 것은 출력 품질 측면에서 큰 차이를 만든다.
4. ComfyUI 완전 정복: 노드 기반 AI 이미지/비디오 생성
LLM만이 AI의 전부는 아니다. 이미지와 비디오를 생성하는 디퓨전 모델 역시 콘텐츠 크리에이터에게 필수적인 도구가 되었다. 그리고 이 영역에서 가장 강력한 프론트엔드가 바로 ComfyUI다.
4-1. ComfyUI란 무엇인가
ComfyUI는 Stable Diffusion, FLUX 등 디퓨전 모델을 위한 노드 기반 그래프 UI다. 기존의 Automatic1111 WebUI가 "설정 → 생성" 방식의 단순한 인터페이스라면, ComfyUI는 각 처리 단계를 노드로 분리하고 이를 와이어로 연결하는 비주얼 프로그래밍 방식이다.
ComfyUI의 핵심 장점:
- 효율적 재실행: 변경된 노드만 다시 계산한다. 프롬프트만 바꾸면 모델 로딩을 건너뛰고, 업스케일러만 바꾸면 이미지 생성은 건너뛴다.
- 극한의 커스터마이징: 노드 조합으로 어떤 파이프라인이든 구성 가능하다.
- 낮은 VRAM 요구: 최적화된 메모리 관리로 1GB VRAM에서도 동작한다.
- 워크플로우 공유: JSON 파일 하나로 복잡한 파이프라인을 공유/재현할 수 있다.
- 활발한 생태계: 수천 개의 커스텀 노드와 워크플로우가 공개되어 있다.
4-2. ComfyUI Desktop 앱
2024년 하반기부터 ComfyUI는 공식 Desktop 앱을 제공한다. Electron 기반으로 약 200MB 크기이며, 원클릭으로 설치할 수 있다.
Desktop 앱의 특징:
- Python 환경 자동 구성 (가상환경 격리)
- CUDA/ROCm/MPS 자동 감지
- 모델 다운로드 매니저 내장
- 커스텀 노드 매니저(ComfyUI-Manager) 사전 포함
- Windows, macOS, Linux 지원
기존에 pip과 가상환경을 직접 관리해야 했던 번거로움이 크게 줄었다. 특히 DGX Spark의 Ubuntu 환경에서 Desktop 앱을 사용하면 별도의 환경 설정 없이 바로 시작할 수 있다.
4-3. 핵심 워크플로우
ComfyUI로 할 수 있는 주요 작업을 정리하면 다음과 같다.
Text-to-Image (텍스트에서 이미지 생성)
가장 기본적인 워크플로우다. 텍스트 프롬프트를 입력하면 AI가 이미지를 생성한다.
[CLIP Text Encode] → [KSampler] → [VAE Decode] → [Save Image]
↑ ↑
[Load Checkpoint] [Empty Latent Image]
노드 구성: 모델 로드 → 텍스트 인코딩 → 빈 잠재공간 이미지 생성 → 샘플링(디노이징) → VAE 디코딩 → 이미지 저장
Image-to-Image (이미지에서 이미지 변환)
기존 이미지를 기반으로 스타일이나 내용을 변경한다. 스케치를 사실적인 이미지로 변환하거나, 사진의 스타일을 바꾸는 데 사용한다.
인페인팅 (Inpainting)
이미지의 특정 영역만 선택적으로 재생성한다. 원하지 않는 객체 제거, 배경 교체, 부분 수정 등에 활용한다.
ControlNet 기반 제어
포즈, 엣지, 깊이 맵 등의 조건을 사용하여 이미지 생성을 정밀하게 제어한다. 캐릭터의 포즈를 지정하거나, 건축물의 구조를 유지하면서 스타일만 변경하는 것이 가능하다.
비디오 생성 (AnimateDiff, SVD)
정지 이미지에서 짧은 비디오 클립을 생성하거나, AnimateDiff를 사용하여 애니메이션을 만든다.
4-4. 지원 모델
ComfyUI가 지원하는 주요 생성 모델을 정리하면 다음과 같다.
FLUX 시리즈 (Black Forest Labs)
- FLUX.1 Dev: 12B 파라미터, 고품질, 비상업적 라이선스
- FLUX.1 Schnell: Dev의 고속 증류 버전, 4스텝 생성, Apache 2.0
- FLUX.2 Klein 9B: 9B 파라미터, 효율성 최적화
- FLUX Fill/Redux/Canny/Depth: 인페인팅, 스타일 전이, ControlNet 변형
Stable Diffusion 시리즈 (Stability AI)
- SD 3.5 Large/Medium: 최신 아키텍처, MMDiT 기반
- SDXL 1.0: 가장 널리 사용되는 모델, 방대한 LoRA 생태계
- SD 1.5: 레거시지만 여전히 가장 많은 커뮤니티 자원 보유
비디오 모델
- AnimateDiff: SD 1.5 기반 비디오 생성
- Stable Video Diffusion (SVD): img2vid 전문
- Hunyuan Video: 텐센트의 오픈소스 비디오 모델
4-5. ComfyUI vs Automatic1111 vs Fooocus 비교
| 항목 | ComfyUI | Automatic1111 WebUI | Fooocus |
|---|---|---|---|
| 인터페이스 | 노드 기반 그래프 | 전통적 웹 폼 | 미니멀 (Midjourney 스타일) |
| 학습 곡선 | 높음 | 중간 | 매우 낮음 |
| 커스터마이징 | 극한 | 높음 (확장 기능) | 제한적 |
| 메모리 효율 | 최고 | 중간 | 높음 |
| FLUX 지원 | 완전 | 부분적 | 부분적 |
| 비디오 생성 | 지원 (AnimateDiff 등) | 제한적 | 미지원 |
| 워크플로우 공유 | JSON 파일 | 설정 스크린샷 | 프리셋 |
| 배치 처리 | 뛰어남 | 기본 지원 | 제한적 |
| API 지원 | REST API 내장 | REST API 내장 | 제한적 |
| 활발한 개발 | 매우 활발 | 감소 추세 | 활발 |
| 추천 대상 | 파워유저, 파이프라인 빌더 | 일반 사용자, 입문자 | 비기술 사용자 |
ComfyUI는 초기 학습 곡선이 가파르지만, 한번 익히면 다른 도구로는 돌아갈 수 없을 만큼 강력하다. 특히 워크플로우 재현성과 자동화 가능성은 콘텐츠를 대량 생산해야 하는 크리에이터에게 결정적인 장점이다.
4-6. 필수 커스텀 노드
ComfyUI의 진정한 힘은 커스텀 노드 생태계에서 나온다. 반드시 설치해야 할 핵심 노드를 정리했다.
ComfyUI-Manager
- 커스텀 노드의 설치, 업데이트, 제거를 GUI에서 관리
- 워크플로우에서 누락된 노드를 자동 감지하고 설치 제안
- 모든 ComfyUI 사용자의 필수 노드
WAS Node Suite
- 이미지 처리, 텍스트 조작, 파일 관리 등 범용 유틸리티 노드 모음
- 이미지 리사이즈, 크롭, 블렌딩 등 기본 작업에 필수
Impact Pack
- 감지기(Detector), 세그멘터, 업스케일러 통합
- SAM(Segment Anything Model) 기반 자동 마스크 생성
- 얼굴 감지 후 자동 인페인팅 등 고급 워크플로우
Efficiency Nodes
- 복잡한 노드 조합을 하나의 노드로 압축
- KSampler, VAE, CLIP 등을 통합한 올인원 노드 제공
- 워크플로우를 깔끔하게 정리하는 데 유용
AnimateDiff-Evolved
- AnimateDiff 비디오 생성의 확장 버전
- 모션 LoRA, 비디오 컨디셔닝, 프레임 제어 등 고급 기능
- DGX Spark의 128GB 메모리로 긴 비디오 생성 가능
ComfyUI-KJNodes
- 조건 분기, 반복, 변수 관리 등 프로그래밍적 제어 노드
- 대량 배치 처리 워크플로우에 필수
5. DGX Spark + ComfyUI 셋업 가이드
DGX Spark에서 ComfyUI를 실행하는 것은 일반 Linux 환경과 크게 다르지 않지만, NVIDIA의 최적화를 활용하면 성능을 극대화할 수 있다. NVIDIA는 공식적으로 DGX Spark에서의 ComfyUI 사용 가이드를 제공하고 있다.
5-1. 설치 방법 A: 네이티브 설치
DGX Spark의 Ubuntu 환경에 직접 설치하는 방법이다.
# 1. Python 가상환경 생성
python3 -m venv ~/comfyui-env
source ~/comfyui-env/bin/activate
# 2. PyTorch (CUDA 12.8) 설치
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
# 3. ComfyUI 클론
git clone https://github.com/comfyanonymous/ComfyUI.git ~/ComfyUI
cd ~/ComfyUI
# 4. 의존성 설치
pip install -r requirements.txt
# 5. ComfyUI-Manager 설치
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
# 6. 실행
cd ~/ComfyUI
python main.py --listen 0.0.0.0 --port 8188
--listen 0.0.0.0 옵션을 추가하면 같은 네트워크의 다른 기기에서 브라우저로 접근할 수 있다. 모니터 없이 DGX Spark를 서버처럼 운용하는 경우에 편리하다.
5-2. 설치 방법 B: Docker 컨테이너
NVIDIA NGC(NVIDIA GPU Cloud)의 공식 컨테이너를 사용하면 환경 설정을 한 번에 해결할 수 있다.
# NVIDIA Container Toolkit이 DGX OS에 사전 설치되어 있음
# ComfyUI Docker 실행
docker run -d \
--gpus all \
--name comfyui \
-p 8188:8188 \
-v ~/comfyui-models:/app/models \
-v ~/comfyui-output:/app/output \
ghcr.io/ai-dock/comfyui:latest
# 또는 NVIDIA 공식 이미지 사용
docker run -d \
--gpus all \
--name comfyui-nvidia \
-p 8188:8188 \
-v ~/models:/workspace/ComfyUI/models \
nvcr.io/nvidia/comfyui:latest
Docker 방식의 장점은 환경 격리다. 시스템 Python과 충돌 없이 ComfyUI를 실행할 수 있고, 문제가 생기면 컨테이너만 삭제하면 된다.
5-3. 모델 다운로드
ComfyUI에서 사용할 모델을 다운로드해야 한다. DGX Spark의 4TB SSD라면 용량 걱정 없이 다양한 모델을 보관할 수 있다.
# Hugging Face CLI 설치
pip install huggingface_hub
# FLUX.1 Dev 다운로드 (약 24GB)
huggingface-cli download black-forest-labs/FLUX.1-dev \
--local-dir ~/ComfyUI/models/unet/flux1-dev
# FLUX.1 Schnell 다운로드 (약 24GB)
huggingface-cli download black-forest-labs/FLUX.1-schnell \
--local-dir ~/ComfyUI/models/unet/flux1-schnell
# SDXL 1.0 다운로드 (약 7GB)
huggingface-cli download stabilityai/stable-diffusion-xl-base-1.0 \
--local-dir ~/ComfyUI/models/checkpoints/sdxl-base
# VAE, CLIP 인코더 등도 별도 다운로드 필요
huggingface-cli download comfyanonymous/flux_text_encoders \
--local-dir ~/ComfyUI/models/clip/
5-4. DGX Spark에서의 이미지 생성 성능
DGX Spark에서 각 모델별 이미지 생성 성능을 정리하면 다음과 같다.
| 모델 | 해상도 | 스텝 | 생성 시간 | 분당 이미지 |
|---|---|---|---|---|
| SD 1.5 | 512x512 | 20 | 약 3-4초 | 약 19장 |
| SDXL 1.0 | 1024x1024 | 25 | 약 15-20초 | 약 3-4장 |
| FLUX.1 Schnell | 1024x1024 | 4 | 약 25-30초 | 약 2장 |
| FLUX.1 Dev (BF16) | 1024x1024 | 20 | 약 97초 | 약 0.6장 |
| FLUX.2 Klein 9B | 1024x1024 | 20 | 약 60초 | 약 1장 |
| AnimateDiff (16프레임) | 512x512 | 20 | 약 45초 | - |
SD 1.5는 512x512 해상도에서 약 3-4초, 분당 약 19장이라는 인상적인 속도를 보여준다. 대량 생산에 적합하다.
FLUX.1 Dev는 BF16 전체 정밀도에서 약 97초가 소요된다. FLUX는 12B 파라미터의 거대한 모델이므로 SD 대비 느릴 수밖에 없지만, 출력 품질은 차원이 다르다. FP8 양자화를 적용하면 약 60-70초로 단축할 수 있다.
5-5. 경쟁 하드웨어 대비 성능
DGX Spark의 이미지 생성 성능을 다른 하드웨어와 비교하면 다음과 같다.
| 하드웨어 | SD 1.5 (512x512) | FLUX.1 Dev (1024x1024) |
|---|---|---|
| DGX Spark | 약 3-4초 | 약 97초 |
| AMD Ryzen AI Max 395 | 약 7-9초 | 약 220초 |
| RTX 4090 | 약 1.5-2초 | 약 40-50초 |
| RTX 5090 | 약 0.8-1초 | 약 20-25초 |
| Mac Studio M4 Ultra | 약 5-6초 | 약 80-90초 |
DGX Spark는 AMD Ryzen AI Max 395 대비 약 2.3배 빠르다. RTX 4090/5090에 비해서는 느리지만, 이들은 32GB VRAM이라는 한계 때문에 FLUX의 전체 정밀도 실행이 어렵다. DGX Spark의 128GB는 어떤 모델이든 양자화 없이 원본 품질로 실행할 수 있다는 근본적인 차이가 있다.
6. LLM + ComfyUI 파이프라인: AI가 AI를 위한 프롬프트를 생성
DGX Spark의 128GB 통합 메모리가 진정으로 빛나는 순간은 LLM과 이미지 생성 모델을 동시에 실행할 때다. LLM이 상세한 프롬프트를 작성하고, 그 프롬프트로 FLUX/SDXL이 이미지를 생성하는 완전 자동화 파이프라인을 구축할 수 있다.
6-1. 왜 LLM 프롬프트 생성이 중요한가
FLUX나 SDXL로 고품질 이미지를 생성하려면 상세하고 구조화된 프롬프트가 필요하다. 예를 들어 "고양이 그림"이라는 단순한 프롬프트보다는 다음과 같은 상세 프롬프트가 훨씬 좋은 결과를 만든다.
A majestic orange tabby cat sitting on a velvet cushion,
golden hour lighting streaming through a Victorian window,
shallow depth of field, bokeh background,
photorealistic, 8k resolution, masterpiece quality,
shot on Hasselblad H6D-100c, f/1.4 aperture
이런 프롬프트를 매번 직접 작성하는 것은 시간도 걸리고 전문 지식도 필요하다. 여기서 LLM이 등장한다. 간단한 지시만 주면 LLM이 최적화된 프롬프트를 자동으로 생성해주는 것이다.
6-2. Ollama + ComfyUI 연동
DGX Spark에서 Ollama로 LLM을 실행하고, ComfyUI에서 이를 호출하는 방법이다.
Step 1: Ollama에서 프롬프트 생성 전용 모델 실행
# 프롬프트 생성에 적합한 모델 선택
ollama pull llama3.1:70b
# 시스템 프롬프트를 포함한 모델 파일 생성
cat > ~/Modelfile << 'HEREDOC'
FROM llama3.1:70b
SYSTEM """You are an expert AI image prompt engineer.
When given a simple description, you create detailed,
high-quality prompts for FLUX/Stable Diffusion.
Include artistic style, lighting, camera settings,
and quality modifiers. Output ONLY the prompt."""
HEREDOC
ollama create flux-prompter -f ~/Modelfile
Step 2: ComfyUI에서 LLM 노드 활용
ComfyUI에는 로컬 LLM을 직접 호출할 수 있는 커스텀 노드가 있다.
6-3. ComfyUI_LocalLLMNodes
ComfyUI_LocalLLMNodes는 Ollama, LM Studio 등 로컬 LLM을 ComfyUI 워크플로우에 직접 통합하는 노드 팩이다.
# 설치
cd ~/ComfyUI/custom_nodes
git clone https://github.com/xXAdonisXx/ComfyUI_LocalLLMNodes.git
pip install -r ComfyUI_LocalLLMNodes/requirements.txt
이 노드를 사용하면 다음과 같은 워크플로우를 구성할 수 있다.
[Simple Text Input] → [LocalLLM Node (Ollama)] → [CLIP Text Encode] → [KSampler] → [Save Image]
"귀여운 고양이" → "detailed FLUX prompt" → 이미지 생성
사용자가 "귀여운 고양이"라고만 입력하면, LLM이 자동으로 FLUX에 최적화된 상세 프롬프트를 생성하고, 그 프롬프트로 이미지가 만들어진다.
6-4. ComfyUI-IF_AI_tools
ComfyUI-IF_AI_tools는 Ollama를 ComfyUI에 통합하는 또 다른 강력한 도구다.
주요 기능:
- Ollama API 직접 호출
- 시스템 프롬프트 커스터마이징
- 멀티턴 대화 지원 (프롬프트 반복 개선)
- 이미지 분석 (비전 모델 활용)
- 프롬프트 히스토리 관리
cd ~/ComfyUI/custom_nodes
git clone https://github.com/if-ai/ComfyUI-IF_AI_tools.git
pip install -r ComfyUI-IF_AI_tools/requirements.txt
6-5. 128GB 통합 메모리의 진정한 가치
여기서 DGX Spark의 128GB 통합 메모리가 결정적인 역할을 한다. 일반 GPU에서는 LLM과 이미지 생성 모델을 동시에 VRAM에 올릴 수 없다.
| 구성 | VRAM 요구량 | RTX 4090 (24GB) | DGX Spark (128GB) |
|---|---|---|---|
| Llama 3.1 70B (FP8) | 약 70GB | 불가 | 가능 |
| FLUX.1 Dev (BF16) | 약 24GB | 단독 사용 시 가능 | 가능 |
| 70B LLM + FLUX 동시 | 약 94GB | 불가 | 가능 |
| 70B LLM + SDXL 동시 | 약 77GB | 불가 | 가능 |
DGX Spark에서는 70B LLM과 FLUX를 동시에 메모리에 올려놓고, 모델 스왑 없이 즉시 전환할 수 있다. 이는 자동화 파이프라인의 처리량을 크게 향상시킨다.
6-6. 완전 자동화 워크플로우
최종적으로 구현할 수 있는 파이프라인은 다음과 같다.
1. [사용자 입력] "블로그 썸네일: AI 기술 트렌드"
↓
2. [LLM - Llama 3.1 70B] 상세 이미지 프롬프트 생성
↓
3. [FLUX.1 Dev] 1024x1024 이미지 생성
↓
4. [업스케일러 - RealESRGAN] 4096x4096으로 확대
↓
5. [텍스트 오버레이] 제목 텍스트 합성
↓
6. [자동 저장] 블로그 디렉토리에 저장
이 모든 과정이 ComfyUI의 노드 그래프 안에서 자동으로 실행된다. 한 번 워크플로우를 구성해두면, 이후에는 간단한 지시만 입력하면 완성된 블로그 썸네일이 자동으로 생성되는 것이다.
6-7. Python 스크립트를 통한 배치 자동화
ComfyUI의 REST API를 활용하면 Python 스크립트로 대량 이미지를 자동 생성할 수 있다.
import requests
import json
COMFYUI_URL = "http://localhost:8188"
OLLAMA_URL = "http://localhost:11434"
def generate_prompt(simple_description):
"""Ollama로 상세 이미지 프롬프트 생성"""
response = requests.post(
f"{OLLAMA_URL}/api/generate",
json={
"model": "flux-prompter",
"prompt": simple_description,
"stream": False
}
)
return response.json()["response"]
def queue_image(prompt, workflow_json):
"""ComfyUI에 이미지 생성 요청"""
workflow = json.load(open(workflow_json))
# 프롬프트 노드에 텍스트 주입
workflow["6"]["inputs"]["text"] = prompt
response = requests.post(
f"{COMFYUI_URL}/prompt",
json={"prompt": workflow}
)
return response.json()
# 배치 생성 예시
topics = [
"AI 기술 트렌드 2026",
"클라우드 네이티브 아키텍처",
"사이버 보안 최신 동향",
"양자 컴퓨팅의 미래",
]
for topic in topics:
detailed_prompt = generate_prompt(
f"블로그 썸네일: {topic}"
)
print(f"생성 프롬프트: {detailed_prompt[:100]}...")
queue_image(detailed_prompt, "workflow_flux.json")
7. 콘텐츠 크리에이터를 위한 실전 활용법
DGX Spark + ComfyUI 조합이 실제 콘텐츠 제작에 어떻게 활용되는지 구체적인 시나리오를 살펴보자.
7-1. 블로그 썸네일 자동 생성
기술 블로그를 운영하는 개발자에게 썸네일 제작은 항상 골칫거리다. DGX Spark에서는 이 과정을 완전히 자동화할 수 있다.
워크플로우 구성:
- 블로그 제목을 입력으로 받는다
- LLM이 제목을 분석하여 시각적 메타포를 생성한다
- FLUX가 1024x1024 이미지를 생성한다
- RealESRGAN으로 2048x2048 업스케일한다
- 16:9 비율로 크롭한다 (1920x1080)
- 블로그 에셋 폴더에 자동 저장한다
실전 팁:
- FLUX.1 Schnell을 사용하면 4스텝으로 빠르게 생성 가능
- 일관된 스타일을 위해 LoRA를 학습하거나 스타일 프롬프트를 고정
- ComfyUI의 배치 노드로 한 번에 10-20개 변형 생성 후 선택
7-2. 소셜 미디어 이미지 대량 생산
인스타그램, 트위터, 링크드인 등 각 플랫폼에 맞는 이미지를 대량으로 생산할 수 있다.
플랫폼별 최적 해상도:
- 인스타그램 피드: 1080x1080 (정사각형)
- 인스타그램 스토리: 1080x1920 (세로)
- 트위터: 1200x675 (16:9)
- 링크드인: 1200x627
- 유튜브 썸네일: 1280x720
ComfyUI에서 해상도별 워크플로우를 미리 만들어두면, 하나의 프롬프트로 모든 플랫폼용 이미지를 동시에 생성할 수 있다.
7-3. 유튜브 콘텐츠 제작
썸네일 생성:
- 클릭을 유도하는 임팩트 있는 이미지 생성
- ControlNet으로 특정 레이아웃 유지 (텍스트 영역 확보)
- 일관된 채널 브랜딩 적용
영상 소스 이미지:
- 설명 영상에 사용할 일러스트레이션 생성
- 인트로/아웃트로 배경 이미지
- AnimateDiff로 짧은 모션 그래픽 생성
실전 파이프라인:
- 영상 스크립트를 LLM에 입력
- LLM이 장면별 이미지 프롬프트 생성
- FLUX/SDXL로 각 장면 이미지 생성
- AnimateDiff로 미세한 움직임 추가
- 편집 소프트웨어로 최종 조합
7-4. 프레젠테이션 비주얼
발표 자료에 사용할 고품질 비주얼을 AI로 생성하면 스톡 이미지의 진부함에서 벗어날 수 있다.
활용 사례:
- 추상적 개념의 시각화 (예: "마이크로서비스 아키텍처"를 도시 풍경으로 표현)
- 커스텀 아이콘 및 일러스트레이션
- 배경 이미지 (그라데이션, 패턴, 텍스처)
- 비유적 이미지 (예: "기술 부채"를 무너지는 카드 탑으로)
7-5. 프로토타입 UI 목업
FLUX의 높은 이미지 품질을 활용하면 UI/UX 프로토타이핑에도 사용할 수 있다.
워크플로우:
- 와이어프레임 스케치를 ControlNet 입력으로 사용
- FLUX가 사실적인 UI 목업 생성
- 다양한 컬러 스킴과 스타일 변형 빠르게 탐색
- 클라이언트 프레젠테이션용 비주얼 제작
물론 실제 구현에 사용할 코드를 생성하는 것은 아니지만, 아이디어를 빠르게 시각화하고 피드백을 받는 데 매우 효과적이다.
8. 비용 분석: 클라우드 API vs 로컬 DGX Spark
DGX Spark에 3,999달러를 투자하는 것이 과연 합리적인가? 클라우드 API 비용과 비교하여 손익분기점을 계산해 보자.
8-1. 비용 비교표
| 항목 | 클라우드 API | DGX Spark 로컬 |
|---|---|---|
| 초기 비용 | 0달러 | 3,999달러 |
| 월 운영비 | 200-500달러 | 약 10-15달러 (전기) |
| 이미지 생성 단가 | 0.004-0.015달러/장 | 0달러 (전기만) |
| LLM 토큰 비용 | 0.40-15달러/백만 토큰 | 0달러 (전기만) |
| 데이터 프라이버시 | 제한적 | 완전 보장 |
| 가용성 | 서버 상태 의존 | 24/7 로컬 |
| 속도 제한 | API 레이트 리밋 | 무제한 |
| 손익분기점 | - | 약 8-20개월 |
8-2. 시나리오별 손익분기 계산
시나리오 A: LLM 중심 사용자 (개발자/연구자)
월 사용량 가정:
- GPT-4급 모델 API: 월 500만 토큰 (입력 300만 + 출력 200만)
- 월 비용: 약 80-150달러 (GPT-4o 기준)
손익분기: 3,999달러 / 100달러 = 약 40개월
하지만 로컬에서는 70B 오픈소스 모델을 무제한으로 사용할 수 있으므로, 실험과 반복의 자유도가 크게 높아진다. 클라우드 API에서는 비용 걱정 때문에 자제하던 대량 실험을 마음껏 할 수 있다.
시나리오 B: 이미지 생성 중심 사용자 (콘텐츠 크리에이터)
월 사용량 가정:
- DALL-E 3 / Midjourney: 월 500장 생성
- 월 비용: Midjourney Pro 60달러 + 추가 생성 50달러 = 약 110달러
손익분기: 3,999달러 / 110달러 = 약 36개월
그러나 로컬에서는 생성량 제한이 없고, FLUX/SDXL의 LoRA 파인튜닝으로 자신만의 스타일을 만들 수 있다.
시나리오 C: LLM + 이미지 복합 사용자 (파워 유저)
월 사용량 가정:
- LLM API: 월 200달러
- 이미지 생성 API: 월 100달러
- 합계: 월 300달러
손익분기: 3,999달러 / 300달러 = 약 13개월
파워 유저의 경우 약 1년이면 손익분기를 넘기고, 이후에는 전기료만으로 무제한 AI를 사용할 수 있다.
8-3. 전기 비용 상세
DGX Spark의 TDP는 240W이다. 실제 사용 시 평균 소비전력은 부하에 따라 다르다.
| 상태 | 소비전력 | 24시간 전기비 (한국 기준) |
|---|---|---|
| 유휴 상태 | 약 30-50W | 약 120-200원 |
| LLM 추론 | 약 150-200W | 약 600-800원 |
| 이미지 생성 (풀로드) | 약 200-240W | 약 800-960원 |
| 24시간 풀로드 (한 달) | 240W | 약 29,000원 |
한국 전기요금 기준(kWh당 약 120-160원)으로 계산하면, 24시간 풀로드로 돌려도 월 3만 원 미만이다. 일반적인 사용 패턴(하루 8-10시간 활성 사용)에서는 월 1-1.5만 원 수준이다.
8-4. 숨겨진 비용과 가치
단순 금액 비교 외에 고려해야 할 요소들이 있다.
로컬의 추가 가치:
- 데이터 프라이버시: 민감한 데이터가 외부 서버로 전송되지 않는다
- 오프라인 사용: 인터넷 없이도 AI를 사용할 수 있다
- 레이턴시: API 호출의 네트워크 지연 없이 즉시 응답
- 학습 기회: 모델 내부를 직접 탐구하고 실험할 수 있다
- 파인튜닝: 자신만의 데이터로 모델을 커스터마이징할 수 있다
로컬의 추가 비용:
- 초기 학습 시간 (환경 설정, 모델 최적화 등)
- 유지보수 (드라이버 업데이트, 호환성 문제)
- 기회비용 (최신 클라우드 모델 즉시 사용 불가)
9. DGX Spark vs DGX Station: 누구를 위한 것인가
NVIDIA는 DGX Spark 외에 DGX Station이라는 상위 모델도 함께 발표했다. 두 제품의 포지셔닝은 명확히 다르다.
9-1. 스펙 비교
| 항목 | DGX Spark | DGX Station |
|---|---|---|
| AI 성능 | 1 PFLOP (FP4) | 20 PFLOP (FP4) |
| GPU | GB10 (1x Blackwell) | GB300 (1x Grace + 2x Blackwell) |
| 메모리 | 128GB LPDDR5X | 784GB (128GB CPU + 2x 288GB HBM3e + 2x 40GB LPDDR5X) |
| 메모리 대역폭 | 273 GB/s | 약 16 TB/s (HBM3e) |
| 가격 | 3,999달러 | 미발표 (추정 5만 달러 이상) |
| 폼팩터 | Mac Mini급 | 타워형 워크스테이션 |
| 전력 | 240W | 약 800W 이상 |
| 타겟 사용자 | 개인 개발자, 소규모 팀 | 기업 연구소, 대규모 팀 |
9-2. DGX Station의 차원이 다른 성능
DGX Station의 20 PFLOP는 DGX Spark의 20배다. 784GB 메모리는 가장 큰 오픈소스 모델인 Llama 3.1 405B를 FP16 전체 정밀도로 실행할 수 있는 수준이다. HBM3e 메모리의 약 16 TB/s 대역폭은 DGX Spark의 60배에 달하며, 이는 대형 모델의 추론 속도에서 압도적인 차이를 만든다.
9-3. 누구를 위한 것인가
DGX Spark가 적합한 사용자:
- AI/ML을 공부하는 학생 및 연구자
- 개인 프로젝트로 LLM 파인튜닝을 하는 개발자
- ComfyUI로 이미지/비디오 콘텐츠를 만드는 크리에이터
- AI 프로토타이핑을 하는 스타트업 (1-3명)
- 데이터 프라이버시가 중요한 개인 사용자
DGX Station이 적합한 사용자:
- 기업 AI 연구팀 (5-20명 공유)
- 대규모 모델 학습이 필요한 연구소
- 프로덕션 AI 서비스를 로컬에서 운영하는 기업
- 복수의 대형 모델을 동시에 서빙해야 하는 환경
- 예산이 충분한 조직
대부분의 개인 개발자와 소규모 팀에게 DGX Spark는 가격 대비 최적의 선택이다. DGX Station은 "사고 싶다"가 아니라 "사야 한다"는 명확한 업무 요구가 있을 때 고려할 제품이다.
실전 퀴즈
지금까지 다룬 내용을 점검해 보자. 각 문제를 풀어보고, 정답을 확인하자.
Q1. DGX Spark의 통합 메모리 용량과 대역폭은?
정답: 128GB LPDDR5X, 273 GB/s
DGX Spark의 GB10 Grace Blackwell Superchip에는 128GB LPDDR5X 통합 메모리가 탑재되어 있으며, 273 GB/s의 대역폭을 제공한다. CPU와 GPU가 동일한 메모리 풀을 공유하므로 별도의 VRAM 제약이 없다. 이를 통해 단일 장치에서 200B 파라미터 모델까지 실행할 수 있다.
Q2. DGX Spark, Mac Studio M4 Ultra, RTX 5090 중 LLM 디코딩 속도가 가장 빠른 것은?
정답: RTX 5090 (단, 32GB 이내 모델에 한함)
LLM 디코딩은 메모리 대역폭에 비례한다. RTX 5090의 1,792 GB/s는 DGX Spark(273 GB/s)의 약 6.5배, Mac Studio(819 GB/s)의 약 2.2배이다. 하지만 RTX 5090은 32GB VRAM이라는 제한이 있어 소형 모델에서만 이 속도를 발휘할 수 있다. 70B 이상 대형 모델에서는 실행 자체가 불가능하다.
Q3. ComfyUI가 Automatic1111 WebUI 대비 가지는 핵심 장점 2가지는?
정답: 효율적 재실행(변경된 노드만 재계산)과 극한의 커스터마이징(노드 기반 비주얼 프로그래밍)
ComfyUI는 변경된 노드만 다시 계산하므로, 프롬프트만 수정하면 모델 로딩을 건너뛴다. 또한 노드 기반 인터페이스로 어떤 파이프라인이든 자유롭게 구성할 수 있어, Automatic1111의 고정된 UI 구조에서는 불가능한 복잡한 워크플로우를 만들 수 있다.
Q4. DGX Spark에서 LLM과 FLUX를 동시에 실행할 수 있는 이유는?
정답: 128GB 통합 메모리 덕분에 두 모델을 동시에 메모리에 적재할 수 있다
Llama 3.1 70B (FP8)는 약 70GB, FLUX.1 Dev (BF16)는 약 24GB의 메모리를 요구한다. 합계 약 94GB로, DGX Spark의 128GB 안에 충분히 들어간다. RTX 4090(24GB)에서는 둘 중 하나만 실행 가능하지만, DGX Spark에서는 모델 스왑 없이 즉시 전환하며 LLM 프롬프트 생성과 이미지 생성을 연속 처리할 수 있다.
Q5. DGX Spark의 월 300달러 클라우드 비용 대비 손익분기 시점은?
정답: 약 13개월
DGX Spark 가격 3,999달러를 월 절감액 300달러로 나누면 약 13.3개월이다. 전기 비용(월 1-1.5만 원)을 고려해도 약 14-15개월이면 손익분기를 넘긴다. 이후에는 전기료만으로 무제한 AI를 사용할 수 있으므로, 파워 유저일수록 로컬 투자의 경제성이 높아진다.
참고 자료
- NVIDIA DGX Spark 공식 페이지 - DGX Spark 제품 정보 및 스펙
- NVIDIA GTC 2025 키노트 - 젠슨 황 CEO 발표 영상
- NVIDIA DGX Spark 기술 블로그 - 개발자 가이드 및 벤치마크
- NVIDIA Build - DGX Spark ComfyUI 가이드 - 공식 ComfyUI 셋업 가이드
- ComfyUI GitHub - ComfyUI 소스 코드 및 문서
- ComfyUI Desktop 릴리즈 - Desktop 앱 다운로드
- ComfyUI-Manager - 커스텀 노드 관리 도구
- FLUX.1 모델 (Black Forest Labs) - FLUX 모델 다운로드
- Ollama 공식 사이트 - 로컬 LLM 실행 도구
- ComfyUI_LocalLLMNodes - ComfyUI LLM 통합 노드
- ComfyUI-IF_AI_tools - Ollama/ComfyUI 통합 도구
- AnimateDiff-Evolved - 비디오 생성 노드
- EAGLE3 추측적 디코딩 논문 - 추측적 디코딩 기술 상세
- SGLang GitHub - 고성능 LLM 서빙 프레임워크
- NVIDIA TensorRT-LLM - NVIDIA 공식 LLM 최적화 엔진
- Stable Diffusion XL (Stability AI) - SDXL 모델
- GB10 Grace Blackwell Superchip 아키텍처 - GB10 기술 상세