DeepSeek 모델 완벽 분석: MLA, MoE, 강화학습 기반 추론까지 — 중국발 오픈소스 LLM 혁신의 모든 것

1. DeepSeek 소개
2. DeepSeek-V1 / DeepSeek LLM (67B)
3. DeepSeek-V2 (236B): MLA와 DeepSeekMoE의 탄생
4. DeepSeek-V3 (685B, 37B Active): 효율성의 극한
5. DeepSeek-R1: 강화학습으로 추론 능력을 깨우다
6. DeepSeek-Coder: 코딩 특화 모델
- 6.1 DeepSeek-Coder V1
- 6.2 DeepSeek-Coder V2
7. DeepSeek-VL / Janus: 비전-언어 모델
8. 아키텍처 비교 표: DeepSeek 모델 전체
9. MLA vs MHA vs GQA vs MQA 비교
10. 산업적 영향
11. 주요 논문 레퍼런스
12. 한계점과 미래 전망
- 12.1 현재 한계점
- 12.2 미래 전망
참고 자료

1. DeepSeek 소개

1.1 회사 배경: 헤지펀드에서 AI 연구소로

DeepSeek(深度求索)은 2023년 7월 중국 항저우에서 설립된 AI 연구 기업이다. 설립자인 **Liang Wenfeng(梁文锋)**은 저장대학교(浙江大学) 출신으로, 2016년에 설립한 퀀트 헤지펀드 **High-Flyer(幻方量化)**의 CEO이기도 하다. High-Flyer는 AI 기반 알고리즘 트레이딩으로 중국 내 최대 규모의 헤지펀드 중 하나로 성장했으며, 2025년에는 56.6%의 수익률을 기록하며 중국 대형 헤지펀드 중 2위를 차지했다.

High-Flyer는 트레이딩을 위해 대규모 GPU 클러스터를 보유하고 있었고, 2023년 4월 AGI(Artificial General Intelligence) 연구소 설립을 선언한 뒤 같은 해 7월 DeepSeek을 독립 법인으로 분사시켰다. 즉, DeepSeek은 헤지펀드의 자금력과 GPU 인프라를 기반으로 탄생한 독특한 AI 연구 조직이다.

1.2 오픈소스 철학

DeepSeek의 가장 두드러진 특징은 완전한 오픈소스 전략이다. DeepSeek은 모든 모델의 가중치를 MIT License 또는 상업적 사용이 가능한 라이선스로 공개하고 있으며, 모든 모델에 대해 상세한 기술 보고서(Technical Report)를 arXiv에 게시한다. 이는 OpenAI, Anthropic 등의 폐쇄적 접근 방식과 정면으로 대조되며, Meta의 Llama 시리즈와 함께 오픈소스 LLM 생태계의 양대 축을 형성하고 있다.

DeepSeek은 단순히 모델 가중치만 공개하는 것이 아니라, 학습에 사용한 아키텍처 혁신(MLA, DeepSeekMoE), 학습 전략(FP8 Mixed Precision, Auxiliary-loss-free Load Balancing), 그리고 강화학습 방법론(GRPO)까지 논문을 통해 상세히 공개한다. 이러한 투명성은 전 세계 AI 연구 커뮤니티에 막대한 영향을 미치고 있다.

1.3 중국 AI 생태계에서의 위치

중국 AI 생태계에는 Baidu(ERNIE), Alibaba(Qwen), ByteDance(Doubao), Zhipu AI(GLM), Moonshot AI(Kimi) 등 다양한 플레이어가 존재한다. 이 가운데 DeepSeek은 다음과 같은 차별점을 보인다.

기초 연구 중심: 제품(Product) 출시보다 아키텍처 혁신과 학습 방법론 연구에 집중
완전 오픈소스: 중국 AI 기업 중 가장 적극적인 오픈소스 전략
비용 효율성: 미국 대비 극소한 비용으로 최정상급 모델 학습 능력 입증
독립적 자금 구조: VC 투자에 의존하지 않고 High-Flyer의 자체 자금으로 운영

미국의 대중국 GPU 수출 규제(2022년 10월 이후)로 인해 NVIDIA A100/H100 대신 성능이 제한된 H800을 사용해야 했음에도, DeepSeek은 아키텍처와 학습 알고리즘의 혁신으로 이 제약을 극복하며 세계적 수준의 모델을 만들어냈다.

2. DeepSeek-V1 / DeepSeek LLM (67B)

2.1 모델 개요

DeepSeek의 첫 번째 기반 모델은 2024년 1월에 공개된 DeepSeek LLM이다. 7B와 67B 두 가지 크기로 릴리스되었으며, 논문 제목 "Scaling Open-Source Language Models with Longtermism"이 시사하듯 장기적 관점에서의 스케일링 법칙(Scaling Laws) 연구가 핵심이다.

항목	DeepSeek LLM 7B	DeepSeek LLM 67B
파라미터 수	7B	67B
학습 데이터	2T tokens	2T tokens
Context Length	4K	4K
아키텍처	Dense Transformer	Dense Transformer
라이선스	상업적 사용 허용	상업적 사용 허용

2.2 스케일링 법칙 연구

DeepSeek LLM 논문의 가장 중요한 기여는 스케일링 법칙에 대한 독자적 연구다. 기존 Chinchilla Scaling Law(Hoffmann et al., 2022)를 넘어, 다음과 같은 새로운 발견을 제시했다.

Batch Size 스케일링: 모델 크기가 커질수록 최적의 Batch Size도 증가한다는 경향을 정량적으로 분석
Learning Rate 스케일링: 모델 크기에 따른 최적 Learning Rate의 변화 패턴 규명
데이터-모델 할당 전략: 주어진 컴퓨팅 예산에서 모델 크기와 데이터 양을 어떻게 분배해야 최적인지에 대한 전략 제시

이러한 스케일링 법칙 연구가 이후 DeepSeek-V2, V3의 대규모 학습에서 핵심적인 가이드 역할을 하게 된다.

2.3 성능 결과

DeepSeek LLM 67B는 LLaMA-2 70B를 다양한 벤치마크에서 능가했으며, 특히 코딩, 수학, 추론 영역에서 두드러진 성능 차이를 보였다. DeepSeek LLM 67B Chat 버전은 개방형 평가에서 GPT-3.5를 능가하는 성능을 입증했다.

3. DeepSeek-V2 (236B): MLA와 DeepSeekMoE의 탄생

DeepSeek-V2는 2024년 5월에 공개된 모델로, DeepSeek의 가장 핵심적인 아키텍처 혁신 두 가지 — **Multi-head Latent Attention (MLA)**과 DeepSeekMoE — 를 처음 도입한 모델이다.

3.1 모델 사양

항목	값
총 파라미터 수	236B
활성 파라미터 수 (per token)	21B
Context Length	128K
학습 데이터	8.1T tokens
MoE 구조	2 Shared Experts + 160 Routed Experts (6개 활성)
Attention	Multi-head Latent Attention (MLA)

3.2 Multi-head Latent Attention (MLA)

MLA는 DeepSeek-V2에서 제안된 Attention 메커니즘으로, KV Cache를 93.3% 압축하면서도 기존 Multi-head Attention (MHA)보다 우수한 성능을 달성한다. 이는 LLM 추론의 핵심 병목인 KV Cache 메모리 문제를 근본적으로 해결하는 접근이다.

3.2.1 기존 Attention의 KV Cache 문제

표준 Multi-head Attention(MHA)에서는 모든 Attention Head의 Key와 Value 벡터를 개별적으로 캐싱해야 한다.

KV Cache 크기 = 2 × n_layers × n_heads × d_head × seq_len × dtype_size

예를 들어 67B Dense 모델에서 이는 시퀀스당 수 GB에 달하며, Batch Size를 크게 가져갈수록 메모리 사용량이 선형으로 증가한다. 이것이 LLM 추론에서 동시 처리량(Throughput)을 제한하는 핵심 병목이다.

Multi-Query Attention(MQA)과 Grouped-Query Attention(GQA)은 KV Head 수를 줄여 이 문제를 완화하지만, 성능 저하가 불가피하다.

3.2.2 MLA의 핵심 아이디어: Low-Rank KV Joint Compression

MLA의 핵심 아이디어는 KV Head 수를 줄이는 대신, KV를 저차원 잠재 벡터(Latent Vector)로 공동 압축(Joint Compression)하는 것이다. 추론 시에는 이 작은 잠재 벡터만 캐싱하고, 필요할 때 원래 차원으로 복원(Decompress)한다.

수학적으로, MLA는 다음과 같이 동작한다.

Step 1: Down-Projection (압축)

입력 히든 스테이트 $h_t$ 를 저차원 잠재 벡터 $c_t^{KV}$ 로 압축한다.

$c_t^{KV} = W^{DKV} h_t$

여기서:

$W^{DKV} \in \mathbb{R}^{d_c \times d}$ : Down-Projection 행렬
$d_c$ : 압축 차원 ( $d_c \ll d_h \cdot n_h$ )
$d$ : 모델 히든 차원

Step 2: Up-Projection (복원)

캐싱된 잠재 벡터로부터 Key와 Value를 복원한다.

$k_t^C = W^{UK} c_t^{KV}, \quad v_t^C = W^{UV} c_t^{KV}$

여기서:

$W^{UK} \in \mathbb{R}^{d_h n_h \times d_c}$ : Key Up-Projection 행렬
$W^{UV} \in \mathbb{R}^{d_h n_h \times d_c}$ : Value Up-Projection 행렬

핵심 포인트: 캐시에 저장하는 것은 원본 K, V 벡터가 아니라 압축된 잠재 벡터 $c_t^{KV}$ 이다. $d_c \ll d_h \cdot n_h$ 이므로 KV Cache가 극적으로 줄어든다.

3.2.3 Decoupled Rotary Position Embedding

MLA에서 한 가지 기술적 도전은 RoPE(Rotary Position Embedding)의 통합이다. RoPE는 위치 정보를 Key에 직접 곱하는 방식이므로, 저차원으로 압축된 잠재 벡터에 그대로 적용할 수 없다. 왜냐하면 RoPE가 적용된 Key는 위치에 따라 달라지므로, 압축 전후의 호환성이 깨지기 때문이다.

DeepSeek-V2는 이를 Decoupled RoPE로 해결한다.

$k_t^R = W^{KR} h_t$

여기서 $k_t^R$ 은 RoPE가 적용되는 별도의 소규모 Key 벡터다. 최종 Key는 압축된 내용 Key $k_t^C$ 와 위치 Key $k_t^R$ 을 결합(concatenation)하여 구성한다. 이를 통해 위치 정보를 유지하면서도 KV 압축의 이점을 온전히 누릴 수 있다. 다만, $k_t^R$ 에 해당하는 소량의 추가 캐시가 필요하지만, 이는 전체 KV Cache 절감량에 비하면 미미하다.

3.2.4 MLA의 효과

DeepSeek-V2의 MLA는 67B Dense 모델 대비 다음과 같은 개선을 달성했다.

KV Cache 93.3% 감소: 추론 시 메모리 사용량을 극적으로 절감
생성 처리량 5.76배 향상: 동일 하드웨어에서 훨씬 많은 요청을 동시에 처리 가능
성능 유지 또는 향상: MHA 대비 성능 저하 없이, 오히려 일부 벤치마크에서 향상

3.3 DeepSeekMoE: 세밀한 전문가 분할과 공유 전문가

3.3.1 기존 MoE의 한계

기존 Mixture-of-Experts(MoE) 아키텍처(예: GShard, Switch Transformer)는 일반적으로 적은 수의 큰 Expert를 사용한다. 이 접근에는 두 가지 문제가 있다.

지식 중복(Knowledge Redundancy): 여러 Expert가 유사한 지식을 학습하여 파라미터 효율이 떨어진다
조합의 유연성 부족: 활성화할 Expert 수가 적으면, 다양한 입력 패턴에 유연하게 대응하기 어렵다

3.3.2 Fine-Grained Expert Segmentation

DeepSeekMoE의 첫 번째 혁신은 **Expert를 더 세밀하게 분할(Fine-Grained Segmentation)**하는 것이다. 기존 MoE가 N개의 큰 Expert 중 K개를 활성화한다면, DeepSeekMoE는 mN개의 작은 Expert 중 mK개를 활성화한다. 총 파라미터 수와 계산량은 동일하지만, 활성화되는 Expert의 조합이 훨씬 다양해진다.

기존 MoE:  N=16 experts, K=2 active  →  C(16,2) = 120 조합
DeepSeekMoE: mN=64 experts, mK=8 active →  C(64,8) ≈ 4.4B 조합

이 세밀한 분할을 통해 각 Expert는 더 특화된(Specialized) 지식을 학습하게 되고, 모델은 입력에 따라 훨씬 정밀한 Expert 조합을 선택할 수 있다.

3.3.3 Shared Expert Isolation

두 번째 혁신은 공유 전문가(Shared Expert) 격리다. 전체 Expert 중 일부를 모든 토큰에 대해 항상 활성화되는 Shared Expert로 지정한다.

DeepSeek-V2 MoE Layer 구조:
  - 2 Shared Experts (항상 활성)
  - 160 Routed Experts (6개 선택적 활성)
  → 총 활성 Expert: 2 + 6 = 8개

Shared Expert는 언어의 기본적인 문법, 상식 등 모든 입력에 공통적으로 필요한 지식을 담당한다. 이렇게 하면 Routed Expert가 공통 지식을 중복 학습할 필요가 없어지고, 각자의 전문 영역에 더 집중할 수 있다. 이는 Expert Specialization을 극대화하는 효과가 있다.

3.3.4 DeepSeekMoE의 성과

DeepSeekMoE 논문(ACL 2024)에서 보고된 성과는 다음과 같다.

DeepSeekMoE 2B: 1.5배 많은 Expert 파라미터와 계산량을 가진 GShard 2.9B와 동등한 성능
DeepSeekMoE 16B: LLaMA2 7B와 동등한 성능을 약 40%의 계산량만으로 달성

3.4 학습 데이터 및 인프라

DeepSeek-V2의 학습 데이터는 8.1T(조) 토큰 규모의 다중 소스 코퍼스다. DeepSeek LLM 67B 대비 데이터 양이 4배 이상 증가했으며, 특히 중국어 데이터가 대폭 확대되었다. 데이터 품질 또한 더욱 정교한 필터링과 중복 제거를 통해 개선되었다.

학습 인프라 측면에서는, DeepSeek-V2가 DeepSeek LLM 67B 대비 학습 비용 42.5% 절감을 달성했다. 이는 MoE 아키텍처를 통한 희소 연산(Sparse Computation)과 MLA를 통한 효율적 추론의 결과다.

4. DeepSeek-V3 (685B, 37B Active): 효율성의 극한

DeepSeek-V3는 2024년 12월에 공개된 DeepSeek의 플래그십 모델로, MLA와 DeepSeekMoE를 기반으로 하면서도 FP8 Mixed Precision Training, Auxiliary-loss-free Load Balancing, Multi-Token Prediction 등 다수의 학습 혁신을 도입했다.

4.1 모델 사양

항목	값
총 파라미터 수	671B (일부 보도에서 685B로 표기)
활성 파라미터 수 (per token)	37B
Context Length	128K (학습 후 확장)
학습 데이터	14.8T tokens
MoE 구조	1 Shared Expert + 256 Routed Experts (8개 활성)
Attention	Multi-head Latent Attention (MLA)
학습 GPU 시간	2.788M H800 GPU hours
학습 비용 (추정)	$5.576M

4.2 FP8 Mixed Precision Training

DeepSeek-V3는 공개적으로 알려진 최초의 대규모 모델 FP8 학습 사례다. FP8(8-bit Floating Point)은 기존 BF16/FP16 대비 메모리 사용량과 연산량을 절반으로 줄일 수 있으나, 정밀도 손실 문제로 대규모 학습에 적용하기 어려웠다.

4.2.1 E4M3 통일 포맷

기존 FP8 학습 방법(예: NVIDIA Transformer Engine)은 Forward Pass에 E4M3(지수부 4비트, 가수부 3비트), Backward Pass에 E5M2(지수부 5비트, 가수부 2비트)를 혼용한다. DeepSeek-V3는 모든 텐서에 E4M3 포맷을 통일 적용하여 더 높은 정밀도를 확보했다. 이것이 가능했던 이유는 Fine-Grained Quantization 전략 덕분이다.

4.2.2 Fine-Grained Quantization

DeepSeek-V3의 FP8 학습이 성공한 핵심 요인은 Fine-Grained(세밀한) 양자화 전략이다.

Tile-wise Scaling: 텐서를 작은 타일(Tile) 단위로 나누고, 각 타일에 독립적인 스케일링 팩터를 적용
Block-wise Scaling: 텐서를 블록 단위로 스케일링하여, 값의 범위가 다른 부분들이 각자 최적의 정밀도를 유지

이러한 세밀한 스케일링을 통해, 기존 텐서 단위 스케일링에서 발생하는 정밀도 손실을 극적으로 줄였다.

4.2.3 High-Precision Accumulation

FP8 행렬곱의 누적(Accumulation) 연산에서 발생하는 정밀도 손실을 방지하기 위해, FP32 Accumulation을 사용한다. 즉, 개별 곱셈은 FP8로 수행하되, 그 결과를 합산할 때는 FP32 정밀도를 유지하는 것이다.

4.2.4 FP8 학습 검증

DeepSeek-V2 기반 16B 및 230B 모델에서 FP8 학습 Ablation Study를 수행한 결과, BF16 대비 상대 정확도 손실(Relative Accuracy Loss)이 0.25% 미만에 머무는 것을 확인했다. 이는 FP8 학습이 실용적으로 BF16과 거의 동등한 품질을 제공함을 의미한다.

4.3 Auxiliary-Loss-Free Load Balancing

MoE 모델의 고질적 문제 중 하나는 **로드 불균형(Load Imbalance)**이다. 특정 Expert에 토큰이 집중되면(Routing Collapse), 해당 Expert는 과부하가 걸리고 나머지는 유휴 상태가 되어 전체 효율이 급락한다.

4.3.1 기존 방식의 문제

기존 MoE 모델은 이를 해결하기 위해 **보조 손실(Auxiliary Loss)**을 사용한다. 이는 라우팅 분포가 균등해지도록 유도하는 추가 손실 함수다. 그러나 이 접근에는 딜레마가 있다.

보조 손실이 너무 크면: 라우팅이 균등해지지만, 모델 성능(본래 학습 목표)이 저하된다
보조 손실이 너무 작으면: 로드 불균형이 해소되지 않는다

4.3.2 DeepSeek-V3의 해법: Bias-Based Dynamic Balancing

DeepSeek-V3는 보조 손실 없이 로드 밸런싱을 달성하는 새로운 접근을 제안한다. 핵심은 각 Expert에 **동적으로 조정되는 바이어스 항(Bias Term)**을 부여하는 것이다.

라우팅 결정: g_i = softmax(score_i + b_i)

- score_i: Expert i에 대한 원래 라우팅 점수
- b_i: Expert i의 동적 바이어스 항

바이어스 항은 학습 중 다음과 같이 조정된다.

Expert가 과부하(Overloaded) 상태면: 바이어스를 감소 → 해당 Expert가 선택될 확률 하락
Expert가 유휴(Underloaded) 상태면: 바이어스를 증가 → 해당 Expert가 선택될 확률 상승

이 바이어스 항은 라우팅 결정에만 영향을 미치고, 실제 Expert 출력의 가중치에는 관여하지 않는다. 따라서 모델의 학습 목표를 훼손하지 않으면서 로드 밸런싱을 달성할 수 있다.

추가로, DeepSeek-V3는 매우 작은 하이퍼파라미터로 제어되는 Sequence-wise Balance Loss를 보완적으로 사용한다. 이는 각 시퀀스 내에서의 밸런스를 유도하는 역할을 하지만, 기존 방식 대비 훨씬 작은 값이므로 모델 성능에 미치는 영향이 최소화된다.

4.4 Multi-Token Prediction (MTP)

4.4.1 기존 Next-Token Prediction의 한계

전통적인 Language Model은 Next-Token Prediction (NTP), 즉 다음 토큰 하나만 예측하는 방식으로 학습한다. 이는 간단하고 효과적이지만, 모델이 한 번에 하나의 토큰만 고려하므로 장기적 계획(Planning) 능력이 제한될 수 있다.

4.4.2 DeepSeek-V3의 MTP 구현

DeepSeek-V3는 **Multi-Token Prediction (MTP)**을 학습 목표로 채택하여, 각 위치에서 다음 n개 토큰을 예측하도록 학습한다. 여기서 DeepSeek의 MTP 구현은 기존 연구(Gloeckle et al., 2024)와 차별화되는 특징이 있다.

인과적 연쇄(Causal Chain) 유지: 추가 토큰을 병렬로 예측하는 것이 아니라, 순차적으로(Sequentially) 예측한다. 즉, k번째 추가 토큰의 예측에 (k-1)번째까지의 예측 정보가 반영된다
추론 가속에 활용: MTP 모듈은 학습뿐 아니라, Speculative Decoding에도 활용될 수 있어 추론 속도 향상에도 기여한다

MTP는 벤치마크 성능 향상에 기여하는 것으로 Ablation Study를 통해 확인되었다.

4.5 학습 비용: $5.6M 논쟁

DeepSeek-V3 기술 보고서에 따르면, 전체 학습에 소요된 GPU 시간은 다음과 같다.

단계	GPU 시간
Pre-Training (14.8T tokens)	2,664K H800 GPU hours
Context Length Extension	119K H800 GPU hours
Post-Training (SFT + RL)	5K H800 GPU hours
합계	2,788K H800 GPU hours

H800 GPU 렌탈 비용을 시간당 $2로 가정하면, 총 학습 비용은 약 **$ 5.576M(약 56억 원)**이다. 이는 GPT-4의 학습 비용이 $100M 이상으로 추정되는 것과 비교하면, Meta Llama 3.1의 학습에 사용된 컴퓨팅의 약 1/10에 불과하다.

비용 논쟁

그러나 이 수치에 대해서는 몇 가지 중요한 맥락이 있다.

최종 학습만의 비용: 이 $5.6M은 최종 성공 학습(Final Training Run)만의 비용이며, 아키텍처 탐색, 알고리즘 실험, 데이터 준비 등의 사전 연구 비용은 포함되지 않는다
하드웨어 구매 비용 미포함: DeepSeek은 H800 GPU를 렌탈이 아닌 자체 보유하고 있으며, 256대의 GPU 서버 구매 비용은 $51M 이상으로 추정된다
인건비 미포함: 연구원, 엔지니어의 인건비가 반영되지 않았다
사전 모델 경험: DeepSeek-V2에서의 학습 경험과 인프라가 이미 구축된 상태에서의 추가 비용만 산출

그럼에도 불구하고, 같은 기준으로 비교했을 때(최종 학습 비용) DeepSeek-V3의 비용 효율이 경이적인 수준임은 부정할 수 없다.

4.6 벤치마크 결과

DeepSeek-V3는 공개 당시 오픈소스 모델 중 최강의 성능을 기록했으며, 일부 벤치마크에서는 GPT-4o와 Claude 3.5 Sonnet 같은 최상위 폐쇄형 모델에 필적하거나 능가했다.

벤치마크	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet	Llama 3.1 405B
MMLU	88.5	87.2	88.7	88.6
MMLU-Pro	75.9	72.6	78.0	73.3
GPQA Diamond	59.1	53.6	65.0	51.1
HumanEval	82.6	80.5	81.1	72.0
MATH-500	90.2	76.6	78.3	73.8
AIME 2024	39.2	15.7	-	23.3
Codeforces	51.6	23.0	17.5	21.0

특히 수학(MATH-500, AIME 2024)과 코딩(Codeforces) 벤치마크에서의 압도적 우위가 눈에 띈다. AIME 2024에서 GPT-4o 대비 2.5배의 성능을 기록했다.

4.7 API 비용 비교

DeepSeek-V3의 또 다른 충격은 API 가격이다.

모델	Input (per 1M tokens)	Output (per 1M tokens)
DeepSeek-V3	$0.27	$1.10
GPT-4o	$2.50	$10.00
Claude 3.5 Sonnet	$3.00	$15.00

DeepSeek-V3는 GPT-4o 대비 입력 약 9배, 출력 약 9배 저렴하다. 성능은 비슷하거나 더 나으면서 비용은 1/9 수준이니, 비용 대비 성능(Cost-Performance Ratio) 관점에서 파괴적인 가격 경쟁력을 가진다.

5. DeepSeek-R1: 강화학습으로 추론 능력을 깨우다

DeepSeek-R1은 2025년 1월에 공개된 모델로, 순수 강화학습(Pure Reinforcement Learning)만으로 LLM에 고급 추론 능력을 부여할 수 있음을 세계 최초로 대규모 실험으로 입증했다. OpenAI의 o1 시리즈에 필적하는 성능을 95% 이상 저렴한 비용으로 달성하며, AI 업계에 거대한 충격을 안겼다.

5.1 R1-Zero: 순수 강화학습의 놀라운 결과

5.1.1 실험 설계

DeepSeek-R1-Zero는 Supervised Fine-Tuning(SFT) 없이, DeepSeek-V3 Base 모델에 곧바로 강화학습을 적용한 실험적 모델이다. 기존의 추론 모델(예: OpenAI o1)은 대규모 인간 라벨 추론 데이터로 SFT를 수행한 후 강화학습을 적용하는 것으로 알려져 있다. R1-Zero는 이 SFT 단계를 완전히 생략한다.

보상 신호는 다음 두 가지만 사용한다.

정확도 보상(Accuracy Reward): 최종 답이 정답과 일치하는지 여부
형식 보상(Format Reward): 출력이 지정된 형식(예: <think>...</think> 태그 내에 추론 과정 기술)을 따르는지 여부

추론 과정 자체에 대한 제약이나 보상은 없다. 모델이 어떤 방식으로 생각하든, 최종 답만 맞으면 양의 보상을 받는다.

5.1.2 "Aha Moment": 창발적 추론 능력

R1-Zero에서 가장 주목할 만한 현상은 연구자들이 **"Aha Moment"**라 부르는 것이다. 수천 스텝의 강화학습 과정에서, 모델이 스스로 다음과 같은 고급 추론 패턴을 발전시킨다.

자기 검증(Self-Verification): 중간 결과를 스스로 확인하고 오류를 발견
자기 반성(Self-Reflection): "잠깐, 이 접근이 틀린 것 같다"와 같은 메타인지적 패턴
전략 전환(Dynamic Strategy Adaptation): 하나의 풀이가 막히면 다른 접근으로 전환
더 긴 사고 시간 할당: 어려운 문제에 대해 더 긴 추론 체인을 자율적으로 생성

이러한 행동은 명시적으로 가르친 적이 없으며, 순수하게 "정답을 맞추면 보상받는다"는 단순한 신호에서 창발(Emerge)한 것이다. 이는 강화학습이 LLM에 진정한 문제 해결 능력을 유도할 수 있음을 시사하는 획기적 발견이다.

5.1.3 R1-Zero의 성능 변화

학습 과정에서 AIME 2024 Pass@1 성능의 변화는 다음과 같다.

RL 시작 시:  15.6% (DeepSeek-V3 Base 수준)
RL 중간:    ~50% (수천 스텝 후)
RL 완료:    71.0% (Pass@1)
Majority Voting: 86.7% (OpenAI o1-0912 수준)

SFT 데이터 없이 순수 RL만으로 AIME 성적이 15.6%에서 71.0%로 급등한 것은 놀라운 결과다.

5.1.4 R1-Zero의 한계

그러나 R1-Zero에는 실용적 문제가 있다.

가독성(Readability) 저하: 추론 과정이 인간이 읽기 어려운 형태로 전개되는 경우가 빈번
언어 혼합(Language Mixing): 영어와 중국어가 뒤섞여 나오는 현상
끝없는 반복(Endless Repetition): 동일한 추론 패턴을 무한히 반복하는 경우 발생

이러한 한계를 해결하기 위해 DeepSeek-R1이 탄생했다.

5.2 Group Relative Policy Optimization (GRPO)

5.2.1 PPO의 한계

기존 강화학습에서 널리 사용되는 PPO(Proximal Policy Optimization)는 **별도의 Critic Model(가치 함수)**이 필요하다. LLM 규모에서 Critic Model은 Policy Model과 비슷한 크기여야 하므로, 학습 시 메모리와 계산 비용이 거의 2배로 증가한다.

5.2.2 GRPO의 핵심 아이디어

GRPO(Group Relative Policy Optimization)는 DeepSeekMath 논문에서 최초로 제안되었으며, Critic Model을 제거하고 그룹 내 상대적 보상을 사용하여 Policy를 최적화한다.

동작 과정:

하나의 질문(Prompt) $q$ 에 대해 현재 Policy로 $G$ 개의 응답 $\{o_1, o_2, ..., o_G\}$ 를 샘플링
각 응답에 대한 보상 $\{r_1, r_2, ..., r_G\}$ 를 계산
**그룹 내 상대적 이점(Advantage)**을 계산:

$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, ..., r_G\})}{\text{std}(\{r_1, r_2, ..., r_G\})}$

Policy 업데이트:

$\mathcal{L}_{GRPO} = -\frac{1}{G}\sum_{i=1}^{G}\left[\min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\text{old}}(o_i|q)}A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right)A_i\right) - \beta D_{KL}(\pi_\theta || \pi_{\text{ref}})\right]$

여기서:

$\pi_\theta$ : 현재 Policy
$\pi_{\text{old}}$ : 이전 Policy
$\pi_{\text{ref}}$ : 참조 Policy (학습 시작 시점의 모델)
$\epsilon$ : Clipping 범위
$\beta$ : KL Divergence 가중치

5.2.3 GRPO의 장점

특성	PPO	GRPO
Critic Model	필요 (Policy와 유사 크기)	불필요
메모리 사용량	~2x Policy 크기	~1x Policy 크기
Advantage 추정	가치 함수 기반	그룹 통계 기반
KL Divergence	보상 신호에 포함	손실 함수에 직접 포함

GRPO는 PPO 대비 메모리 효율을 거의 절반으로 줄이면서도, LLM 강화학습의 맥락에서 동등하거나 더 나은 학습 안정성을 보인다.

5.3 DeepSeek-R1: Cold Start + RL 파이프라인

DeepSeek-R1은 R1-Zero의 한계를 해결하기 위해 Cold Start Data를 활용한 SFT 후 RL을 적용하는 파이프라인을 채택한다.

5.3.1 학습 파이프라인

Stage 1: Cold Start SFT
  → 소량의 고품질 CoT 추론 데이터로 모델의 기본 추론 형식을 학습
  → 가독성 있는 추론 형식, 언어 일관성 확보

Stage 2: 추론 중심 RL
  → 수학, 코딩, 과학 등 정답이 명확한 문제에 대해 GRPO 적용
  → 추론 능력 극대화

Stage 3: 거부 샘플링 + SFT
  → Stage 2 모델의 출력 중 최선의 추론 과정을 선별
  → 추론 태스크 + 일반 태스크(작문, 번역, QA 등) 데이터 혼합 SFT

Stage 4: 전체 영역 RL
  → 추론 + 일반 태스크 모두에 대해 최종 RL 적용
  → 유용성(Helpfulness)과 무해성(Harmlessness) 최적화

이 다단계 파이프라인을 통해, R1-Zero의 추론 능력은 유지하면서 가독성과 일반 태스크 능력을 동시에 확보한다.

5.3.2 Chain-of-Thought 추론 과정

DeepSeek-R1의 추론 출력은 <think>...</think> 태그로 감싸진 긴 사고 과정(Chain-of-Thought)을 포함한다. 수학 문제를 예로 들면 다음과 같은 패턴이 나타난다.

<think>
문제를 분석해 보겠습니다...

먼저, 주어진 조건을 정리하면...
이 경우 부등식 x^2 + y^2 <= 1의 영역을 고려해야 합니다.

잠깐, 이 접근은 경계 조건을 놓치고 있습니다.
다른 방법을 시도해 보겠습니다.

라그랑주 승수법을 적용하면...
∂L/∂x = 2x + λ = 0
∂L/∂y = 2y + λ = 0

따라서 x = y = -λ/2이고...
이 결과를 대입하면...

검증: 답이 원래 조건을 만족하는지 확인합니다.
x = 1/√2, y = 1/√2를 대입하면...
조건을 만족합니다. ✓
</think>

최종 답: ...

이처럼 모델은 문제 분석, 풀이 시도, 오류 발견, 전략 전환, 결과 검증까지를 자율적으로 수행한다.

5.4 벤치마크 결과

DeepSeek-R1은 OpenAI o1-1217과 비교하여 대등하거나 더 나은 성능을 보인다.

벤치마크	DeepSeek-R1	OpenAI o1-1217	OpenAI o1-mini
AIME 2024 (Pass@1)	79.8%	79.2%	63.6%
MATH-500 (Pass@1)	97.3%	96.4%	90.0%
Codeforces (Percentile)	96.3%	96.6%	93.4%
GPQA Diamond	71.5%	75.7%	60.0%
MMLU	90.8%	91.8%	85.2%
SWE-Bench Verified	49.2%	48.9%	44.6%
LiveCodeBench	65.9%	63.4%	53.8%

핵심 결과:

AIME 2024: R1이 o1을 근소하게 앞선다 (79.8% vs 79.2%)
MATH-500: R1이 명확한 우위 (97.3% vs 96.4%)
Codeforces: o1이 근소하게 앞선다 (96.6% vs 96.3%)
SWE-Bench: R1이 소프트웨어 엔지니어링 태스크에서도 우위

5.5 Distillation: 작은 모델로의 추론 능력 전이

DeepSeek-R1의 또 다른 중요한 기여는 **추론 능력을 작은 모델로 증류(Distillation)**하는 것이다. DeepSeek-R1이 생성한 800K개의 고품질 추론 샘플을 사용하여 Qwen2.5 및 Llama3 계열의 작은 모델을 Fine-Tuning했다.

5.5.1 증류 모델 라인업

모델	기반 모델	파라미터 수
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-1.5B	1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-7B	7B
DeepSeek-R1-Distill-Llama-8B	Llama3.1-8B-Base	8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	32B
DeepSeek-R1-Distill-Llama-70B	Llama3.3-70B-Instruct	70B

5.5.2 증류 모델의 놀라운 성능

증류된 모델들의 성능은 매우 인상적이다.

모델	AIME 2024	MATH-500
R1-Distill-Qwen-1.5B	28.9%	83.9%
R1-Distill-Qwen-7B	55.5%	92.8%
R1-Distill-Qwen-14B	69.7%	93.9%
R1-Distill-Qwen-32B	72.6%	94.3%
R1-Distill-Llama-70B	70.0%	94.5%
OpenAI o1-mini	63.6%	90.0%

핵심 발견:

32B 모델이 o1-mini를 능가: R1-Distill-Qwen-32B가 AIME에서 72.6%, MATH-500에서 94.3%를 기록하며, OpenAI o1-mini(63.6%, 90.0%)를 크게 앞선다
7B 모델이 QwQ-32B-Preview를 능가: 7B 규모에서도 AIME 55.5%를 달성, 4배 이상 큰 QwQ-32B-Preview를 앞선다
1.5B 모델의 놀라운 능력: 1.5B라는 극소형 모델에서도 수학 추론 능력이 GPT-4o와 Claude 3.5를 능가하는 경우가 있다

이는 추론 능력이 모델 크기보다 **학습 데이터의 품질(교사 모델의 추론 과정)**에 더 크게 의존할 수 있음을 시사한다.

6. DeepSeek-Coder: 코딩 특화 모델

6.1 DeepSeek-Coder V1

DeepSeek-Coder V1은 2024년 1월에 공개된 코딩 특화 LLM 시리즈로, 1.3B, 6.7B, 33B의 세 가지 크기로 제공된다.

6.1.1 학습 데이터

항목	비율
소스 코드 (87종 프로그래밍 언어)	87%
영어 코드 관련 자연어 (GitHub Markdown, StackExchange)	10%
코드 비관련 중국어 자연어	3%
총 학습 토큰	2T tokens

학습 데이터는 리포지토리 수준(Repository-Level)으로 조직되어, 파일 간 의존성과 프로젝트 구조를 이해하는 능력을 강화했다.

6.1.2 학습 방법론

DeepSeek-Coder V1은 두 가지 학습 목표를 동시에 사용한다.

Next-Token Prediction: 일반적인 코드 생성 능력
Fill-in-the-Middle (FIM): 코드 중간 부분을 채우는 능력 (코드 완성, 삽입에 중요)

16K Context Window를 지원하여 긴 코드 파일도 처리할 수 있다.

6.1.3 성능

DeepSeek-Coder 33B는 발표 당시 오픈소스 코드 모델 중 최고 성능을 기록했으며, Codex와 GPT-3.5를 능가했다. 모든 모델이 상업적 사용이 가능한 라이선스로 공개되었다.

6.2 DeepSeek-Coder V2

DeepSeek-Coder V2는 2024년 6월에 공개되었으며, DeepSeek-V2의 중간 체크포인트에서 시작하여 추가 학습을 진행한 모델이다.

6.2.1 모델 사양

항목	DeepSeek-Coder-V2 Lite	DeepSeek-Coder-V2
총 파라미터 수	16B	236B
활성 파라미터 수	2.4B	21B
아키텍처	DeepSeekMoE	DeepSeekMoE
Context Length	128K	128K
지원 언어 수	338	338

V1의 86개 프로그래밍 언어에서 338개로 대폭 확대되었고, Context Length도 16K에서 128K로 8배 늘어났다.

6.2.2 학습 데이터 구성

DeepSeek-V2 중간 체크포인트에서 시작하여 추가 6T 토큰으로 학습했다.

학습 데이터 구성:
  - 소스 코드: 60%
  - 수학 코퍼스: 10%
  - 자연어 코퍼스: 30%

수학 코퍼스를 10% 포함한 것이 특징적이며, 이는 코딩과 수학적 추론 능력이 상호 보완적이라는 연구 결과를 반영한 것이다.

6.2.3 성능 결과

벤치마크	DeepSeek-Coder-V2	GPT-4 Turbo	Claude 3 Opus	Gemini 1.5 Pro
HumanEval	90.2%	87.6%	84.9%	71.9%
MBPP	76.2%	73.0%	70.1%	67.3%
MATH	75.7%	73.4%	60.1%	67.7%

DeepSeek-Coder-V2는 HumanEval에서 90.2%를 기록하며, GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro를 모두 능가했다. 오픈소스 모델이 코드 인텔리전스 영역에서 폐쇄형 모델의 벽을 허물었다는 점에서 의의가 크다.

7. DeepSeek-VL / Janus: 비전-언어 모델

7.1 DeepSeek-VL

DeepSeek-VL은 2024년 3월에 공개된 비전-언어 모델로, 실세계 시각-언어 이해에 초점을 맞춘다. 1.3B와 7B 두 가지 크기로 제공된다.

7.1.1 주요 특징

하이브리드 비전 인코더: 1024 x 1024 고해상도 이미지를 고정된 토큰 예산(Fixed Token Budget) 내에서 효율적으로 처리
다양한 실세계 데이터: 웹 스크린샷, PDF, OCR, 차트, 지식 기반 콘텐츠 등 실용적 시나리오를 광범위하게 커버하는 학습 데이터
언어 능력 유지: 비전 능력을 추가하면서도 텍스트 전용 벤치마크에서의 성능 저하를 최소화

7.2 DeepSeek-VL2

DeepSeek-VL2는 2024년 12월에 공개된 후속 모델로, MoE 아키텍처를 비전-언어 모델에 도입했다. DeepSeek-VL2는 다중 이미지, 비디오 이해, OCR 등에서 개선된 성능을 보인다.

7.3 Janus: 이해와 생성의 통합

Janus는 2024년 10월에 공개된 모델로, 멀티모달 이해(Understanding)와 시각적 생성(Generation)을 하나의 모델에서 통합하는 혁신적 접근을 취한다.

7.3.1 핵심 아키텍처: 디커플된 비전 인코딩

기존 통합 모델(예: Chameleon)은 이해와 생성에 단일 비전 인코더를 사용한다. 그러나 이해에는 고수준 의미론적 특징이, 생성에는 저수준 세밀한 특징이 필요하므로, 단일 인코더로는 두 태스크를 동시에 최적화하기 어렵다.

Janus는 이 문제를 **비전 인코딩 경로를 분리(Decoupling)**하되, 단일 Unified Transformer로 처리하는 방식으로 해결한다.

멀티모달 이해 경로:
  Image → SigLIP Encoder → 고차원 의미 특징 → Unified Transformer

시각적 생성 경로:
  Text Prompt → Unified Transformer → VQ Tokenizer → 이미지 생성

이 아키텍처를 통해, 하나의 모델이 이미지 이해와 생성을 모두 수행할 수 있다.

7.4 Janus-Pro

2025년 1월에 공개된 Janus-Pro는 Janus의 개선 버전으로, 1B와 7B 크기로 제공된다. 학습 전략, 데이터, 모델 크기의 세 가지 차원에서 개선을 적용했다.

이해 데이터: DeepSeek-VL2 참조, 약 9천만 개 샘플 추가 (이미지 캡션, 표, 차트, 문서 이해)
생성 데이터: 약 7,200만 개의 합성 미적(Aesthetic) 데이터 추가 (실제:합성 = 1:1 비율)
성능: GenEval, DPG 벤치마크에서 DALL-E 3과 Stable Diffusion 3 Medium을 모두 능가

8. 아키텍처 비교 표: DeepSeek 모델 전체

모델	공개 시기	총 파라미터	활성 파라미터	Context	학습 데이터	Attention	FFN	특징
DeepSeek LLM 7B	2024.01	7B	7B	4K	2T	MHA	Dense	첫 번째 기반 모델
DeepSeek LLM 67B	2024.01	67B	67B	4K	2T	MHA	Dense	스케일링 법칙 연구
DeepSeekMoE 16B	2024.01	16B	2.8B	4K	2T	MHA	MoE	Fine-grained Expert, Shared Expert
DeepSeek-Coder 33B	2024.01	33B	33B	16K	2T	MHA	Dense	87종 프로그래밍 언어
DeepSeek-VL 7B	2024.03	7B	7B	-	-	MHA	Dense	비전-언어 이해
DeepSeek-V2	2024.05	236B	21B	128K	8.1T	MLA	DeepSeekMoE	KV Cache 93.3% 감소
DeepSeek-Coder-V2	2024.06	236B	21B	128K	+6T	MLA	DeepSeekMoE	338종 언어, 코드 특화
Janus	2024.10	-	-	-	-	-	-	이해+생성 통합
DeepSeek-VL2	2024.12	MoE	-	-	-	MLA	DeepSeekMoE	MoE 비전-언어 모델
DeepSeek-V3	2024.12	671B	37B	128K	14.8T	MLA	DeepSeekMoE	FP8 학습, MTP, 무보조손실 밸런싱
Janus-Pro	2025.01	7B	-	-	-	-	-	DALL-E 3 능가
DeepSeek-R1	2025.01	671B	37B	128K	-	MLA	DeepSeekMoE	RL 기반 추론, GRPO
R1-Distill 시리즈	2025.01	1.5B~70B	Dense	-	800K 샘플	다양	Dense	추론 증류 모델

9. MLA vs MHA vs GQA vs MQA 비교

9.1 Attention 변형의 계보

Transformer의 Attention 메커니즘은 KV Cache 효율을 높이기 위해 지속적으로 진화해 왔다.

9.2 수학적 비교

Multi-Head Attention (MHA)

$Q = W^Q h, \quad K = W^K h, \quad V = W^V h$

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

각 Head별로 독립적인 K, V 벡터
KV Cache: $n_h$ Head x $d_h$ dim x 2 (K + V)

특성	값
KV Head 수	$n_h$ (Query Head와 동일)
KV Cache 크기	$2 \times n_h \times d_h \times L$
표현력	최대
대표 모델	GPT-3, LLaMA-1

Multi-Query Attention (MQA)

$Q^{(i)} = W^{Q(i)} h, \quad K = W^K h, \quad V = W^V h$

모든 Head가 단일 K, V를 공유
KV Cache: $1$ Head x $d_h$ dim x 2

특성	값
KV Head 수	1
KV Cache 크기	$2 \times 1 \times d_h \times L$
표현력	제한적
대표 모델	PaLM, Falcon

Grouped-Query Attention (GQA)

$Q^{(i)} = W^{Q(i)} h, \quad K^{(g)} = W^{K(g)} h, \quad V^{(g)} = W^{V(g)} h$

$n_h$ Query Head를 $G$ 개 그룹으로 묶고, 그룹당 하나의 K, V 공유
MHA와 MQA의 중간 지점

특성	값
KV Head 수	$G$ (그룹 수, $1 < G < n_h$ )
KV Cache 크기	$2 \times G \times d_h \times L$
표현력	MHA와 MQA 사이
대표 모델	LLaMA-2/3, Mistral

Multi-head Latent Attention (MLA)

$c_t^{KV} = W^{DKV} h_t \quad \text{(Down-Projection)}$

$k_t = W^{UK} c_t^{KV}, \quad v_t = W^{UV} c_t^{KV} \quad \text{(Up-Projection)}$

KV를 Head 수를 줄이는 것이 아니라, 차원을 압축
압축된 잠재 벡터만 캐싱하고, 추론 시 복원

특성	값
KV Cache 내용	압축된 잠재 벡터 $c_t^{KV}$ + 소량의 RoPE Key
KV Cache 크기	$d_c \times L$ ( $d_c \ll n_h \times d_h$ )
표현력	MHA와 동등 이상
대표 모델	DeepSeek-V2/V3/R1

9.3 KV Cache 크기 비교

67B 규모 모델 기준으로, 80 Layer, 64 Head, Head Dim 128, FP16 기준.

MHA:  2 × 64 × 128 = 16,384 values per layer → 기준값 (100%)
MQA:  2 × 1  × 128 = 256 values per layer   → 1.56%
GQA:  2 × 8  × 128 = 2,048 values per layer  → 12.5% (8그룹 기준)
MLA:  d_c ≈ 512 values per layer             → ~3.1% + RoPE 추가분 → ~6.7%
      (DeepSeek-V2 기준 93.3% 감소 = 6.7%)

방식	KV Cache (상대 크기)	성능 영향
MHA	100% (기준)	최대 (기준)
MQA	~1.6%	성능 저하 있음
GQA (8그룹)	~12.5%	소폭 저하
MLA	~6.7%	저하 없음 / 소폭 향상

MLA는 GQA보다 작은 KV Cache를 사용하면서도, 성능은 MHA와 동등하거나 더 나은 결과를 보인다. 이것이 MLA가 혁신적이라 평가받는 이유다.

10. 산업적 영향

10.1 NVIDIA 주가 충격: 역사상 최대 시가총액 하락

2025년 1월 27일, DeepSeek-R1의 공개 직후 NVIDIA의 주가는 17% 폭락했으며, 단 하루 만에 약 ** $589B(약 590조 원)**의 시가총액이 증발했다. 이는 **미국 주식 시장 역사상 단일 종목 최대 일일 시가총액 손실**이라는 기록이다. 이전 기록인 Meta의$ 240B 손실(2022년)의 2배 이상이었다.

이 충격은 NVIDIA에만 국한되지 않았다.

종목	하락률
NVIDIA	-17%
Marvell	대폭 하락
Broadcom	대폭 하락
Constellation Energy	-21%
Vistra	-28%
GE Vernova	-21%
Nasdaq 종합	-3.1%
S&P 500	-1.5%

AI 데이터센터에 전력을 공급하는 에너지 기업까지 동반 하락한 것은, 시장이 "AI 학습에 막대한 GPU와 전력이 필요하다"는 기존 내러티브에 근본적 의문을 제기한 것을 보여준다.

10.2 핵심 시장 논쟁: "효율성의 역설"

DeepSeek이 촉발한 논쟁의 핵심은 다음과 같다.

비관론 (주가 하락의 논리):

DeepSeek이 1/10 비용으로 동등한 모델을 만들 수 있다면, AI에 대한 수조 달러의 투자는 과잉이 아닌가?
GPU 수요가 예상보다 훨씬 적을 수 있으며, NVIDIA의 밸류에이션이 과대평가되었을 가능성

낙관론 (Jensen Huang의 반론):

효율성 향상은 수요를 줄이는 것이 아니라 오히려 증가시킨다 (Jevons Paradox)
AI가 더 저렴해지면, 이전에는 불가능했던 새로운 용도가 대거 등장
추론(Inference) 수요가 학습(Training) 수요보다 훨씬 빠르게 성장할 것

실제로 NVIDIA의 2025년 1분기 실적은 예상치를 크게 상회하며, 주가도 빠르게 회복세를 보였다.

10.3 미국 AI 정책에 대한 영향

DeepSeek의 성공은 미국의 대중국 기술 제재 전략에도 의문을 제기했다.

GPU 수출 규제의 역설: H800(A100/H100 대비 제한된 성능)만으로도 세계 최고 수준의 모델을 만들 수 있음을 입증. 제재가 중국의 AI 발전을 늦추기는커녕, 더 효율적인 대안을 찾도록 자극한 측면
소프트웨어 혁신의 중요성 부각: 하드웨어 우위만으로는 AI 리더십을 유지할 수 없으며, 알고리즘과 아키텍처 혁신이 더 결정적인 요인일 수 있음
오픈소스 생태계 강화: DeepSeek의 오픈소스 전략은 전 세계 연구자들에게 최첨단 기술 접근을 제공하여, 미국 기업의 폐쇄형 모델 독점을 약화

10.4 오픈소스 AI 생태계에 미친 영향

DeepSeek은 오픈소스 LLM 생태계에 다음과 같은 변화를 가져왔다.

MLA의 확산: DeepSeek 이후 다수의 연구에서 MLA 아키텍처를 채택하거나 변형 연구가 진행 중 (TransMLA 등)
GRPO의 대중화: DeepSeek-R1 이후 GRPO가 LLM 강화학습의 사실상 표준 알고리즘으로 자리잡음
추론 증류의 보편화: R1의 추론 데이터를 활용한 다양한 커뮤니티 모델이 등장
비용 효율 경쟁: AI 모델 학습의 비용 효율이 새로운 경쟁 축으로 부상
중국 AI의 재평가: 중국 AI가 단순한 모방을 넘어 독자적 혁신을 주도할 수 있음을 입증

11. 주요 논문 레퍼런스

DeepSeek이 공개한 모든 주요 논문의 목록을 정리한다.

11.1 기반 모델 (Foundation Models)

논문	ArXiv	날짜
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism	2401.02954	2024.01
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models	2401.06066	2024.01
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model	2405.04434	2024.05
DeepSeek-V3 Technical Report	2412.19437	2024.12

11.2 추론 모델 (Reasoning Models)

논문	ArXiv	날짜
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models	2402.03300	2024.02
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning	2501.12948	2025.01

11.3 코드 모델 (Code Models)

논문	ArXiv	날짜
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence	2401.14196	2024.01
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence	2406.11931	2024.06

11.4 비전-언어 모델 (Vision-Language Models)

논문	ArXiv	날짜
DeepSeek-VL: Towards Real-World Vision-Language Understanding	2403.05525	2024.03
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation	2410.13848	2024.10
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding	2412.10302	2024.12
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling	2501.17811	2025.01

11.5 하드웨어 분석 (Hardware Insights)

논문	ArXiv	날짜
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures	2505.09343	2025.05

12. 한계점과 미래 전망

12.1 현재 한계점

12.1.1 안전성 및 정렬(Alignment) 우려

DeepSeek 모델은 중국 AI 규제에 따른 검열이 적용되어 있으며, 정치적으로 민감한 토픽(천안문, 대만 등)에 대해 답변을 거부하거나 편향된 응답을 생성할 수 있다. 이는 글로벌 사용 시 중요한 제약이 된다.

12.1.2 다국어 성능 편차

중국어와 영어에 최적화되어 있으며, 한국어를 비롯한 기타 언어에서의 성능은 상대적으로 약할 수 있다. 특히 R1의 추론 과정에서 언어 혼합(Language Mixing) 현상이 발생하기도 한다.

12.1.3 장문 추론의 비효율

DeepSeek-R1은 때로 불필요하게 긴 추론 체인을 생성하여, 토큰 사용량이 과도해지는 문제가 있다. 단순한 질문에 대해서도 지나치게 깊은 사고 과정을 전개하는 경우가 발생한다.

12.1.4 실시간 지식의 부재

모든 LLM과 마찬가지로, 학습 데이터 이후의 정보에 대해서는 정확한 응답이 어렵다. RAG(Retrieval-Augmented Generation) 등의 보완 기술이 필요하다.

12.1.5 Hallucination

강력한 추론 능력에도 불구하고, 사실 관계에서의 Hallucination은 여전히 존재한다. R1의 긴 추론 과정에서 중간 단계의 오류가 최종 결과까지 전파될 수 있다.

12.2 미래 전망

12.2.1 아키텍처 진화

MLA와 DeepSeekMoE의 성공은 Transformer 아키텍처의 진화 방향을 제시한다. 이미 TransMLA 등 MLA의 변형 연구가 활발히 진행 중이며, "KV Cache를 줄이면서 성능을 유지하는 방향"이 아키텍처 연구의 주류로 자리잡을 것으로 보인다.

12.2.2 RL 기반 추론의 심화

R1이 입증한 "RL로 추론 능력을 유도할 수 있다"는 발견은 AI 연구의 새로운 패러다임을 열었다. 향후 수학, 코딩뿐 아니라 과학적 발견, 전략적 계획 등 더 복잡한 추론 영역으로 확장될 가능성이 높다.

12.2.3 효율적 학습의 중요성 확대

DeepSeek-V3의 $5.6M 학습이 보여준 것처럼, 순수 컴퓨팅 파워보다 알고리즘 효율이 더 중요해지는 시대가 오고 있다. FP8 학습, MoE 효율화, 학습 데이터 품질 최적화 등의 연구가 더욱 가속화될 것이다.

12.2.4 오픈소스 vs 폐쇄형의 균형

DeepSeek의 성공은 오픈소스 모델이 폐쇄형 모델과 동등한 수준에 도달할 수 있음을 보여주었다. 이는 AI 연구의 민주화를 촉진하는 동시에, 안전성과 오용 방지에 대한 새로운 도전을 제기한다.

12.2.5 멀티모달 통합

Janus/Janus-Pro로 시작된 이해+생성 통합 멀티모달 연구는, 향후 텍스트, 이미지, 비디오, 오디오를 아우르는 진정한 Universal Model로 발전할 가능성이 있다.

참고 자료

DeepSeek-AI. "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism." arXiv:2401.02954, 2024.
Dai, D. et al. "DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models." arXiv:2401.06066, ACL 2024.
DeepSeek-AI. "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model." arXiv:2405.04434, 2024.
DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, 2024.
DeepSeek-AI. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv:2501.12948, 2025.
Guo, D. et al. "DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence." arXiv:2401.14196, 2024.
Zhu, Q. et al. "DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence." arXiv:2406.11931, 2024.
Lu, J. et al. "DeepSeek-VL: Towards Real-World Vision-Language Understanding." arXiv:2403.05525, 2024.
Wu, C. et al. "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation." arXiv:2410.13848, 2024.
Shao, Z. et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv:2402.03300, 2024.
DeepSeek-AI. "DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning." Nature, 2025.
DeepSeek-AI. "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling." arXiv:2501.17811, 2025.