Skip to content

필사 모드: 오픈소스 LLM 2026 완벽 가이드 - Llama 4 · DeepSeek V3 + R1 · Qwen 3 · Mistral Large 2 · Phi-4 · Gemma 3 · Falcon 3 심층 분석

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 2024년의 격차는 어떻게 사라졌는가

2024년 봄, "오픈소스 LLM"이라는 말에는 작은 한숨이 섞여 있었다. Llama 2 70B가 GPT-4와 비교당하면 7B 모델이 13B보다 낫다는 정도의 위로 뿐이었다. MMLU 한 숫자가 10점 떨어졌고, 코드 생성은 종종 무너졌고, 한국어·일본어는 처음부터 절반밖에 안 돌았다. 우리는 폐쇄형 API를 부르며, "언젠가는"이라고 말했다.

2026년 봄, 그 격차는 거의 사라졌다. Meta가 Llama 4 Scout·Maverick·Behemoth로 네이티브 멀티모달과 1000만 토큰 컨텍스트를 던졌고, DeepSeek가 V3 671B와 R1으로 비용 곡선을 박살냈고, Alibaba가 Qwen 3로 Apache 2.0 깃발을 더 깊이 꽂았고, Mistral이 Large 2와 Pixtral·Codestral·Ministral로 라인업을 세분했고, Microsoft가 Phi-4 14B로 "작은 모델도 합성 데이터로 끝까지 갈 수 있다"는 명제를 증명했다. Google Gemma 3는 단일 GPU에서 도는 멀티모달 128K 컨텍스트로 엣지 가능성을 다시 그렸다. Falcon 3와 Falcon Mamba는 하이브리드 아키텍처로 다른 길을 텄다. Allen AI OLMo 2와 Tülu 3는 데이터·코드·체크포인트까지 다 공개해서 "진짜 오픈"의 기준선을 새로 그었다.

이 글은 그 모든 모델·라이선스·추론 스택·로컬·국가 모델을 한 장의 지도로 묶는다. 한국의 HyperCLOVA X와 Kanana와 EXAONE 3.5, 일본의 ELYZA와 PLaMo와 Sakana, 중국의 Yi와 InternLM과 MiniCPM, 그리고 vLLM·SGLang·llama.cpp·MLX·exllamav2·TGI 같은 추론 엔진까지. 라이선스 지도 — Apache 2.0, MIT, Llama Community License, Gemma Terms, Mistral Research vs Commercial — 도 끝에 정리한다.

1장 · 2026년 오픈소스 LLM 지도 — 세 축, 다섯 카테고리

2026년의 오픈소스 LLM 시장을 한 장의 지도로 그리면 세 축이 먼저 보인다.

**축 1 — 라이선스의 자유도**. Apache 2.0 / MIT처럼 상업·재배포 모두 무제한인 모델 (Qwen 3, Mistral 7B/Mixtral, DeepSeek R1, OLMo 2, Phi-4), Llama Community License처럼 7억 MAU 미만이면 상업 가능한 모델 (Llama 4, Llama 3.3), Gemma Terms처럼 사용 정책에 묶인 모델 (Gemma 3), Mistral Research License처럼 연구·비상업만 무료인 모델 (Mistral Large 2), CC-BY-NC처럼 비상업만 허용하는 모델 (Cohere Command R+). 같은 "오픈"이라도 법무팀이 보는 색깔은 다르다.

**축 2 — 아키텍처와 크기**. 덴스(dense) 트랜스포머 (Llama 3.3 70B, Mistral Large 2 123B, Qwen 2.5 72B, Phi-4 14B, Gemma 3 27B), MoE(Mixture of Experts) (Llama 4 Maverick 400B/17B 활성, Llama 4 Behemoth 2T, DeepSeek V3 671B/37B 활성, Mixtral 8x7B/8x22B), 하이브리드 (Falcon Mamba 7B의 SSM 결합), 추론 전용(R1, R1-Distill). 같은 70B라는 숫자라도 MoE의 17B 활성과 덴스의 70B 전체는 GPU 메모리 곡선이 완전히 다르다.

**축 3 — 학습 데이터의 공개도**. 가중치만 공개(weights-open): Llama, Qwen, Mistral, DeepSeek 대부분. 가중치+코드+데이터+체크포인트까지 공개(fully-open): Allen AI OLMo 2, Tülu 3, Together RedPajama. EleutherAI Pythia, BigScience BLOOM의 계보가 여기에 있다. 진짜 재현 가능한 과학을 원하면 fully-open이 답이다.

다섯 카테고리가 그 위에 겹친다.

1. **플래그십 범용(general flagship)** — Llama 4 Maverick, DeepSeek V3, Qwen 3, Mistral Large 2

2. **소형 고효율(small-and-mighty)** — Phi-4 14B, Gemma 3 4B/12B/27B, Llama 3.2 1B/3B, Ministral 3B/8B, MiniCPM 3.0

3. **코드 전문(code)** — Qwen 2.5 Coder, Codestral 25.01, DeepSeek Coder V2, Llama Code 3

4. **추론 전문(reasoning)** — DeepSeek R1, R1-Distill-Qwen-32B, QwQ-32B, Marco-o1

5. **멀티모달(multimodal)** — Llama 4 Scout/Maverick(native), Pixtral 12B/Large, Gemma 3(vision), Qwen 2.5 VL, NVLM

지도의 핵심은 — **하나의 정답 모델은 없다**는 것이다. 라이선스, 크기, 도메인, 인프라가 만나는 그 좌표에서 매번 다른 선택지가 나온다.

2장 · Meta Llama 4 — Scout, Maverick, Behemoth

Meta는 2025년 4월에 Llama 4 패밀리를 던졌고, 그 시점부터 오픈소스 플래그십의 기준이 다시 그어졌다. 세 모델이 한 묶음이다.

**Llama 4 Scout** — 109B 총 매개변수, 17B 활성 매개변수의 MoE. 16개 expert. 네이티브 멀티모달(텍스트+이미지). **1000만 토큰 컨텍스트(10M)**가 핵심 무기. 단일 H100 80GB 한 장에 INT4 양자화로 들어가게 설계됐다. 긴 코드베이스 전체, 책 한 권, 다중 PDF를 한 번에 컨텍스트에 넣는다.

**Llama 4 Maverick** — 400B 총 매개변수, 17B 활성 매개변수의 MoE. 128개 expert. 1M 토큰 컨텍스트. 멀티모달. 플래그십 추론·코딩·창작에서 GPT-4o·Gemini 2.0 Pro와 동급 영역에서 싸운다. LMSYS Chatbot Arena에서 두 자릿수 ELO 차이로 다른 오픈 모델을 끌고 갔다.

**Llama 4 Behemoth** — 약 **2조(2T) 총 매개변수**, 288B 활성. 학습 중인 거대 모델이며 Maverick·Scout의 distillation teacher 역할. Meta가 직접 "STEM 벤치마크에서 GPT-4.5·Claude 3.7 Sonnet과 경쟁한다"고 명시했다.

세 모델 모두 **Llama Community License 4** 아래 배포된다. 월간 활성 사용자 7억 명 이하의 사업자는 상업 사용 가능, 그 이상은 별도 라이선스 필요. EU 데이터 보호 규제 영향으로 EU 거주자·기업은 별도 추가 사용 제한 조항이 붙는다.

학습 인프라는 **32K H100**에서 시작해 Behemoth는 그 이상. FP8 mixed precision, MoE의 라우터 학습 안정화를 위한 새 기법(MetaP)이 적용됐다. 데이터셋은 30조(30T) 토큰을 넘는다고 알려져 있고, 200개 이상의 언어를 다룬다.

Llama 4의 핵심 결정: **MoE 전면 채택**, **네이티브 멀티모달**, **컨텍스트 길이의 도약**. 이전 세대의 덴스 70B/405B 구조를 버리고 MoE로 갔다. 그리고 이미지 입력은 외부 인코더가 아니라 early-fusion 방식으로 같은 모델 안에서 처리된다.

3장 · Llama 3.3 70B — 덴스 베이스라인의 마지막 정점

Llama 4 이전, Meta가 2024년 12월에 던진 **Llama 3.3 70B Instruct**는 덴스 트랜스포머의 마지막 정점이다. 405B의 성능을 70B 안에 압축했다는 것이 핵심.

**스펙 요약** — 70B 매개변수, 덴스, 128K 컨텍스트, 영어 중심이지만 8개 주요 언어 지원. 그룹화된 쿼리 어텐션(GQA), RoPE 위치 인코딩, RMSNorm.

**성능 좌표** — MMLU 86.0, IFEval 92.1, HumanEval 88.4, MATH 77.0. 405B와 비교해 5점 이내 차이로 따라가면서, GPU 메모리는 1/6 수준에서 돌아간다. 4-bit 양자화하면 단일 H100 80GB 한 장에 충분히 들어간다.

**배포 친화성** — 덴스 구조이기 때문에 vLLM·TGI·llama.cpp에서 가장 안정적으로 돈다. MoE의 라우팅 오버헤드가 없어서 latency 일관성이 높다. 추론 시스템 입장에서 "예측 가능한 모델"이라는 가치가 크다.

2026년 시점에서도 Llama 3.3 70B는 여전히 **프로덕션의 디폴트**다. Llama 4 Scout이 멀티모달과 긴 컨텍스트를 들고 왔지만, 단순 텍스트 작업·낮은 대기 시간·예측 가능한 비용이 필요하면 3.3 70B로 회귀하는 경우가 많다. Llama 3.2의 1B/3B는 엣지·모바일, Llama 3.2 Vision 11B/90B는 멀티모달 보조.

라이선스는 동일하게 Llama Community License. Hugging Face에서 직접 받거나, Together·Fireworks·DeepInfra·Replicate·Groq 같은 호스팅 제공자에서 토큰 단가로 쓸 수 있다.

4장 · DeepSeek V3 — 671B MoE, 그리고 비용의 충격

DeepSeek-V3는 2024년 12월에 공개됐고, 그 순간 오픈소스 LLM 경제학의 좌표가 바뀌었다. 핵심 숫자 하나면 충분하다 — **약 557만 달러(5.6M USD)**. 그 비용으로 671B 매개변수, 37B 활성의 MoE 모델을 학습 완료했다는 사실이 GPT-4 클래스 학습에 1억 달러 이상을 쓰던 업계에 충격을 줬다.

**아키텍처** — 671B 총 매개변수, 토큰당 37B 활성. 256 routed expert + 1 shared expert. Multi-head Latent Attention(MLA)로 KV 캐시를 압축. Multi-Token Prediction(MTP) objective로 학습 효율 향상. FP8 mixed precision으로 학습.

**학습 인프라** — 2048개 H800 GPU(중국 수출 규제 대응 SKU). 14.8조(14.8T) 토큰. 사전학습 264만 GPU-시간 + 컨텍스트 확장 11.9만 GPU-시간 + 사후학습 5천 GPU-시간 = 약 278만 GPU-시간. H800 시간당 2달러로 계산하면 그 합이 약 557만 달러.

**성능 좌표** — MMLU 88.5, MMLU-Pro 75.9, GPQA-Diamond 59.1, HumanEval 65.2, MATH 90.2, AIME 2024 39.2. 영어·중국어 양쪽 강세, 수학과 코딩이 특히 단단.

**라이선스** — DeepSeek 자체 라이선스(MIT 변형). 상업 사용 허용. 가중치는 Hugging Face의 `deepseek-ai/DeepSeek-V3`에서 직접 다운로드.

V3의 진짜 임팩트는 비용이다. 같은 규모를 같은 비용으로 학습할 수 있다는 가능성이 닫힌 가정을 깨고, "거대 모델 학습은 빅테크의 전유물"이라는 명제를 무너뜨렸다. 이후 모든 오픈소스 학습 보고서에서 "DeepSeek 대비 비용 효율"이라는 기준선이 새로 생겼다.

5장 · DeepSeek R1 + R1-Distill — 추론 모델의 오픈 베이스라인

DeepSeek-R1은 2025년 1월에 공개됐다. V3가 비용을 흔들었다면, **R1은 추론 모델 카테고리의 폐쇄 독점을 깼다**. OpenAI o1·o3 라인이 들고 있던 chain-of-thought 추론을 오픈 가중치로 같은 영역에 끌고 들어왔다.

**학습 레시피** — DeepSeek-R1-Zero는 SFT 없이 순수 RL(GRPO: Group Relative Policy Optimization)만으로 추론을 학습. R1은 cold-start SFT 후 RL을 거치며, 정확도와 가독성을 모두 잡았다. Aha moment — 모델이 자체적으로 "잠깐, 다시 생각해보자"라며 추론 경로를 수정하는 행동이 RL 도중 등장.

**성능 좌표** — AIME 2024 79.8, MATH-500 97.3, Codeforces 96.3 percentile, GPQA-Diamond 71.5. OpenAI o1과 동급 영역에서 싸운다.

**MIT 라이선스** — DeepSeek-R1은 가중치·코드 모두 **MIT 라이선스로 풀렸다**. 상업 사용, 재배포, 파생 모델 모두 자유. 오픈소스 추론 모델 역사에서 가장 자유로운 라이선스 중 하나.

**R1-Distill 시리즈** — R1의 추론 데이터를 distillation해서 더 작은 베이스 모델에 옮긴 라인업.

- DeepSeek-R1-Distill-Qwen-1.5B / 7B / 14B / 32B

- DeepSeek-R1-Distill-Llama-8B / 70B

R1-Distill-Qwen-32B는 AIME 2024 72.6, MATH-500 94.3을 찍었다. **단일 H100 한 장에 들어가는 32B로 OpenAI o1-mini 클래스 추론**을 한다는 사실이 핵심. 로컬 추론 모델의 베이스라인이 단숨에 올라갔다.

2026년 시점에서 R1과 R1-Distill은 **모든 오픈소스 추론 실험의 출발점**이다. Hugging Face Open-R1 프로젝트가 R1 학습 레시피를 완전 오픈으로 재현하려 시도 중이며, 그 위에 수많은 파생이 쌓이고 있다.

6장 · Alibaba Qwen 3 / Qwen 2.5 — Apache 2.0의 깊이

Alibaba의 Qwen 시리즈는 오픈소스 LLM 시장의 가장 큰 라이선스 자유 진영이다. **Apache 2.0**으로 가중치를 푼다는 결정이 모든 차이를 만든다.

**Qwen 3** — 2025년 출시. 덴스와 MoE 양쪽을 포괄하는 라인업.

- 덴스: 0.5B / 1.8B / 4B / 7B / 14B / 32B / 72B

- MoE: 30B 총/3B 활성, 235B 총/22B 활성

**Qwen 2.5** — 2024년 9월 출시. 0.5B부터 72B까지 7단계 덴스 모델. 18조 토큰 학습. 128K 컨텍스트(7B 이상). 29개 이상 언어 지원.

**Qwen 2.5 Coder** — 코드 전문 라인. 1.5B / 3B / 7B / 14B / 32B. HumanEval 92.7(32B), BigCodeBench, LiveCodeBench에서 오픈 코드 모델 정상. GitHub Copilot 대안의 자체 호스팅 옵션으로 가장 자주 거론된다.

**Qwen 2.5 Math** — 수학 전문. 1.5B / 7B / 72B. MATH 벤치마크에서 최상위.

**Qwen 2.5 VL** — 멀티모달. 3B / 7B / 72B. 이미지·비디오·문서 이해.

**QwQ-32B** — 추론 전문. R1과 직접 경쟁하는 오픈 추론 모델. AIME 50.0+.

Qwen이 차지하는 위치는 분명하다. 같은 크기 대에서 **라이선스 자유도가 가장 높은 모델**이라는 것. Llama가 Community License로 묶일 때 Qwen은 Apache 2.0. Mistral Large 2가 Research License로 비상업만 허용할 때 Qwen 72B는 같은 라이선스 자유로 상업 사용 가능. 법무팀 입장에서 Qwen은 결정의 마찰이 가장 낮다.

중국어·아시아 언어 강세는 자연스러운 부수효과. 한국어·일본어 품질도 같은 크기 대 Llama 대비 한 단계 높은 경우가 많다.

7장 · Mistral Large 2 — 123B와 라이선스의 두 얼굴

Mistral AI는 프랑스의 자존심이고, 오픈웨이트 진영의 또 다른 축이다. **Mistral Large 2** (Mistral-Large-Instruct-2407, 2024년 7월)는 123B 덴스 모델로, 128K 컨텍스트, 80개 이상 언어 지원.

**성능 좌표** — MMLU 84.0, MATH 71.5, HumanEval 92.0, MultiPL-E 다국어 코드 벤치마크 강세. 그 시점 오픈웨이트 모델 중 LLM Arena ELO 상위 5위 안에 들었다.

**라이선스의 두 얼굴** — Mistral Large 2는 **Mistral Research License** 아래 배포된다. 연구·비상업 사용은 무료, **상업 사용은 별도 Mistral Commercial License** 구매가 필요. Apache 2.0이 아니라는 점이 Llama Community License보다 한 단계 더 제한적이다. Hugging Face에서 가중치를 받을 수 있지만 프로덕션에서 매출이 나오면 라이선스 협의가 필수.

**Pixtral** — Mistral의 멀티모달 라인.

- **Pixtral 12B** (Apache 2.0) — 12B 매개변수의 오픈 멀티모달 모델

- **Pixtral Large** (124B, Research License) — Large 2 위에 비전 인코더를 얹은 플래그십 멀티모달

**Codestral 25.01** — 코드 전문 모델. 80개 이상 프로그래밍 언어. Fill-in-the-middle(FIM) 강점. 32K 컨텍스트.

**Ministral 3B / 8B** — 엣지 전용. 모바일·온디바이스 추론. Apache 2.0 진영보다 라이선스 제약이 있지만 같은 크기 Llama 3.2와 비교 가능한 품질.

**Mistral 7B / Mixtral 8x7B / 8x22B** — 2023~2024년의 플래그십. 여전히 Apache 2.0으로 살아 있는 자산. Mixtral의 SMoE(Sparse MoE) 아키텍처는 이후 모든 오픈 MoE의 참조 설계.

Mistral은 라이선스 측면에서 명확한 두 트랙을 운영한다 — 작은 모델·과거 모델은 Apache 2.0로 풀어 커뮤니티 신뢰를 유지하고, 플래그십은 Research/Commercial로 분리해 수익 모델을 잡는다. 사용 결정에는 항상 매출 임계값과 라이선스 조항을 같이 본다.

8장 · Microsoft Phi-4 — 합성 데이터로 끝까지 가는 14B

Microsoft Phi 시리즈의 핵심 가설은 단순하다 — **"데이터 품질이 모델 크기를 압도한다"**. Phi-4(2024년 12월)는 14B 덴스 매개변수로 그 가설을 가장 멀리 밀어붙인 결과물이다.

**스펙** — 14B 덴스 매개변수, 16K 컨텍스트, 9.8조 토큰 학습. 학습 데이터의 대부분이 **합성(synthetic)** 데이터로, 더 큰 모델(GPT-4 클래스)이 생성한 추론·수학·코드 예제를 정제해 쓴다.

**성능 좌표** — MMLU 84.8, MATH 80.4, HumanEval 82.6, GPQA 56.1. 14B로 70B급 일부 벤치마크와 동급에서 싸운다. 특히 추론·수학에서 두드러진다.

**라이선스** — **MIT 라이선스**. 가중치·상업 사용 모두 자유. Llama Community License보다 한 칸 더 자유롭고, Mistral Research License보다 두 칸 더 자유롭다.

**Phi-4 라인업 확장** — Phi-4-mini, Phi-4-multimodal, Phi-3.5-MoE 등. 작은 모델 + 합성 데이터의 가치 사슬을 확장.

Phi-4의 가치는 두 가지. (1) **단일 GPU 24GB**에 4-bit 양자화로 들어가서 로컬 추론·온프레미스 배포의 디폴트가 된다. (2) **합성 데이터 학습 레시피의 공개** — 어떻게 데이터를 생성·필터·정제했는지의 디테일이 다른 작은 모델 학습에 직접 영감을 준다.

Phi 시리즈의 한계도 명확하다 — 다국어가 약하다. 영어 중심 합성 데이터로 학습됐기 때문에 한국어·일본어·중국어 품질은 같은 크기 Qwen 2.5에 못 미친다. 영어 단일 도메인이거나, 작은 fine-tune 베이스로 쓸 때 Phi-4의 가성비가 빛난다.

9장 · Google Gemma 3 — 멀티모달이 단일 GPU에 들어온 날

Google Gemma 3은 2025년 3월에 출시됐고, 그 시점부터 "단일 GPU에 들어가는 멀티모달"이 새로운 베이스라인이 됐다.

**라인업** — 1B / 4B / 12B / 27B. Gemma 3 27B가 플래그십.

**핵심 기능 묶음**.

- **멀티모달** — 4B 이상은 비전 인코더 내장. 이미지 입력 가능.

- **128K 컨텍스트** — 27B 모델 기준. 1B는 32K.

- **140개 이상 언어 지원** — 다국어 코어가 단단.

- **함수 호출(function calling)** — 구조화된 출력과 도구 호출.

- **양자화 친화** — 4-bit GGUF로 단일 RTX 4090에 27B가 들어간다.

**성능 좌표** — Gemma 3 27B: MMLU 76.9, MATH 50.0, HumanEval 71.9, LMSYS Arena ELO 1338. 동급 27B 클래스에서 최상위. 같은 27B로 Llama 3.1 70B의 일부 영역을 따라간다.

**라이선스** — **Gemma Terms of Use**. 사용 정책(Acceptable Use Policy)에 묶이지만 상업 사용은 허용. Apache 2.0보다 약간 좁고 Llama Community License와 비슷한 수준.

Gemma 3의 가치는 그 사이즈와 멀티모달의 결합. 27B로 비전·멀티 언어·128K 컨텍스트가 다 들어가서, 단일 GPU 온프레미스 배포의 디폴트 멀티모달이 된다. 4B는 더 가벼운 엣지·로보틱스 시나리오.

**Gemma 2** (2024년 6월, 9B/27B)는 여전히 가벼운 베이스로 살아있고, **PaliGemma 2**는 비전 전용 변종, **CodeGemma 2**는 코드 전문 변종으로 분기한다.

10장 · TII Falcon 3 / Falcon Mamba — 하이브리드의 길

아랍에미리트 Technology Innovation Institute(TII)의 Falcon 시리즈는 2023년 Falcon 40B로 한 차례 화제가 됐고, 2024년 12월 **Falcon 3**(1B/3B/7B/10B 덴스)로 라인업을 재정비했다.

**Falcon 3** — Apache 2.0 라이선스. 14조 토큰 학습. 32K 컨텍스트. MMLU 71+(10B). 다국어. 영어·아랍어·프랑스어·스페인어·포르투갈어 1차 지원.

**Falcon Mamba 7B** — 핵심. **순수 Mamba State-Space 아키텍처**로 7B 트랜스포머와 경쟁하는 첫 모델. 트랜스포머의 quadratic attention 대신 SSM(State Space Model)의 linear scaling을 쓴다. 긴 컨텍스트에서 메모리와 시간 복잡도가 트랜스포머 대비 훨씬 유리.

**Falcon 3 7B-Hybrid** — Mamba + Transformer 하이브리드. 시간·메모리 효율과 트랜스포머의 정확도를 동시에 노린다.

Falcon의 위치는 두 가지로 좁힌다. (1) **아랍어·중동권 LLM의 깃발** — 아랍어 학습 비중이 다른 글로벌 모델보다 압도적으로 높다. (2) **Mamba/SSM 실험의 가장 큰 오픈 베이스** — Mistral·Llama가 트랜스포머 정통을 지킬 때 Falcon Mamba가 SSM 진영의 깃발을 들었다.

벤치마크 절대 성능은 Llama 3.3·Qwen 2.5에 못 미치지만, **새 아키텍처를 실험하려는 연구자에게는 출발점**으로 가장 자주 거론된다.

11장 · Allen AI OLMo 2 + Tülu 3 — "진짜 오픈"의 베이스라인

오픈소스 LLM 중에서도 "정말 다 공개됐냐"의 기준은 따로 있다. 가중치만 푼 weights-open 모델과, 가중치·코드·데이터·중간 체크포인트까지 다 푼 **fully-open** 모델은 학문적 가치가 다르다. 그 기준선이 Allen Institute for AI의 OLMo다.

**OLMo 2** (2024년 11월) — 7B / 13B 매개변수. **5조 토큰 학습 데이터 전체가 공개(Dolma 2)**, 코드 전체 공개, 학습 중간 체크포인트 수백 개 공개, 학습 로그·평가 스크립트 공개. Apache 2.0.

**Tülu 3** (2024년 11월) — OLMo 2 위에 적용된 사후학습(post-training) 레시피. SFT + DPO + PPO의 전체 파이프라인이 코드·데이터까지 공개. Llama 3.1 70B 위에 적용한 Tülu 3 70B는 GPT-4o-mini와 같은 영역에서 싸운다.

OLMo·Tülu의 가치는 **재현 가능성**. 다른 오픈웨이트 모델은 "이렇게 나왔다"는 결과만 보여주는데, OLMo는 "이 데이터, 이 코드, 이 하이퍼파라미터로 똑같이 다시 학습할 수 있다"는 과학을 제공한다. 학습 동역학(training dynamics) 연구, scaling law 검증, 사전학습 데이터 효과 분석 — 이런 연구는 fully-open 모델 없이는 거의 불가능하다.

**같은 fully-open 진영의 다른 자산**.

- **EleutherAI Pythia** (2023) — 13개 체크포인트 스케일의 GPT-NeoX 베이스. 학습 동역학 연구의 표준 데이터셋.

- **BigScience BLOOM** (2022) — 176B 다국어. 학습 데이터 ROOTS 공개.

- **Together RedPajama** — Llama 사전학습 데이터셋 오픈 재현.

- **Stability AI StableLM** — 가중치·일부 코드 공개. 현재는 활동 둔화.

상업 프로덕션의 베이스라인은 보통 Llama 4·Qwen 3·Mistral이지만, **연구·교육·재현 가능성**이 중요하면 OLMo·Tülu 라인이 답이다.

12장 · 한국 모델 — HyperCLOVA X, Kanana, EXAONE 3.5, VARCO, Luxia, Solar

한국어 LLM의 풍경은 2026년 시점에 풍성하다. 한국어 단독으로 보면 글로벌 모델보다 국가 모델이 한 단계 앞서는 영역이 많다.

**Naver HyperCLOVA X** — Naver의 플래그십. HCX-003, HCX-005 같은 폐쇄형 API와 HyperCLOVA X SEED 같은 오픈 라인을 분리 운영. 한국어 자연스러움·문화적 맥락 이해에서 가장 높은 평가.

**Kakao Kanana** — Kakao Brain의 오픈 라인. **Kanana 1.5 8B / 32B**. Kakao Brain의 오랜 LLM 자산(KoGPT 등) 위에 쌓아 올린 한국어 특화. Apache 2.0 진영에 가깝게 라이선스 자유도가 높다.

**LG AI Research EXAONE 3.5** — 2024년 12월. 2.4B / 7.8B / 32B 세 단계. 영어·한국어 균형, 함수 호출, 긴 컨텍스트(32K) 지원. EXAONE Deep로 추론 전문 변종도 운영. LG의 사내 응용(LG U+, LG생활건강, LG전자)에 직접 들어간다.

**NCsoft VARCO 13B / VARCO LLM** — NCsoft의 게임·콘텐츠 도메인 특화. 캐릭터 대사, 시나리오, 멀티턴 대화 강점.

**Saltlux Luxia / Saltlux LLM** — Saltlux의 엔터프라이즈 한국어 LLM. 금융·법률·공공 도메인 적합도.

**Upstage Solar 10.7B** — 2023~2024년의 핵심 자산. depth up-scaling 기법으로 10.7B를 학습. 한국어·영어 양강. 일부 가중치는 **OpenAccess** 라이선스로 공개. Upstage Solar Mini, Solar Pro로 라인 확장.

**KIST · ETRI · KORANI · 국립국어원 모델** — 학계·정부 측에서 한국어 데이터·모델 자산을 별도로 축적.

선택의 핵심은 (1) **한국어 자연스러움의 절대 수준**, (2) **국내 클라우드·데이터 주권 요건**(Naver Cloud, KT Cloud, NCloud), (3) **라이선스의 상업 친화도**다. 글로벌 모델로는 부족한 한국어 도메인이 명확히 존재한다.

13장 · 일본 모델 — ELYZA, PLaMo, rinna, Stockmark, Sakana

일본의 오픈소스 LLM 진영도 풍부하다.

**ELYZA-japanese-Llama-2/3** — ELYZA가 Llama 베이스에 일본어 추가 사전학습·SFT를 얹은 라인. 7B / 13B / 70B. 일본 시장의 사실상 표준 일본어 Llama 변종.

**PFN PLaMo** — Preferred Networks의 PLaMo 시리즈. PLaMo-13B, PLaMo β, PLaMo Lite. 일본어 단독 학습 노선. 자체 데이터·자체 인프라.

**rinna** — rinna의 일본어 모델 라인. RWKV 기반 일본어 모델, Japanese GPT, Bilingual GPT, Llama 변종. 일본어 음성·캐릭터 응용에 강점.

**Stockmark LLM** — Stockmark의 일본 비즈니스 뉴스·시장 정보 도메인 특화. 100B 일본어 뉴스 데이터 위에서 학습.

**Sakana AI** — 도쿄 기반. **evolutionary model merging** — 진화 알고리즘으로 여러 모델을 자동 머지하는 메타 기법. EvoLLM-JP 같은 일본어 머지 모델 공개. 단일 모델보다 머지·진화 기법이 무기.

**ABEJA QwenJP, CyberAgent CALM2, Lightblue Karasu** 등 — 일본 스타트업 진영의 베이스 변종.

일본은 한국과 비슷하게 (1) **로컬 일본어 자연스러움**, (2) **데이터 주권·메이드 인 재팬 정책**, (3) **애니메·만화·게임 도메인 특화**가 결정적이다.

14장 · 중국 모델 — Yi, InternLM, MiniCPM, Baichuan

중국 오픈소스 LLM은 Qwen·DeepSeek 외에도 다층이다.

**Yi 1.5 (01.AI)** — 6B / 9B / 34B. Apache 2.0. 영어·중국어 균형 강점. 카이푸 리(Kai-Fu Lee)의 01.AI에서 출시.

**InternLM 2.5 (Shanghai AI Lab)** — 7B / 20B. 1M 토큰 컨텍스트 변종(InternLM2-Wqx 등). 추론·도구 호출 강점. 다양한 변종(InternVL 멀티모달 등) 운영.

**MiniCPM 3.0 (OpenBMB / 칭화)** — 4B / 8B. **엣지 LLM**에 특화. 모바일 추론, 양자화 친화, 다국어. 같은 크기 Llama 대비 일부 벤치마크 우위.

**Baichuan 3 / Baichuan-M1 / Baichuan2** — Baichuan AI. 의료·법률·금융 같은 수직 도메인 특화 변종. 학교 데이터·시험 데이터 학습 강점.

**01.AI Yi-VL, InternVL, MiniCPM-V** — 중국 진영의 멀티모달 라인. Qwen 2.5 VL과 함께 오픈 멀티모달의 절반.

**ChatGLM (智谱 / Zhipu)** — GLM 시리즈. GLM-4, ChatGLM3. 영어·중국어 균형.

중국 모델의 공통 특징 — (1) **중국어 자연스러움 최상위**, (2) **빠른 라인업 회전**(분기마다 한 단계 업데이트), (3) **상대적으로 자유로운 라이선스**(Apache 2.0 또는 자체 변형).

미국 정부의 일부 export control 규정과 별개로, **상업 사용 자체에 제한이 없는 모델이 많다**. 다국적 기업의 글로벌 배포에서 정책·법무 검토는 별도지만, 가중치 라이선스 자체로는 자유롭다.

15장 · 추론 스택 — vLLM, SGLang, llama.cpp, MLX, TGI

가중치를 받아도 추론(inference) 엔진이 없으면 활용이 안 된다. 2026년 오픈소스 추론 스택은 다층화됐다.

**vLLM** — UC Berkeley LMSYS의 GPU 서빙 엔진. PagedAttention으로 KV 캐시를 페이지 단위로 관리, 처리량(throughput) 최상위. Llama·Qwen·Mistral·Phi 거의 모든 오픈 모델 지원. **사실상 GPU 서빙의 표준**. OpenAI 호환 API 서버 내장.

**SGLang** — 또 다른 고성능 서빙 엔진. **RadixAttention**으로 프롬프트 prefix 캐싱이 극단적으로 좋다. 구조화된 생성(JSON·정규식 기반 디코딩) 강점. vLLM의 강력한 경쟁자.

**Hugging Face TGI(Text Generation Inference)** — HF의 자체 서빙. Inference Endpoints의 백엔드. 안정적인 프로덕션 디폴트.

**TensorRT-LLM (NVIDIA)** — NVIDIA의 공식 추론 엔진. 빌드 시간이 길지만 같은 GPU에서 최대 throughput·낮은 latency. 프로덕션 NVIDIA 환경의 정점.

**llama.cpp** — Georgi Gerganov의 C/C++ 추론. **GGUF 포맷**으로 양자화(2/3/4/5/6/8-bit) 다양. CPU·CUDA·ROCm·Metal·Vulkan 백엔드. Apple Silicon·일반 PC·라즈베리파이까지 가는 범용성. Ollama·LM Studio·LocalAI가 모두 그 위에 쌓인다.

**Apple MLX** — Apple Silicon 전용 머신러닝 프레임워크. M3 Max / M4 Ultra에서 70B 모델까지 INT4로 돌릴 수 있다. `mlx-examples`에 Llama·Qwen·Mistral 포팅 다수.

**exllamav2 / exllamav3** — turboderp의 GPU 추론. GPTQ·EXL2 양자화 포맷 전용. **단일 GPU에서 양자화된 모델의 latency가 vLLM 대비 더 낮은 경우**가 있다. 로컬·소규모 워크로드에 최적.

**Ollama** — llama.cpp 위의 사용자 친화 래퍼. `ollama run llama3.3:70b-instruct-q4_K_M` 한 줄로 모델 다운로드·실행. 로컬·온디바이스 워크플로의 일반인 진입로.

**LMDeploy / OpenLLM / Ray Serve / Triton Inference Server** — 그 외 프로덕션 서빙 옵션.

선택의 기준 — 클라우드 GPU 대규모 서빙이면 **vLLM 또는 SGLang**, NVIDIA 단일 인스턴스 최적화면 **TensorRT-LLM**, 로컬·온디바이스면 **llama.cpp/Ollama**, Apple Silicon이면 **MLX**, 단일 RTX 4090 최적화면 **exllamav2**.

16장 · 호스팅 제공자 — Together, Fireworks, Groq, DeepInfra, Replicate

가중치를 직접 다루지 않고 토큰 단가로 쓰려면 호스팅 제공자가 답이다.

**Together.ai** — 오픈소스 LLM 호스팅의 가장 넓은 카탈로그. Llama·Qwen·Mistral·DeepSeek·Falcon·Gemma 거의 다 있다. OpenAI 호환 API. fine-tuning 서비스(Together Tune)도 제공.

**Fireworks.ai** — 고성능 서빙에 특화. Function calling·structured output·낮은 latency. Llama·Mistral·DeepSeek 라인업 중심.

**Groq** — **LPU(Language Processing Unit)** 자체 칩 위에서 압도적인 토큰 생성 속도. Llama·Mixtral·Gemma 한정. 토큰/초 단위로 가장 빠른 호스팅.

**DeepInfra** — 가성비 최강. 동급 모델 가격이 가장 낮다. Llama·Qwen·Mistral·DeepSeek 카탈로그.

**Replicate** — 멀티모달·이미지 생성 모델과 결합한 카탈로그. LLM도 다루지만 비전·오디오 모델과 같이 쓸 때 강점.

**OpenRouter** — 여러 호스팅 제공자를 하나의 API로 라우팅. 가격·latency·가용성 기반 자동 라우팅.

**HuggingFace Inference Endpoints / Serverless Inference** — HF의 공식 서빙. Pro 구독으로 더 큰 모델 사용 가능.

**Cerebras Inference** — Cerebras 웨이퍼 스케일 칩 위에서의 빠른 추론. Llama 중심.

**SambaNova Cloud** — SambaNova의 자체 RDU 칩 기반.

선택의 기준 — **카탈로그 폭은 Together**, **속도는 Groq / Cerebras**, **가격은 DeepInfra**, **멀티 제공자 라우팅은 OpenRouter**, **프로덕션 안정성은 Fireworks / Together**.

17장 · 양자화 — GGUF, GPTQ, AWQ, FP8, INT4

가중치 그대로는 너무 크다. 70B는 fp16에서 140GB, INT4로 35GB. 양자화 포맷을 알아야 로컬 추론이 가능하다.

**GGUF (llama.cpp)** — 가장 범용. Q2_K / Q3_K_S/M/L / Q4_K_S/M / Q5_K_S/M / Q6_K / Q8_0 다양. Q4_K_M이 품질·크기 균형의 디폴트. Hugging Face TheBloke·bartowski·mradermacher 같은 커뮤니티 양자화 허브.

**GPTQ** — 그룹 양자화(group-wise quantization). 4-bit가 디폴트. exllamav2가 메인 런타임. GPU 전용.

**AWQ (Activation-aware Weight Quantization)** — MIT의 양자화 알고리즘. 활성값 분포를 보고 중요 가중치 보존. vLLM·llama.cpp·exllamav2가 다 지원.

**EXL2** — exllamav2 전용. 가변 비트(2.5~8bpw)로 같은 모델 크기 안에서 더 유연한 분배. 단일 GPU 메모리에 정확히 맞추는 fine-tuning에 강점.

**FP8** — H100·H200·MI300 같은 신세대 GPU의 네이티브. 학습·추론 모두 FP8. DeepSeek V3가 학습부터 FP8을 썼다.

**INT4 (BitsAndBytes)** — Tim Dettmers의 양자화. Hugging Face Transformers 통합. fine-tuning 시 베이스 모델 메모리 절감(QLoRA).

**bf16 / fp16** — 양자화 없는 절대 베이스라인.

선택의 기준 — **로컬 CPU/Apple Silicon은 GGUF**, **로컬 GPU 단일은 EXL2/GPTQ**, **vLLM 서빙은 AWQ 또는 GPTQ**, **H100/H200 서빙은 FP8**, **품질 절대 우선은 bf16**.

18장 · 벤치마크 — MMLU, GPQA, HumanEval, IFEval, Arena

오픈소스 모델을 비교할 때 마주치는 벤치마크 묶음.

**MMLU (Massive Multitask Language Understanding)** — 57개 도메인, 객관식. 학부 수준 일반 지식. 최상위 모델은 88+. 포화 상태로 점점 신뢰도가 낮아진다.

**MMLU-Pro** — MMLU 후속. 더 어렵고, 객관식 선지 10개. 추론 비중 높음.

**GPQA-Diamond** — Graduate-level Physics, Chemistry, Biology. 대학원 수준. 인간 전문가도 60-70%. 최상위 모델 70+.

**HumanEval** — Python 함수 코딩, 164문제. 포화 상태(90+).

**BigCodeBench** — HumanEval의 후속. 실제 라이브러리 사용·다단계 코드. 더 현실적.

**LiveCodeBench** — 시간별 갱신되는 새 코딩 문제. 데이터 오염 방지.

**MATH** — 수학 경시. 5단계 난이도. 최상위 모델 80+.

**AIME (American Invitational Math Exam)** — 추론 모델의 표준 벤치마크. o1·R1이 두각.

**IFEval (Instruction Following)** — 지시 따름. 형식·길이·언어 같은 명시적 지시.

**MT-Bench** — 다중 턴 대화. GPT-4 심사.

**LMSYS Chatbot Arena** — 실제 사용자 블라인드 비교. ELO 랭킹. 가장 신뢰받는 종합 지표.

**ArenaHard** — Arena의 난이도 필터링 변종.

**한국어**: HAERAE, KoBEST, KMMLU(50개 한국어 도메인). **일본어**: JMMLU, JGLUE. **중국어**: C-Eval, CMMLU.

비교의 함정 — 같은 벤치마크 점수라도 prompt format, few-shot 개수, 평가 코드가 다르면 점수가 5-10점 흔들린다. 모델 카드의 점수를 그대로 믿기보다 **lm-evaluation-harness**나 **OpenCompass** 같은 표준 도구로 직접 측정하는 게 안전하다.

19장 · Fine-tuning — LoRA, QLoRA, DPO, GRPO

가중치를 받았으면 자기 도메인에 맞게 fine-tune하는 게 다음 단계.

**SFT (Supervised Fine-Tuning)** — 가장 기본. (입력, 출력) 페어로 일반 가중치 업데이트. transformers + trl `SFTTrainer`가 표준.

**LoRA (Low-Rank Adaptation)** — Microsoft의 PEFT 기법. 전체 가중치 대신 low-rank 어댑터만 학습. 70B 모델도 8x A100 한 노드에서 학습 가능. 어댑터는 보통 수십 MB.

**QLoRA** — Tim Dettmers의 변종. 베이스 모델을 4-bit로 양자화한 채 LoRA 어댑터를 학습. 단일 24GB GPU에서 70B fine-tune이 가능.

**DPO (Direct Preference Optimization)** — Rafailov의 alignment 기법. PPO의 reward model + RL 단계를 직접 preference loss로 대체. SFT 후 다음 단계로 널리 쓰임.

**ORPO / KTO / IPO / SimPO** — DPO의 변종들. preference 데이터 형태와 손실 함수가 조금씩 다르다.

**GRPO (Group Relative Policy Optimization)** — DeepSeek R1의 RL 기법. PPO의 reward model 없이 group 내 상대 보상으로 학습. 추론 모델 학습의 디폴트.

**RLAIF / Constitutional AI** — RLHF의 인간 라벨링 대신 AI가 직접 비교 데이터를 생성. 비용 절감.

**도구 묶음** — Hugging Face `transformers` + `peft` + `trl` + `accelerate` + `deepspeed`가 표준 스택. axolotl, unsloth, llama-factory 같은 high-level 래퍼가 그 위에 쌓인다. unsloth는 LoRA·QLoRA 학습 속도를 2-5배 끌어올리는 커널 최적화로 최근 가장 인기.

**데이터 합성** — Magpie, Distilabel, Argilla 같은 도구가 fine-tune용 합성 데이터셋 생성을 자동화. Phi-4의 합성 데이터 학습 레시피가 이 방향의 모범.

20장 · 멀티모달 — Llama 4 Vision, Pixtral, Qwen 2.5 VL, NVLM, MiniCPM-V

2026년 시점에서 오픈 멀티모달 LLM은 본궤도에 올랐다.

**Llama 4 Scout / Maverick** — 네이티브 멀티모달. early-fusion으로 이미지·텍스트가 같은 트랜스포머 안에서 처리. 별도 비전 인코더가 외부에서 적용되는 LLaVA 방식과 구조적으로 다르다.

**Pixtral 12B / Pixtral Large** — Mistral의 멀티모달. 가변 해상도 입력 지원. Pixtral 12B는 Apache 2.0, Large는 Research License.

**Qwen 2.5 VL** — Alibaba. 3B / 7B / 72B. **비디오 입력**까지 지원하는 드문 오픈 모델. 문서 OCR·차트 이해 강점.

**NVLM (NVIDIA)** — NVIDIA의 오픈 멀티모달. 디코더 전용·교차 어텐션 두 가지 변종.

**MiniCPM-V** — OpenBMB의 엣지 멀티모달. 모바일·온디바이스 비전·언어.

**InternVL 2.5** — Shanghai AI Lab. 1B부터 78B까지. 비디오·OCR·차트 강세.

**LLaVA 시리즈, CogVLM, Yi-VL** — 그 외 다양한 오픈 멀티모달 변종.

**Gemma 3 Vision** — Gemma 3 4B+ 기본 내장.

**Phi-4 Multimodal** — Microsoft의 멀티모달 변종.

비교의 기준 — (1) **해상도와 동적 해상도 지원**(고해상도 문서 OCR에 결정적), (2) **비디오 입력 지원**, (3) **차트·표·수식 이해**(수치적 vision), (4) **언어별 OCR**(한·중·일·아랍어 같은 비라틴 스크립트).

21장 · 라이선스 지도 — Apache 2.0, MIT, Llama, Gemma, Mistral

오픈소스 LLM 라이선스를 매출과 법무 시점에서 다섯 단계로 줄이면.

**Tier 1 — 완전 자유**: Apache 2.0, MIT, BSD. 상업·재배포·파생 모두 자유. **Qwen 2.5 / Qwen 3, Mistral 7B / Mixtral, DeepSeek R1, OLMo 2, Phi-4, Falcon 3, Pixtral 12B**.

**Tier 2 — 사용 정책 조건부**: Llama Community License (월간 7억 MAU 임계값), Gemma Terms (Acceptable Use Policy), Apple OpenELM 라이선스. **Llama 3.x / Llama 4, Gemma 2 / Gemma 3**.

**Tier 3 — 연구 자유, 상업 별도 라이선스**: Mistral Research License. **Mistral Large 2, Pixtral Large, Codestral**(상업은 별도 구매).

**Tier 4 — 비상업만**: CC-BY-NC, OpenRAIL-M의 일부. **Cohere Command R+ (CC-BY-NC)**.

**Tier 5 — 폐쇄 API**: 가중치 비공개, 토큰 단가만. GPT-4o, Claude, Gemini.

법무팀이 보는 색깔은 명확하다 — **Tier 1**은 거의 마찰 없음, **Tier 2**는 사용 정책 검토(군사·생체 인식 같은 금지 도메인 확인), **Tier 3**은 상업 라이선스 협의 필요, **Tier 4**는 매출 발생 시 사용 불가.

**OpenRAIL-M, RAIL, Hugging Face's BigScience BLOOM License** 같은 "Responsible AI License" 변종들도 한 묶음이다. Apache 2.0보다 사용 정책 조항이 한 줄 더 있다.

선택의 기본 — 매출이 나오는 프로덕션이면 **Tier 1 우선**, Llama 친화 도구 생태계가 결정적이면 **Tier 2 수용**, Mistral 품질이 꼭 필요하면 **Tier 3 라이선스 협의 준비**, 비상업 연구/내부 도구는 **Tier 4 가능**.

22장 · 선택 매트릭스 — 무엇을 언제 쓸까

지금까지 본 모든 모델을 한 표로 정리.

| 시나리오 | 1순위 | 2순위 | 비고 |

|---------|-------|-------|------|

| 영어 범용 플래그십 | Llama 4 Maverick | DeepSeek V3 | MoE |

| 영어 단순 작업·낮은 비용 | Llama 3.3 70B | Mistral Large 2 | 덴스 |

| 한국어 최상위 | Naver HCX / Kanana | Qwen 2.5 72B | 국가 도메인 |

| 일본어 최상위 | ELYZA-Llama-3 | Qwen 2.5 72B | - |

| 중국어 최상위 | Qwen 2.5 72B | Yi 1.5 34B | - |

| 추론·수학 | DeepSeek R1 | QwQ-32B | MIT 라이선스 |

| 코드 생성 | Qwen 2.5 Coder 32B | Codestral 25.01 | FIM |

| 단일 H100 24GB | Phi-4 14B | Gemma 3 12B Q4 | - |

| 멀티모달 단일 GPU | Gemma 3 27B | Qwen 2.5 VL 7B | - |

| 멀티모달 플래그십 | Llama 4 Maverick | Qwen 2.5 VL 72B | 네이티브 |

| 모바일·엣지 | Llama 3.2 3B | Phi-4-mini | Q4 |

| 라이선스 완전 자유 필요 | Qwen 3 / Qwen 2.5 | Mistral 7B | Apache 2.0 |

| 학술 재현 | OLMo 2 + Tülu 3 | Pythia | fully-open |

| 빠른 토큰 생성 | Llama on Groq | Llama on Cerebras | LPU |

| Apple Silicon 로컬 | Llama 3.3 70B (MLX) | Gemma 3 27B (MLX) | M3/M4 |

| 5천 달러 GPU 1대 학습 | QLoRA Llama 70B | LoRA Qwen 32B | unsloth |

| 1만 GPU 사전학습 | Llama 4 풀 학습 | OLMo 2 재학습 | - |

질문 분기.

1. **상업 사용인가, 비상업·연구인가?** -> 상업이면 Tier 1-2, 비상업이면 Tier 4까지 열림.

2. **단일 GPU에 들어와야 하나?** -> 24GB면 Phi-4·Gemma 3 12B·Llama 3.2, 80GB면 Llama 3.3 70B (Q4).

3. **추론·수학인가, 범용인가?** -> 추론이면 R1·QwQ, 범용이면 Llama 4·Qwen 3.

4. **언어가 한·중·일이면 글로벌 vs 국가 중 어느 것이 더 좋은가?** -> 한국어는 보통 Naver/Kakao/LG, 중국어는 Qwen, 일본어는 ELYZA.

5. **재현 가능한 학문이 필요한가?** -> OLMo 2 + Tülu 3.

23장 · 함정과 흔한 오해

오픈소스 LLM을 운영하면서 자주 부딪치는 함정.

**함정 1 — "오픈"의 정의가 모호**. 가중치 공개 = 오픈인가? 데이터·코드·체크포인트까지 = 오픈인가? 이 정의 차이가 학술적 재현성과 직결된다. fully-open은 OLMo·Tülu·Pythia·BLOOM 정도로 한정된다.

**함정 2 — 라이선스의 함정**. Llama가 "오픈"이라 듣고 그대로 서비스에 박았다가, 매출이 임계값을 넘으면 별도 라이선스 협의가 필요하다. Mistral Large 2를 "비상업"이라 듣고 사내 도구에 썼다가, 그 도구가 외부 고객에게 노출되면 라이선스 위반. **Apache 2.0과 Llama Community License와 Mistral Research License는 같은 "오픈"이 아니다**.

**함정 3 — 벤치마크 = 실력 등치**. MMLU 88과 89의 차이는 측정 노이즈 안. ArenaHard·LMSYS Arena ELO가 더 신뢰 가능. 실제 사용 시나리오에서 직접 테스트해야 한다.

**함정 4 — 양자화는 공짜가 아니다**. Q4_K_M은 보통 1-2점 손실, Q3_K_S는 5-10점 손실. 추론 시나리오에서는 양자화 손실이 더 크게 나타난다. 양자화 비트가 낮을수록 hallucination·계산 오류 가능성 ↑.

**함정 5 — fine-tune이 만능이 아니다**. 작은 도메인 데이터로 fine-tune하면 베이스 모델의 일반 능력이 망가지는 catastrophic forgetting이 잦다. **RAG가 답인 경우가 fine-tune이 답인 경우보다 더 많다**.

**함정 6 — 컨텍스트 길이 ≠ 효과적 컨텍스트**. 1M 컨텍스트 모델이라도 needle-in-a-haystack 정확도는 컨텍스트 후반부에서 떨어진다. RULER, LongBench 같은 긴 컨텍스트 벤치마크로 실제 성능 확인 필요.

**함정 7 — 멀티 GPU 분산은 단순하지 않다**. Tensor Parallel은 GPU 간 fast interconnect(NVLink)가 필수. PCIe만으로는 throughput이 떨어진다. Pipeline Parallel은 일부 모델 형태에서만 효과.

**함정 8 — "DeepSeek 비용 557만 달러" 인용의 오해**. 그 숫자는 마지막 사전학습 한 번의 GPU 시간 비용. 인프라 감가, 인력, 실패 학습, 알고리즘 R&D 비용은 빠져 있다. 진짜 총비용은 그 5~10배.

**함정 9 — 한국·일본·중국 모델이 글로벌 모델보다 무조건 자국 언어가 낫지 않다**. Llama 4·Qwen 3가 다국어 데이터를 압도적으로 많이 쓰면서 국가 모델과의 격차가 좁아진 영역이 있다. 도메인·문체별로 실제 테스트가 답.

**함정 10 — "fully open" 모델은 항상 정답이 아니다**. OLMo·Pythia는 학술적 가치는 절대적이지만 절대 성능은 Llama·Qwen에 못 미친다. 프로덕션 vs 학술은 다른 축.

24장 · 결론 — 한 장의 지도, 다섯 갈래

2026년 봄, 오픈소스 LLM의 풍경을 한 문단으로 줄이면.

**플래그십은 Llama 4 Maverick·DeepSeek V3·Qwen 3·Mistral Large 2**, **추론은 DeepSeek R1과 R1-Distill·QwQ-32B**, **코드는 Qwen 2.5 Coder·Codestral**, **단일 GPU 멀티모달은 Gemma 3 27B**, **합성 데이터의 가성비는 Phi-4 14B**, **새 아키텍처는 Falcon Mamba**, **학술 재현은 OLMo 2 + Tülu 3**, **한국어는 Naver HCX와 Kakao Kanana와 LG EXAONE 3.5**, **일본어는 ELYZA와 PLaMo와 rinna**, **중국어는 Qwen·Yi·InternLM·MiniCPM**.

추론 스택은 **vLLM·SGLang이 GPU 서빙의 표준**, **llama.cpp·MLX·exllamav2가 로컬의 표준**, **Together·Fireworks·Groq·DeepInfra가 호스팅의 표준**. 라이선스는 **Apache 2.0 / MIT가 마찰 없음**, **Llama Community / Gemma Terms가 사용 정책 조건부**, **Mistral Research가 비상업 한정**.

2년 전 "오픈소스는 폐쇄형의 그림자"라는 명제는 사라졌다. 2026년 봄, 오픈소스 LLM은 폐쇄형과 같은 영역에서 같은 벤치마크로 같은 사용자에게 답을 던지고 있다. 그 답을 어떤 좌표에서 받느냐 — 라이선스, 크기, 도메인, 인프라가 만나는 그 좌표가 곧 워크플로의 절반이다.

References

- Meta Llama 4: https://ai.meta.com/blog/llama-4-multimodal-intelligence/

- Llama 모델 카드: https://github.com/meta-llama/llama-models

- Llama Community License: https://www.llama.com/llama4/license/

- DeepSeek V3 논문: https://arxiv.org/abs/2412.19437

- DeepSeek R1 논문: https://arxiv.org/abs/2501.12948

- DeepSeek GitHub: https://github.com/deepseek-ai/DeepSeek-V3

- Alibaba Qwen: https://qwenlm.github.io/

- Qwen Hugging Face: https://huggingface.co/Qwen

- Mistral AI: https://mistral.ai/news/

- Mistral Large 2: https://mistral.ai/news/mistral-large-2407/

- Microsoft Phi-4 기술 보고서: https://arxiv.org/abs/2412.08905

- Google Gemma 3: https://blog.google/technology/developers/gemma-3/

- TII Falcon 3: https://falconllm.tii.ae/

- Allen AI OLMo: https://allenai.org/olmo

- Tülu 3: https://allenai.org/blog/tulu-3

- Hugging Face Open-R1: https://github.com/huggingface/open-r1

- vLLM: https://github.com/vllm-project/vllm

- SGLang: https://github.com/sgl-project/sglang

- llama.cpp: https://github.com/ggerganov/llama.cpp

- Apple MLX: https://github.com/ml-explore/mlx

- exllamav2: https://github.com/turboderp/exllamav2

- Hugging Face TGI: https://github.com/huggingface/text-generation-inference

- NVIDIA TensorRT-LLM: https://github.com/NVIDIA/TensorRT-LLM

- Ollama: https://ollama.com/

- Together.ai: https://www.together.ai/

- Fireworks.ai: https://fireworks.ai/

- Groq: https://groq.com/

- DeepInfra: https://deepinfra.com/

- LMSYS Chatbot Arena: https://lmarena.ai/

- lm-evaluation-harness: https://github.com/EleutherAI/lm-evaluation-harness

- OpenCompass: https://github.com/open-compass/opencompass

- Naver HyperCLOVA X: https://clova.ai/hyperclova

- Kakao Kanana: https://github.com/kakao/kanana

- LG EXAONE: https://www.lgresearch.ai/exaone

- Upstage Solar: https://www.upstage.ai/

- ELYZA: https://huggingface.co/elyza

- PFN PLaMo: https://www.preferred.jp/en/projects/plamo/

- Sakana AI: https://sakana.ai/

- 01.AI Yi: https://01.ai/

- Shanghai AI Lab InternLM: https://internlm.intern-ai.org.cn/

- OpenBMB MiniCPM: https://github.com/OpenBMB/MiniCPM

현재 단락 (1/282)

2024년 봄, "오픈소스 LLM"이라는 말에는 작은 한숨이 섞여 있었다. Llama 2 70B가 GPT-4와 비교당하면 7B 모델이 13B보다 낫다는 정도의 위로 뿐이었다. MM...

작성 글자: 0원문 글자: 23,507작성 단락: 0/282