💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 2025년 1월, "그 주말"

2025년 1월 마지막 주말을 기억하는 사람이 있다. DeepSeek-R1이 공개되고 사흘 만에 NVIDIA 시가총액에서 약 6,000억 달러가 증발했다. 미국 언론은 "Sputnik 모먼트"라고 불렀고, 실리콘밸리는 회의가 끝없이 이어졌다. 정작 중국 항저우의 작은 헷지펀드(High-Flyer) 산하 연구실은 평소처럼 모델 weight와 paper를 HuggingFace에 올렸을 뿐이었다.

그게 1년 4개월 전 일이다. 지금이 2026년 5월이고, 그 사이 중국 AI 랩의 풍경은 완전히 달라졌다. **오픈 웨이트 SOTA의 무게 중심은 분명히 동쪽으로 이동했다**. Meta Llama가 정체하고 Mistral이 클로즈드로 돌아서는 동안 DeepSeek-V3·R1, Qwen 3, Kimi K2, GLM-4.5는 가중치 그 자체를 무기로 글로벌 표준을 흔들었다.

이 글은 2026년 5월 현재 중국 AI 랩 지도를 한 번에 그린다. 6대 호랑이(六小虎) + BAT(Baidu·Alibaba·Tencent) + 화웨이까지. 그리고 그 뒤에 깔린 수출 통제·국산 칩·추론 스택·평가 벤치마크의 인프라까지. 한국과 일본의 엔지니어가 "회사에서 중국 모델 한 번 써볼까"라고 했을 때 알아야 할 모든 것을 담는다.

1장 · 2026년 중국 AI 랩 지도 — 6대 호랑이 + BAT + 화웨이

먼저 한 줄 요약. **2024년까지 "중국 AI 6대 호랑이(六小虎)"라고 불리던 스타트업 6개 중 2026년 현재 의미있게 살아남은 곳은 4개뿐**이다. 그러나 그 4개는 글로벌 SOTA 경쟁에 직접 들어와 있고, 그 옆에 BAT·DeepSeek·ByteDance·화웨이가 자기 모델로 같이 뛰고 있다.

2026년 5월 기준 좌표.

| 분류 | 회사 | 대표 모델 (2026.05) | 라이선스 | 특징 |

|------|------|---------------------|----------|------|

이 표를 외울 필요는 없다. 다만 두 가지 패턴만 기억하자.

첫째, **2024년의 "유니콘 6마리"가 2026년에는 거의 의미가 없다**. Baichuan은 일반 LLM 경쟁에서 사실상 빠지고 의료 특화로 돌아섰고, 01.AI는 2024년 말~2025년 초 구조조정으로 모델 사이즈 사업을 줄였다. 반면 DeepSeek은 6대 호랑이에 포함되지도 않았는데 글로벌 1티어가 됐고, Qwen은 BAT 안에서 가장 빨리 움직였다.

둘째, **"오픈 웨이트"의 의미가 회사마다 다르다**. DeepSeek과 Qwen은 진짜로 MIT/Apache 비슷한 라이선스로 weight를 뿌리고, Kimi K2도 modified MIT(연구·상업 모두 허용, 일부 제약)로 풀었다. 반면 GLM은 모델 사이즈마다 라이선스가 다르고, Yi는 학술/상업 분리, Pangu는 오픈이라고 부르지만 신청·승인이 필요하다. 회사에서 쓸 때 라이선스 텍스트를 무조건 읽어야 한다는 뜻이다.

2장 · DeepSeek-V3 / R1 — 2024-2025 글로벌 충격의 진원

먼저 DeepSeek부터. 회사 이름은 深度求索, 항저우 기반의 헷지펀드 High-Flyer Capital(幻方量化)의 자회사로 2023년 7월에 분사됐다. 창업자 량원펑(梁文锋)은 펀드에서 NVIDIA A100을 1만 장 정도 사 모은 GPU 부자였고, 그 GPU로 LLM을 돌리기 시작한 것이 시작이었다.

타임라인.

- **2023.11**: DeepSeek LLM 7B/67B — 첫 모델, 평범

- **2024.05**: DeepSeek-V2 (236B MoE) — MLA(Multi-Head Latent Attention) 도입, 추론 비용 90% 절감

- **2024.06**: DeepSeek-Coder-V2 — 코딩 특화

- **2024.12**: **DeepSeek-V3 (671B MoE, active 37B)** — GPT-4o급 성능을 약 $5.6M training cost로

- **2025.01**: **DeepSeek-R1 (reasoning)** — OpenAI o1급, 오픈 가중치

- **2025.05**: DeepSeek-V3.1 / R1-0528 — 컨텍스트 확장, tool use

- **2025.12**: DeepSeek-V4 (예상 / 베이퍼)

- **2026.03**: DeepSeek-R2 — 멀티모달 + agentic reasoning

DeepSeek-V3가 충격이었던 이유는 두 가지다. 첫째, **671B 파라미터인데 active가 37B뿐인 fine-grained MoE**. 추론할 때 37B 모델 비용으로 671B 지식에 접근한다. 둘째, **2,048 H800 GPU에서 약 2개월에 끝낸 학습**. MoE·FP8 mixed precision·DualPipe pipeline parallel·multi-token prediction 같은 엔지니어링 디테일을 paper에 다 공개했다.

R1은 그 위에 GRPO(Group Relative Policy Optimization)로 reasoning을 붙였다. PPO에서 critic 네트워크를 빼고 group baseline으로 대체하니까 메모리 비용이 절반 이하로 떨어졌다. 그 결과 reasoning 학습 비용도 OpenAI 추정치의 1/10 이하로 내려갔다고 알려져 있다.

DeepSeek-V3을 vLLM으로 띄우기 (단순 예시)

pip install vllm

from vllm import LLM, SamplingParams

llm = LLM(

model="deepseek-ai/DeepSeek-V3",

tensor_parallel_size=8, # H100 8장

trust_remote_code=True,

dtype="bfloat16",

max_model_len=65536,

)

prompts = ["다음 코드의 시간 복잡도를 설명하라:\n\nfor i in range(n):\n for j in range(n):\n a[i][j] = i*j"]

params = SamplingParams(temperature=0.6, max_tokens=2048)

outputs = llm.generate(prompts, params)

print(outputs[0].outputs[0].text)

실전 팁. **DeepSeek-V3는 vLLM 0.7+ 또는 SGLang 0.4+에서 가장 잘 돈다.** TensorRT-LLM은 V3 MoE 지원이 V4 출시 직전까지도 베타였다. R1을 production reasoning에 쓸 때는 max_tokens를 넉넉히(8K~16K) 잡아야 한다. R1은 thinking trace를 길게 뽑는 게 정상이고, 잘라버리면 답이 망가진다.

2026년 5월 현재 DeepSeek은 API 가격을 다시 한 번 내렸다. 입력 캐시 hit 기준 1M 토큰당 $0.07, output $1.10. OpenAI GPT-4.1 mini의 1/10, Anthropic Claude Haiku의 1/5 수준이다. 그래서 "한국·일본 회사가 보안 이슈를 견딜 수 있다면" DeepSeek API가 가장 cost-effective 한 선택지 중 하나가 됐다.

3장 · Qwen 3 (Alibaba) — 오픈 웨이트의 새 표준

다음은 알리바바 Qwen. 정식 이름은 통이천원(通义千问, Tongyi Qianwen)이고, 다모(达摩) 아카데미가 만든다. 2023년 8월에 Qwen-7B로 시작해 거의 한 분기마다 새 시리즈를 찍어내는 모델 공장이다.

타임라인.

- **2023.08**: Qwen-7B / 14B

- **2024.02**: Qwen 1.5 — 0.5B~72B 전체 사이즈

- **2024.06**: Qwen 2 — Apache 2.0 (7B/57B-A14B/72B)

- **2024.09**: Qwen 2.5 — 코딩·수학 강화

- **2025.04**: **Qwen 3** — thinking/non-thinking 듀얼 모드

- **2025.06**: Qwen3-Coder (235B-A22B 포함) — 코딩 SOTA

- **2025.09**: Qwen3-VL — 멀티모달

- **2026.02**: Qwen 3.5 (가칭, Qwen-Max 통합 추세)

Qwen 3의 가장 큰 디자인 결정은 **하나의 모델 안에 thinking/non-thinking 모드를 같이 넣은 것**이다. `enable_thinking=True`를 주면 R1처럼 길게 생각하고, False면 즉답한다. 이게 별 것 아닌 것 같지만, 운영 입장에서는 "reasoning 모델 따로, instruct 모델 따로 띄우기"의 비용을 절반으로 줄여줬다.

사이즈 라인업도 깔끔하다. 0.6B → 1.7B → 4B → 8B → 14B → 32B → 235B-A22B(MoE) → 480B-A35B(MoE, Qwen3-Coder). 0.6B/1.7B는 노트북에서 ollama로 돌고, 32B는 H100 1장에 들어가고, 235B는 H100 8장이면 충분하다.

Qwen 3 8B를 ollama로 로컬에서

ollama pull qwen3:8b

ollama run qwen3:8b "Python으로 LRU 캐시를 구현하라"

Qwen3-Coder 30B-A3B는 ModelScope에서

pip install modelscope

modelscope download Qwen/Qwen3-Coder-30B-A3B-Instruct \

--local-dir ./qwen3-coder-30b

라이선스. **Qwen 3는 Apache 2.0**이다. 회사에서 fine-tune하고 클로즈드로 팔아도 된다. 이게 DeepSeek-V3의 modified MIT보다도 더 친절한 라이선스라서, 한국·일본 SaaS 회사 중 Qwen 3 base를 fine-tune 해서 자기 모델인 척 파는 곳이 이미 여럿이다. (도덕적 평가는 차치하고, 합법이긴 하다.)

성능. Qwen3-235B-A22B는 2026년 5월 LMSys Chatbot Arena에서 GPT-4.1과 Claude 3.7 Sonnet 사이를 오간다. 한국어·일본어 토크나이저는 Qwen 2까지는 Llama보다 나빴는데 Qwen 3에서 BPE를 다시 학습해서 한국어 효율이 약 30% 좋아졌다. 일본어는 여전히 GPT-4o·Claude 3.5 Sonnet보다 약간 떨어진다.

알리바바 클라우드의 모델 허브 **ModelScope(魔搭)는 사실상 중국판 HuggingFace**다. 중국 본토에서 HF 다운로드가 막혀 있어서, 중국 회사 모델은 HF와 ModelScope에 동시에 올라간다. 한국·일본에서는 HF가 더 빠르지만, 일부 가중치는 ModelScope에만 있는 경우도 있다(특히 RLHF 직후 release).

4장 · Kimi K2 (Moonshot) — long-context 1M의 챔피언

Moonshot AI(月之暗面)는 양즈린(杨植麟)이 칭화대 박사 시절 만든 회사로, Alibaba와 Tencent에서 시리즈 B를 받았다. 처음부터 "long-context"를 차별화 포인트로 잡았다.

타임라인.

- **2023.10**: Kimi Chat — 처음에 20만자 한자 컨텍스트로 화제

- **2024.03**: Kimi 1.5 — 200만자(약 200K 토큰)로 확장

- **2024.10**: Kimi K0 reasoning 베타

- **2025.07**: **Kimi K2** — 1T 파라미터 MoE (active 32B), modified MIT

- **2025.11**: Kimi K2-Coder

- **2026.02**: Kimi K2.5 — 1.5M context, agentic

- **2026.05**: Kimi K3 (예상)

Kimi K2의 디자인은 DeepSeek-V3와 비슷한 fine-grained MoE인데 active 파라미터가 더 작다(32B). 1T라는 숫자는 마케팅 효과가 컸지만, 실제로 쓸 때는 active 32B 비용으로만 돌면 충분해서 H100 8장(약 640GB HBM)에 안 들어가고 H200 8장(1.1TB HBM) 또는 B200 4장이 필요하다.

K2의 진짜 강점은 **agentic tool use**다. K2는 base 학습부터 tool calling 데이터를 섞어서, function calling 정확도가 GPT-4.1 수준이다. 이게 long-context와 결합되면 "200페이지 PDF 읽고 tool 호출 50번 해서 답하기" 같은 시나리오에서 다른 오픈 모델보다 한 단계 위다.

Kimi K2 API로 long PDF 처리 (Moonshot 공식 SDK)

pip install moonshot

from moonshot import OpenAI

client = OpenAI(api_key="sk-...", base_url="https://api.moonshot.cn/v1")

PDF 업로드

with open("long-paper.pdf", "rb") as f:

file = client.files.create(file=f, purpose="file-extract")

content = client.files.content(file_id=file.id).text

1M 컨텍스트로 한 번에 질문

response = client.chat.completions.create(

model="moonshot-v1-128k", # 또는 kimi-k2

messages=[

{"role": "system", "content": "당신은 친절한 연구 어시스턴트입니다."},

{"role": "system", "content": content},

{"role": "user", "content": "이 논문의 핵심 기여 3가지를 한국어로 정리하라."},

temperature=0.3,

)

print(response.choices[0].message.content)

장단점. K2는 한국어·일본어가 Qwen 3보다 한 단계 부족하다. 학습 데이터의 절대량이 한자에 쏠려 있어서, 한자 어휘는 강하지만 한국어 존댓말 일관성이나 일본어 경어 처리에서는 GPT-4o·Claude·Qwen 3에 밀린다. 반면 long-context retrieval 정확도(예: NIAH "needle in a haystack")는 1M 구간에서 GPT-4.1보다 약간 위, Gemini 2.5 Pro와 비슷하다.

Kimi의 비즈니스 측면. **Kimi Chat 무료 웹앱이 2024년 한때 중국에서 1위**였다. 그러다 ByteDance Doubao가 광고에 수십억 위안을 쏟아부으면서 MAU에서 추월당했다. 그래서 Moonshot은 2025년부터 B2B와 모델 license로 전략을 옮겼다.

5장 · GLM-4.5 (Zhipu) — agentic + multimodal

Zhipu AI(智谱AI)는 칭화대 KEG 연구실에서 분사된 회사다. GLM(General Language Model) 시리즈로 2021년부터 오픈 가중치를 풀어왔고, 6대 호랑이 중 가장 학술적·정통파다.

타임라인.

- **2022.10**: GLM-130B — 첫 100B급 오픈 가중치 (영중 이중)

- **2023.03**: ChatGLM-6B — 일반인에게 가장 유명한 중국 오픈 모델

- **2024.01**: GLM-4 (API only)

- **2024.06**: GLM-4-9B (오픈)

- **2025.04**: **GLM-4.5** — agentic 특화

- **2025.06**: GLM-4.5V — 비전

- **2025.10**: GLM-4.5-Air — 작은 오픈 버전

- **2026.03**: GLM-5 (예상)

GLM-4.5의 포지셔닝은 "agentic"이다. 즉 단순 chat이 아니라 멀티스텝 도구 사용·웹 탐색·코드 실행을 base 학습 단계부터 섞었다. 그래서 GAIA·SWE-bench 같은 agent 벤치마크에서 다른 중국 오픈 모델보다 한 단계 위다. 비교 대상은 사실상 Claude Sonnet 4와 GPT-4.1.

라이선스가 가장 복잡한 게 흠이다. GLM-4-9B(2024)는 학술·상업 모두 가능했고, GLM-4.5-Air(작은 오픈 버전)도 비슷한데, **GLM-4.5 본진은 API only**다. 그래서 "GLM은 오픈 모델이다"라고 한 마디로 말하기 어렵다. 회사에서 쓸 거면 무조건 라이선스를 회사 법무에 보내야 한다.

GLM-4.5-Air를 transformers로

pip install transformers torch

python -c "

from transformers import AutoTokenizer, AutoModelForCausalLM

mid = 'THUDM/glm-4-9b-chat'

tok = AutoTokenizer.from_pretrained(mid, trust_remote_code=True)

mdl = AutoModelForCausalLM.from_pretrained(mid, torch_dtype=torch.bfloat16, device_map='auto', trust_remote_code=True)

inputs = tok.apply_chat_template(

[{'role': 'user', 'content': '강화학습이 뭔지 5문장으로'}],

add_generation_prompt=True,

return_tensors='pt',

).to(mdl.device)

out = mdl.generate(inputs, max_new_tokens=512)

print(tok.decode(out[0][inputs.shape[1]:], skip_special_tokens=True))

Zhipu의 또 다른 자산은 **CogVLM·CogVideoX·CogView 시리즈**다. CogVideoX는 2024년 8월에 처음 오픈 가중치 영상 생성 모델을 공개한 곳이고, 2026년 5월 현재 CogVideoX-5B/5B-I2V/Pro까지 나와 있다. Sora·Veo 3에는 못 미치지만 오픈 가중치 영상 생성에서는 사실상 표준이다.

6장 · Yi-Large / 01.AI (Kai-Fu Lee) — 2025 구조조정 이후

01.AI(零一万物)는 카이푸 리(Kai-Fu Lee, 李开复)가 2023년에 세운 회사다. 카이푸 리가 마이크로소프트 리서치·구글 차이나·시노베이션 벤처스를 거친 거물이라서 처음부터 주목을 받았다.

타임라인.

- **2023.11**: Yi-34B — 첫 모델, 비영어권 1위 클레임

- **2024.01**: Yi-VL — 멀티모달

- **2024.05**: Yi-1.5 — 6B/9B/34B 오픈

- **2024.10**: Yi-Lightning — API 모델, Chatbot Arena 진입

- **2025.01**: 사전학습 사업부 정리, Alibaba에 일부 매각

- **2025.06**: Yi-Large 2 (API only, 사실상 축소)

- **2026.05**: 산업 응용에 집중 — 디지털 휴먼·콜센터·검색

**2025년 초의 01.AI 구조조정은 중국 AI 업계의 한 챕터를 끝낸 사건**이다. 카이푸 리가 직접 "100억 위안 규모의 사전학습 경쟁은 6대 호랑이 중 1~2개만 살아남을 것"이라고 공개적으로 말했고, 자기 회사가 그중에 안 들 거라고 인정했다. 그리고 사전학습 팀과 GPU 자원의 상당 부분을 Alibaba에 넘기는 결정을 했다.

그러면 Yi는 죽었나? 아니다. **응용 레이어로 피봇 했다**. Yi-Lightning을 API로 팔되, 디지털 휴먼(万知)·콜센터 자동화·산업 검색에 특화해 B2B 매출을 키우는 전략이다. 2026년 현재 Yi 매출은 모델 license가 아니라 SaaS 솔루션 매출이 더 크다.

오픈 가중치를 찾는 사람에게 Yi가 의미 있나? **2024년 release까지는 의미가 있고, 2025년 이후는 잊어도 된다**. Yi-1.5-34B는 2024년 한국·일본 fine-tune 베이스로 꽤 쓰였다. 2026년에는 Qwen 3 32B·DeepSeek-V3·GLM-4.5-Air가 더 좋다.

7장 · Doubao (ByteDance) — 배포 규모로 압도

ByteDance(字节跳动) Doubao(豆包)는 6대 호랑이가 아니다. 그러나 **사용자 수와 일일 호출 수 기준 중국 1위**다. ByteDance는 TikTok·Toutiao·CapCut의 수십억 사용자를 가지고 있고, Doubao를 모든 자사 앱에 박아 넣었다. 광고에도 2024-2025년 수십억 위안을 썼다.

타임라인.

- **2023.08**: Doubao 1.0 — 첫 모델

- **2024.05**: Doubao Pro — 가격 인하 캠페인 시작

- **2025.01**: Doubao 1.5 Pro — 멀티모달

- **2025.05**: Seedream — 이미지 생성

- **2025.09**: Doubao 1.5 Pro 32k / 256k

- **2025.12**: Doubao 1.5 Thinking — reasoning

- **2026.02**: Doubao 2.0 (가칭, 멀티모달 통합)

Doubao의 디자인 철학은 단순하다. **"평균적으로 충분히 좋은 모델을 가장 싸게 가장 많이 돌린다"**. 절대 성능에서 GPT-4o·Claude·DeepSeek을 이기려고 하지 않는다. 다만 ByteDance Volcano Engine(火山引擎) 위에서 가장 싸게 API를 제공한다. 2024년 5월 "1위안에 100만 토큰" 캠페인이 중국 LLM 가격 전쟁의 시작이었다.

오픈 가중치 측면. Doubao 본진은 클로즈드인데, **ByteDance Seed 팀이 별도로 Seed-OSS, BAGEL(멀티모달), Seedream-2 등의 오픈 가중치 모델을 풀고 있다**. 그래서 Doubao 본진을 못 써도 Seed의 오픈 모델은 받을 수 있다.

한국·일본 개발자가 Doubao를 쓸 일이 있나? **거의 없다**. Doubao API는 중국 본토 IP에서만 잘 돌고, 데이터 정책상 외국 회사가 쓰기에 부담이 크다. 다만 CapCut·TikTok이 자사 앱에 임베드한 AI 기능 일부가 Doubao이고, 그게 한국·일본 사용자에게도 노출된다는 점은 알아둘 가치가 있다.

8장 · Hunyuan / T1 (Tencent)

Tencent(腾讯) Hunyuan(混元)은 BAT 중 가장 늦게 LLM에 뛰어들었다. 2023년 9월 공식 발표, 한동안 클로즈드로만 굴리다가 2024년부터 일부 모델을 오픈했다.

타임라인.

- **2023.09**: Hunyuan 1.0 (API)

- **2024.05**: Hunyuan-Large 389B MoE — 첫 오픈 가중치

- **2024.11**: Hunyuan-Vision

- **2025.03**: **Hunyuan T1** — reasoning, Hybrid Mamba-Transformer

- **2025.07**: Hunyuan-Turbo

- **2025.10**: Hunyuan-Vision-2

- **2026.01**: Hunyuan T2 (예상)

Hunyuan T1의 가장 흥미로운 점은 **Hybrid Mamba-Transformer 아키텍처**다. 일부 레이어를 Mamba/SSM으로 갈아끼워서 long-context에서 디코딩 속도가 Transformer 대비 2~3배 빠르다. 이게 reasoning 모델에서 "thinking trace를 길게 뽑을 때"의 비용을 줄여준다. 다만 NIAH 같은 retrieval 정확도는 순수 Transformer보다 약간 떨어진다는 보고가 있다.

Tencent의 진짜 자산은 **WeChat(微信)과의 통합**이다. Hunyuan은 WeChat 자체 검색·미니프로그램·고객센터에 박혀 있다. 그래서 모델 자체 성능보다 "10억 사용자 채널" 자산이 더 크다고 보는 분석가도 많다.

오픈 가중치 측면. Hunyuan-Large 389B는 라이선스가 "Tencent Hunyuan Community License"인데 월간 활성 사용자 1억 명 미만이면 상업 사용 가능한 구조라서, 사실상 대부분의 회사에는 무료다. (Meta Llama 라이선스와 비슷한 패턴.)

9장 · Ling / Ming (Ant Group, Alipay)

Ant Group(蚂蚁集团)은 Alipay를 만든 회사다. 알리바바에서 분사된 금융 자회사라서, LLM도 "금융 도메인"에 강하게 묶여 있다. 모델 이름이 여러 개라서 헷갈리는데, 2026년 5월 기준 정리.

- **Bailing(百灵)**: Ant의 메인 LLM 시리즈 (Bailing-7B, Bailing-Pro)

- **Ling(铃)**: 경량·온디바이스 시리즈 (Ling-Tiny, Ling-Plus, Ling-Lite)

- **Ming(鸣)**: 멀티모달

- **AntFin / AntGLM**: 금융 특화 (대출 심사·콜센터·KYC)

Ling-Plus는 2025년 3월에 화제가 됐는데, **NVIDIA가 아닌 중국 국산 GPU(Huawei Ascend·Cambricon)로만 학습된 첫 메이저 오픈 가중치 모델** 중 하나로 발표됐다. 절대 성능에서는 Qwen 3에 못 미치지만, "국산 칩으로 가능하다"는 정치적·전략적 메시지가 컸다.

Ant Group의 모델은 한국·일본 개발자가 직접 쓸 일은 거의 없다. 다만 알리페이를 결제 수단으로 쓰는 한국·일본 e-commerce 백엔드에서 KYC·사기 탐지 모듈이 Ant 모델로 돌고 있을 가능성은 있다.

10장 · Step / StepFun, MiniMax

남은 두 호랑이.

**StepFun(阶跃星辰)**은 전직 마이크로소프트 글로벌 부사장 장샹(姜大昕)이 세웠다. 차별화 포인트는 멀티모달. 2025년 1월에 Step-2(1T 파라미터급 추정)를 공개했고, Step-R는 reasoning, Step-1V는 비전, Step-1X-Edit는 이미지 편집. 다만 6대 호랑이 중 가장 작은 곳이고 2026년 들어 자금난 소문이 돈다.

**MiniMax(稀宇科技)**는 2021년 창업, 6대 호랑이 중 가장 빠르게 컨슈머 시장에 들어간 곳이다. **Talkie**라는 캐릭터 챗 앱을 미국에서 운영하고, **Hailuo**는 동영상 생성. 본진 모델은:

- MiniMax-Text-01: 456B MoE, 4M context (2025.01 발표)

- MiniMax-VL-01: 비전

- MiniMax-M1: hybrid attention reasoning (2025.06)

- MiniMax abab 시리즈: 더 작은 라인

MiniMax-Text-01의 **4M 토큰 컨텍스트**는 2026년 5월 현재도 오픈 가중치 중 최대다. lightning attention(linear attention 변종)을 섞어서 메모리를 줄였다. 다만 실제 4M 끝까지 정보를 정확히 retrieval 하는 건 NIAH로 검증하면 1M 구간에서 정확도가 떨어진다.

한국·일본에서 MiniMax가 의미 있는 건 **Talkie**다. Character.AI의 대안으로 영어권 청소년 사이에서 꽤 쓰이고, 그 ML 백엔드가 MiniMax abab이다.

11장 · 수출 통제와 칩 — H100/B200 → Huawei Ascend, Cambricon

이제 인프라 쪽으로 내려간다. **중국 AI 랩의 진짜 운명을 가르는 변수는 모델이 아니라 칩**이다.

미국 수출 통제 타임라인.

- **2022.10**: H100/A100 직접 수출 금지 (BIS Entity List + ECCN)

- **2023.10**: H800/A800(중국 향 다운그레이드 버전)까지 금지

- **2024.10**: H20(추가 다운그레이드)에도 제약 강화

- **2025.04**: B200/B300 사실상 금지

- **2025.10**: GB200 NVL72 시스템 수출 금지

- **2026.02**: AI 모델 weight 자체에 대한 ECCN 분류 신설 시도

그래서 중국 회사가 쓸 수 있는 NVIDIA GPU는 2026년 5월 현재 사실상 **이전에 사둔 H100/H800/A100/A800 재고와 H20 일부**다. 새 GPU는 합법적으로는 못 들어오고, 회색 시장(싱가포르·말레이시아 경유)이 있다는 소문은 끊임없지만 규모는 제한적이다.

이걸 메우려고 중국이 키운 게 국산 칩이다.

**Huawei Ascend 910 시리즈**.

- 910B: 2023년 양산, FP16 약 320 TFLOPS, A100급

- 910C: 2024년 후반 양산, FP16 약 800 TFLOPS, H100급(클레임)

- 910D: 2025년 후반~2026년 초 양산, B200급 클레임

- CloudMatrix 384: 384개 Ascend 카드 + 광 인터커넥트, GB200 NVL72의 대안

Huawei의 진짜 강점은 칩 자체보다 **CloudMatrix·MindSpore·CANN의 풀스택**이다. 모델·런타임·드라이버·하드웨어를 한 회사가 통합 제공한다. 그래서 처음 셋업하면 NVIDIA보다 손이 많이 가지만, 한 번 돌면 그 위에 올린 워크로드는 외부 의존이 거의 없다.

**Cambricon(寒武纪) MLU 시리즈**.

- MLU370: 2022년, 추론용

- MLU590: 2024년, 학습/추론

- MLU690: 2025년, H100 추론 대비 비슷한 성능 클레임

Cambricon은 Huawei처럼 풀스택은 아니라서, vLLM·SGLang 등 메이저 추론 프레임워크가 정식 지원하기 시작한 게 2025년이다. 그래서 도입 장벽이 Huawei보다 높다.

성능 비교는 카탈로그 숫자만 보면 안 된다. **실제 ML 학습에서 Ascend 910C가 H100의 50~70% 수준**이라는 익명 보고가 많다. 그러나 가격은 H100 회색 시장 가격의 30~50%라서, "전력·랙·소프트웨어 헤드룸"까지 합쳐도 TCO가 비슷하거나 더 싸다. 다만 학습 안정성(NCCL 대비)·드라이버 성숙도에서는 여전히 NVIDIA가 압도적이다.

Ascend 위에서 vLLM 비슷한 LMDeploy로 모델 띄우기 (단순화 예시)

Huawei MindIE-LLM이 vLLM 비슷한 OpenAI 호환 API를 제공

pip install mindie # Ascend 환경 전용

mindie serve --model qwen3-32b --device-list 0,1,2,3 \

--max-input-token-len 32768 --max-batch-size 32 \

--port 8000

12장 · 추론 스택 — vLLM, LMDeploy, FastGen, ModelScope

중국 AI 랩의 추론 스택은 미국과 70% 겹치고 30% 다르다. 겹치는 30%부터.

**겹치는 것**: vLLM·SGLang·TensorRT-LLM·HuggingFace Transformers·DeepSpeed-MII. 이 다섯은 중국에서도 그대로 쓴다. 특히 vLLM은 DeepSeek·Qwen 팀이 직접 PR을 올리면서 중국 모델 지원이 빠르다.

**중국 특화 추론 스택**.

- **LMDeploy** (Shanghai AI Lab): InternLM 팀이 만든 추론 서버. vLLM과 비슷한데 TurboMind 백엔드로 INT4 양자화에서 빠르다. Ascend 지원이 vLLM보다 먼저 들어왔다.

- **FastGen** (Microsoft Research Asia): DeepSpeed-FastGen의 중국발 포크. 토큰 단위 동적 배치.

- **Xinference** (Xorbits): vLLM·LMDeploy를 wrapping해서 OpenAI 호환 API를 한 번에 제공. 중국 소규모 회사 표준.

- **MindIE-LLM / MindIE-Service** (Huawei): Ascend 전용. OpenAI 호환 API.

**ModelScope(魔搭)** vs **HuggingFace**. ModelScope는 알리바바가 운영하는 모델 허브로, 중국 본토 회사 모델은 HF와 동시 release되거나 ModelScope 먼저 release되는 경우가 많다. 다운로드 속도가 중국 외부에서는 HF가 빠르지만, 일부 가중치(특히 RLHF 직후 release·중국 라이선스 모델)는 ModelScope에만 있다.

ModelScope에서 모델 받기

from modelscope import snapshot_download

Qwen3-Coder-30B 받기

model_dir = snapshot_download(

"Qwen/Qwen3-Coder-30B-A3B-Instruct",

cache_dir="./models",

)

print(f"downloaded to {model_dir}")

DeepSeek-V3도 ModelScope에 있음

ds_dir = snapshot_download("deepseek-ai/DeepSeek-V3", cache_dir="./models")

13장 · 평가 — SuperCLUE / OpenCompass / C-Eval

중국 AI 모델 평가 벤치마크. 영어권 MMLU·GPQA·SWE-bench와 별도로 중국어 평가가 있다.

- **C-Eval** (칭화대): 13,948문항, 4지선다, 52과목. 가장 표준적인 중국어 LLM 평가.

- **CMMLU**: 11,528문항, MMLU의 중국어판. C-Eval과 비슷하지만 과목 분포가 다름.

- **OpenCompass** (Shanghai AI Lab): 메타 벤치마크 플랫폼. 100+ 데이터셋 합쳐서 리더보드.

- **SuperCLUE** (자체 기관): 종합 리더보드, 매월 업데이트. 중국 언론이 가장 많이 인용.

- **GAOKAO-Bench**: 중국 대학수학능력시험(가오카오) 기반 평가. reasoning 측정.

- **AGIEval**: 한자어권·영어 학술 시험 기반.

한국·일본에서 이 평가를 봐야 할까? **참고용**이다. C-Eval·SuperCLUE 1등 모델이 한국어·일본어에서 1등인 경우는 드물다. 한국어는 KoBEST·KMMLU·HAERAE, 일본어는 JCommonsenseQA·JGLUE·Nejumi 리더보드를 별도로 봐야 한다. 다만 reasoning(GAOKAO·MATH)에서 1등이면 한국어 reasoning도 강할 가능성이 높다.

2026년 5월 SuperCLUE 상위권(대략 순서).

1. GPT-4.5 / Claude Opus 4 (참고용 글로벌 클로즈드)

2. DeepSeek-R2

3. Qwen3-Max

4. GLM-4.5

5. Kimi K2.5

6. Hunyuan T1

7. Doubao 1.5 Pro Thinking

오픈 가중치만 보면 DeepSeek-R2·Qwen3-235B·Kimi K2가 사실상 동률.

14장 · 한국/일본에서 중국 오픈 모델 쓰기

이제 가장 실용적인 질문. "회사에서 중국 오픈 모델을 써도 되나, 쓴다면 어떻게 쓰나."

**보안·법무 관점**.

- **모델 가중치 자체는 단순히 숫자 행렬**이다. weight를 받아서 자기 서버에서 돌리면 데이터가 중국에 가지 않는다. 이건 OpenAI·Anthropic API와 반대 방향이다.

- **API를 쓰면 데이터가 중국 서버에 간다**. DeepSeek API·Qwen API·Moonshot API는 중국 본토에서 운영된다. 한국·일본 회사가 이걸 쓰면 개인정보보호법·EU GDPR·금융 규제 면에서 문제가 될 수 있다. 사내 적용 전에 무조건 법무 검토.

- **알리바바 클라우드 싱가포르 리전**은 Qwen API를 싱가포르에서 호스팅하는 옵션을 제공한다. 데이터가 중국 본토를 거치지 않는다고 명시. 그래서 글로벌 회사는 이 경로를 선호한다.

**한국어·일본어 성능 (2026.05 기준 체감)**.

|------|----------------|----------------|----------------|----------------|

| Qwen3-235B | 4.0/5 | 4.5/5 | 3.5/5 | 3.0/5 |

| DeepSeek-V3 | 3.5/5 | 4.5/5 | 3.5/5 | 3.0/5 |

| Kimi K2 | 3.5/5 | 4.0/5 | 3.0/5 | 2.5/5 |

| GLM-4.5 | 3.5/5 | 4.0/5 | 3.0/5 | 2.5/5 |

| (참고) GPT-4.1 | 4.5/5 | 4.5/5 | 4.5/5 | 4.5/5 |

| (참고) Claude Sonnet 4 | 4.5/5 | 5.0/5 | 4.5/5 | 4.5/5 |

이 표는 주관적 체감이고, 사용 사례마다 다르다. 다만 패턴은 명확하다.

1. **코딩에서는 중국 오픈 모델이 글로벌 클로즈드와 거의 동급**. Qwen3-Coder·DeepSeek-Coder는 한국어·일본어 주석으로 코드를 받아도 잘 한다.

2. **일상 한국어·일본어는 한 단계 부족**. 특히 일본어 경어(けいご)는 중국 모델 공통의 약점.

3. **fine-tuning으로 메울 수 있다**. Qwen 3 32B base에 한국어/일본어 instruction 데이터셋으로 LoRA만 돌려도 일상 영역은 GPT-4o-mini 수준까지 올라온다.

**실용 추천 (2026.05 기준)**.

- 사내 코딩 어시스턴트: Qwen3-Coder 30B-A3B를 self-host. 라이선스 깨끗(Apache 2.0).

- 사내 RAG 챗봇: Qwen3 32B 또는 GLM-4.5-Air. fine-tune은 옵션.

- long PDF 분석: Kimi K2(API) 또는 MiniMax-Text-01(self-host).

- reasoning이 진짜로 필요한 워크플로: DeepSeek-R1/R2(self-host) 또는 Qwen3-235B thinking 모드.

- 영상 생성: CogVideoX-Pro(Zhipu, self-host).

15장 · 2026년 전망 — 중국 AI는 어디로?

마지막으로 향후 6~18개월 시나리오.

**확실해 보이는 것**.

1. **오픈 가중치 SOTA는 중국이 계속 주도**. Meta가 Llama 4를 늦추고 Mistral이 클로즈드로 가는 동안 DeepSeek·Qwen·Kimi가 빈자리를 채웠다. 이 추세는 2026년 말까지 안 바뀐다.

2. **수출 통제는 더 엄해진다**. 미국 대선이 2024년에 끝났지만, AI 칩 규제는 양당 합의에 가까운 정책이라서 완화는 거의 없다. 오히려 weight·소프트웨어로 범위가 확대 중.

3. **국산 칩이 추론에서는 50% 이상 점유**. Huawei Ascend·Cambricon은 학습은 아직 NVIDIA에 밀리지만, 추론에서는 cost 메리트가 커서 빠르게 점유율을 올린다.

4. **가격 전쟁의 바닥은 더 내려간다**. DeepSeek·Doubao가 1M 토큰당 $0.01~$0.10 구간을 만들었고, 2026년 말이면 더 떨어질 가능성.

**불확실한 것**.

1. **6대 호랑이 중 몇 개가 살아남나**. 2026년 말까지 Moonshot·Zhipu·MiniMax 3개 외에는 사실상 의미를 잃을 가능성이 있다. Baichuan은 이미 의료로 도망갔고, 01.AI는 응용 회사로 피봇, StepFun은 자금난 소문.

2. **DeepSeek이 컨슈머로 가나, 안 가나**. 헷지펀드 모회사를 가진 특수한 구조라서 컨슈머 광고비를 안 써도 되는데, Doubao 모델로 추월당하면 결국 들어갈 수도.

3. **글로벌 라이선스 분쟁**. Apache 2.0인 Qwen base를 fine-tune해서 자기 모델인 척 파는 회사가 늘면, 어느 시점에서 base 모델 회사가 라이선스를 좁히는 방향으로 갈 수도 있다.

**한국·일본 엔지니어를 위한 한 줄 결론**. **"중국 오픈 모델을 안 쓰면 옆 팀이 쓴다."** 보안 우려는 진짜고 검토는 필요하지만, 가중치 기반 self-host는 데이터 측면에서 OpenAI API보다 안전한 경로다. 2026년 5월 현재 코딩·RAG·long-context 분야에서 GPT-4o·Claude Sonnet 4의 80~90% 성능을 1/5~1/10 비용으로 살 수 있는 통로는 사실상 중국 오픈 모델뿐이다.

참고 / References

- DeepSeek 공식 사이트: https://www.deepseek.com/

- DeepSeek GitHub: https://github.com/deepseek-ai

- DeepSeek-V3 Technical Report (arXiv): https://arxiv.org/abs/2412.19437

- DeepSeek-R1 Paper (arXiv): https://arxiv.org/abs/2501.12948

- DeepSeek HuggingFace: https://huggingface.co/deepseek-ai

- Qwen 공식 사이트: https://qwen.ai/

- Qwen GitHub: https://github.com/QwenLM

- Qwen3 Technical Report (arXiv): https://arxiv.org/abs/2505.09388

- Qwen HuggingFace: https://huggingface.co/Qwen

- Moonshot AI: https://www.moonshot.cn/

- Kimi K2 Paper (arXiv): https://arxiv.org/abs/2507.20534

- Kimi HuggingFace: https://huggingface.co/moonshotai

- Zhipu AI: https://www.zhipuai.cn/

- GLM GitHub: https://github.com/THUDM

- ChatGLM HuggingFace: https://huggingface.co/THUDM

- CogVideoX: https://github.com/THUDM/CogVideo

- 01.AI 공식 사이트: https://www.lingyiwanwu.com/

- Yi GitHub: https://github.com/01-ai

- Yi HuggingFace: https://huggingface.co/01-ai

- ByteDance Seed: https://team.doubao.com/en/research

- Doubao (Volcano Engine): https://www.volcengine.com/product/doubao

- Tencent Hunyuan: https://hunyuan.tencent.com/

- Hunyuan GitHub: https://github.com/Tencent/Hunyuan-Large

- Ant Group AI: https://www.antgroup.com/

- Ling-Plus 발표: https://www.antgroup.com/en/news-media/press-releases

- MiniMax: https://www.minimax.io/

- MiniMax-01 Paper (arXiv): https://arxiv.org/abs/2501.08313

- StepFun: https://www.stepfun.com/

- Baichuan: https://www.baichuan-ai.com/

- Huawei Ascend: https://www.hiascend.com/

- Cambricon: https://www.cambricon.com/

- ModelScope: https://www.modelscope.cn/

- HuggingFace: https://huggingface.co/

- vLLM: https://github.com/vllm-project/vllm

- LMDeploy: https://github.com/InternLM/lmdeploy

- SGLang: https://github.com/sgl-project/sglang

- Xinference: https://github.com/xorbitsai/inference

- C-Eval: https://cevalbenchmark.com/

- OpenCompass: https://opencompass.org.cn/

- SuperCLUE: https://www.superclueai.com/

- BIS Export Controls (US Commerce): https://www.bis.doc.gov/

- LMSys Chatbot Arena: https://chat.lmsys.org/