💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 2025年1月、「あの週末」

2025年1月の最終週末を覚えている人がいる。DeepSeek-R1が公開され、3日でNVIDIAの時価総額から約6,000億ドルが消えた。米国メディアはこれを「スプートニク・モーメント」と呼び、シリコンバレーでは会議が深夜まで続いた。当の杭州にあるヘッジファンドHigh-Flyer傘下の小さな研究所は、いつものようにモデルのweightとpaperをHugging Faceに上げただけだった。

あれから16ヶ月。今は2026年5月であり、その間に中国AIラボの風景は完全に変わった。**オープンウェイトSOTAの重心は明らかに東へ動いた**。Meta Llamaが停滞しMistralがクローズドへ転じる間、DeepSeek-V3/R1、Qwen 3、Kimi K2、GLM-4.5は重み自体を武器にしてグローバル標準を揺さぶった。

この記事は2026年5月時点の中国AIラボ地図を一度に描く。六小虎(6大虎)とBAT(百度・阿里・騰訊)、加えて華為まで。さらに背後にある輸出規制・国産チップ・推論スタック・評価ベンチマークのインフラまで。韓国・日本のエンジニアが「会社で中国モデルを試してみるか」と言われたときに必要な情報をまとめて書く。

1. 2026年の地図 — 六小虎 + BAT + 華為

まず一行で。**2024年に「中国AI六小虎」と呼ばれた6社のうち、2026年現在意味ある形で残っているのは約4社のみ**だ。その4社はグローバルSOTAに直接挑戦しており、その隣にBAT・DeepSeek・ByteDance・華為が自社モデルで並走している。

2026年5月時点の座標。

| 分類 | 会社 | 代表モデル(2026.05) | ライセンス | 特徴 |

|------|------|---------------------|------------|------|

この表を暗記する必要はない。2つのパターンだけ覚えておけばよい。

第一に、**2024年の「ユニコーン6社」というフレーミングは2026年にはほぼ意味がない**。Baichuanは一般LLM競争から事実上離脱して医療特化へ転向し、01.AIは2024年末~2025年初の再編で事前学習事業を縮小した。一方DeepSeekは六小虎に含まれていなかったがグローバル1ティアになり、QwenはBATの中で最も速く動いた。

第二に、**「オープンウェイト」の意味が会社ごとに違う**。DeepSeekとQwenはMITやApache 2.0に近い条件で重みを配り、Kimi K2もmodified MIT(研究・商用ともに許可、一部制約)で公開。一方GLMはモデルサイズごとにライセンスが異なり、Yiは学術と商用が分離、Panguは「オープン」と呼ぶが申請・承認が必要。会社で採用するならライセンス本文を必ず読むしかない。

2. DeepSeek-V3 / R1 — 2024-2025グローバル衝撃の震源

まずDeepSeekから。会社名は深度求索、杭州拠点のヘッジファンドHigh-Flyer Capital(幻方量化)から2023年7月にスピンアウトした。創業者の梁文鋒は、クオンツ取引のためにNVIDIA A100を約1万枚買い揃えた「GPU長者」で、そのGPUをLLMに振り向けたのが始まり。

タイムライン。

- **2023.11**: DeepSeek LLM 7B/67B — 最初のモデル、平凡

- **2024.05**: DeepSeek-V2(236B MoE) — MLA(Multi-Head Latent Attention)導入、推論コスト約90%削減

- **2024.06**: DeepSeek-Coder-V2 — コーディング特化

- **2024.12**: **DeepSeek-V3(671B MoE、active 37B)** — GPT-4o級性能を約560万ドルの学習費用で

- **2025.01**: **DeepSeek-R1(reasoning)** — OpenAI o1級、オープンウェイト

- **2025.05**: DeepSeek-V3.1 / R1-0528 — コンテキスト拡張、tool use

- **2025.12**: DeepSeek-V4(予想、ベイパー状態が週ごとに変動)

- **2026.03**: DeepSeek-R2 — マルチモーダル+agentic reasoning

DeepSeek-V3が衝撃だった理由は2つ。第一に、**671Bパラメータだがactiveがわずか37Bのfine-grained MoE**。37Bモデルの推論コストで671Bの知識にアクセスする。第二に、**2,048枚のH800 GPUで約2ヶ月で完了した学習**。MoE設計・FP8 mixed precision・DualPipeパイプライン並列・multi-token predictionといったエンジニアリング詳細をすべてpaperで公開した。

R1はその上にGRPO(Group Relative Policy Optimization)でreasoningを乗せた。PPOからcriticネットワークを除去しgroup baselineに置き換えることでメモリが半分以下に。結果としてreasoning学習コストはOpenAI推定の約10分の1まで下がったと報じられている。

DeepSeek-V3をvLLMで起動(最小例)

pip install vllm

from vllm import LLM, SamplingParams

llm = LLM(

model="deepseek-ai/DeepSeek-V3",

tensor_parallel_size=8, # H100 8枚

trust_remote_code=True,

dtype="bfloat16",

max_model_len=65536,

)

prompts = ["次のコードの時間計算量を説明せよ:\n\nfor i in range(n):\n for j in range(n):\n a[i][j] = i*j"]

params = SamplingParams(temperature=0.6, max_tokens=2048)

outputs = llm.generate(prompts, params)

print(outputs[0].outputs[0].text)

実戦上の注意。**DeepSeek-V3はvLLM 0.7+またはSGLang 0.4+で最もうまく動く**。TensorRT-LLMのV3 MoE対応はV4リリース直前までベータだった。R1を本番のreasoningで使うときはmax_tokensを多め(8K~16K)に取る。R1はthinking traceを長く出すのが正常動作で、途中で切ると答えが壊れる。

2026年5月時点でDeepSeekはAPI価格をさらに下げた。入力キャッシュヒット時1Mトークンあたり約0.07ドル、出力約1.10ドル。GPT-4.1 miniの10分の1、Claude Haikuの5分の1ほど。だから「韓国・日本の会社がセキュリティ審査を通せるなら」DeepSeek APIは最もコスト効率が高い選択肢の1つになった。

3. Qwen 3(Alibaba) — オープンウェイトの新しい標準

次にアリババのQwen。正式名称は通義千問(Tongyi Qianwen)で、達摩アカデミーが開発。2023年8月にQwen-7Bから始めて、ほぼ四半期ごとに新シリーズを出すモデル工場になった。

タイムライン。

- **2023.08**: Qwen-7B / 14B

- **2024.02**: Qwen 1.5 — 0.5B~72Bの全サイズ展開

- **2024.06**: Qwen 2 — Apache 2.0(7B / 57B-A14B / 72B)

- **2024.09**: Qwen 2.5 — コーディング・数学強化

- **2025.04**: **Qwen 3** — thinking/non-thinking デュアルモード

- **2025.06**: Qwen3-Coder(235B-A22Bを含む) — コーディングSOTA

- **2025.09**: Qwen3-VL — マルチモーダル

- **2026.02**: Qwen 3.5(仮称、Qwen-Maxとの統合傾向)

Qwen 3の最大の設計判断は**1つのモデルにthinking/non-thinkingモードを併存させたこと**だ。`enable_thinking=True`を渡せばR1のように長く考え、Falseなら即答する。一見地味だが、運用視点では「reasoningモデルとinstructモデルを別々に立てる」コストを半減させた。

サイズラインナップも整理されている。0.6B → 1.7B → 4B → 8B → 14B → 32B → 235B-A22B(MoE) → 480B-A35B(MoE、Qwen3-Coder)。0.6B/1.7Bはノートパソコンでollamaが動き、32BはH100 1枚に収まり、235BはH100 8枚で十分。

Qwen 3 8Bをローカルでollamaで

ollama pull qwen3:8b

ollama run qwen3:8b "PythonでLRUキャッシュを実装せよ"

Qwen3-Coder 30B-A3BはModelScopeから

pip install modelscope

modelscope download Qwen/Qwen3-Coder-30B-A3B-Instruct \

--local-dir ./qwen3-coder-30b

ライセンス。**Qwen 3はApache 2.0**だ。会社でfine-tuneしてクローズドで売ってもよい。これはDeepSeek-V3のmodified MITよりさらに緩いので、韓国・日本のSaaS企業の中にはQwen 3 baseをfine-tuneして「自社モデル」として売っているところが既に複数ある。(モラルの是非はさておき、合法ではある。)

性能。Qwen3-235B-A22Bは2026年5月のLMSys Chatbot ArenaでGPT-4.1とClaude 3.7 Sonnetの間を行き来する。日本語・韓国語トークナイザはQwen 2まではLlamaより悪かったが、Qwen 3でBPEを再学習し、韓国語効率が約30%改善された。日本語は依然GPT-4o・Claude 3.5 Sonnetよりやや劣る。

アリババのモデルハブ**ModelScope(魔搭)は事実上中国版のHugging Face**だ。中国本土からHugging Faceのダウンロードが遮断されているため、中国企業のモデルはHFとModelScopeに同時公開される、もしくはModelScopeが先になるケースが多い。中国外ではHFのほうが速いが、一部の重み(特にRLHF直後リリースや中国限定ライセンスのもの)はModelScopeにしかない。

4. Kimi K2(Moonshot) — ロングコンテキスト1M王者

Moonshot AI(月之暗面)は楊植麟(Yang Zhilin)が清華大博士課程時代に立ち上げた会社で、シリーズBはアリババと騰訊が出資。最初から「ロングコンテキスト」を差別化軸に据えた。

タイムライン。

- **2023.10**: Kimi Chat — 当初20万漢字のコンテキストで話題に

- **2024.03**: Kimi 1.5 — 約200万文字(約200Kトークン)まで拡張

- **2024.10**: Kimi K0 reasoningベータ

- **2025.07**: **Kimi K2** — 1TパラメータMoE(active 32B)、modified MITライセンス

- **2025.11**: Kimi K2-Coder

- **2026.02**: Kimi K2.5 — 1.5Mコンテキスト、agentic

- **2026.05**: Kimi K3(予想)

Kimi K2の設計はDeepSeek-V3に近いfine-grained MoEだが、activeパラメータがさらに小さい(32B)。1Tという数字はマーケティング効果が大きかったが、実運用ではactive 32Bの推論コストでしか動かないため、H100 8枚(約640GB HBM)では収まらず、H200 8枚(約1.1TB HBM)またはB200 4枚が必要。

K2の真の強みは**agentic tool use**だ。K2は事前学習からtool callingデータを混ぜており、function calling精度はGPT-4.1並み。これがロングコンテキストと組み合わさると「200ページのPDFを読んでツールを50回呼んで回答」のようなシナリオで他のオープンモデルより一段上になる。

Kimi K2 APIで長いPDFを処理(Moonshot公式SDK)

pip install moonshot

from moonshot import OpenAI

client = OpenAI(api_key="sk-...", base_url="https://api.moonshot.cn/v1")

PDFをアップロード

with open("long-paper.pdf", "rb") as f:

file = client.files.create(file=f, purpose="file-extract")

content = client.files.content(file_id=file.id).text

1Mコンテキストで一発質問

response = client.chat.completions.create(

model="moonshot-v1-128k", # またはkimi-k2

messages=[

{"role": "system", "content": "あなたは親切な研究アシスタントです。"},

{"role": "system", "content": content},

{"role": "user", "content": "この論文の重要な貢献を日本語で3点まとめてください。"},

temperature=0.3,

)

print(response.choices[0].message.content)

トレードオフ。K2は日本語・韓国語がQwen 3より一段劣る。学習データが漢字に偏っているため、漢字語彙は強いが、韓国語の敬語の一貫性や日本語の敬語処理ではGPT-4o・Claude・Qwen 3に負ける。逆にロングコンテキスト検索精度(NIAH「干し草の中の針」)では1M域でGPT-4.1よりやや上、Gemini 2.5 Proに近い。

ビジネス面。**Kimi Chat無料Webアプリは2024年に一時中国1位**だった。だがByteDance Doubaoが広告に数十億元を投入してMAUで追い抜いた。そこでMoonshotは2025年からB2Bとモデルライセンスへ戦略を移した。

5. GLM-4.5(Zhipu) — agentic + multimodal

Zhipu AI(智谱AI)は清華大KEG研究室から分社した会社。GLM(General Language Model)シリーズで2021年からオープンウェイトを公開してきており、六小虎の中で最もアカデミック・正統派だ。

タイムライン。

- **2022.10**: GLM-130B — 初の100B級オープンウェイト(中英バイリンガル)

- **2023.03**: ChatGLM-6B — 一般開発者に最も知られた中国オープンモデル

- **2024.01**: GLM-4(API only)

- **2024.06**: GLM-4-9B(オープン)

- **2025.04**: **GLM-4.5** — agentic特化

- **2025.06**: GLM-4.5V — ビジョン

- **2025.10**: GLM-4.5-Air — 小さなオープン版

- **2026.03**: GLM-5(予想)

GLM-4.5のポジショニングは「agentic」。単純なchatではなく、マルチステップなツール使用・Web探索・コード実行を事前学習段階から混ぜている。結果としてGAIA・SWE-benchのようなagentベンチマークで他の中国オープンモデルより一段上。比較対象は事実上Claude Sonnet 4とGPT-4.1。

ライセンスが最も煩雑なのが難点。GLM-4-9B(2024)は学術・商用ともに可能で、GLM-4.5-Air(小さなオープン版)も類似条件だが、**GLM-4.5本家はAPI only**。一言で「GLMはオープンモデルだ」と言い切れない。会社で使うならライセンス本文を必ず法務に回す。

GLM-4.5-Airをtransformersで

pip install transformers torch

python -c "

from transformers import AutoTokenizer, AutoModelForCausalLM

mid = 'THUDM/glm-4-9b-chat'

tok = AutoTokenizer.from_pretrained(mid, trust_remote_code=True)

mdl = AutoModelForCausalLM.from_pretrained(mid, torch_dtype=torch.bfloat16, device_map='auto', trust_remote_code=True)

inputs = tok.apply_chat_template(

[{'role': 'user', 'content': '強化学習を5文で説明して'}],

add_generation_prompt=True,

return_tensors='pt',

).to(mdl.device)

out = mdl.generate(inputs, max_new_tokens=512)

print(tok.decode(out[0][inputs.shape[1]:], skip_special_tokens=True))

Zhipuのもう1つの大きな資産は**CogVLM・CogVideoX・CogViewシリーズ**だ。CogVideoXは2024年8月に最初のオープンウェイト動画生成モデルを公開した場所で、2026年5月現在CogVideoX-5B/5B-I2V/Proまで揃う。Sora・Veo 3には及ばないが、オープンウェイトの動画生成では事実上標準。

6. Yi-Large / 01.AI(Kai-Fu Lee) — 2025年再編後

01.AI(零一万物)はKai-Fu Lee(李開復)が2023年に設立した会社。Lee氏のキャリア(マイクロソフトリサーチ・グーグル中国・Sinovation Ventures)から、立ち上げ時から注目を集めた。

タイムライン。

- **2023.11**: Yi-34B — 最初のモデル、非英語圏1位をクレーム

- **2024.01**: Yi-VL — マルチモーダル

- **2024.05**: Yi-1.5 — 6B / 9B / 34Bオープン

- **2024.10**: Yi-Lightning — APIモデル、Chatbot Arenaに参戦

- **2025.01**: 事前学習事業部の整理、Alibabaへ一部売却

- **2025.06**: Yi-Large 2(API only、事実上の縮小)

- **2026.05**: 産業応用に注力 — デジタルヒューマン・コールセンター・エンタープライズ検索

**2025年初頭の01.AI再編は中国AI業界の1つの章を閉じた出来事**だった。Kai-Fu Leeは公的に「100億元規模の事前学習レースでは六小虎のうち1~2社しか生き残らない」と述べ、自社はその中に入らないと認めた。事前学習チームとGPUの相当部分をAlibabaに譲渡。

それでYiは死んだのか。違う。**アプリケーション層へピボットした**。Yi-LightningはAPIで提供しつつ、デジタルヒューマン(万知)・コールセンター自動化・産業検索に特化してB2B売上を伸ばす戦略。2026年現在、Yiの売上はモデルライセンスよりSaaSソリューションのほうが大きい。

オープンウェイトを探す人にとってYiは意味があるか。**2024年リリースまでは意味があり、2025年以降は忘れてよい**。Yi-1.5-34Bは2024年に韓国・日本のfine-tuneベースとしてよく使われた。2026年ではQwen 3 32B・DeepSeek-V3・GLM-4.5-Airのほうがよい。

7. Doubao(ByteDance) — 配備規模で圧倒

ByteDance(字节跳动) Doubao(豆包)は六小虎ではない。しかし**ユーザー数と日次呼び出し回数では中国1位**だ。ByteDanceはTikTok・Toutiao・CapCutに数十億ユーザーを抱え、Doubaoを全アプリに埋め込んだ。広告にも2024-2025年に数十億元を投下している。

タイムライン。

- **2023.08**: Doubao 1.0 — 最初のモデル

- **2024.05**: Doubao Pro — 価格引き下げキャンペーン開始

- **2025.01**: Doubao 1.5 Pro — マルチモーダル

- **2025.05**: Seedream — 画像生成

- **2025.09**: Doubao 1.5 Pro 32k / 256k

- **2025.12**: Doubao 1.5 Thinking — reasoning

- **2026.02**: Doubao 2.0(仮称、マルチモーダル統合)

Doubaoの設計哲学は単純。**「平均的に十分良いモデルを、最も安く、最も多く回す」**。絶対性能でGPT-4o・Claude・DeepSeekを上回ろうとしない。代わりにByteDance Volcano Engine(火山引擎)上で最も安いAPIを提供。2024年5月の「1元で100万トークン」発表が中国LLM価格戦争のスタートだった。

オープンウェイト面。Doubao本体はクローズドだが、**ByteDance Seedチームが別途Seed-OSS、BAGEL(マルチモーダル)、Seedream-2などのオープンウェイトを公開している**。Doubao本体を使えなくてもSeedのオープンモデルは入手可能。

韓国・日本の開発者がDoubaoを使う場面はあるか。**ほぼない**。Doubao APIは中国本土IPでこそ快適で、データポリシー上海外企業が採用するのはハードルが高い。ただしCapCut・TikTokが自社アプリに埋め込んだAI機能の一部がDoubaoで、それが韓国・日本のユーザーにも届いているという事実は覚えておく価値がある。

8. Hunyuan / T1(Tencent)

Tencent(腾讯) Hunyuan(混元)はBATの中で最も遅くLLMに参入した。2023年9月正式発表、しばらくクローズドで運用し、2024年から一部モデルをオープン化。

タイムライン。

- **2023.09**: Hunyuan 1.0(API)

- **2024.05**: Hunyuan-Large 389B MoE — 初のオープンウェイト

- **2024.11**: Hunyuan-Vision

- **2025.03**: **Hunyuan T1** — reasoning、Hybrid Mamba-Transformer

- **2025.07**: Hunyuan-Turbo

- **2025.10**: Hunyuan-Vision-2

- **2026.01**: Hunyuan T2(予想)

Hunyuan T1で最も面白いのは**Hybrid Mamba-Transformerアーキテクチャ**だ。一部層をMamba/SSMに差し替え、長コンテキストでのデコード速度がpure Transformerの2~3倍。これがreasoningモデルで「thinking traceを長く出す」コストを下げる。トレードオフはNIAHのような検索精度がpure Transformerよりやや低いという報告。

Tencentの真の資産は**WeChat(微信)との統合**だ。HunyuanはWeChatの検索・ミニプログラム・カスタマーサポートに組み込まれている。多くのアナリストは「モデル絶対性能より10億ユーザーチャネルの方が価値が大きい」と分析する。

オープンウェイト面では、Hunyuan-Large 389Bは「Tencent Hunyuan Community License」で、月次アクティブユーザー1億未満なら商用利用可。事実上ほぼ全ての会社で無料。(Meta Llamaライセンスと類似のパターン。)

9. Ling / Ming(Ant Group、Alipay)

Ant Group(蚂蚁集团)はAlipayを作った会社。Alibabaから分社された金融子会社で、LLMも「金融ドメイン」と強く結びついている。モデル名が複数あって紛らわしいので、2026年5月のチートシート。

- **Bailing(百灵)**: Antのメインライン(Bailing-7B、Bailing-Pro)

- **Ling(铃)**: 軽量・オンデバイス系(Ling-Tiny、Ling-Plus、Ling-Lite)

- **Ming(鸣)**: マルチモーダル

- **AntFin / AntGLM**: 金融特化(融資審査・コールセンター・KYC)

Ling-Plusは2025年3月に話題になった。**NVIDIA抜きで中国国産GPU(Huawei Ascend・Cambricon)だけで事前学習された初の主要オープンウェイトモデル**として発表されたためだ。絶対性能ではQwen 3に劣るが、「国産チップで可能」という政治的・戦略的メッセージが大きかった。

Ant Groupのモデルを韓国・日本の開発者が直接使う場面はほぼない。ただしAlipayを決済手段とする韓国・日本のe-commerceバックエンドでKYC・不正検知モジュールがAntモデルで動いている可能性はある。

10. Step / StepFun、MiniMax

残る2匹の虎。

**StepFun(阶跃星辰)**は元マイクロソフトのグローバルVP姜大昕(Jiang Daxin)が設立。差別化軸はマルチモーダル。2025年1月にStep-2(1B級と推定)を公開、Step-Rがreasoning、Step-1Vがビジョン、Step-1X-Editが画像編集。六小虎の中で最も小さく、2026年に資金繰り噂が広がっている。

**MiniMax(稀宇科技)**は2021年創業、六小虎で最も早くコンシューマー市場に出た。**Talkie**はキャラクターチャットアプリで米国で運用、**Hailuo**は動画生成。本体モデルは:

- MiniMax-Text-01: 456B MoE、4Mコンテキスト(2025.01発表)

- MiniMax-VL-01: ビジョン

- MiniMax-M1: hybrid attention reasoning(2025.06)

- MiniMax abab系列: より小さいライン

MiniMax-Text-01の**4Mトークンコンテキスト**は2026年5月現在もオープンウェイト中最大。lightning attention(linear attentionの変種)を混ぜてメモリを抑える。ただしNIAHテストでは1Mを超えると検索精度が落ちる。

韓国・日本でMiniMaxが意味を持つのは**Talkie**だ。Character.AIの代替として英語圏のティーンに使われ、そのML基盤がMiniMax abab。

11. 輸出規制とチップ — H100/B200 → Huawei Ascend、Cambricon

ここからインフラに降りる。**中国AIラボの真の運命を決める変数はモデルではなくチップ**だ。

米国輸出規制のタイムライン。

- **2022.10**: H100/A100直接輸出禁止(BIS Entity List + ECCN)

- **2023.10**: H800/A800(中国向けダウングレード版)も禁止

- **2024.10**: H20(さらにダウングレード版)にも制約強化

- **2025.04**: B200/B300事実上禁止

- **2025.10**: GB200 NVL72システム輸出禁止

- **2026.02**: AIモデルの重み自体をECCN分類する試み

結果として中国企業が2026年5月現在合法に使えるNVIDIA GPUは事実上**既購入のH100/H800/A100/A800在庫とH20の一部**だ。シンガポール・マレーシア経由のグレーマーケットは噂が絶えないが規模は限定的。

これを埋めるために中国が育てたのが国産チップだ。

**Huawei Ascend 910シリーズ**。

- 910B: 2023年量産、FP16約320 TFLOPS、A100級

- 910C: 2024年後半量産、FP16約800 TFLOPS、H100級(クレーム)

- 910D: 2025年後半~2026年初量産、B200級クレーム

- CloudMatrix 384: 384枚Ascendカード+光インターコネクト、GB200 NVL72の代替

Huaweiの真の強みはチップ単体より**CloudMatrix・MindSpore・CANNのフルスタック**だ。モデル・ランタイム・ドライバ・ハードウェアを1社が統合提供。最初のセットアップはNVIDIAより手間がかかるが、一度動けばその上のワークロードは外部依存がほぼない。

**Cambricon(寒武纪)MLUシリーズ**。

- MLU370: 2022年、推論用

- MLU590: 2024年、学習・推論

- MLU690: 2025年、H100推論並み性能をクレーム

CambriconはHuaweiほど垂直統合されておらず、vLLM・SGLangなど主要推論フレームワークの正式サポートが2025年に入ってからだった。だから導入障壁はHuaweiより高い。

性能比較はカタログ値だけ見てはいけない。**実際のML学習でAscend 910CはH100の50~70%水準**という匿名報告が多い。ただし価格はH100グレーマーケット価格の30~50%で、電力・ラック・ソフトウェアのヘッドルームを合わせてもTCOは同等以下。学習安定性(NCCL比)・ドライバ成熟度ではNVIDIAが依然圧倒。

AscendでvLLM相当のLMDeployでモデルを立てる(簡略例)

Huawei MindIE-LLMがvLLMライクなOpenAI互換APIを提供

pip install mindie # Ascend環境専用

mindie serve --model qwen3-32b --device-list 0,1,2,3 \

--max-input-token-len 32768 --max-batch-size 32 \

--port 8000

12. 推論スタック — vLLM、LMDeploy、FastGen、ModelScope

中国AIラボの推論スタックは米国と70%重なり、30%違う。重なる70%から。

**共通**: vLLM・SGLang・TensorRT-LLM・Hugging Face Transformers・DeepSpeed-MII。5つとも中国でそのまま使う。特にvLLMはDeepSeek・QwenチームがPRを上げており、中国モデルのサポートが速い。

**中国特化の推論スタック**。

- **LMDeploy**(Shanghai AI Lab): InternLMチーム製の推論サーバー。vLLM類似でTurboMindバックエンドがINT4量子化で速い。Ascend対応はvLLMより先行した。

- **FastGen**(Microsoft Research Asia): DeepSpeed-FastGenの中国発フォーク。トークン単位の動的バッチング。

- **Xinference**(Xorbits): vLLM・LMDeployをラップしてOpenAI互換APIを一括提供。中国の中小企業の標準。

- **MindIE-LLM / MindIE-Service**(Huawei): Ascend専用、OpenAI互換。

**ModelScope(魔搭)** vs **Hugging Face**。ModelScopeはアリババ運営のモデルハブで、中国企業のモデルはHFと同時公開、もしくはModelScope先行のことが多い。中国外ではHFのほうが速いが、一部の重み(特にRLHF直後リリースや中国限定ライセンス)はModelScopeのみのこともある。

ModelScopeからモデルを取得

from modelscope import snapshot_download

Qwen3-Coder-30Bを取得

model_dir = snapshot_download(

"Qwen/Qwen3-Coder-30B-A3B-Instruct",

cache_dir="./models",

)

print(f"downloaded to {model_dir}")

DeepSeek-V3もModelScopeにある

ds_dir = snapshot_download("deepseek-ai/DeepSeek-V3", cache_dir="./models")

13. 評価 — SuperCLUE、OpenCompass、C-Eval

中国モデル評価ベンチマーク。英語圏のMMLU・GPQA・SWE-benchとは別に中国語評価がある。

- **C-Eval**(清華大): 13,948問、4択、52科目。中国語LLM評価の最標準。

- **CMMLU**: 11,528問、MMLUの中国語版。C-Evalと似ているが科目分布が異なる。

- **OpenCompass**(Shanghai AI Lab): メタベンチマーク、100以上のデータセットを統合したリーダーボード。

- **SuperCLUE**(独立機関): 中国メディアが最も引用する月次リーダーボード。

- **GAOKAO-Bench**: 中国版センター試験(高考)を元にした評価、reasoning測定。

- **AGIEval**: 中国語・英語の学術試験を元にした評価。

韓国・日本のチームはこの評価を信用すべきか。**参考程度に**。C-Eval・SuperCLUEで1位のモデルが韓国語・日本語で1位ということは滅多にない。韓国語ならKoBEST・KMMLU・HAERAE、日本語ならJCommonsenseQA・JGLUE・Nejumiリーダーボードを別に見るべき。ただしreasoning(GAOKAO・MATH)で上位なら、韓国語・日本語のreasoningも強い傾向はある。

2026年5月のSuperCLUE上位概略順。

1. GPT-4.5 / Claude Opus 4(参考用グローバルクローズド)

2. DeepSeek-R2

3. Qwen3-Max

4. GLM-4.5

5. Kimi K2.5

6. Hunyuan T1

7. Doubao 1.5 Pro Thinking

オープンウェイトに限ればDeepSeek-R2・Qwen3-235B・Kimi K2が事実上同列。

14. 韓国・日本で中国オープンモデルを使う

最も実用的な質問。「会社で中国オープンモデルを使ってよいのか、使うならどうやって」。

**セキュリティ・法務観点**。

- **モデル重み自体は単なる数値行列**。重みをダウンロードして自社サーバーで動かせばデータは中国に行かない。これはOpenAI・Anthropic APIとは正反対の方向。

- **APIを使うとデータが中国サーバーに行く**。DeepSeek API・Qwen API・Moonshot APIは中国本土で運営される。韓国・日本企業が使うと個人情報保護法・GDPR・金融規制で問題になる可能性。導入前に法務審査必須。

- **アリババクラウドのシンガポールリージョン**はQwen APIをシンガポールでホストするオプションを提供。「データが中国本土を経由しない」と明記。だからグローバル企業はこの経路を好む。

**韓国語・日本語性能(2026.05時点の主観評価)**。

|--------|----------------|----------------------|----------------|----------------|

| Qwen3-235B | 4.0/5 | 4.5/5 | 3.5/5 | 3.0/5 |

| DeepSeek-V3 | 3.5/5 | 4.5/5 | 3.5/5 | 3.0/5 |

| Kimi K2 | 3.5/5 | 4.0/5 | 3.0/5 | 2.5/5 |

| GLM-4.5 | 3.5/5 | 4.0/5 | 3.0/5 | 2.5/5 |

| (参考) GPT-4.1 | 4.5/5 | 4.5/5 | 4.5/5 | 4.5/5 |

| (参考) Claude Sonnet 4 | 4.5/5 | 5.0/5 | 4.5/5 | 4.5/5 |

主観評価で用途により異なるが、パターンは明確。

1. **コーディングではグローバルクローズドとほぼ同等**。Qwen3-Coder・DeepSeek-Coderは韓国語・日本語のコメントでも問題なし。

2. **日常会話の韓国語・日本語は一段劣る**。特に日本語の敬語は中国モデルの共通弱点。

3. **fine-tuneで埋まる**。Qwen 3 32B baseに韓国語・日本語のinstructionデータでLoRAを回すだけで日常品質はGPT-4o-mini並みになる。

**2026.05実用推奨**。

- 社内コーディングアシスタント: Qwen3-Coder 30B-A3Bをself-host。ライセンスがクリーン(Apache 2.0)。

- 社内RAGチャットボット: Qwen3 32BまたはGLM-4.5-Air。fine-tuneはオプション。

- 長いPDF分析: Kimi K2(API)またはMiniMax-Text-01(self-host)。

- 本当にreasoningが必要なワークフロー: DeepSeek-R1/R2(self-host)またはQwen3-235B thinkingモード。

- 動画生成: CogVideoX-Pro(Zhipu)をself-host。

15. 展望 — 中国AIはどこへ行くのか

最後に今後6~18ヶ月のシナリオ。

**ほぼ確実**。

1. **オープンウェイトSOTAは引き続き中国主導**。Metaが Llama 4を遅らせMistralがクローズド化する間、DeepSeek・Qwen・Kimiが穴を埋めた。この流れは2026年末まで変わらない。

2. **輸出規制はさらに厳しくなる**。2024年の米国大統領選は終わったが、AIチップ規制は両党合意に近い政策で、緩和はほぼない。逆に範囲はweight・ソフトウェアへ拡大中。

3. **国産チップが推論で50%超のシェア**。Huawei Ascend・CambriconはまだNVIDIAに学習で劣るが、推論ではコストメリットが大きく速くシェアを上げる。

4. **価格底はさらに下がる**。DeepSeek・Doubaoが1Mトークンあたり0.01~0.10ドルの帯を作った。2026年末にはさらに下がる可能性。

**不確実**。

1. **六小虎の何社が生き残るか**。2026年末までにMoonshot・Zhipu・MiniMaxの3社以外は事実上意味を失う可能性。Baichuanは既に医療へ撤退、01.AIは応用会社へピボット、StepFunは資金繰り噂。

2. **DeepSeekがコンシューマーへ行くか**。ヘッジファンドの親会社がいるため広告費を使わずに済む構造だが、Doubaoモデルに追い抜かれたら参戦せざるを得ないかも。

3. **グローバルライセンス紛争**。Apache 2.0のQwen baseをfine-tuneして自社モデルと偽って売る会社が増えれば、ある時点でbaseモデルの会社がライセンスを狭める方向に動く可能性も。

**韓国・日本のエンジニア向け一行結論**。**「中国オープンモデルを使わなければ、隣のチームが使う」**。セキュリティ懸念は本物で審査は必要だが、重みベースのself-hostはOpenAI APIよりデータ的に安全な経路だ。2026年5月時点で、コーディング・RAG・ロングコンテキスト分野でGPT-4o・Claude Sonnet 4の80~90%性能を5~10分の1のコストで買える唯一の現実的な通路は、事実上中国オープンモデルだけだ。

参考 / References

- DeepSeek公式サイト: https://www.deepseek.com/

- DeepSeek GitHub: https://github.com/deepseek-ai

- DeepSeek-V3 Technical Report (arXiv): https://arxiv.org/abs/2412.19437

- DeepSeek-R1 Paper (arXiv): https://arxiv.org/abs/2501.12948

- DeepSeek HuggingFace: https://huggingface.co/deepseek-ai

- Qwen公式サイト: https://qwen.ai/

- Qwen GitHub: https://github.com/QwenLM

- Qwen3 Technical Report (arXiv): https://arxiv.org/abs/2505.09388

- Qwen HuggingFace: https://huggingface.co/Qwen

- Moonshot AI: https://www.moonshot.cn/

- Kimi K2 Paper (arXiv): https://arxiv.org/abs/2507.20534

- Kimi HuggingFace: https://huggingface.co/moonshotai

- Zhipu AI: https://www.zhipuai.cn/

- GLM GitHub: https://github.com/THUDM

- ChatGLM HuggingFace: https://huggingface.co/THUDM

- CogVideoX: https://github.com/THUDM/CogVideo

- 01.AI公式サイト: https://www.lingyiwanwu.com/

- Yi GitHub: https://github.com/01-ai

- Yi HuggingFace: https://huggingface.co/01-ai

- ByteDance Seed: https://team.doubao.com/en/research

- Doubao (Volcano Engine): https://www.volcengine.com/product/doubao

- Tencent Hunyuan: https://hunyuan.tencent.com/

- Hunyuan GitHub: https://github.com/Tencent/Hunyuan-Large

- Ant Group AI: https://www.antgroup.com/

- Ling-Plus発表: https://www.antgroup.com/en/news-media/press-releases

- MiniMax: https://www.minimax.io/

- MiniMax-01 Paper (arXiv): https://arxiv.org/abs/2501.08313

- StepFun: https://www.stepfun.com/

- Baichuan: https://www.baichuan-ai.com/

- Huawei Ascend: https://www.hiascend.com/

- Cambricon: https://www.cambricon.com/

- ModelScope: https://www.modelscope.cn/

- HuggingFace: https://huggingface.co/

- vLLM: https://github.com/vllm-project/vllm

- LMDeploy: https://github.com/InternLM/lmdeploy

- SGLang: https://github.com/sgl-project/sglang

- Xinference: https://github.com/xorbitsai/inference

- C-Eval: https://cevalbenchmark.com/

- OpenCompass: https://opencompass.org.cn/

- SuperCLUE: https://www.superclueai.com/

- BIS Export Controls (US Commerce): https://www.bis.doc.gov/

- LMSys Chatbot Arena: https://chat.lmsys.org/