Deepseek

All Posts

Published on
2026년 5월 16일
LLM 논문 큐레이션 2024-2026 - Llama · DeepSeek · Qwen · Mistral · Phi · RLHF · DPO · CoT · RAG · FlashAttention · vLLM 심층 가이드
llm papers llama deepseek qwen mistral phi rlhf dpo chain-of-thought rag flashattention vllm foundation-models mixture-of-experts
LLM을 만들고 운영하는 엔지니어를 위한 2024-2026 필독 논문 30+편 큐레이션. 파운데이션 모델(Llama 3/4, DeepSeek-V3/R1, Qwen3, Mistral, Phi-4, Gemma 3), 학습 혁신(MoE, MLA, GQA), 포스트-트레이닝(RLHF, DPO, ORPO, KTO), 추론(CoT, ToT, GRPO), 에이전트(ReAct, SWE-Agent), 검색(RAG, GraphRAG, ColBERT), 효율(FlashAttention 1/2/3, vLLM PagedAttention, SGLang), 평가(MMLU, GSM8K, SWE-Bench, OSWorld), 안전성, 한국·일본 모델까지 — 각 논문의 arXiv ID와 "왜 중요한지"를 한 단락으로 정리.
Published on
2026년 5월 16일
오픈소스 LLM 2026 완벽 가이드 - Llama 4 · DeepSeek V3 + R1 · Qwen 3 · Mistral Large 2 · Phi-4 · Gemma 3 · Falcon 3 심층 분석
open-source-llm llama-4 deepseek qwen mistral phi-4 gemma-3 falcon olmo kanana
2026년 봄, 오픈소스 LLM은 더 이상 폐쇄형의 그림자가 아니다. Meta Llama 4(Scout 109B, Maverick 400B MoE, Behemoth 2T), Llama 3.3 70B 마지막 덴스 베이스라인, DeepSeek V3 671B MoE와 R1 추론 모델, Alibaba Qwen 3와 Qwen 2.5 Coder, Mistral Large 2 123B와 Pixtral·Codestral·Ministral 라인, Microsoft Phi-4 14B 합성 데이터 학습, Google Gemma 3 멀티모달, TII Falcon 3와 Falcon Mamba 하이브리드, Allen AI OLMo 2와 Tülu 3 완전 공개, 한국의 HyperCLOVA X·Kanana·EXAONE 3.5, 일본의 ELYZA·PLaMo·Sakana, 중국의 Yi·InternLM·MiniCPM까지 — vLLM·SGLang·llama.cpp 추론 스택과 라이선스 지도를 한 호흡으로 정리한다.
Published on
2026년 5월 15일
중국 AI 랩 2026 — DeepSeek·Qwen·Kimi·GLM·Yi·Doubao·Hunyuan 심층 가이드 (오픈 웨이트의 새로운 무게 중심)
ai china deepseek qwen alibaba kimi moonshot glm zhipu yi 01ai doubao bytedance hunyuan tencent minimax open-weight 2026 deep-dive
2024년 12월 DeepSeek-V3가 671B MoE를 공개하고 2025년 1월 R1이 reasoning까지 오픈 가중치로 풀었을 때, 세상은 잠시 멈췄다. 그 사이 알리바바 Qwen 3는 235B-A22B로 사실상 오픈 웨이트의 새 기준이 됐고, Moonshot의 Kimi K2는 1T MoE와 long-context로 long-form 챔피언이 됐고, Zhipu의 GLM-4.5는 agentic·multimodal로 방향을 틀었다. 01.AI의 Yi-Large는 2025년 구조조정 이후에도 살아남았고, ByteDance Doubao 1.5는 배포 규모로 압도하고, Tencent Hunyuan T1은 reasoning에 들어왔고, Ant Group의 Ling/Ming은 금융 도메인을 노리고, StepFun과 MiniMax는 멀티모달과 4M context로 차별화한다. 그 뒤에는 수출 통제와 Huawei Ascend 910C/D, Cambricon으로 굳어진 국산 칩 스택, vLLM·LMDeploy·FastGen·ModelScope의 추론 인프라, SuperCLUE·OpenCompass·C-Eval의 평가 생태계까지 깔려 있다. 2026년 5월 현재, 한국과 일본 개발자가 진짜로 알아야 할 중국 AI 지도를 한 번에 그린다.
Published on
2026년 5월 14일
LLM 랜드마크 논문 가이드 — Attention부터 GPT·LLaMA·DeepSeek·o1·Claude까지 (참고문헌 포함, 2026)
llm research-papers transformer gpt llama deepseek o1 claude rlhf reasoning ai-engineering references
LLM 분야의 진짜 변화는 어떤 논문에서 시작됐는가. 2017년 Attention is All You Need부터 2026년의 추론 모델까지, 반드시 알아야 할 랜드마크 논문 20여 편을 시기·주제별로 정리한다. 각 논문은 '왜 중요한가·한 줄 요약·후속 영향'으로 압축하고, arXiv·블로그 링크를 끝에 모았다. 시간 부족한 엔지니어를 위한 LLM 논문 지도.
Published on
2026년 3월 22일
2025 오픈소스 AI 모델 완전 비교: DeepSeek R1 vs Llama 4 vs Qwen 3 vs Mistral — 누가 왕인가
open-source ai llm deepseek llama qwen mistral moe benchmark 2026-03 2026-03-22
DeepSeek R1(671B/37B), Llama 4 Scout/Maverick, Qwen 3(235B MoE), Mistral 8x22B — 2025년 오픈소스 AI 모델 4강 완전 비교. 벤치마크, 라이센스, 배포 방법, 비용 분석까지.
Published on
2026년 3월 21일
2025년 3월 테크·AI·K-POP 위클리 다이제스트: GTC부터 BTS 컴백까지
culture ai kpop nvidia gtc mcp deepseek gemini weekly-digest open-source benchmark 2026-03 2026-03-21
NVIDIA GTC 2025 Blackwell Ultra 발표, Gemini 2.5 Pro 등장, MCP의 업계 표준화, DeepSeek-R1 오픈소스 충격, BTS 5년만의 완전체 컴백, JENNIE 솔로 앨범 밀리언셀러 등 2025년 3월 테크·AI·K-POP 핵심 트렌드를 한눈에 정리합니다.
Published on
2026년 3월 17일
LLM 사전 학습 & 스케일링 법칙: Chinchilla, Flash Attention, MoE까지
LLM사전학습 스케일링법칙 Chinchilla FlashAttention MixtralMoE DeepSeek 2026-03 2026-03-17
Chinchilla 스케일링 법칙, Common Crawl 데이터 준비, Flash Attention 2, GQA, MoE 아키텍처부터 DeepSeek-V3, Llama 3.1 사전 학습 레시피까지 LLM 사전 학습 완전 가이드입니다.
Published on
2026년 3월 17일
오픈소스 LLM 완전 정리: Llama 3, Mistral, DeepSeek, Qwen, Gemma 총정리
llm llama mistral deepseek qwen gemma open-source 2026-03 2026-03-17
2024-2026년 오픈소스 LLM 생태계를 완전히 정리하는 가이드. Meta Llama 3, Mistral/Mixtral, DeepSeek V3/R1, Alibaba Qwen, Google Gemma, Microsoft Phi 시리즈를 아키텍처부터 성능, 라이선스, 활용 방법까지 상세히 비교합니다.
Published on
2026년 3월 14일
Mixture of Experts(MoE) 아키텍처 논문 심층 분석: GShard에서 DeepSeek-MoE까지
ai-papers mixture-of-experts moe transformer deepseek
Mixture of Experts 아키텍처의 핵심 논문을 분석하고, GShard, Switch Transformer, Mixtral, DeepSeek-MoE의 라우팅 전략과 학습 안정성 기법을 비교합니다.
Published on
2026년 3월 10일
Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer부터 Mixtral·DeepSeek까지
ai-papers mixture-of-experts moe transformer mixtral deepseek 2026-03 2026-03-10
Mixture of Experts(MoE) 아키텍처를 심층 분석합니다. Sparse MoE의 수학적 기초부터 Switch Transformer, Mixtral 8x7B, DeepSeek-V3의 라우팅 전략, 학습 안정성 기법, 추론 최적화까지 논문 기반으로 상세히 다룹니다.
Published on
2026년 3월 6일
Sparse Mixture of Experts(MoE) 아키텍처 심층 분석: 설계 원리부터 DeepSeek-V3·Qwen3까지
ai-papers moe mixture-of-experts sparse-model deepseek 2026-03 2026-03-06
Sparse MoE 아키텍처의 수학적 원리, 라우팅 전략, 로드 밸런싱 기법을 분석하고, Switch Transformer에서 DeepSeek-V3·Qwen3-235B까지 최신 MoE 모델의 설계 선택과 실전 학습·추론 최적화를 다룬다.
Published on
2026년 3월 3일
Mixture of Experts(MoE) 아키텍처 완벽 분석
ai-papers moe mixtral deepseek 2026-03 2026-03-03
Sparse MoE의 원리부터 Mixtral, DeepSeek-V3의 MoE 구현, routing 전략, load balancing까지 MoE 아키텍처를 완벽 분석합니다.

Deepseek

deepseek (12)