Ai-papers

All Posts

Published on
2026년 5월 16일
LLM 랜드마크 논문 2026 완벽 가이드 - Transformer · Scaling Laws · Flash Attention · Mamba · DeepSeek-R1 · Titans 심층 분석
llm-papers transformer scaling-laws flash-attention mamba deepseek-r1 titans research ai-papers 2026 deep-dive
2017년 Attention Is All You Need에서 2026년 Titans와 DeepSeek-R1까지, LLM 시대를 만든 50여 편의 랜드마크 논문을 테마별로 정리한다. Transformer · BERT · GPT 시리즈 · Scaling Laws · Chinchilla · InstructGPT · PaLM · Flash Attention 1/2/3 · LLaMA 1/2/3/4 · GPT-4 · Mistral · Mixtral · DPO · KTO · ORPO · RWKV · Mamba 1/2 · DeepSeek-V3 · DeepSeek-R1 · o1 · Titans · TTT · Era of Experience · Tülu 3 · Sleeper Agents · Scaling Monosemanticity · Mixture of a Million Experts · RoPE · YARN · Ring Attention · GPTQ · AWQ · BitNet b1.58 · DDPM · DiT · MMR1까지, 각 논문의 기여와 영향을 1단락 단위로 정리하고 실제 arxiv URL을 함께 제공한다. PR12, Tunib 잎차이, 일본 Connpass 論文読み会, PFN 블로그 등 한일 리딩 그룹 자료까지 묶어 2026년 5월 기준 가장 압축된 LLM 논문 로드맵을 만든다.
Published on
2026년 3월 14일
Mixture of Experts(MoE) 아키텍처 논문 심층 분석: GShard에서 DeepSeek-MoE까지
ai-papers mixture-of-experts moe transformer deepseek
Mixture of Experts 아키텍처의 핵심 논문을 분석하고, GShard, Switch Transformer, Mixtral, DeepSeek-MoE의 라우팅 전략과 학습 안정성 기법을 비교합니다.
Published on
2026년 3월 13일
RLHF에서 DPO까지: LLM 정렬(Alignment) 기술 논문 심층 분석
ai-papers rlhf dpo alignment ppo constitutional-ai llm
LLM 정렬 기술의 핵심 논문들을 심층 분석합니다. InstructGPT의 RLHF 파이프라인, Anthropic의 Constitutional AI, DPO의 수학적 기반, PPO 학습 안정성, 그리고 KTO/IPO/ORPO 등 최신 연구까지 체계적으로 비교하고 실무 적용 방안을 정리합니다.
Published on
2026년 3월 12일
Diffusion Model 논문 서베이: DDPM에서 Stable Diffusion·DiT·SDXL까지 이미지 생성 모델의 진화
ai-papers diffusion-model ddpm stable-diffusion dit sdxl image-generation 2026-03 2026-03-12
DDPM/DDIM의 확산-역확산 이론부터 Score-based 모델, Latent Diffusion(Stable Diffusion)의 VAE+U-Net 아키텍처, Classifier-free Guidance, DiT(Diffusion Transformer)의 adaLN-Zero, SDXL의 이중 텍스트 인코더와 Refiner 파이프라인, ControlNet의 조건부 제어, 학습 파이프라인, 추론 최적화까지 이미지 생성 모델의 진화를 종합적으로 서베이합니다.
Published on
2026년 3월 12일
RAG 논문 서베이: Retrieval-Augmented Generation의 진화 — RETRO에서 Self-RAG·Corrective-RAG까지
ai-papers rag retrieval-augmented-generation self-rag corrective-rag retro nlp 2026-03 2026-03-12
Retrieval-Augmented Generation(RAG) 연구의 진화를 논문 중심으로 추적합니다. 초기 RAG(Lewis et al.)부터 RETRO의 대규모 검색, Self-RAG의 자기 반성, Corrective-RAG의 검색 품질 평가까지 핵심 아키텍처와 벤치마크를 비교 분석합니다.
Published on
2026년 3월 11일
KV Cache 최적화 심층 분석: GQA·MLA·MHA 어텐션 메커니즘과 메모리 효율화 전략
ai-papers kv-cache attention-mechanism gqa mla transformer 2026-03 2026-03-11
Transformer Self-Attention의 KV Cache 기본 원리부터 MHA, MQA, GQA(Llama 2/3), MLA(DeepSeek-V2/V3) 메커니즘의 메모리 분석과 비교, KV Cache 압축 기법(양자화, 퇴거 정책, 슬라이딩 윈도우), PagedAttention(vLLM) 구현, PyTorch 코드 예제, OOM 장애 사례와 최적화 체크리스트를 다룹니다.
Published on
2026년 3월 11일
Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer에서 Mixtral까지의 발전과 효율적 스케일링 전략
ai-papers mixture-of-experts switch-transformer mixtral model-architecture 2026-03 2026-03-11
Mixture of Experts(MoE) 아키텍처의 핵심 원리부터 Switch Transformer의 단일 전문가 라우팅, Mixtral 8x7B의 Sparse MoE 구현, DeepSeek-MoE의 세분화 전략까지 심층 분석. 라우팅 메커니즘, 로드 밸런싱 손실, 학습 안정화 기법, 추론 최적화, 장애 사례와 체크리스트를 다룹니다.
Published on
2026년 3월 10일
Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer부터 Mixtral·DeepSeek까지
ai-papers mixture-of-experts moe transformer mixtral deepseek 2026-03 2026-03-10
Mixture of Experts(MoE) 아키텍처를 심층 분석합니다. Sparse MoE의 수학적 기초부터 Switch Transformer, Mixtral 8x7B, DeepSeek-V3의 라우팅 전략, 학습 안정성 기법, 추론 최적화까지 논문 기반으로 상세히 다룹니다.
Published on
2026년 3월 9일
FlashAttention 논문 분석: IO-Aware Exact Attention으로 Transformer 학습·추론 속도 혁신
ai-papers flash-attention transformer gpu-optimization attention-mechanism 2026-03 2026-03-09
FlashAttention 시리즈(v1~v3) 핵심 논문 분석. IO-Aware 알고리즘의 tiling 전략, GPU SRAM/HBM 메모리 계층 활용, 역전파 recomputation, FlashAttention-2의 병렬화 개선, FlashAttention-3의 FP8 지원과 비동기 파이프라이닝까지 실전 벤치마크와 함께 다룹니다.
Published on
2026년 3월 9일
DPO(Direct Preference Optimization) 논문 심층 분석 — RLHF 없이 LLM 정렬하기
ai-papers dpo rlhf llm-alignment preference-optimization 2026-03 2026-03-09
DPO의 수학적 원리부터 구현, RLHF와의 비교, IPO/KTO/ORPO 변형까지 — LLM 선호도 최적화의 핵심을 실무 관점에서 심층 분석합니다.
Published on
2026년 3월 8일
KAN(Kolmogorov-Arnold Networks) 논문 분석: MLP를 대체하는 학습 가능한 활성화 함수 아키텍처
ai-papers kan kolmogorov-arnold neural-network mlp deep-learning 2026-03 2026-03-08
Kolmogorov-Arnold Networks(KAN) 논문을 심층 분석합니다. Kolmogorov-Arnold 표현 정리의 수학적 배경, B-스플라인 활성화 함수, MLP 대비 정확도·해석가능성 비교, 그리고 실전 구현 코드를 다룹니다.
Published on
2026년 3월 8일
Ring Attention 논문 분석: 분산 환경에서 무한 컨텍스트 윈도우 트레이닝 구현
ai-papers ring-attention distributed-training long-context transformer sequence-parallelism 2026-03 2026-03-08
Ring Attention 논문을 분석하고 분산 환경에서 컨텍스트 길이 제한을 극복하는 방법을 탐구합니다. Blockwise Parallel Transformer와의 연결, 구현 세부사항, 성능 벤치마크, 그리고 프로덕션 적용 시 고려사항까지 다룹니다.
Published on
2026년 3월 8일
AI/ML 논문 읽기에 필요한 수학 + LaTeX/KaTeX 총정리
ai-papers math latex katex linear-algebra calculus probability optimization machine-learning deep-learning 2026-03 2026-03-08
AI/ML 논문을 읽을 때 반드시 만나는 수학 개념(선형대수·미적분·확률통계·최적화)과 LaTeX/KaTeX 수식 문법을 실전 예시 중심으로 총정리합니다. 기호 치트시트, 수식 패턴 해설, MDX 블로그 렌더링 팁까지 한 번에 다룹니다.
Published on
2026년 3월 7일
Mamba와 State Space Model 논문 심층 분석: 선택적 SSM부터 Mamba-2까지 Transformer 대안 아키텍처
ai-papers mamba state-space-model ssm transformer sequence-modeling 2026-03 2026-03-07
Mamba 논문의 선택적 State Space Model 메커니즘, S4에서 Mamba-2로의 발전 과정, Transformer 대비 선형 시간 복잡도의 장단점, 그리고 비전·오디오·시계열 분야 적용 사례까지 다루는 SSM 아키텍처 종합 분석.
Published on
2026년 3월 6일
BitNet 논문 분석: 1-Bit LLM의 시대 — 삼진 가중치부터 CPU 추론까지
ai-papers bitnet 1-bit-llm quantization model-efficiency 2026-03 2026-03-06
Microsoft Research의 BitNet 시리즈(v1, b1.58, a4.8, 2B4T) 논문을 분석하고, 삼진 가중치 학습 원리부터 bitnet.cpp 추론 프레임워크, 실전 벤치마크까지 다루는 종합 가이드.
Published on
2026년 3월 6일
Sparse Mixture of Experts(MoE) 아키텍처 심층 분석: 설계 원리부터 DeepSeek-V3·Qwen3까지
ai-papers moe mixture-of-experts sparse-model deepseek 2026-03 2026-03-06
Sparse MoE 아키텍처의 수학적 원리, 라우팅 전략, 로드 밸런싱 기법을 분석하고, Switch Transformer에서 DeepSeek-V3·Qwen3-235B까지 최신 MoE 모델의 설계 선택과 실전 학습·추론 최적화를 다룬다.
Published on
2026년 3월 5일
DPO에서 KTO까지: 인간 피드백 정렬 기법 최신 논문 리뷰와 실전 구현
ai-papers dpo kto alignment 2026-03 2026-03-05
RLHF의 한계를 극복한 DPO, IPO, KTO 등 최신 인간 피드백 정렬 기법의 논문 리뷰와 TRL 기반 실전 구현 가이드. 알고리즘 비교, 하이퍼파라미터 튜닝, 실패 사례까지.
Published on
2026년 3월 4일
AI 논문 읽기: Agentic Reasoning 구현 가이드 2026
ai-papers ai-papers-agentic-reasoning-implementation-guide-2026 2026-03 2026-03-04
AI 논문 읽기: Agentic Reasoning 구현 가이드 2026 주제로 Why, How, When, 비교표, 트러블슈팅, 코드 예시, 퀴즈를 포함한 실전 가이드.
Published on
2026년 3월 4일
Mixture of Experts(MoE) 아키텍처 논문 리뷰와 실전 스케일링 2026
ai-papers ai-papers-mixture-of-experts-scaling-2026 2026-03 2026-03-04
Mixture of Experts(MoE) 아키텍처 핵심 논문 분석. Switch Transformer, GShard, ST-MoE, Mixtral까지 라우팅 메커니즘, 전문가 병렬화, 로드 밸런싱 전략을 실전 관점에서 정리한다.
Published on
2026년 3월 4일
AI Papers: Test-Time Scaling 핵심 논문 정리 — 추론 예산으로 성능을 끌어올리는 방법
ai-papers test-time-scaling reasoning inference llm best-of-n self-consistency
Test-Time Scaling(TTS)은 학습 파라미터를 늘리지 않고 추론 시점의 계산 예산을 늘려 성능을 높이는 접근이다. 이 글은 Best-of-N, Self-Consistency, Tree Search, Verifier/Reranker 기반 방법을 논문 맥락과 실무 적용 관점에서 정리한다.
Published on
2026년 3월 4일
Mamba vs Transformer 실무 비교: 논문에서 제품까지
ai-papers practical-guide production 2026
Mamba vs Transformer 실무 비교: 논문에서 제품까지를 중심으로 Why/How/When, 비교표, 트러블슈팅, 실전 코드, 퀴즈까지 한 번에 정리한 실무형 문서입니다.
Published on
2026년 3월 3일
Diffusion Transformer(DiT) 아키텍처 분석: U-Net에서 Transformer로의 전환
ai-papers diffusion-transformer dit generative-ai image-generation 2026-03 2026-03-03
Scalable Diffusion Models with Transformers(DiT) 논문을 분석합니다. U-Net 기반 디퓨전 모델의 한계를 넘어 Transformer 백본으로 전환한 배경, adaLN-Zero 조건화, 스케일링 법칙, SORA/DALL-E 3로의 영향까지 다룹니다.
Published on
2026년 3월 3일
Mixture of Experts(MoE) 아키텍처 완벽 분석
ai-papers moe mixtral deepseek 2026-03 2026-03-03
Sparse MoE의 원리부터 Mixtral, DeepSeek-V3의 MoE 구현, routing 전략, load balancing까지 MoE 아키텍처를 완벽 분석합니다.
Published on
2026년 3월 3일
NeMo Guardrails 완벽 가이드: LLM 애플리케이션에 프로그래밍 가능한 안전장치 구축하기
ai-papers nemo-guardrails llm-safety nvidia guardrails 2026-03 2026-03-03
NVIDIA NeMo Guardrails를 사용해 LLM 기반 애플리케이션에 입출력 모더레이션, 토픽 제어, 할루시네이션 감지 등 프로그래밍 가능한 안전장치를 구축하는 방법을 실습합니다.
Published on
2026년 3월 3일
RWKV: Reinventing RNNs for the Transformer Era — v4에서 v7 Goose까지
ai-papers rwkv rnn linear-attention state-space-model march-2026 2026-03-03
Transformer의 O(N²) 한계를 극복하는 RWKV 아키텍처를 분석합니다. Linear Attention과 RNN의 융합, 선택적 상태 공간 메커니즘, v7 Goose의 혁신까지 코드와 함께 살펴봅니다.
Published on
2026년 3월 3일
RWKV-7 "Goose" 아키텍처 분석 — Transformer를 넘어서는 선형 시간 모델
ai-papers rwkv linear-attention sequence-modeling 2026-03 2026-03-03
RWKV-7 Goose의 Dynamic State Evolution 메커니즘, TC0 한계 돌파, Transformer 대비 성능 비교를 논문 기반으로 분석합니다. 상수 메모리 + 선형 시간 추론이 가능한 차세대 아키텍처입니다.
Published on
2026년 3월 2일
Mamba: Linear-Time Sequence Modeling with Selective State Spaces 논문 분석
ai-papers mamba ssm state-space-model transformer deep-learning
Transformer의 대안으로 주목받는 Mamba 아키텍처를 깊이 분석합니다. Selective State Space Model의 핵심 아이디어, 하드웨어 최적화 알고리즘, 실험 결과까지 논문의 주요 내용을 코드와 함께 살펴봅니다.
Published on
2026년 3월 1일
Attention Is All You Need - Transformer 논문 완전 분석
ai-papers transformer deep-learning attention
Transformer 아키텍처의 핵심인 "Attention Is All You Need" 논문을 Self-Attention, Multi-Head Attention, Positional Encoding 등 핵심 메커니즘을 하나씩 분석한다.
Published on
2026년 3월 1일
BERT 논문 완벽 분석: 양방향 Transformer가 NLP의 판도를 바꾼 방법
bert nlp transformer pre-training fine-tuning masked-language-model google ai-papers deep-learning
Google의 BERT 논문을 심층 분석한다. Masked Language Model(MLM)과 Next Sentence Prediction(NSP)을 통한 양방향 사전학습, Fine-tuning 전략, 그리고 11개 NLP 벤치마크를 석권한 아키텍처의 핵심 원리를 수식과 코드 예제로 정리한다.
Published on
2026년 3월 1일
DDPM 논문 완벽 분석: 노이즈에서 이미지를 만들어내는 확산 모델의 수학과 원리
ddpm diffusion-model generative-model score-matching stable-diffusion image-generation ai-papers deep-learning latent-diffusion
Ho et al.의 DDPM 논문을 심층 분석한다. Forward/Reverse diffusion process, 변분 하한(ELBO), 노이즈 스케줄링, 단순화된 학습 목표(simplified objective)를 수식으로 유도하고, DDIM, Latent Diffusion, Stable Diffusion으로의 진화까지 총정리한다.
Published on
2026년 3월 1일
FlashAttention: GPU 메모리 계층을 활용한 어텐션 최적화 분석
ai-papers flash-attention gpu optimization transformer
FlashAttention 논문을 리뷰하고, GPU HBM/SRAM 메모리 계층을 활용한 IO-aware 어텐션 최적화 원리를 상세 분석한다.
Published on
2026년 3월 1일
GAN 논문 완벽 분석: 생성적 적대 신경망이 열어젖힌 AI 생성 모델의 시대
gan generative-model adversarial-training deep-learning image-generation ai-papers dcgan stylegan wasserstein
Ian Goodfellow의 GAN 원본 논문부터 DCGAN, WGAN, Progressive GAN, StyleGAN까지 — 생성적 적대 신경망의 핵심 이론인 minimax 게임, Nash 균형, 학습 불안정성 해결법을 수식과 함께 분석하고, GAN 계보의 진화를 총정리한다.
Published on
2026년 3월 1일
GPT 시리즈 논문 완벽 분석: GPT-1부터 GPT-4까지, 언어 모델이 세상을 바꾸기까지의 여정
gpt openai language-model transformer pre-training rlhf instruction-tuning scaling-law ai-papers deep-learning
OpenAI의 GPT 시리즈를 세대별로 완벽 분석한다. GPT-1의 비지도 사전학습, GPT-2의 Zero-shot 학습, GPT-3의 In-context Learning과 Scaling Law, InstructGPT의 RLHF, GPT-4의 멀티모달까지 — 각 논문의 핵심 기여와 아키텍처 진화를 수식과 함께 정리한다.
Published on
2026년 3월 1일
LoRA: 대규모 언어 모델의 효율적 파인튜닝 논문 분석
ai-papers lora fine-tuning llm peft
LoRA(Low-Rank Adaptation) 논문의 핵심 원리를 수학적으로 분석하고, HuggingFace PEFT를 활용한 실전 적용법을 정리한다.
Published on
2026년 3월 1일
RAG: Retrieval-Augmented Generation 논문 분석과 실전 아키텍처
ai-papers rag llm vector-database langchain
RAG 논문의 핵심 개념을 분석하고, Chunking 전략, Vector DB 선택, Advanced RAG 패턴 등 프로덕션 레벨 RAG 시스템 설계를 정리한다.
Published on
2026년 3월 1일
강화학습(Reinforcement Learning) 완벽 가이드: 이론부터 최신 알고리즘, 실전 구현까지
reinforcement-learning deep-learning dqn ppo rlhf a3c q-learning policy-gradient ai-papers alphago
강화학습의 핵심 이론인 MDP, Bellman 방정식부터 Q-Learning, DQN, Policy Gradient, A3C, PPO, SAC까지 주요 알고리즘을 수식으로 유도하고, RLHF, AlphaGo, 로보틱스 응용 사례와 PyTorch 구현 예제를 총정리한다.
Published on
2026년 3월 1일
ResNet 논문 완벽 분석: 잔차 연결(Residual Connection)이 딥러닝의 깊이 한계를 돌파한 방법
resnet residual-learning cnn computer-vision image-classification deep-learning ai-papers skip-connection batch-normalization
Microsoft의 ResNet 논문을 심층 분석한다. Degradation 문제의 발견, Skip Connection의 수학적 원리, Bottleneck 구조, ImageNet ILSVRC 2015 우승 아키텍처를 수식과 코드로 정리하고 ResNet이 현대 딥러닝에 미친 영향을 조망한다.
Published on
2026년 3월 1일
Segment Anything Model 완전 정복: SAM 1 → SAM 2 → SAM 3 논문 분석과 실전 가이드
sam segment-anything computer-vision image-segmentation video-segmentation meta-ai ai-papers deep-learning promptable-segmentation zero-shot foundation-model sam2 sam3
Meta AI의 Segment Anything Model(SAM) 시리즈를 완전 정복한다. SAM 1(이미지 프롬프터블 세그멘테이션), SAM 2(비디오 실시간 세그멘테이션), SAM 3(개념 인식 세그멘테이션)까지 아키텍처, 데이터셋, 핵심 혁신, 성능 벤치마크, 그리고 설치·실행 방법을 총정리한다.
Published on
2026년 3월 1일
Vision Transformer(ViT) 논문 완벽 분석: 이미지 한 장은 16x16 단어의 가치가 있다
vit vision-transformer computer-vision transformer image-classification patch-embedding ai-papers deep-learning self-attention
Google의 ViT 논문을 심층 분석한다. 이미지를 패치 시퀀스로 변환하는 혁신적 접근, Patch Embedding과 Position Embedding의 원리, CNN 대비 성능과 데이터 효율성 트레이드오프, 그리고 DeiT, Swin Transformer, BEiT 등 후속 연구까지 총정리한다.
Published on
2026년 3월 1일
OpenAI Codex 완벽 분석: AI 코드 생성의 시작부터 클라우드 코딩 에이전트의 진화까지
codex openai code-generation github-copilot ai-coding llm agent deep-learning ai-papers
OpenAI Codex의 원본 모델(GPT 기반 코드 생성)부터 GitHub Copilot과의 관계, 새로운 Codex 클라우드 코딩 에이전트의 아키텍처와 기능, 코드 생성 AI의 진화까지 — Codex의 모든 것을 기술적으로 심층 분석한다.

Ai-papers

ai-papers (40)