Transformer

All Posts

Published on
2026년 5월 16일
파운데이션 모델 아키텍처 2026 — Transformer 이후 / Mamba 2 / Hyena / RWKV / RetNet / Griffin / Jamba / xLSTM / TTT / DiT / MoE / Flash Attention 3 심층 가이드
foundation-models transformer attention-is-all-you-need vaswani mamba state-space-model ssm albert-gu tri-dao mamba-2 hyena stanford-h2o linear-attention schmidhuber rwkv bo-peng retnet microsoft-retentive griffin deepmind-griffin s5 jamba ai21 falcon-mamba xlstm sepp-hochreiter test-time-training ttt sun-et-al dit diffusion-transformer sora-dit mixture-of-experts moe mixtral deepseek-v3-moe million-experts google-mome flash-attention-3 ring-attention gemini-2m magic-ltm-2-mini sakana-ai-evolutionary 2026 deep-dive
2026년 파운데이션 모델 세계는 더 이상 Transformer 일변도가 아니다. Vaswani의 2017년 "Attention is All You Need"는 여전히 표준이지만, 그 옆에 Mamba/Mamba 2 같은 상태공간 모델(SSM), RWKV/RetNet/Griffin 같은 선형 RNN 재발견 진영, AI21 Jamba와 Falcon Mamba 같은 하이브리드, Sepp Hochreiter의 xLSTM, Test-Time Training, Sora의 DiT, Mixtral/DeepSeek-V3 671B/Google Million Experts 같은 MoE, Flash Attention 3와 Ring Attention, 그리고 Gemini 2M/Magic LTM-2-mini 100M의 초장문 컨텍스트까지 — 어떤 아키텍처가 어떤 문제에 강한지, 한국과 일본 진영은 무엇을 만들고 있는지 한 번에 정리.
Published on
2026년 5월 16일
LLM 랜드마크 논문 2026 완벽 가이드 - Transformer · Scaling Laws · Flash Attention · Mamba · DeepSeek-R1 · Titans 심층 분석
llm-papers transformer scaling-laws flash-attention mamba deepseek-r1 titans research ai-papers 2026 deep-dive
2017년 Attention Is All You Need에서 2026년 Titans와 DeepSeek-R1까지, LLM 시대를 만든 50여 편의 랜드마크 논문을 테마별로 정리한다. Transformer · BERT · GPT 시리즈 · Scaling Laws · Chinchilla · InstructGPT · PaLM · Flash Attention 1/2/3 · LLaMA 1/2/3/4 · GPT-4 · Mistral · Mixtral · DPO · KTO · ORPO · RWKV · Mamba 1/2 · DeepSeek-V3 · DeepSeek-R1 · o1 · Titans · TTT · Era of Experience · Tülu 3 · Sleeper Agents · Scaling Monosemanticity · Mixture of a Million Experts · RoPE · YARN · Ring Attention · GPTQ · AWQ · BitNet b1.58 · DDPM · DiT · MMR1까지, 각 논문의 기여와 영향을 1단락 단위로 정리하고 실제 arxiv URL을 함께 제공한다. PR12, Tunib 잎차이, 일본 Connpass 論文読み会, PFN 블로그 등 한일 리딩 그룹 자료까지 묶어 2026년 5월 기준 가장 압축된 LLM 논문 로드맵을 만든다.
Published on
2026년 5월 14일
LLM 랜드마크 논문 가이드 — Attention부터 GPT·LLaMA·DeepSeek·o1·Claude까지 (참고문헌 포함, 2026)
llm research-papers transformer gpt llama deepseek o1 claude rlhf reasoning ai-engineering references
LLM 분야의 진짜 변화는 어떤 논문에서 시작됐는가. 2017년 Attention is All You Need부터 2026년의 추론 모델까지, 반드시 알아야 할 랜드마크 논문 20여 편을 시기·주제별로 정리한다. 각 논문은 '왜 중요한가·한 줄 요약·후속 영향'으로 압축하고, arXiv·블로그 링크를 끝에 모았다. 시간 부족한 엔지니어를 위한 LLM 논문 지도.
Published on
2026년 4월 15일
FlashAttention & Efficient Attention Deep Dive — Tiling, Online Softmax, PagedAttention, GQA 완전 정복 (2025)
flashattention attention llm transformer gpu cuda inference machine-learning
LLaMA 3, GPT-4, Claude 같은 대형 모델을 효율적으로 훈련하고 서빙 가능하게 만든 핵심 최적화, FlashAttention과 그 후속 기법들. 이 글은 efficient attention을 처음부터 해부합니다. Naive attention의 O(N²) 메모리 문제, Tri Dao의 2022년 IO-aware 통찰, Tiling과 Online Softmax, SRAM vs HBM 활용, FlashAttention-2/3의 진화, PagedAttention(vLLM)이 KV cache를 OS 가상 메모리처럼 다룬 이유, Multi-Query/Grouped-Query Attention, Sliding Window, Ring Attention까지 — 현대 LLM 인프라의 성능 비밀을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.
Published on
2026년 4월 15일
LLM 완전 가이드 — Transformer·Attention·RLHF·RAG·Agent·Evaluation (Season 2 Ep 6, 2025)
llm transformer attention rlhf dpo rag agent evaluation ai-engineering reasoning-models season-2
LLM을 "프롬프트에 답하는 블랙박스"로만 쓰면 임계점에서 막힌다. Transformer의 Attention이 실제로 어떻게 토큰 관계를 계산하는지, Pre-training → SFT → RLHF → DPO 파이프라인이 왜 이 순서로 설계됐는지, RAG 1/2/3세대의 차이와 Agentic RAG의 본질, Agent 설계(ReAct, Plan-and-Execute, Multi-Agent)의 근본 패턴, 그리고 LLM 평가가 왜 미해결 문제인지까지 — 블랙박스를 뜯어보는 한 편. Season 2의 여섯 번째, 2025년 엔지니어의 필수 교양.
Published on
2026년 4월 15일
Transformer 아키텍처 완전 가이드 2025: Self-Attention, Positional Encoding, Multi-Head, GPT vs BERT — ChatGPT 뒤의 수학
transformer attention self-attention gpt bert neural-network llm deep-learning positional-encoding multi-head-attention
ChatGPT, Claude, Gemini의 공통 기반인 Transformer를 완전 분석. Attention 메커니즘, positional encoding, multi-head, encoder vs decoder, GPT와 BERT의 차이까지 — Transformer의 모든 것을 720줄로 수학과 함께 파헤친다.
Published on
2026년 3월 17일
자연어 처리(NLP) 완전 정복 가이드: Zero to Hero - 텍스트 처리부터 LLM까지
nlp natural-language-processing transformer bert gpt deep-learning ai 2026-03 2026-03-17
자연어 처리의 기초부터 최신 LLM까지 완전히 정복하는 가이드. 텍스트 전처리, Word2Vec, RNN/LSTM, Attention, Transformer, BERT, GPT까지 실전 코드와 함께 단계별로 배웁니다.
Published on
2026년 3월 17일
딥러닝 시계열 분석 완전 가이드: LSTM, Transformer, PatchTST, TimesFM
time-series lstm transformer forecasting deep-learning ai 2026-03 2026-03-17
딥러닝으로 시계열 데이터를 완전히 마스터하는 가이드. 시계열 전처리, ARIMA, LSTM, Temporal Fusion Transformer, PatchTST, Mamba, TimesFM 같은 최신 파운데이션 모델까지 실전 예제로 배웁니다.
Published on
2026년 3월 17일
Transformer 아키텍처 완전 분석: Attention부터 최신 LLM까지
transformer attention deep-learning nlp ai 2026-03 2026-03-17
Transformer 아키텍처를 처음부터 완전히 이해하는 가이드. Self-Attention, Multi-Head Attention, Positional Encoding, Encoder-Decoder 구조부터 Flash Attention, RoPE, GQA까지 수식과 코드로 완벽히 설명합니다.
Published on
2026년 3월 17일
LLM 처음부터 만들기: 코드로 이해하는 GPT 완전 구현 가이드
llm gpt transformer from-scratch deep-learning pytorch 2026-03 2026-03-17
대규모 언어 모델(LLM)을 처음부터 직접 구현하며 완전히 이해하는 가이드. 토크나이저부터 Transformer 아키텍처, 사전학습, 파인튜닝까지 PyTorch로 작은 GPT를 완전히 구축합니다.
Published on
2026년 3월 14일
Mixture of Experts(MoE) 아키텍처 논문 심층 분석: GShard에서 DeepSeek-MoE까지
ai-papers mixture-of-experts moe transformer deepseek
Mixture of Experts 아키텍처의 핵심 논문을 분석하고, GShard, Switch Transformer, Mixtral, DeepSeek-MoE의 라우팅 전략과 학습 안정성 기법을 비교합니다.
Published on
2026년 3월 11일
KV Cache 최적화 심층 분석: GQA·MLA·MHA 어텐션 메커니즘과 메모리 효율화 전략
ai-papers kv-cache attention-mechanism gqa mla transformer 2026-03 2026-03-11
Transformer Self-Attention의 KV Cache 기본 원리부터 MHA, MQA, GQA(Llama 2/3), MLA(DeepSeek-V2/V3) 메커니즘의 메모리 분석과 비교, KV Cache 압축 기법(양자화, 퇴거 정책, 슬라이딩 윈도우), PagedAttention(vLLM) 구현, PyTorch 코드 예제, OOM 장애 사례와 최적화 체크리스트를 다룹니다.
Published on
2026년 3월 10일
Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer부터 Mixtral·DeepSeek까지
ai-papers mixture-of-experts moe transformer mixtral deepseek 2026-03 2026-03-10
Mixture of Experts(MoE) 아키텍처를 심층 분석합니다. Sparse MoE의 수학적 기초부터 Switch Transformer, Mixtral 8x7B, DeepSeek-V3의 라우팅 전략, 학습 안정성 기법, 추론 최적화까지 논문 기반으로 상세히 다룹니다.
Published on
2026년 3월 9일
FlashAttention 논문 분석: IO-Aware Exact Attention으로 Transformer 학습·추론 속도 혁신
ai-papers flash-attention transformer gpu-optimization attention-mechanism 2026-03 2026-03-09
FlashAttention 시리즈(v1~v3) 핵심 논문 분석. IO-Aware 알고리즘의 tiling 전략, GPU SRAM/HBM 메모리 계층 활용, 역전파 recomputation, FlashAttention-2의 병렬화 개선, FlashAttention-3의 FP8 지원과 비동기 파이프라이닝까지 실전 벤치마크와 함께 다룹니다.
Published on
2026년 3월 8일
Ring Attention 논문 분석: 분산 환경에서 무한 컨텍스트 윈도우 트레이닝 구현
ai-papers ring-attention distributed-training long-context transformer sequence-parallelism 2026-03 2026-03-08
Ring Attention 논문을 분석하고 분산 환경에서 컨텍스트 길이 제한을 극복하는 방법을 탐구합니다. Blockwise Parallel Transformer와의 연결, 구현 세부사항, 성능 벤치마크, 그리고 프로덕션 적용 시 고려사항까지 다룹니다.
Published on
2026년 3월 7일
Mamba와 State Space Model 논문 심층 분석: 선택적 SSM부터 Mamba-2까지 Transformer 대안 아키텍처
ai-papers mamba state-space-model ssm transformer sequence-modeling 2026-03 2026-03-07
Mamba 논문의 선택적 State Space Model 메커니즘, S4에서 Mamba-2로의 발전 과정, Transformer 대비 선형 시간 복잡도의 장단점, 그리고 비전·오디오·시계열 분야 적용 사례까지 다루는 SSM 아키텍처 종합 분석.
Published on
2026년 3월 7일
LLM 롱 컨텍스트 성능과 KV Cache 최적화 완전 가이드: MQA에서 Ring Attention까지
llm kv-cache long-context multi-query-attention grouped-query-attention paged-attention ring-attention transformer 2026-03 2026-03-07
LLM의 롱 컨텍스트 처리를 가능하게 하는 KV Cache의 원리부터 메모리 소비 분석, MQA·GQA·PagedAttention·슬라이딩 윈도우·Ring Attention 등 최적화 기법, 모델별 컨텍스트 윈도우 비교, Needle-in-a-Haystack 벤치마크까지 실무 관점에서 포괄적으로 다룹니다.
Published on
2026년 3월 3일
나만의 GPT 만들기 — nanoGPT로 처음부터 학습하는 언어 모델
ai llm gpt nanoGPT transformer deep-learning from-scratch 2026-03 2026-03-03
Andrej Karpathy의 nanoGPT를 활용해 GPT 언어 모델을 처음부터 학습합니다. Transformer 아키텍처의 핵심 원리, 토크나이저, Self-Attention, 학습 루프까지 코드와 함께 완전 해부합니다.
Published on
2026년 3월 2일
Mamba: Linear-Time Sequence Modeling with Selective State Spaces 논문 분석
ai-papers mamba ssm state-space-model transformer deep-learning
Transformer의 대안으로 주목받는 Mamba 아키텍처를 깊이 분석합니다. Selective State Space Model의 핵심 아이디어, 하드웨어 최적화 알고리즘, 실험 결과까지 논문의 주요 내용을 코드와 함께 살펴봅니다.
Published on
2026년 3월 2일
Mamba 논문 리뷰: Selective State Space Models로 Transformer를 넘어서
mamba state-space-model ssm transformer linear-attention sequence-modeling deep-learning paper-review selective-scan mamba2
Mamba(Selective State Space Models) 논문을 심층 리뷰한다. S4에서 Mamba까지의 발전 과정, Selective Scan 메커니즘, Hardware-Aware 알고리즘, 그리고 Mamba-2의 State Space Duality까지 코드와 함께 분석.
Published on
2026년 3월 1일
Attention Is All You Need - Transformer 논문 완전 분석
ai-papers transformer deep-learning attention
Transformer 아키텍처의 핵심인 "Attention Is All You Need" 논문을 Self-Attention, Multi-Head Attention, Positional Encoding 등 핵심 메커니즘을 하나씩 분석한다.
Published on
2026년 3월 1일
BERT 논문 완벽 분석: 양방향 Transformer가 NLP의 판도를 바꾼 방법
bert nlp transformer pre-training fine-tuning masked-language-model google ai-papers deep-learning
Google의 BERT 논문을 심층 분석한다. Masked Language Model(MLM)과 Next Sentence Prediction(NSP)을 통한 양방향 사전학습, Fine-tuning 전략, 그리고 11개 NLP 벤치마크를 석권한 아키텍처의 핵심 원리를 수식과 코드 예제로 정리한다.
Published on
2026년 3월 1일
FlashAttention: GPU 메모리 계층을 활용한 어텐션 최적화 분석
ai-papers flash-attention gpu optimization transformer
FlashAttention 논문을 리뷰하고, GPU HBM/SRAM 메모리 계층을 활용한 IO-aware 어텐션 최적화 원리를 상세 분석한다.
Published on
2026년 3월 1일
GPT 시리즈 논문 완벽 분석: GPT-1부터 GPT-4까지, 언어 모델이 세상을 바꾸기까지의 여정
gpt openai language-model transformer pre-training rlhf instruction-tuning scaling-law ai-papers deep-learning
OpenAI의 GPT 시리즈를 세대별로 완벽 분석한다. GPT-1의 비지도 사전학습, GPT-2의 Zero-shot 학습, GPT-3의 In-context Learning과 Scaling Law, InstructGPT의 RLHF, GPT-4의 멀티모달까지 — 각 논문의 핵심 기여와 아키텍처 진화를 수식과 함께 정리한다.
Published on
2026년 3월 1일
Vision Transformer(ViT) 논문 완벽 분석: 이미지 한 장은 16x16 단어의 가치가 있다
vit vision-transformer computer-vision transformer image-classification patch-embedding ai-papers deep-learning self-attention
Google의 ViT 논문을 심층 분석한다. 이미지를 패치 시퀀스로 변환하는 혁신적 접근, Patch Embedding과 Position Embedding의 원리, CNN 대비 성능과 데이터 효율성 트레이드오프, 그리고 DeiT, Swin Transformer, BEiT 등 후속 연구까지 총정리한다.

Transformer

transformer (25)