Mamba(Selective State Space Models) 논문을 심층 리뷰한다. S4에서 Mamba까지의 발전 과정, Selective Scan 메커니즘, Hardware-Aware 알고리즘, 그리고 Mamba-2의 State Space Duality까지 코드와 함께 분석.
Google의 BERT 논문을 심층 분석한다. Masked Language Model(MLM)과 Next Sentence Prediction(NSP)을 통한 양방향 사전학습, Fine-tuning 전략, 그리고 11개 NLP 벤치마크를 석권한 아키텍처의 핵심 원리를 수식과 코드 예제로 정리한다.
Ian Goodfellow의 GAN 원본 논문부터 DCGAN, WGAN, Progressive GAN, StyleGAN까지 — 생성적 적대 신경망의 핵심 이론인 minimax 게임, Nash 균형, 학습 불안정성 해결법을 수식과 함께 분석하고, GAN 계보의 진화를 총정리한다.
Microsoft의 ResNet 논문을 심층 분석한다. Degradation 문제의 발견, Skip Connection의 수학적 원리, Bottleneck 구조, ImageNet ILSVRC 2015 우승 아키텍처를 수식과 코드로 정리하고 ResNet이 현대 딥러닝에 미친 영향을 조망한다.
Meta AI의 Segment Anything Model(SAM) 시리즈를 완전 정복한다. SAM 1(이미지 프롬프터블 세그멘테이션), SAM 2(비디오 실시간 세그멘테이션), SAM 3(개념 인식 세그멘테이션)까지 아키텍처, 데이터셋, 핵심 혁신, 성능 벤치마크, 그리고 설치·실행 방법을 총정리한다.
Google의 ViT 논문을 심층 분석한다. 이미지를 패치 시퀀스로 변환하는 혁신적 접근, Patch Embedding과 Position Embedding의 원리, CNN 대비 성능과 데이터 효율성 트레이드오프, 그리고 DeiT, Swin Transformer, BEiT 등 후속 연구까지 총정리한다.
자율주행과 로보틱스의 핵심 기술 스택을 총정리한다. Modern C++, ROS/ROS2, CUDA 병렬 프로그래밍, TensorRT 최적화, 모델 경량화(양자화/프루닝), 센서 퓨전(GPS/IMU/카메라/LiDAR), VLM/VLA 모델, SIL/HIL 테스팅, 시뮬레이션(CARLA/Isaac Sim), 자율주행 풀 스택, VR/AR 디지털 트윈, 클라우드 인프라까지 13개 핵심 영역을 실전 관점에서 정리한다.
Tencent HunyuanVideo(13B)와 Lightricks LTX-2(19B)의 아키텍처, 학습 방법론, 성능 벤치마크를 심층 분석하고, Wan 2.1/CogVideoX/Mochi 등 오픈소스 비디오 생성 모델 생태계 전체를 비교하며 실전 활용 가이드를 제공한다.
GAN, VAE, Diffusion, Flow Matching까지 Text-to-Image 생성 모델의 핵심 아키텍처별 학습 방법론을 논문 기반으로 심층 분석한다. Stable Diffusion, DALL-E, Imagen, Flux 등 주요 모델의 학습 전략과 Fine-tuning 기법을 포괄적으로 다룬다.
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.
Alibaba Wan의 Text-to-Video/Image-to-Video 모델 아키텍처, 학습 방법론, 비디오 생성 파이프라인과 Z Image Turbo의 초고속 이미지 생성 기술을 심층 분석하고, Sora/Kling/Runway 등 경쟁 모델과 비교하며 실전 활용 가이드를 제공한다.