BFCL(Berkeley Function Calling Leaderboard)의 모든 것! 벤치마크 카테고리(Simple/Multiple/Parallel/Relevance/AST), 평가 메트릭, 모델 성능 비교(Claude/GPT/Gemini/Llama), 자체 모델 평가 방법, Tool Calling 개선 전략.
LLM 학습 데이터 제작의 모든 것! Hugging Face 데이터셋(종류/로딩/변환), 한국어 데이터 수집(크롤링/합성/번역), 전처리(토크나이징/정제/중복제거), Instruction Tuning 포맷(Alpaca/ShareGPT/OpenAI), 품질 관리, RLHF/DPO 데이터셋.
Zero-shot부터 Chain-of-Thought, Tree-of-Thought, ReAct, Few-shot, Self-Consistency까지 — 개발자를 위한 프롬프트 엔지니어링 30가지 기법을 실전 예시와 함께. Claude, GPT-4, Gemini에서 최대 성능을 끌어내는 방법.
HuggingFace 트렌딩 논문 TOP 10과 2025년 AI 연구 10대 트렌드를 개발자 관점에서 리뷰합니다. DeepSeek-R1의 순수 RL 추론, Nemotron-Cascade 30B/3B MoE, GRPO, vLLM PagedAttention, 100만 토큰 컨텍스트의 한계, 비디오 생성 벤치마크까지.
2026년 3월 Anthropic이 Claude Opus 4.6/Sonnet 4.6의 1M 토큰 컨텍스트 윈도우를 GA로 발표했다. 기존 128K~200K 제한에서 1M으로의 확장이 가져오는 활용 패러다임의 전환, 실전 활용 패턴 5가지, RAG 대비 트레이드오프, 비용 최적화 전략까지 종합 가이드를 제공한다.
LLM 정렬 기술의 핵심 논문들을 심층 분석합니다. InstructGPT의 RLHF 파이프라인, Anthropic의 Constitutional AI, DPO의 수학적 기반, PPO 학습 안정성, 그리고 KTO/IPO/ORPO 등 최신 연구까지 체계적으로 비교하고 실무 적용 방안을 정리합니다.
임베딩의 기본 개념부터 주요 모델 비교(OpenAI, Cohere, BGE, E5, GTE, Jina), Sentence Transformers 활용, 벡터 데이터베이스(Pinecone, Weaviate, Milvus, Chroma, FAISS) 인덱싱 전략, 유사도 검색, RAG 파이프라인 통합, 파인튜닝, MTEB 벤치마크 평가까지 임베딩 모델의 모든 것을 실전 코드와 함께 체계적으로 다룹니다.
Zero-shot/Few-shot 프롬프팅의 기초부터 Chain-of-Thought(CoT), Self-Consistency, Tree-of-Thought(ToT), ReAct 패턴의 이론과 구현, 구조화된 출력 프롬프팅, 프롬프트 체이닝, 평가 메트릭, 일반적인 안티패턴, 프로덕션 최적화까지 LLM 프롬프트 엔지니어링의 고급 기법을 실전 코드와 함께 체계적으로 다룹니다.
RAG(Retrieval-Augmented Generation) 파이프라인의 프로덕션 구축을 체계적으로 다룹니다. 임베딩 모델 비교, 벡터 DB 선택(Pinecone·Milvus·Weaviate·Qdrant·Chroma), 청킹 전략, 하이브리드 검색, 리랭킹, RAGAS 평가 메트릭, 장애 대응까지 실전 운영 노하우를 제공합니다.
LLM 프롬프트 엔지니어링의 고급 기법을 체계적으로 다룹니다. Chain-of-Thought, Few-shot, ReAct, Self-Consistency, Tree of Thoughts 패턴의 원리와 구현 코드를 제공하고, 프로덕션 환경에서의 프롬프트 관리 전략과 평가 방법론을 설명합니다.
LLM의 롱 컨텍스트 처리를 가능하게 하는 KV Cache의 원리부터 메모리 소비 분석, MQA·GQA·PagedAttention·슬라이딩 윈도우·Ring Attention 등 최적화 기법, 모델별 컨텍스트 윈도우 비교, Needle-in-a-Haystack 벤치마크까지 실무 관점에서 포괄적으로 다룹니다.
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.
LLM 구조화된 출력의 핵심 원리인 Constrained Decoding부터 JSON Schema 기반 출력 제어, Outlines·XGrammar·llguidance 엔진 비교, Function Calling 통합, 그리고 프로덕션 환경 적용 전략까지 다루는 실전 가이드.
Test-Time Scaling(TTS)은 학습 파라미터를 늘리지 않고 추론 시점의 계산 예산을 늘려 성능을 높이는 접근이다. 이 글은 Best-of-N, Self-Consistency, Tree Search, Verifier/Reranker 기반 방법을 논문 맥락과 실무 적용 관점에서 정리한다.
Anthropic의 공식 CLI 도구인 Claude Code의 설치부터 핵심 명령어, 슬래시 커맨드, MCP 서버 연동, 멀티 에이전트 아키텍처, IDE 통합, CLAUDE.md 활용법, 커스텀 훅까지 — AI 코딩 에이전트의 모든 기능을 실전 예제와 함께 완벽 정리한다.