Chaos and Order

Chaos and Order https://www.youngju.dev/blog 천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering. ko fjvbn2003@gmail.com (Youngju Kim) fjvbn2003@gmail.com (Youngju Kim) Fri, 26 Jun 2026 00:00:00 GMT https://www.youngju.dev/blog/llm/2026-06-26-multimodal-tokenization-and-fusion.en Multimodal Tokenization and Fusion — Turning Images and Audio Into Tokens https://www.youngju.dev/blog/llm/2026-06-26-multimodal-tokenization-and-fusion.en A deep look at how images, audio, and video become tokens and get woven into one sequence with text. We cover patch and VQ image tokenization, discrete-codec audio tokenization, frame sampling, interleaving and separator tokens, token explosion and compression, and context cost in multimodal LLMs. Fri, 26 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) llmmultimodaltokenizationvision-languageq-formertoken-pruning https://www.youngju.dev/blog/llm/2026-06-26-multimodal-tokenization-and-fusion.ja マルチモーダルのトークナイゼーションと融合 — 画像・音声をトークンへ https://www.youngju.dev/blog/llm/2026-06-26-multimodal-tokenization-and-fusion.ja 画像・音声・動画をどうトークンへ変え、テキストと一つの列へ編むのかを整理します。パッチおよびVQベースの画像トークン化、離散コーデックによる音声トークン化、フレームサンプリング、インターリービングと区切りトークン、トークン爆発と圧縮、コンテキストコストまで、マルチモーダルLLMの入力構成を深く扱います。 Fri, 26 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) llmmultimodaltokenizationvision-languageq-formertoken-pruning https://www.youngju.dev/blog/llm/2026-06-26-multimodal-tokenization-and-fusion 멀티모달 토크나이제이션과 융합 — 이미지·오디오를 토큰으로 https://www.youngju.dev/blog/llm/2026-06-26-multimodal-tokenization-and-fusion 이미지와 오디오, 비디오를 어떻게 토큰으로 바꾸고 텍스트와 하나의 시퀀스로 엮는지 정리합니다. 패치·VQ 기반 이미지 토큰화, 이산 코덱 오디오 토큰화, 프레임 샘플링, 인터리빙과 구분 토큰, 토큰 폭증과 압축, 컨텍스트 비용까지 멀티모달 LLM의 입력 구성을 깊이 다룹니다. Fri, 26 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) llmmultimodaltokenizationvision-languageq-formertoken-pruning