Published on2026년 6월 26일멀티모달 토크나이제이션과 융합 — 이미지·오디오를 토큰으로llmmultimodaltokenizationvision-languageq-formertoken-pruning이미지와 오디오, 비디오를 어떻게 토큰으로 바꾸고 텍스트와 하나의 시퀀스로 엮는지 정리합니다. 패치·VQ 기반 이미지 토큰화, 이산 코덱 오디오 토큰화, 프레임 샘플링, 인터리빙과 구분 토큰, 토큰 폭증과 압축, 컨텍스트 비용까지 멀티모달 LLM의 입력 구성을 깊이 다룹니다.