- Published on
Omni Model 완전 분석: Any-to-Any 멀티모달 AI의 아키텍처, 학습 데이터, 핵심 논문 총정리
- Authors
- Name
- 1. 서론: Omni Model의 정의와 등장 배경
- 2. 핵심 Omni Models 심층 분석
- 2.1 GPT-4o (OpenAI)
- 2.2 Gemini (Google DeepMind)
- 2.3 Chameleon (Meta)
- 2.4 Transfusion (Meta)
- 2.5 NExT-GPT
- 2.6 CoDi / CoDi-2
- 2.7 Unified-IO / Unified-IO 2
- 2.8 Janus / Janus-Pro (DeepSeek)
- 2.9 Emu Series (BAAI)
- 2.10 Show-o
- 2.11 SEED / SEED-X
- 2.12 4M / 4M-21
- 2.13 OmniGen
- 2.14 AnyGPT
- 2.15 AnyMAL (Meta)
- 2.16 Qwen2.5-Omni (Alibaba)
- 2.17 기타 주목할 모델들 (2024-2025)
- 3. 학습 데이터 분석
- 4. 핵심 학습 방법론
- 5. 아키텍처 비교
- 6. 주요 논문 레퍼런스
- 7. 미래 전망과 한계점
- 8. 결론
- References
1. 서론: Omni Model의 정의와 등장 배경
1.1 Multimodal AI의 진화
인공지능의 역사는 단일 모달리티에서 멀티모달리티로, 그리고 궁극적으로 Any-to-Any 생성으로의 진화 과정이다. 이 진화는 크게 네 단계로 구분할 수 있다.
| 단계 | 시기 | 특징 | 대표 모델 |
|---|---|---|---|
| 1단계: 단일 모달리티 | ~2020 | 텍스트 또는 이미지만 처리 | GPT-3, ResNet, DALL-E |
| 2단계: 멀티모달 입력 | 2021-2022 | 여러 모달리티 입력, 텍스트 출력 | CLIP, Flamingo, BLIP-2 |
| 3단계: 멀티모달 입출력 | 2023 | 텍스트+이미지 입력, 텍스트+이미지 출력 | LLaVA, MiniGPT-4, Emu |
| 4단계: Omni/Any-to-Any | 2024~ | 모든 모달리티 입출력 동시 처리 | GPT-4o, Gemini, Chameleon, Emu3 |
초기의 멀티모달 모델은 CLIP(Contrastive Language-Image Pre-training)처럼 텍스트와 이미지를 공통 임베딩 공간에 매핑하는 방식으로 시작되었다. 이후 Flamingo, BLIP-2 등이 이미지를 이해하는 능력을 LLM에 부여했지만, 이들은 출력이 텍스트로 제한되는 한계가 있었다.
2023년부터는 LLM이 이미지를 생성할 수 있는 모델들이 등장했고, 2024년에 접어들면서 텍스트, 이미지, 오디오, 비디오를 동시에 이해하고 생성할 수 있는 진정한 의미의 Omni Model이 본격적으로 등장했다.
1.2 Omni Model이란 무엇인가
Omni Model(또는 Any-to-Any Multimodal Model)은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 입력으로 받아들이고, 동시에 여러 모달리티를 출력으로 생성할 수 있는 통합 AI 모델을 의미한다.
핵심적인 구분 기준은 다음과 같다.
- Multimodal Understanding Model: 여러 모달리티를 이해하지만 텍스트만 출력 (예: LLaVA, InternVL)
- Multimodal Generation Model: 텍스트 입력으로 이미지/오디오 등을 생성 (예: DALL-E 3, Stable Diffusion)
- Omni Model (Any-to-Any): 임의의 모달리티 조합을 입력받아 임의의 모달리티 조합을 출력
2024년 12월에 발표된 서베이 논문 "From Specific-MLLMs to Omni-MLLMs" (arXiv:2412.11694)에서는 Omni-MLLM의 4가지 핵심 구성요소를 다음과 같이 정의한다.
- Modality Encoder: 각 모달리티의 원본 데이터를 LLM이 이해할 수 있는 임베딩으로 변환
- LLM Backbone: 통합된 표현 공간에서 추론과 생성을 수행하는 핵심 모델
- Modality Decoder: LLM의 출력을 각 모달리티의 원본 형태로 변환
- Alignment Module: 서로 다른 모달리티 간의 의미적 정렬을 수행
1.3 왜 Omni Model이 중요한가
Omni Model의 등장이 중요한 이유는 단순히 기능적 통합을 넘어서 근본적인 아키텍처적 변화를 의미하기 때문이다.
파이프라인 방식의 한계: 기존에는 음성을 텍스트로 변환(ASR) -> LLM 처리 -> 텍스트를 음성으로 변환(TTS)하는 캐스케이드 방식을 사용했다. 이 방식은 변환 단계마다 정보 손실이 발생하고, 음성의 감정, 억양 등 비언어적 정보가 소실되며, 단계별 지연시간이 누적된다.
End-to-End Omni Model의 장점: 반면 GPT-4o와 같은 네이티브 멀티모달 모델은 음성 입력을 직접 처리하여 음성 출력을 생성한다. 이를 통해 부언어적 단서(paralinguistic cues)를 보존하고, 실시간 대화를 가능하게 하며, 모달리티 간 풍부한 상호작용을 구현한다.
2. 핵심 Omni Models 심층 분석
2.1 GPT-4o (OpenAI)
개요
2024년 5월 13일, OpenAI는 GPT-4o ("o"는 "omni"를 의미)를 공개했다. GPT-4o는 텍스트, 이미지, 오디오를 네이티브하게 처리하고 생성할 수 있는 최초의 상용 End-to-End 멀티모달 모델이다.
아키텍처
GPT-4o는 통합 Decoder-only Transformer 아키텍처를 사용한다. 핵심 설계 원칙은 다음과 같다.
- Unified Embedding Space: 텍스트, 이미지, 오디오(파형/음성)가 단일 공유 임베딩 공간으로 인코딩된다
- Modality-Agnostic Weights: 모달리티에 관계없이 동일한 가중치를 사용하여 처리한다
- Cross-Modal Attention: 공통 시퀀스 처리 스택을 통해 크로스-모달 어텐션을 수행한다
훈련 방식
GPT-4o의 차별점은 End-to-End 훈련에 있다. 별도의 시스템을 조합하는 대신, 하나의 신경망이 여러 모달리티를 동시에 이해하고 생성하도록 훈련되었다. 이를 통해:
- 실시간 음성 상호작용: 중간 텍스트 표현 없이 오디오 입력에서 직접 오디오 출력을 생성
- 감정/억양 보존: 부언어적 단서를 유지하면서 대화
- 응답 속도: GPT-4 Turbo 대비 약 2-3배 빠른 처리 속도 (~110 tokens/sec)
제한 사항
GPT-4o의 구체적인 아키텍처 세부사항과 학습 데이터는 공개되지 않았다. OpenAI는 2024년 8월에 GPT-4o System Card를 발표했지만, 안전성 평가에 초점을 맞추었으며 아키텍처 세부사항은 비공개로 유지하고 있다.
2.2 Gemini (Google DeepMind)
모델 계보
| 모델 | 발표 시기 | 핵심 특징 | arXiv |
|---|---|---|---|
| Gemini 1.0 (Ultra/Pro/Nano) | 2023.12 | 최초의 네이티브 멀티모달 모델 | 2312.11805 |
| Gemini 1.5 (Pro/Flash) | 2024.02 | 1M+ 토큰 컨텍스트 윈도우 | 2403.05530 |
| Gemini 2.0 (Flash) | 2024.12 | 네이티브 이미지/오디오 출력, 에이전트 기능 | - |
| Gemini 2.5 (Pro/Flash) | 2025.03 | 고급 추론, 멀티모달리티, 에이전트 | - |
Gemini 1.0 아키텍처
Gemini 1.0은 통합 Decoder-only Transformer 아키텍처를 기반으로 하며, 텍스트, 이미지, 오디오, 비디오를 네이티브하게 처리한다.
핵심 기술적 접근:
- 단일 토큰 스트림: 모든 입력 모달리티(텍스트, 이미지, 오디오, 비디오)가 모달리티 마커와 함께 단일 토큰 스트림으로 변환
- 이미지 데이터의 이산화: VQ-VAE와 유사한 방식으로 이미지를 이산 토큰으로 변환
- 오디오 데이터: USM(Universal Speech Model) 피처를 활용하여 오디오를 임베딩
- 통합 Transformer Decoder: 토큰 타입에 관계없이 causal self-attention을 적용
학습 데이터
Gemini의 학습 데이터셋은 멀티모달이자 다국어로 구성되어 있다.
- 웹 문서, 도서, 코드를 포함한 텍스트 데이터
- 이미지, 오디오, 비디오 데이터
- Google의 TPU가 Gemini 2.0의 100% 훈련 및 추론을 지원
Gemini 1.5의 혁신
Gemini 1.5 Pro는 아키텍처 전반에 걸친 개선(architecture, data, optimization, systems)을 통해 최대 1천만 토큰의 컨텍스트 윈도우를 지원하며, 성능 저하 없이 장문 컨텍스트를 이해할 수 있다. Gemini 1.0 Ultra와 비슷한 품질을 달성하면서도 훈련 컴퓨트를 크게 절감했다.
Gemini 2.0의 진화
Gemini 2.0은 네이티브 이미지 및 오디오 출력과 네이티브 도구 사용 지원을 도입하여, 구조적으로 에이전트 기반 응용에 최적화된 모델이다. 정제된 아키텍처 설계와 새로운 최적화 방법을 통해 훈련 안정성과 계산 효율성이 크게 향상되었다.
2.3 Chameleon (Meta)
개요
Chameleon은 Meta AI(FAIR)에서 개발한 Early-Fusion Token-based Mixed-Modal Foundation Model로, 이미지와 텍스트를 임의의 시퀀스로 이해하고 생성할 수 있다.
핵심 아키텍처
Chameleon의 가장 큰 특징은 Early Fusion 접근 방식이다.
- 모든 모달리티를 토큰으로 통합: 이미지도 텍스트와 동일한 방식으로 이산 토큰으로 변환
- 이미지 토크나이저: 이미지를 1024개의 이산 토큰으로 변환하는 image tokenizer 사용 (8192 codebook size)
- 단일 Transformer: 텍스트와 이미지 토큰을 구분 없이 동일한 Transformer로 처리
- Autoregressive 생성: 텍스트와 이미지 모두 next-token prediction으로 생성
학습 데이터 및 안정성
Chameleon은 대규모 학습을 위해 특별한 안정화 기법을 개발했다.
- 학습 데이터 규모: 약 4.4조(trillion) 토큰 (텍스트, 이미지, 이미지-텍스트 쌍, interleaved 데이터)
- 2단계 학습: Pre-training과 alignment의 2단계로 구성
- 안정적 학습을 위한 기법: QK-Norm, z-loss regularization, dropout 등 early-fusion 환경에 맞춘 아키텍처 파라미터화
성능
- Visual Question Answering, Image Captioning에서 SOTA 성능
- 텍스트 전용 작업에서 Llama-2를 능가하고 Mixtral 8x7B, Gemini-Pro와 경쟁적 성능
- 단일 모델로 이미지 생성까지 수행
논문: "Chameleon: Mixed-Modal Early-Fusion Foundation Models" (arXiv:2405.09818, May 2024)
2.4 Transfusion (Meta)
핵심 아이디어
Transfusion은 Language Modeling Loss(Next Token Prediction)와 Diffusion을 단일 Transformer에서 결합하는 혁신적인 접근 방식이다. 이산적(텍스트)과 연속적(이미지) 데이터를 동일한 모델에서 처리하는 "레시피"를 제안한다.
아키텍처
- 텍스트: 기존 LLM처럼 next-token prediction loss 사용
- 이미지: 연속적 잠재 표현에 대해 diffusion loss 사용
- Mixed-modality 시퀀스: 텍스트 토큰과 이미지 패치가 혼재된 시퀀스를 단일 Transformer로 처리
- Modality-specific 인코딩/디코딩 레이어: 성능 향상을 위한 모달리티별 특화 레이어 도입
학습 및 확장성
- 최대 7B 파라미터 모델을 처음부터(from scratch) 사전학습
- 2T 멀티모달 토큰에 대한 학습
- 이미지를 16개 패치만으로 압축 가능
- 이산 이미지 토큰 기반 모델 대비 현저히 우수한 스케일링 법칙
핵심 결론
Transfusion은 이미지를 양자화(quantize)하여 이산 토큰으로 학습하는 방식보다 확장성(scaling)이 크게 우수하다는 것을 실험적으로 증명했다. 7B 모델에서 유사 규모의 diffusion 모델 및 language model과 동등한 성능을 달성한다.
논문: "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model" (arXiv:2408.11039, Aug 2024)
2.5 NExT-GPT
개요
NExT-GPT는 Any-to-Any Multimodal LLM의 선구적 연구로, LLM을 멀티모달 어댑터와 다양한 diffusion 디코더에 연결하여 텍스트, 이미지, 비디오, 오디오의 임의 조합을 입출력할 수 있다.
아키텍처 구성
[입력] → ImageBind Encoder → Projection Layer → LLM (Vicuna-7B) → Output Projection → Diffusion Decoder → [출력]
- 입력 인코더: ImageBind를 사용하여 다양한 모달리티에서 피처 추출
- Projection Layers: 각 모달리티의 피처를 LLM 공간으로 매핑
- LLM 백본: Vicuna 7B-v0 사용
- 출력 디코더:
- Stable Diffusion: 이미지 합성
- Zeroscope: 비디오 합성
- AudioLDM: 오디오 합성
학습 전략
NExT-GPT는 3단계 학습을 수행한다.
- Multimodal Encoding Alignment: ImageBind 피처와 LLM 입력 공간 정렬
- Multimodal Decoding Alignment: LLM 출력과 diffusion 디코더 입력 공간 정렬
- Instruction Tuning: 멀티모달 명령-응답 데이터로 미세조정
논문: "NExT-GPT: Any-to-Any Multimodal LLM" (arXiv:2309.05519, Sep 2023)
2.6 CoDi / CoDi-2
CoDi: Composable Diffusion
CoDi(Composable Diffusion)는 임의의 입력 모달리티 조합으로부터 임의의 출력 모달리티 조합을 생성할 수 있는 생성 모델이다.
핵심 기술:
- Composable Generation Strategy: 서로 다른 모달리티의 diffusion 프로세스를 조합하여 동기화된 생성
- Bridged Alignment: 공유 멀티모달 공간을 구축하여 cross-modal 정렬을 diffusion 과정에서 수행
- 병렬 생성: 여러 모달리티를 동시에 생성 가능
- 텍스트, 이미지, 비디오, 오디오 간 자유로운 조합
논문: "Any-to-Any Generation via Composable Diffusion" (arXiv:2305.11846, NeurIPS 2023)
CoDi-2: In-Context Any-to-Any
CoDi-2는 CoDi를 확장하여 In-Context Learning, Interleaved 입출력, 대화형 생성을 지원한다.
- LLM의 추론 능력을 활용한 멀티모달 in-context 학습
- 텍스트, 비전, 오디오를 포함하는 interleaved 멀티모달 명령어 이해
- 연속 피처 공간에서의 autoregressive 멀티모달 생성
- Subject-driven 이미지 생성, 비전 변환, 오디오 편집 등에서 기존 도메인 특화 모델 능가
논문: "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation" (arXiv:2311.18775, CVPR 2024)
2.7 Unified-IO / Unified-IO 2
Unified-IO 2
Unified-IO 2는 이미지, 텍스트, 오디오, 액션을 이해하고 생성할 수 있는 최초의 autoregressive 멀티모달 모델이다.
아키텍처
- Encoder-Decoder Transformer: 다양한 모달리티의 입력을 인코더로 처리하고, 디코더에서 이산 토큰을 생성
- 통합 토크나이제이션: 이미지, 텍스트, 오디오, 바운딩 박스 등을 공유 의미 공간으로 토큰화
- 2D Rotary Embedding: 이미지에 적합한 2차원 회전 임베딩
- QK Normalization: 학습 안정성을 위한 Query-Key 정규화
- Scaled Cosine Attention: Perceiver Resampler에 적용
- Dynamic Packing: 가변 길이 시퀀스 처리를 위한 효율적 구현 (4배 훈련 처리량 증가)
학습 데이터 (7B 모델 기준)
| 데이터 유형 | 규모 |
|---|---|
| Image-Text Pairs | 10억 쌍 |
| Text Tokens | 1조 토큰 |
| Video Clips | 1.8억 개 |
| Interleaved Image & Text | 1.3억 개 |
| 3D Assets | 300만 개 |
| Agent Trajectories | 100만 개 |
논문: "Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action" (arXiv:2312.17172, Dec 2023)
2.8 Janus / Janus-Pro (DeepSeek)
Janus: Decoupled Visual Encoding
Janus의 핵심 혁신은 **시각적 인코딩의 분리(Decoupling)**에 있다.
문제 인식: 멀티모달 이해(understanding)와 생성(generation)은 서로 다른 수준의 정보 세분성(granularity)을 필요로 한다. 단일 시각 인코더를 사용하면 두 작업 모두에서 최적이 아닌 성능을 보인다.
해결책: 시각적 인코딩을 별도의 경로(pathway)로 분리하되, 처리는 단일 통합 Transformer 아키텍처를 사용한다.
- 이해 경로: 고수준 의미 정보를 추출하는 인코더 (예: SigLIP)
- 생성 경로: 세밀한 시각 정보를 생성하는 VQ 토크나이저
- 통합 처리: 하나의 autoregressive Transformer에서 두 경로를 모두 처리
논문: "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation" (arXiv:2410.13848, CVPR 2025)
Janus-Pro
Janus-Pro는 Janus의 개선 버전으로 다음을 포함한다.
- 최적화된 학습 전략: 더 효과적인 multi-stage 학습
- 확장된 학습 데이터: 이해와 생성 모두에서 데이터 규모 확대
- 모델 스케일링: 1B, 7B 모델로 확장성 검증
논문: "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling" (arXiv:2501.17811, Jan 2025)
2.9 Emu Series (BAAI)
Emu: Generative Pretraining in Multimodality
Emu는 멀티모달 컨텍스트에서 이미지와 텍스트를 자연스럽게 생성할 수 있는 Transformer 기반 멀티모달 파운데이션 모델이다.
논문: "Emu: Generative Pretraining in Multimodality" (arXiv:2307.05222, Jul 2023)
Emu2: Generative Multimodal In-Context Learning
Emu2는 37B 파라미터의 생성형 멀티모달 모델로, 통합 autoregressive 목표 함수를 사용하여 대규모 멀티모달 시퀀스에서 학습한다.
핵심 특성:
- 멀티모달 In-Context Learning: Visual Prompting, Object-grounded 생성 등 추론이 필요한 작업 수행
- Unified Autoregressive Objective: 텍스트와 이미지를 동일한 autoregressive 방식으로 학습
논문: "Generative Multimodal Models are In-Context Learners" (arXiv:2312.13286, Dec 2023)
Emu3: Next-Token Prediction is All You Need
Emu3는 Emu 시리즈의 집대성으로, 오직 Next-Token Prediction만으로 멀티모달 이해와 생성을 달성한다.
혁신적 접근:
- 통합 토큰화: 이미지, 텍스트, 비디오를 이산 공간으로 토큰화
- 단일 Transformer: 처음부터(from scratch) 혼합 멀티모달 시퀀스에서 학습
- Diffusion 불필요: 전통적인 diffusion이나 compositional 아키텍처 없이 순수한 autoregressive 방식
- 비디오 생성: Next-token prediction으로 고품질 비디오 생성 가능
성능: SDXL, LLaVA-1.6 등 task-specific 모델을 능가하는 성능
논문: "Emu3: Next-Token Prediction is All You Need" (arXiv:2409.18869, Sep 2024)
2.10 Show-o
개요
Show-o는 단일 Transformer로 멀티모달 이해와 생성을 통합하는 모델이다. 완전 autoregressive 모델과 달리, autoregressive와 (이산) diffusion 모델링을 통합하여 다양한 모달리티를 적응적으로 처리한다.
Omni-Attention 메커니즘
Show-o의 핵심은 Omni-Attention 메커니즘이다.
- 텍스트 토큰: Causal Attention으로 처리 (좌-우 순차적)
- 이미지 토큰: Full Attention으로 처리 (모든 토큰 간 상호작용)
- 적응적 혼합: 입력 시퀀스의 형식에 따라 어텐션 방식을 자동 전환
성능 및 효율성
- 이미지 autoregressive 생성 대비 약 20배 적은 샘플링 스텝 필요
- 동일 또는 더 큰 파라미터 수의 task-specific 모델과 동등하거나 우수한 성능
- 1.3B 파라미터로 SDXL(2.6B), SD3(2B) 등과 비교 가능한 성능
논문: "Show-o: One Single Transformer to Unify Multimodal Understanding and Generation" (arXiv:2408.12528, Aug 2024)
2.11 SEED / SEED-X
SEED-LLaMA
SEED 시리즈는 Image Tokenizer를 통해 LLM에 시각적 이해와 생성 능력을 동시에 부여하는 연구이다.
핵심 통찰:
- 이미지 토큰은 2D 물리적 패치 위치에 독립적이어야 하며, 1D causal dependency로 생성되어야 한다
- 이를 통해 LLM의 좌-우 autoregressive 예측 메커니즘과 자연스럽게 정렬
논문: "Making LLaMA SEE and Draw with SEED Tokenizer" (arXiv:2310.01218, ICLR 2024)
SEED-X
SEED-X는 다중 세분성(multi-granularity) 시각 의미론을 모델링하는 통합 파운데이션 모델이다.
- 임의 크기/비율 이미지 이해: Dynamic resolution 지원
- 다중 세분성 이미지 생성: 고수준 명령적 이미지 생성과 저수준 이미지 조작 모두 지원
- 멀티턴 대화: 이미지, 텍스트, 바운딩 박스를 포함한 응답 생성
논문: "SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation" (arXiv:2404.14396, Apr 2024)
2.12 4M / 4M-21
4M: Massively Multimodal Masked Modeling
4M은 EPFL에서 개발한 멀티모달 학습 프레임워크로, Masked Modeling 목표 함수를 통해 다양한 모달리티를 통합 학습한다.
핵심 접근:
- 모든 모달리티를 이산 토큰으로 매핑: 텍스트, 이미지, 기하학적 모달리티, 의미적 모달리티, 신경망 피처 맵 등
- Masked Modeling: 토큰의 소규모 무작위 부분집합에 대해 마스킹 후 예측
- Encoder-Decoder Transformer: 통합 인코더-디코더 구조
논문: "4M: Massively Multimodal Masked Modeling" (arXiv:2312.06647, NeurIPS 2023)
4M-21: An Any-to-Any Vision Model
4M-21은 4M의 확장으로, 21가지 모달리티와 태스크를 지원한다.
- 4M-7 대비 3배 더 많은 태스크를 해결하면서도 기존 성능 유지
- 대규모 텍스트 코퍼스와 공동 학습하여 텍스트 이해 능력 강화
- NeurIPS 2024에 채택
논문: "4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities" (NeurIPS 2024)
2.13 OmniGen
개요
OmniGen은 통합 이미지 생성 모델로, ControlNet이나 IP-Adapter 같은 추가 모듈 없이 다양한 이미지 생성 작업을 수행한다.
아키텍처
- VAE + Large Transformer: Variational Autoencoder로 시각 피처를 추출하고, 사전학습된 대형 Transformer로 이미지 생성
- 통합 조건 처리: 텍스트, 참조 이미지, 구조 조건 등을 별도의 플러그인 없이 처리
- Knowledge Transfer: 서로 다른 태스크 간 지식 전이가 자연스럽게 발생
지원 태스크
- Text-to-Image 생성
- 이미지 편집
- Subject-driven 생성
- Visual-conditional 생성
- 미확인(unseen) 태스크 및 도메인에 대한 일반화
논문: "OmniGen: Unified Image Generation" (arXiv:2409.11340, Sep 2024)
2.14 AnyGPT
개요
AnyGPT는 이산 시퀀스 모델링을 통한 통합 Any-to-Any 멀티모달 LLM이다. 음성, 텍스트, 이미지, 음악을 이해하고 생성할 수 있다.
핵심 접근
- 이산 표현으로 통합: 멀티모달 토크나이저를 사용하여 이미지, 오디오 등의 원본 데이터를 이산 의미 토큰 시퀀스로 압축
- Language Model 프레임워크: 모든 모달리티를 이산 토큰으로 변환 후 LLM의 next-token prediction으로 학습
- AnyInstruct-108k 데이터셋: 생성형 AI를 활용하여 합성된 108K 멀티턴 대화 데이터
성능
이산 표현만으로도 여러 모달리티를 효과적이고 편리하게 Language Model 내에서 통합할 수 있음을 증명한다.
논문: "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling" (arXiv:2402.12226, ACL 2024)
2.15 AnyMAL (Meta)
개요
AnyMAL(Any-Modality Augmented Language Model)은 텍스트, 이미지, 비디오, 오디오, IMU 모션 센서 등 다양한 모달리티의 입력 신호를 추론하고 텍스트 응답을 생성하는 모델이다.
아키텍처
- LLM 백본: Llama-3 (70B) 등 최신 LLM의 강력한 텍스트 추론 능력을 계승
- Pre-trained Aligner Module: 모달리티별 신호를 텍스트 공간으로 변환
- Lightweight Adaptor: 각 모달리티에 대한 경량 어댑터를 통한 효율적 정렬
성능
- VQAv2에서 +7.0% 상대적 정확도 향상
- Zero-shot COCO Image Captioning에서 +8.4% CIDEr 향상
- AudioCaps에서 +14.5% CIDEr 향상
논문: "AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model" (arXiv:2309.16058, EMNLP 2024 Industry Track)
2.16 Qwen2.5-Omni (Alibaba)
개요
Qwen2.5-Omni는 Alibaba에서 개발한 End-to-End 멀티모달 모델로, 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 동시에 생성한다.
핵심 혁신
TMRoPE (Time-aligned Multimodal RoPE): 서로 다른 모달리티 간의 시간적 정렬을 위한 새로운 위치 임베딩 방식
Thinker-Talker 아키텍처: 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하는 이중 구조
- Thinker: 멀티모달 입력을 처리하고 텍스트 응답을 생성
- Talker: Thinker의 출력을 기반으로 실시간 음성을 생성
성능
End-to-End 음성 명령 수행 능력이 텍스트 입력과 비교 가능한 수준이다. MMLU, GSM8K 등의 벤치마크에서 검증되었다.
논문: "Qwen2.5-Omni Technical Report" (arXiv:2503.20215, Mar 2025)
2.17 기타 주목할 모델들 (2024-2025)
VITA
VITA는 비디오, 이미지, 텍스트, 오디오를 동시에 처리하는 오픈소스 Interactive Omni MLLM이다.
- LLM 백본: Mixtral 8x7B
- 2단계 학습: 멀티모달 정렬 → 명령어 튜닝
- Non-awakening Interaction: 웨이크워드 없이 사용자 음성에 반응
논문: "VITA: Towards Open-Source Interactive Omni Multimodal LLM" (arXiv:2408.05211, Aug 2024)
Baichuan-Omni
7B 규모의 오픈소스 Omni-Modal MLLM으로, 이미지, 비디오, 오디오, 텍스트를 동시에 처리한다.
논문: "Baichuan-Omni Technical Report" (arXiv:2410.08565, Oct 2024)
Mini-Omni
최초의 완전 End-to-End 오픈소스 실시간 음성 상호작용 모델이다.
- Text-instructed Speech Generation 방법 제안
- VoiceAssistant-400K 데이터셋 공개
- Batch-parallel 추론 전략으로 성능 최적화
논문: "Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming" (arXiv:2408.16725, Aug 2024)
OneLLM
8가지 모달리티를 언어와 정렬하는 통합 프레임워크이다.
- Universal Projection Module (UPM): 여러 이미지 프로젝션 모듈을 혼합한 동적 라우팅
- Progressive Alignment Pipeline: 점진적으로 더 많은 모달리티를 LLM에 정렬
- 이미지, 오디오, 비디오, 포인트 클라우드, Depth, Normal Map, IMU, fMRI 등 8가지 모달리티
- 2M 항목의 멀티모달 명령어 데이터셋
논문: "OneLLM: One Framework to Align All Modalities with Language" (arXiv:2312.03700, CVPR 2024)
Llama 4 (Meta)
2025년 4월, Meta는 Llama 4 Scout/Maverick을 공개했다.
- MoE 아키텍처: 17B active parameters, 128 routed experts + shared expert
- 네이티브 멀티모달: 텍스트, 이미지, 비디오 프레임을 Early Fusion으로 처리
- 10M 토큰 컨텍스트: Llama 4 Scout에서 업계 최고 수준의 컨텍스트 윈도우
- GPT-4o, Gemini 2.0 Flash를 능가하는 벤치마크 성능 (멀티모달 클래스 내)
ImageBind (Meta)
ImageBind는 Omni Model의 핵심 인프라 중 하나로, 6가지 모달리티를 단일 임베딩 공간에 결합한다.
- 이미지, 텍스트, 오디오, 깊이, 열화상, IMU 데이터
- Binding Property: 이미지를 매개로 각 모달리티의 임베딩을 정렬하면, 모든 모달리티 간 자발적 정렬(emergent alignment) 발생
- NExT-GPT 등 여러 Omni Model의 입력 인코더로 활용
논문: "ImageBind: One Embedding Space To Bind Them All" (arXiv:2305.05665, CVPR 2023)
3. 학습 데이터 분석
3.1 주요 모델별 학습 데이터 비교
Omni Model의 성능은 학습 데이터의 규모, 다양성, 품질에 크게 좌우된다. 아래 표는 공개된 정보를 기준으로 주요 모델의 학습 데이터를 비교한다.
| 모델 | 텍스트 데이터 | Image-Text 쌍 | 비디오 데이터 | 오디오 데이터 | 총 토큰 규모 | 데이터 공개 |
|---|---|---|---|---|---|---|
| GPT-4o | 비공개 | 비공개 | 비공개 | 비공개 | 비공개 | X |
| Gemini 1.0 | 웹, 도서, 코드 | 포함 | 포함 | 포함 | 비공개 | X |
| Chameleon | 웹 텍스트 | Image-Text 쌍 | - | - | ~4.4T 토큰 | 부분 |
| Unified-IO 2 | 1T 토큰 | 10억 쌍 | 1.8억 클립 | 포함 | ~1T+ | O |
| Emu3 | 혼합 텍스트 | 혼합 이미지 | 혼합 비디오 | - | 비공개 | 부분 |
| NExT-GPT | 명령어 데이터 | 정렬 데이터 | 정렬 데이터 | 정렬 데이터 | 비교적 소규모 | O |
| AnyGPT | AnyInstruct-108k | 합성 데이터 | - | 합성 데이터 | 소규모 | O |
| Qwen2.5-Omni | 대규모 웹 | 포함 | 포함 | 포함 | 비공개 | 부분 |
| Baichuan-Omni | 고품질 Omni 데이터 | 포함 | 포함 | 포함 | 비공개 | 부분 |
3.2 Text Corpora
Omni Model의 텍스트 학습 데이터는 기존 LLM의 학습 데이터를 기반으로 한다.
주요 텍스트 데이터 소스:
- Common Crawl: 웹 크롤링 기반 대규모 텍스트 (수조 토큰)
- Wikipedia: 다국어 백과사전 텍스트
- Books: 도서 전문 텍스트
- Code: GitHub 등의 프로그래밍 코드
- ArXiv: 학술 논문 (수학, 과학, 컴퓨터 과학)
- StackExchange: Q&A 기반 기술 텍스트
3.3 Image-Text Pairs
| 데이터셋 | 규모 | 특징 |
|---|---|---|
| LAION-5B | 58.5억 쌍 | CLIP 필터링된 웹 크롤링 이미지-텍스트 쌍 |
| LAION-400M | 4억 쌍 | LAION-5B의 전신 |
| CommonPool | 128억 쌍 | DataComp 벤치마크의 기반 데이터, LAION-5B의 2.5배 |
| COYO-700M | 7억 쌍 | Kakao Brain의 이미지-텍스트 쌍 데이터 |
| WebLI | 비공개 규모 | Google 내부 웹 이미지-텍스트 데이터 (Gemini 학습에 사용) |
| JFT-3B | 30억 이미지 | Google 내부 다중 레이블 분류 데이터 |
| CC12M | 1200만 쌍 | Conceptual Captions 데이터셋 |
3.4 Video Data
비디오 데이터는 Omni Model의 시간적 이해와 생성 능력에 핵심적이다.
- WebVid-10M: 1000만 개의 비디오-텍스트 쌍 (Frozen in Time 논문)
- InternVid: 약 7백만 개의 비디오-텍스트 쌍
- HD-VILA-100M: 1억 개의 비디오-텍스트 쌍
- Panda-70M: 7000만 개의 고품질 비디오-캡션 쌍
3.5 Audio Data
- AudioCaps: 약 46,000개의 오디오-캡션 쌍
- AudioSet: 약 200만 개의 오디오 클립 (10초, 527개 레이블)
- LibriSpeech: 약 1,000시간의 영어 음성
- WavCaps: 약 40만 개의 오디오-캡션 쌍
- VoiceAssistant-400K: Mini-Omni 학습용 합성 음성 데이터
3.6 Data Curation과 Synthetic Data
데이터 큐레이션 방법
최근 Omni Model 학습에서는 데이터 품질이 규모 못지않게 중요하다는 인식이 확산되고 있다.
- CLIP Score 필터링: 이미지-텍스트 쌍의 의미적 일치도를 CLIP 점수로 평가하여 저품질 데이터 제거
- Deduplication: 중복 데이터 제거를 통한 학습 효율성 향상
- Safety Filtering: 유해 콘텐츠(NSFW, 편향, 개인정보 등) 필터링
- Language Identification: 다국어 데이터의 언어 식별 및 분류
Synthetic Data 활용
- DALL-E 3의 캡션 개선: OpenAI는 기존 이미지-텍스트 데이터의 캡션을 LLM으로 재생성하여 학습 데이터 품질을 크게 향상시켰다
- AnyGPT의 AnyInstruct-108k: 생성형 AI를 활용하여 멀티턴 멀티모달 대화 데이터를 합성
- Recaptioning: 기존 이미지의 캡션을 더 상세하고 정확한 설명으로 교체하는 기법
4. 핵심 학습 방법론
4.1 Early Fusion vs Late Fusion
Omni Model 설계에서 가장 근본적인 아키텍처 결정은 모달리티 융합(fusion) 시점이다.
Early Fusion
정의: 서로 다른 모달리티의 데이터를 입력 단계에서 결합하여 단일 모델로 처리하는 방식
장점:
- 학습 초기부터 모달리티 간 상호작용 학습 가능
- 더 풍부하고 세밀한 cross-modal 표현 학습
- 별도의 모달리티별 처리가 불필요하여 계산 비용 절감 가능
단점:
- 고차원 피처 공간 → 차원의 저주(curse of dimensionality)
- 학습 안정성 문제 (Chameleon에서 특별한 안정화 기법 필요)
- 대규모 데이터 필요
대표 모델: Chameleon, GPT-4o, Gemini, Emu3
Late Fusion
정의: 각 모달리티를 독립적으로 처리한 후, 예측 단계에서 결합하는 방식
장점:
- 결측 데이터에 대한 강건성
- 모달리티별 독립적 최적화 가능
- 기존 단일 모달리티 모델 재활용 가능
단점:
- 모달리티 간 상호작용을 학습하지 못함
- 복잡한 cross-modal 추론에 제한
대표 모델: NExT-GPT, CoDi
Intermediate Fusion (하이브리드)
최근에는 Early Fusion과 Late Fusion의 장점을 결합한 Intermediate Fusion이 주류로 부상하고 있다.
- Janus: 이해와 생성에 서로 다른 인코딩 경로를 사용하되, 하나의 Transformer에서 통합 처리
- Show-o: Omni-Attention으로 텍스트(Causal)와 이미지(Full) 어텐션을 적응적으로 전환
- Transfusion: 텍스트에는 LM Loss, 이미지에는 Diffusion Loss를 동일 모델에서 적용
| 융합 방식 | Cross-Modal 학습 | 결측 데이터 강건성 | 학습 안정성 | 구현 복잡도 |
|---|---|---|---|---|
| Early Fusion | 매우 우수 | 낮음 | 어려움 | 낮음 |
| Late Fusion | 불가 | 매우 우수 | 쉬움 | 높음 |
| Intermediate Fusion | 우수 | 중간 | 중간 | 중간 |
4.2 토큰화 전략 (Tokenization Strategies)
멀티모달 모델에서 서로 다른 모달리티를 통합 처리하기 위한 핵심은 토큰화이다.
텍스트 토큰화
- BPE(Byte Pair Encoding), SentencePiece 등 기존 LLM 토크나이저 활용
- Vocabulary 크기: 32K ~ 128K+ 토큰
이미지 토큰화: Discrete vs Continuous
이산 토큰화 (Discrete Tokenization):
VQ-VAE(Vector Quantized Variational AutoEncoder) 기반으로 이미지를 이산 코드북의 인덱스 시퀀스로 변환한다.
| 방법 | Codebook 크기 | 토큰 수/이미지 | 사용 모델 |
|---|---|---|---|
| VQGAN | 8192 | 256~1024 | Chameleon, Emu3 |
| FSQ (Finite Scalar Quantizer) | 가변 | 가변 | OmniJARVIS |
| RQ-VAE (Residual Quantization) | 가변 | 가변 | SEED |
| dVAE | 8192 | 1024 | DALL-E |
장점: LLM의 이산 토큰 처리 파이프라인과 자연스럽게 통합, 통합 vocabulary 가능 단점: 양자화로 인한 정보 손실, 높은 fidelity의 이미지 재구성 어려움
연속 표현 (Continuous Representation):
이미지를 연속적인 임베딩 벡터로 인코딩하며, Diffusion 과정을 통해 이미지를 생성한다.
| 방법 | 인코더 | 사용 모델 |
|---|---|---|
| VAE Latent | Stable Diffusion VAE | Transfusion, OmniGen |
| CLIP Features | CLIP ViT | LLaVA, BLIP-2 |
| SigLIP Features | SigLIP ViT | Janus (이해 경로) |
| DINOv2 Features | DINOv2 ViT | 4M-21 |
장점: 정보 손실 최소화, 고품질 이미지 생성 가능 단점: LLM의 이산 토큰 체계와 직접 통합이 어려움, 별도의 디퓨전 프로세스 필요
오디오 토큰화
| 방법 | 특징 | 사용 모델 |
|---|---|---|
| EnCodec | Meta의 신경 오디오 코덱, 이산 토큰 | AnyGPT |
| SpeechTokenizer | 의미와 음향을 분리한 토큰화 | AnyGPT |
| USM Features | Google의 Universal Speech Model | Gemini |
| Whisper Features | OpenAI의 음성 인식 모델 피처 | Mini-Omni |
비디오 토큰화
비디오는 일반적으로 프레임 단위 이미지 토큰화 + 시간적 토큰화의 조합으로 처리된다.
- 프레임 샘플링 + 이미지 토크나이저: 일정 간격으로 프레임을 추출하고 각각을 이미지로 토큰화
- 3D 토크나이저: 시공간(spatiotemporal) 정보를 함께 인코딩 (Emu3)
- Video VQVAE: 비디오 전용 벡터 양자화
4.3 Joint Training vs Modular Training
Joint Training (통합 학습)
모든 모달리티를 처음부터 함께 학습하는 방식이다.
- 장점: 모달리티 간 깊은 상호작용 학습, 단일 모델로 모든 태스크 수행
- 단점: 방대한 계산 자원 필요, 학습 안정성 확보 어려움
- 대표 모델: Chameleon, Gemini, Emu3, GPT-4o
Modular Training (모듈식 학습)
사전학습된 모달리티별 전문 모델을 LLM에 연결하고 정렬 학습을 수행하는 방식이다.
- 장점: 기존 모델 재활용, 적은 계산 자원, 유연한 모듈 교체
- 단점: 모달리티 간 상호작용의 깊이 제한, 파이프라인 복잡도
- 대표 모델: NExT-GPT, CoDi, AnyMAL
Multi-Stage Training (다단계 학습)
대부분의 Omni Model은 다단계 학습 전략을 채택한다.
| 단계 | 목적 | 학습 데이터 | 학습 가능 파라미터 |
|---|---|---|---|
| Stage 1: Pre-training | 기본 멀티모달 이해 | 대규모 Image-Text 쌍 | 전체 또는 프로젝터만 |
| Stage 2: Alignment | 모달리티 간 정렬 | 멀티모달 정렬 데이터 | 어댑터/프로젝터 |
| Stage 3: Instruction Tuning | 명령어 수행 능력 | 멀티모달 명령어-응답 | 전체 미세조정 |
| Stage 4: RLHF/DPO | 인간 선호도 정렬 | 선호도 데이터 | 전체 또는 일부 |
4.4 Alignment 기법
Contrastive Learning
CLIP에서 도입된 대조 학습은 이미지와 텍스트 임베딩을 공통 공간에서 정렬하는 기본 기법이다.
- InfoNCE Loss: 매칭된 쌍의 유사도를 높이고 비매칭 쌍의 유사도를 낮춤
- ImageBind의 Binding: 이미지를 매개로 6가지 모달리티를 간접적으로 정렬
Instruction Tuning
멀티모달 명령어-응답 데이터를 사용하여 모델이 다양한 멀티모달 작업을 수행하도록 미세조정한다.
Preference Optimization
RLHF(Reinforcement Learning from Human Feedback)나 DPO(Direct Preference Optimization)를 사용하여 인간 선호도에 맞는 출력을 생성하도록 학습한다.
4.5 Interleaved Multimodal Training
Interleaved(교차 배치) 멀티모달 학습은 텍스트와 이미지가 자연스럽게 혼재된 시퀀스에서 학습하는 방식이다.
VILA 논문에서는 다음과 같은 핵심 발견을 보고한다.
- LLM Freezing의 한계: Pre-training 중 LLM을 동결하면 decent한 zero-shot 성능은 얻지만, in-context learning 능력이 부족해진다. LLM의 동결을 해제해야 한다.
- Interleaved 데이터의 우월성: Image-Text 쌍만으로는 최적이 아니며, interleaved pre-training 데이터가 유익하다.
- 텍스트 데이터 재혼합: Instruction fine-tuning 시 텍스트 전용 데이터를 이미지-텍스트 데이터에 재혼합하면, 텍스트 태스크 성능 저하를 방지하면서 VLM 태스크 정확도도 향상된다.
4.6 Any-to-Any 생성 학습 전략
Any-to-Any 생성을 위한 학습 전략은 크게 세 가지로 분류된다.
1) Unified Autoregressive (통합 Autoregressive)
모든 모달리티를 이산 토큰으로 변환하고 단일 autoregressive 모델로 학습한다.
[텍스트 토큰1] [텍스트 토큰2] ... [이미지 토큰1] [이미지 토큰2] ... [오디오 토큰1] ...
- 대표 모델: Chameleon, Emu3, AnyGPT
- 장점: 아키텍처 단순성, 통합 학습
- 단점: 이미지 품질 제한 (이산 토큰화로 인한 정보 손실)
2) Hybrid (Token Prediction + Diffusion)
텍스트에는 autoregressive, 이미지에는 diffusion을 적용한다.
- 대표 모델: Transfusion, Show-o
- 장점: 각 모달리티에 최적의 학습 방식 적용, 높은 이미지 품질
- 단점: 아키텍처 복잡도 증가
3) LLM + External Decoders
LLM이 중간 표현을 생성하고, 외부 디코더(Diffusion Model 등)가 최종 출력을 생성한다.
- 대표 모델: NExT-GPT, CoDi, SEED-X
- 장점: 기존 고성능 모델 활용, 유연한 모듈 교체
- 단점: End-to-End 최적화 어려움, 파이프라인 지연
5. 아키텍처 비교
5.1 Encoder-Decoder vs Decoder-Only
| 특성 | Encoder-Decoder | Decoder-Only |
|---|---|---|
| 구조 | 인코더가 입력 처리, 디코더가 출력 생성 | 단일 디코더로 입출력 모두 처리 |
| 대표 모델 | Unified-IO 2, 4M/4M-21 | Chameleon, GPT-4o, Gemini, Emu3 |
| 장점 | 인코더에서 양방향 어텐션 가능, 입력 이해력 우수 | 아키텍처 단순성, 확장성, LLM과의 자연스러운 통합 |
| 단점 | 디코더 전용 대비 확장성 제한 | 양방향 컨텍스트 활용 제한 |
| 추세 | 점차 감소 | 주류로 부상 |
최근 트렌드는 확실히 Decoder-Only 아키텍처 쪽으로 수렴하고 있다. 이는 LLM 생태계와의 호환성, 아키텍처의 단순성, 그리고 충분한 규모에서의 성능 동등성에 기인한다.
5.2 모달리티별 인코더/디코더
| 모델 | 이미지 인코더 | 이미지 디코더 | 오디오 인코더 | 오디오 디코더 | 비디오 처리 |
|---|---|---|---|---|---|
| GPT-4o | 통합 (네이티브) | 통합 (네이티브) | 통합 (네이티브) | 통합 (네이티브) | 통합 |
| Gemini | 통합 (네이티브) | 통합 (네이티브) | USM 기반 | 통합 | 통합 |
| Chameleon | VQ Tokenizer | VQ Detokenizer | - | - | - |
| NExT-GPT | ImageBind | Stable Diffusion | ImageBind | AudioLDM | Zeroscope |
| CoDi | 모달리티별 | 모달리티별 Diffusion | 모달리티별 | 모달리티별 | 모달리티별 |
| Emu3 | SBER-MoVQGAN | SBER-MoVQGAN | - | - | 3D Tokenizer |
| Show-o | Phi-1.5 + Magvit-v2 | Magvit-v2 | - | - | - |
| Janus | SigLIP (이해) / VQ (생성) | VQ Decoder | - | - | - |
| Qwen2.5-Omni | 통합 | 통합 | Whisper 기반 | Talker 모듈 | TMRoPE |
5.3 통합 토크나이저 접근법
**통합 토크나이저(Unified Tokenizer)**는 모든 모달리티를 단일 vocabulary로 매핑하는 접근이다.
| 접근법 | 설명 | 대표 모델 |
|---|---|---|
| 공유 Vocabulary | 텍스트와 이미지 토큰이 동일 vocabulary 공간 | Chameleon, Emu3 |
| 확장 Vocabulary | 기존 텍스트 vocabulary에 이미지/오디오 토큰 추가 | AnyGPT, SEED-LLaMA |
| 별도 Vocabulary | 모달리티별 독립 vocabulary, 프로젝션으로 연결 | NExT-GPT, AnyMAL |
| 하이브리드 | 이해와 생성에 서로 다른 토큰화 전략 | Janus, Show-o |
5.4 Cross-Modal Attention 메커니즘
| 메커니즘 | 설명 | 대표 모델 |
|---|---|---|
| Causal Self-Attention | 모든 토큰에 동일한 causal 마스크 적용 | Chameleon, Emu3 |
| Omni-Attention | 텍스트에 causal, 이미지에 full attention 적용 | Show-o |
| Cross-Attention | 별도의 cross-modal attention 레이어 | Flamingo, BLIP-2 |
| Perceiver Resampler | 가변 길이 입력을 고정 길이로 압축 | Unified-IO 2 |
| TMRoPE | 시간 정렬된 멀티모달 위치 임베딩 | Qwen2.5-Omni |
| Dynamic Routing | 모달리티에 따라 동적으로 경로 선택 | OneLLM |
5.5 종합 아키텍처 비교표
| 모델 | 아키텍처 유형 | Fusion 방식 | 토큰화 | 학습 목표 | 모달리티 (I/O) | 파라미터 |
|---|---|---|---|---|---|---|
| GPT-4o | Decoder-only | Early | 네이티브 | 통합 | T,I,A → T,I,A | 비공개 |
| Gemini 1.5 | Decoder-only | Early | VQ+USM | 통합 | T,I,A,V → T | 비공개 |
| Chameleon | Decoder-only | Early | Discrete (VQ) | Next-Token | T,I → T,I | 7B/34B |
| Transfusion | Decoder-only | Early | Hybrid | NTP+Diffusion | T,I → T,I | 0.16B~7B |
| Emu3 | Decoder-only | Early | Discrete (VQ) | Next-Token | T,I,V → T,I,V | 8B |
| Show-o | Decoder-only | Intermediate | Hybrid | AR+Discrete Diff | T,I → T,I | 1.3B |
| NExT-GPT | Decoder-only + Decoders | Late | 연속 | LM+Diffusion | T,I,A,V → T,I,A,V | 7B+ |
| CoDi | Multi-Diffusion | Late | 연속 | Diffusion | T,I,A,V → T,I,A,V | - |
| Unified-IO 2 | Enc-Dec | Early | Discrete | Seq2Seq | T,I,A,V → T,I,A | 7B |
| Janus | Decoder-only | Intermediate | Decoupled | Next-Token | T,I → T,I | 1.3B/7B |
| AnyGPT | Decoder-only | Early | Discrete | Next-Token | T,I,A,Music → 동일 | 7B |
| 4M-21 | Enc-Dec | Early | Discrete (Tokenizer) | Masked Modeling | 21종 모달리티 | - |
| OmniGen | VAE+Transformer | - | 연속 (VAE) | Diffusion | T,I → I | - |
| Qwen2.5-Omni | Decoder-only (Thinker-Talker) | Early | 통합 | 통합 | T,I,A,V → T,A | 7B |
| SEED-X | Decoder-only | Intermediate | 다중 세분성 | AR+Diffusion | T,I → T,I | 17B |
| Llama 4 | Decoder-only (MoE) | Early | 네이티브 | Next-Token | T,I,V → T | 17B active (Scout) |
T: Text, I: Image, A: Audio, V: Video
6. 주요 논문 레퍼런스
6.1 핵심 Omni Model 논문
| # | 논문명 | 저자/기관 | 연도 | 핵심 기여 | 링크 |
|---|---|---|---|---|---|
| 1 | GPT-4 Technical Report | OpenAI | 2023 | 대규모 멀티모달 LLM의 기초 | arXiv:2303.08774 |
| 2 | GPT-4o System Card | OpenAI | 2024 | End-to-End 네이티브 멀티모달 모델 안전성 분석 | OpenAI |
| 3 | Gemini: A Family of Highly Capable Multimodal Models | Google DeepMind | 2023 | 네이티브 멀티모달 훈련, 30/32 벤치마크 SOTA | arXiv:2312.11805 |
| 4 | Gemini 1.5: Unlocking multimodal understanding across millions of tokens | Google DeepMind | 2024 | 10M 토큰 컨텍스트, MoE 아키텍처 | arXiv:2403.05530 |
| 5 | Chameleon: Mixed-Modal Early-Fusion Foundation Models | Meta AI (FAIR) | 2024 | Early-Fusion 토큰 기반 혼합 모달 모델 | arXiv:2405.09818 |
| 6 | Transfusion: Predict the Next Token and Diffuse Images with One Model | Meta AI | 2024 | Token Prediction + Diffusion 결합 | arXiv:2408.11039 |
| 7 | NExT-GPT: Any-to-Any Multimodal LLM | NUS | 2023 | LLM+Diffusion 기반 Any-to-Any 생성 | arXiv:2309.05519 |
| 8 | CoDi: Any-to-Any Generation via Composable Diffusion | UNC+Microsoft | 2023 | Composable Diffusion으로 Any-to-Any 생성 | arXiv:2305.11846 |
| 9 | CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation | UNC+Microsoft | 2024 | In-Context 멀티모달 생성 | arXiv:2311.18775 |
| 10 | Unified-IO 2: Scaling Autoregressive Multimodal Models | AI2 | 2023 | 최초의 통합 멀티모달 autoregressive 모델 | arXiv:2312.17172 |
| 11 | Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation | DeepSeek | 2024 | 시각 인코딩 분리로 이해/생성 통합 | arXiv:2410.13848 |
| 12 | Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling | DeepSeek | 2025 | Janus의 스케일링 및 최적화 | arXiv:2501.17811 |
| 13 | Emu: Generative Pretraining in Multimodality | BAAI | 2023 | 멀티모달 생성형 사전학습 | arXiv:2307.05222 |
| 14 | Emu2: Generative Multimodal Models are In-Context Learners | BAAI | 2023 | 37B 멀티모달 In-Context 학습 | arXiv:2312.13286 |
| 15 | Emu3: Next-Token Prediction is All You Need | BAAI | 2024 | 순수 Next-Token으로 멀티모달 통합 | arXiv:2409.18869 |
| 16 | Show-o: One Single Transformer to Unify Multimodal Understanding and Generation | ShowLab | 2024 | Omni-Attention, AR+Discrete Diffusion 통합 | arXiv:2408.12528 |
| 17 | OmniGen: Unified Image Generation | VectorSpaceLab | 2024 | 플러그인 없는 통합 이미지 생성 | arXiv:2409.11340 |
| 18 | 4M: Massively Multimodal Masked Modeling | EPFL | 2023 | Masked Modeling으로 다중 모달리티 통합 학습 | arXiv:2312.06647 |
| 19 | AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling | Fudan | 2024 | 이산 시퀀스로 Any-to-Any 통합 | arXiv:2402.12226 |
| 20 | AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model | Meta | 2023 | 효율적 모달리티 정렬, 5+모달리티 지원 | arXiv:2309.16058 |
6.2 인프라 및 기반 기술 논문
| # | 논문명 | 저자/기관 | 연도 | 핵심 기여 | 링크 |
|---|---|---|---|---|---|
| 21 | ImageBind: One Embedding Space To Bind Them All | Meta AI | 2023 | 6개 모달리티 통합 임베딩 공간 | arXiv:2305.05665 |
| 22 | SEED-LLaMA: Making LLaMA SEE and Draw with SEED Tokenizer | Tencent | 2023 | 1D Causal 이미지 토크나이저 | arXiv:2310.01218 |
| 23 | SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation | Tencent | 2024 | 다중 세분성 시각 이해 및 생성 | arXiv:2404.14396 |
| 24 | OneLLM: One Framework to Align All Modalities with Language | 중국과학기술대 외 | 2024 | 8개 모달리티 통합 정렬 프레임워크 | arXiv:2312.03700 |
| 25 | VILA: On Pre-training for Visual Language Models | NVIDIA | 2024 | 멀티모달 사전학습 레시피 | arXiv:2312.07533 |
6.3 Omni 음성/오디오 모델 논문
| # | 논문명 | 저자/기관 | 연도 | 핵심 기여 | 링크 |
|---|---|---|---|---|---|
| 26 | Qwen2.5-Omni Technical Report | Alibaba (Qwen) | 2025 | Thinker-Talker 아키텍처, TMRoPE | arXiv:2503.20215 |
| 27 | Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming | - | 2024 | 최초 End-to-End 오픈소스 실시간 음성 모델 | arXiv:2408.16725 |
| 28 | VITA: Towards Open-Source Interactive Omni Multimodal LLM | - | 2024 | Mixtral 기반 오픈소스 Omni LLM | arXiv:2408.05211 |
| 29 | Baichuan-Omni Technical Report | Baichuan | 2024 | 7B 오픈소스 Omni 모달 MLLM | arXiv:2410.08565 |
6.4 서베이 및 벤치마크 논문
| # | 논문명 | 저자/기관 | 연도 | 핵심 기여 | 링크 |
|---|---|---|---|---|---|
| 30 | From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities | - | 2024 | Omni-MLLM 종합 서베이 | arXiv:2412.11694 |
| 31 | Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities | - | 2025 | 통합 멀티모달 모델 서베이 | arXiv:2505.02567 |
| 32 | LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models | LAION | 2022 | 58.5억 이미지-텍스트 쌍 공개 데이터셋 | arXiv:2210.08402 |
| 33 | World Model on Million-Length Video And Language With Blockwise RingAttention | UC Berkeley | 2024 | 1M 토큰 비디오-언어 모델 | arXiv:2402.08268 |
| 34 | MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens | UC Santa Cruz | 2023 | Generative Vokens 기반 교차 생성 | arXiv:2310.02239 |
7. 미래 전망과 한계점
7.1 현재의 한계점
학습 데이터의 한계
모달리티 간 데이터 불균형: 텍스트 데이터는 수조 토큰 규모지만, 고품질 비디오-텍스트 쌍이나 오디오-텍스트 쌍은 상대적으로 부족하다. 이 불균형은 모델이 특정 모달리티에서 약한 성능을 보이는 원인이 된다.
Interleaved 멀티모달 데이터 부족: 텍스트와 이미지가 자연스럽게 교차된 대규모 학습 데이터의 확보가 어렵다. 실제 웹 데이터에서 추출할 수 있지만, 품질 필터링이 까다롭다.
멀티모달 정렬 데이터: 동일한 의미를 갖는 다양한 모달리티의 정렬된 데이터(예: 같은 장면의 텍스트 설명, 이미지, 오디오, 비디오)를 대규모로 확보하기 어렵다.
아키텍처적 한계
Understanding vs Generation 갈등: Janus 논문에서 지적한 것처럼, 멀티모달 이해와 생성은 서로 다른 수준의 정보 세분성을 필요로 한다. 단일 인코더로 두 작업을 모두 최적화하기 어렵다.
이산 토큰화의 정보 손실: VQ-VAE 기반 이산 토큰화는 이미지 품질에 제한을 가한다. Transfusion이 보여주듯, 이산 토큰보다 연속 표현이 확장성 면에서 유리할 수 있다.
계산 비용: 모든 모달리티를 네이티브하게 처리하는 Early Fusion 모델은 방대한 계산 자원을 필요로 한다. Chameleon의 경우 학습 안정성 확보를 위해 특별한 기법이 필요했다.
평가의 한계
통합 벤치마크 부재: 모든 모달리티의 이해와 생성을 동시에 평가할 수 있는 표준화된 벤치마크가 부족하다.
생성 품질 평가의 어려움: 이미지, 오디오, 비디오 생성 품질을 객관적으로 평가하는 것은 텍스트 평가보다 훨씬 복잡하다.
Cross-Modal 능력 평가: 모달리티 간 추론, 변환, 조합 능력을 체계적으로 평가하는 방법론이 미성숙하다.
7.2 연구 동향 및 미래 전망
단기 전망 (2025-2026)
Unified Tokenization의 진화: VQ-VAE를 넘어서는 새로운 시각 토크나이저의 등장이 예상된다. SoftVQ-VAE, VAEVQ 등 양자화 품질을 개선하는 연구가 활발하다.
실시간 Omni 상호작용: GPT-4o에서 시작된 실시간 멀티모달 상호작용이 오픈소스 생태계로 확산될 것이다. Qwen2.5-Omni, Mini-Omni 등이 이미 이 방향을 개척하고 있다.
효율적 Omni 모델: 경량 Omni 모델(3B 이하)의 개발이 가속화되어, 엣지 디바이스에서의 멀티모달 처리가 가능해질 것이다.
MoE 기반 Omni 모델: Llama 4에서 보여준 것처럼, Mixture-of-Experts 아키텍처를 통해 모달리티별 전문 expert를 활용하는 접근이 확산될 것이다.
중장기 전망 (2026-2028)
World Model로의 진화: Omni Model은 단순한 입출력 변환을 넘어, 세계에 대한 내부 모델을 구축하는 방향으로 진화할 것이다. LWM(Large World Model)처럼 백만 토큰 규모의 비디오를 이해하고 미래를 예측하는 능력이 강화될 것이다.
Embodied AI와의 통합: Omni Model이 로봇의 센서 데이터(시각, 촉각, 관절 각도 등)를 이해하고 행동을 생성하는 방향으로 확장될 것이다. Unified-IO 2의 "Action" 모달리티가 이 방향의 초기 사례다.
개인화된 Omni Agent: 사용자의 음성, 시각 환경, 텍스트 대화를 종합적으로 이해하고, 상황에 맞는 멀티모달 응답을 실시간으로 생성하는 개인 비서형 AI의 실현이 가능해질 것이다.
과학 및 의료 분야 활용: 멀티모달 데이터가 풍부한 과학(분자 구조, 스펙트럼, 현미경 이미지)과 의료(의료 영상, 병리 보고서, 환자 음성) 분야에서 Omni Model의 활용이 확대될 것이다.
7.3 핵심 과제
Omni Model이 성숙하기 위해 해결해야 할 핵심 과제를 정리하면 다음과 같다.
| 과제 | 설명 | 현재 진행 상황 |
|---|---|---|
| 학습 안정성 | Early Fusion 대규모 학습의 안정적 수렴 | Chameleon의 QK-Norm, z-loss 등 부분적 해결 |
| 모달리티 균형 | 서로 다른 모달리티 간 학습 균형 유지 | Loss weighting, masked sequence packing 등 연구 중 |
| 생성 품질 | Diffusion 전용 모델 수준의 이미지/비디오 생성 | Transfusion의 하이브리드 접근으로 격차 축소 |
| 효율성 | 추론 시 계산 효율성 확보 | MoE, 양자화, 모달리티별 early exit 등 연구 중 |
| 안전성 | 멀티모달 출력의 안전성 보장 | GPT-4o System Card 등 초기 프레임워크 제시 |
| 평가 체계 | 통합 멀티모달 벤치마크 확립 | SEED-Bench, MMBench 등 부분적 커버 |
| 데이터 확보 | 고품질 멀티모달 정렬 데이터 | Synthetic data 활용 확대 (AnyInstruct, DALL-E 3 recaptioning) |
8. 결론
Omni Model은 AI의 모달리티 장벽을 허물고, 인간처럼 다양한 감각 정보를 통합적으로 이해하고 표현할 수 있는 시스템을 향한 중요한 진전이다.
2023년의 NExT-GPT, CoDi에서 시작된 Any-to-Any 멀티모달 연구는, 2024년의 Chameleon, Transfusion, Emu3를 거치며 아키텍처적 패러다임이 확립되었다. 2025년에는 Qwen2.5-Omni, Janus-Pro, Llama 4 등을 통해 실용화 단계에 접어들고 있다.
핵심 교훈을 정리하면:
Early Fusion이 대세: 모달리티별 전문 모델을 조합하는 Late Fusion보다, 처음부터 모든 모달리티를 통합 학습하는 Early Fusion이 더 강력한 cross-modal 능력을 보인다.
Tokenization이 핵심: 이산 토큰화(Chameleon, Emu3) vs 연속 표현+Diffusion(Transfusion) vs 하이브리드(Show-o, Janus) 중 어떤 접근이 최적인지는 아직 정해지지 않았다. 각각의 trade-off가 존재한다.
스케일링이 여전히 중요: Chameleon의 4.4T 토큰 학습, Gemini의 대규모 학습 등에서 보듯, 데이터와 모델 규모의 확장이 멀티모달 능력 향상의 핵심 동력이다.
오픈소스 생태계의 급성장: 2024-2025년에 Baichuan-Omni, VITA, Mini-Omni, Janus, Emu3 등 고품질 오픈소스 Omni Model이 대거 등장하면서, 연구와 응용의 접근성이 크게 향상되었다.
Omni Model 분야는 현재 가장 빠르게 발전하는 AI 연구 영역 중 하나이며, 향후 AI 시스템의 핵심 아키텍처로 자리 잡을 것으로 전망된다.
References
- OpenAI. "GPT-4 Technical Report." arXiv:2303.08774 (2023). https://arxiv.org/abs/2303.08774
- OpenAI. "GPT-4o System Card." (2024). https://cdn.openai.com/gpt-4o-system-card.pdf
- Google DeepMind. "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805 (2023). https://arxiv.org/abs/2312.11805
- Google DeepMind. "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context." arXiv:2403.05530 (2024). https://arxiv.org/abs/2403.05530
- Chameleon Team, Meta. "Chameleon: Mixed-Modal Early-Fusion Foundation Models." arXiv:2405.09818 (2024). https://arxiv.org/abs/2405.09818
- Zhou et al. "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model." arXiv:2408.11039 (2024). https://arxiv.org/abs/2408.11039
- Wu et al. "NExT-GPT: Any-to-Any Multimodal LLM." arXiv:2309.05519 (2023). https://arxiv.org/abs/2309.05519
- Tang et al. "Any-to-Any Generation via Composable Diffusion (CoDi)." arXiv:2305.11846 (2023). https://arxiv.org/abs/2305.11846
- Tang et al. "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation." arXiv:2311.18775 (2023). https://arxiv.org/abs/2311.18775
- Lu et al. "Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action." arXiv:2312.17172 (2023). https://arxiv.org/abs/2312.17172
- Wu et al. "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation." arXiv:2410.13848 (2024). https://arxiv.org/abs/2410.13848
- Wu et al. "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling." arXiv:2501.17811 (2025). https://arxiv.org/abs/2501.17811
- Sun et al. "Emu: Generative Pretraining in Multimodality." arXiv:2307.05222 (2023). https://arxiv.org/abs/2307.05222
- Sun et al. "Emu2: Generative Multimodal Models are In-Context Learners." arXiv:2312.13286 (2023). https://arxiv.org/abs/2312.13286
- Wang et al. "Emu3: Next-Token Prediction is All You Need." arXiv:2409.18869 (2024). https://arxiv.org/abs/2409.18869
- Xie et al. "Show-o: One Single Transformer to Unify Multimodal Understanding and Generation." arXiv:2408.12528 (2024). https://arxiv.org/abs/2408.12528
- Xiao et al. "OmniGen: Unified Image Generation." arXiv:2409.11340 (2024). https://arxiv.org/abs/2409.11340
- Bachmann et al. "4M: Massively Multimodal Masked Modeling." arXiv:2312.06647 (2023). https://arxiv.org/abs/2312.06647
- Zhan et al. "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling." arXiv:2402.12226 (2024). https://arxiv.org/abs/2402.12226
- Moon et al. "AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model." arXiv:2309.16058 (2023). https://arxiv.org/abs/2309.16058
- Girdhar et al. "ImageBind: One Embedding Space To Bind Them All." arXiv:2305.05665 (2023). https://arxiv.org/abs/2305.05665
- Ge et al. "Making LLaMA SEE and Draw with SEED Tokenizer." arXiv:2310.01218 (2023). https://arxiv.org/abs/2310.01218
- Ge et al. "SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation." arXiv:2404.14396 (2024). https://arxiv.org/abs/2404.14396
- Han et al. "OneLLM: One Framework to Align All Modalities with Language." arXiv:2312.03700 (2024). https://arxiv.org/abs/2312.03700
- Lin et al. "VILA: On Pre-training for Visual Language Models." arXiv:2312.07533 (2024). https://arxiv.org/abs/2312.07533
- Xu et al. "Qwen2.5-Omni Technical Report." arXiv:2503.20215 (2025). https://arxiv.org/abs/2503.20215
- Xie et al. "Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming." arXiv:2408.16725 (2024). https://arxiv.org/abs/2408.16725
- Fu et al. "VITA: Towards Open-Source Interactive Omni Multimodal LLM." arXiv:2408.05211 (2024). https://arxiv.org/abs/2408.05211
- Li et al. "Baichuan-Omni Technical Report." arXiv:2410.08565 (2024). https://arxiv.org/abs/2410.08565
- "From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities." arXiv:2412.11694 (2024). https://arxiv.org/abs/2412.11694
- "Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities." arXiv:2505.02567 (2025). https://arxiv.org/abs/2505.02567
- Schuhmann et al. "LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models." arXiv:2210.08402 (2022). https://arxiv.org/abs/2210.08402
- Liu et al. "World Model on Million-Length Video And Language With Blockwise RingAttention." arXiv:2402.08268 (2024). https://arxiv.org/abs/2402.08268
- Zheng et al. "MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens." arXiv:2310.02239 (2023). https://arxiv.org/abs/2310.02239