1. 서론: Omni Model의 정의와 등장 배경
2. 핵심 Omni Models 심층 분석
3. 학습 데이터 분석
4. 핵심 학습 방법론
5. 아키텍처 비교
6. 주요 논문 레퍼런스
7. 미래 전망과 한계점
8. 결론
References

1. 서론: Omni Model의 정의와 등장 배경

1.1 Multimodal AI의 진화

인공지능의 역사는 단일 모달리티에서 멀티모달리티로, 그리고 궁극적으로 Any-to-Any 생성으로의 진화 과정이다. 이 진화는 크게 네 단계로 구분할 수 있다.

단계	시기	특징	대표 모델
1단계: 단일 모달리티	~2020	텍스트 또는 이미지만 처리	GPT-3, ResNet, DALL-E
2단계: 멀티모달 입력	2021-2022	여러 모달리티 입력, 텍스트 출력	CLIP, Flamingo, BLIP-2
3단계: 멀티모달 입출력	2023	텍스트+이미지 입력, 텍스트+이미지 출력	LLaVA, MiniGPT-4, Emu
4단계: Omni/Any-to-Any	2024~	모든 모달리티 입출력 동시 처리	GPT-4o, Gemini, Chameleon, Emu3

초기의 멀티모달 모델은 CLIP(Contrastive Language-Image Pre-training)처럼 텍스트와 이미지를 공통 임베딩 공간에 매핑하는 방식으로 시작되었다. 이후 Flamingo, BLIP-2 등이 이미지를 이해하는 능력을 LLM에 부여했지만, 이들은 출력이 텍스트로 제한되는 한계가 있었다.

2023년부터는 LLM이 이미지를 생성할 수 있는 모델들이 등장했고, 2024년에 접어들면서 텍스트, 이미지, 오디오, 비디오를 동시에 이해하고 생성할 수 있는 진정한 의미의 Omni Model이 본격적으로 등장했다.

1.2 Omni Model이란 무엇인가

Omni Model(또는 Any-to-Any Multimodal Model)은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 입력으로 받아들이고, 동시에 여러 모달리티를 출력으로 생성할 수 있는 통합 AI 모델을 의미한다.

핵심적인 구분 기준은 다음과 같다.

Multimodal Understanding Model: 여러 모달리티를 이해하지만 텍스트만 출력 (예: LLaVA, InternVL)
Multimodal Generation Model: 텍스트 입력으로 이미지/오디오 등을 생성 (예: DALL-E 3, Stable Diffusion)
Omni Model (Any-to-Any): 임의의 모달리티 조합을 입력받아 임의의 모달리티 조합을 출력

2024년 12월에 발표된 서베이 논문 "From Specific-MLLMs to Omni-MLLMs" (arXiv:2412.11694)에서는 Omni-MLLM의 4가지 핵심 구성요소를 다음과 같이 정의한다.

Modality Encoder: 각 모달리티의 원본 데이터를 LLM이 이해할 수 있는 임베딩으로 변환
LLM Backbone: 통합된 표현 공간에서 추론과 생성을 수행하는 핵심 모델
Modality Decoder: LLM의 출력을 각 모달리티의 원본 형태로 변환
Alignment Module: 서로 다른 모달리티 간의 의미적 정렬을 수행

1.3 왜 Omni Model이 중요한가

Omni Model의 등장이 중요한 이유는 단순히 기능적 통합을 넘어서 근본적인 아키텍처적 변화를 의미하기 때문이다.

파이프라인 방식의 한계: 기존에는 음성을 텍스트로 변환(ASR) -> LLM 처리 -> 텍스트를 음성으로 변환(TTS)하는 캐스케이드 방식을 사용했다. 이 방식은 변환 단계마다 정보 손실이 발생하고, 음성의 감정, 억양 등 비언어적 정보가 소실되며, 단계별 지연시간이 누적된다.

End-to-End Omni Model의 장점: 반면 GPT-4o와 같은 네이티브 멀티모달 모델은 음성 입력을 직접 처리하여 음성 출력을 생성한다. 이를 통해 부언어적 단서(paralinguistic cues)를 보존하고, 실시간 대화를 가능하게 하며, 모달리티 간 풍부한 상호작용을 구현한다.

2. 핵심 Omni Models 심층 분석

2.1 GPT-4o (OpenAI)

개요

2024년 5월 13일, OpenAI는 GPT-4o ("o"는 "omni"를 의미)를 공개했다. GPT-4o는 텍스트, 이미지, 오디오를 네이티브하게 처리하고 생성할 수 있는 최초의 상용 End-to-End 멀티모달 모델이다.

아키텍처

GPT-4o는 통합 Decoder-only Transformer 아키텍처를 사용한다. 핵심 설계 원칙은 다음과 같다.

Unified Embedding Space: 텍스트, 이미지, 오디오(파형/음성)가 단일 공유 임베딩 공간으로 인코딩된다
Modality-Agnostic Weights: 모달리티에 관계없이 동일한 가중치를 사용하여 처리한다
Cross-Modal Attention: 공통 시퀀스 처리 스택을 통해 크로스-모달 어텐션을 수행한다

훈련 방식

GPT-4o의 차별점은 End-to-End 훈련에 있다. 별도의 시스템을 조합하는 대신, 하나의 신경망이 여러 모달리티를 동시에 이해하고 생성하도록 훈련되었다. 이를 통해:

실시간 음성 상호작용: 중간 텍스트 표현 없이 오디오 입력에서 직접 오디오 출력을 생성
감정/억양 보존: 부언어적 단서를 유지하면서 대화
응답 속도: GPT-4 Turbo 대비 약 2-3배 빠른 처리 속도 (~110 tokens/sec)

제한 사항

GPT-4o의 구체적인 아키텍처 세부사항과 학습 데이터는 공개되지 않았다. OpenAI는 2024년 8월에 GPT-4o System Card를 발표했지만, 안전성 평가에 초점을 맞추었으며 아키텍처 세부사항은 비공개로 유지하고 있다.

2.2 Gemini (Google DeepMind)

모델 계보

모델	발표 시기	핵심 특징	arXiv
Gemini 1.0 (Ultra/Pro/Nano)	2023.12	최초의 네이티브 멀티모달 모델	2312.11805
Gemini 1.5 (Pro/Flash)	2024.02	1M+ 토큰 컨텍스트 윈도우	2403.05530
Gemini 2.0 (Flash)	2024.12	네이티브 이미지/오디오 출력, 에이전트 기능	-
Gemini 2.5 (Pro/Flash)	2025.03	고급 추론, 멀티모달리티, 에이전트	-

Gemini 1.0 아키텍처

Gemini 1.0은 통합 Decoder-only Transformer 아키텍처를 기반으로 하며, 텍스트, 이미지, 오디오, 비디오를 네이티브하게 처리한다.

핵심 기술적 접근:

단일 토큰 스트림: 모든 입력 모달리티(텍스트, 이미지, 오디오, 비디오)가 모달리티 마커와 함께 단일 토큰 스트림으로 변환
이미지 데이터의 이산화: VQ-VAE와 유사한 방식으로 이미지를 이산 토큰으로 변환
오디오 데이터: USM(Universal Speech Model) 피처를 활용하여 오디오를 임베딩
통합 Transformer Decoder: 토큰 타입에 관계없이 causal self-attention을 적용

학습 데이터

Gemini의 학습 데이터셋은 멀티모달이자 다국어로 구성되어 있다.

웹 문서, 도서, 코드를 포함한 텍스트 데이터
이미지, 오디오, 비디오 데이터
Google의 TPU가 Gemini 2.0의 100% 훈련 및 추론을 지원

Gemini 1.5의 혁신

Gemini 1.5 Pro는 아키텍처 전반에 걸친 개선(architecture, data, optimization, systems)을 통해 최대 1천만 토큰의 컨텍스트 윈도우를 지원하며, 성능 저하 없이 장문 컨텍스트를 이해할 수 있다. Gemini 1.0 Ultra와 비슷한 품질을 달성하면서도 훈련 컴퓨트를 크게 절감했다.

Gemini 2.0의 진화

Gemini 2.0은 네이티브 이미지 및 오디오 출력과 네이티브 도구 사용 지원을 도입하여, 구조적으로 에이전트 기반 응용에 최적화된 모델이다. 정제된 아키텍처 설계와 새로운 최적화 방법을 통해 훈련 안정성과 계산 효율성이 크게 향상되었다.

2.3 Chameleon (Meta)

개요

Chameleon은 Meta AI(FAIR)에서 개발한 Early-Fusion Token-based Mixed-Modal Foundation Model로, 이미지와 텍스트를 임의의 시퀀스로 이해하고 생성할 수 있다.

핵심 아키텍처

Chameleon의 가장 큰 특징은 Early Fusion 접근 방식이다.

모든 모달리티를 토큰으로 통합: 이미지도 텍스트와 동일한 방식으로 이산 토큰으로 변환
이미지 토크나이저: 이미지를 1024개의 이산 토큰으로 변환하는 image tokenizer 사용 (8192 codebook size)
단일 Transformer: 텍스트와 이미지 토큰을 구분 없이 동일한 Transformer로 처리
Autoregressive 생성: 텍스트와 이미지 모두 next-token prediction으로 생성

학습 데이터 및 안정성

Chameleon은 대규모 학습을 위해 특별한 안정화 기법을 개발했다.

학습 데이터 규모: 약 4.4조(trillion) 토큰 (텍스트, 이미지, 이미지-텍스트 쌍, interleaved 데이터)
2단계 학습: Pre-training과 alignment의 2단계로 구성
안정적 학습을 위한 기법: QK-Norm, z-loss regularization, dropout 등 early-fusion 환경에 맞춘 아키텍처 파라미터화

성능

Visual Question Answering, Image Captioning에서 SOTA 성능
텍스트 전용 작업에서 Llama-2를 능가하고 Mixtral 8x7B, Gemini-Pro와 경쟁적 성능
단일 모델로 이미지 생성까지 수행

논문: "Chameleon: Mixed-Modal Early-Fusion Foundation Models" (arXiv:2405.09818, May 2024)

2.4 Transfusion (Meta)

핵심 아이디어

Transfusion은 Language Modeling Loss(Next Token Prediction)와 Diffusion을 단일 Transformer에서 결합하는 혁신적인 접근 방식이다. 이산적(텍스트)과 연속적(이미지) 데이터를 동일한 모델에서 처리하는 "레시피"를 제안한다.

아키텍처

텍스트: 기존 LLM처럼 next-token prediction loss 사용
이미지: 연속적 잠재 표현에 대해 diffusion loss 사용
Mixed-modality 시퀀스: 텍스트 토큰과 이미지 패치가 혼재된 시퀀스를 단일 Transformer로 처리
Modality-specific 인코딩/디코딩 레이어: 성능 향상을 위한 모달리티별 특화 레이어 도입

학습 및 확장성

최대 7B 파라미터 모델을 처음부터(from scratch) 사전학습
2T 멀티모달 토큰에 대한 학습
이미지를 16개 패치만으로 압축 가능
이산 이미지 토큰 기반 모델 대비 현저히 우수한 스케일링 법칙

핵심 결론

Transfusion은 이미지를 양자화(quantize)하여 이산 토큰으로 학습하는 방식보다 확장성(scaling)이 크게 우수하다는 것을 실험적으로 증명했다. 7B 모델에서 유사 규모의 diffusion 모델 및 language model과 동등한 성능을 달성한다.

논문: "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model" (arXiv:2408.11039, Aug 2024)

2.5 NExT-GPT

개요

NExT-GPT는 Any-to-Any Multimodal LLM의 선구적 연구로, LLM을 멀티모달 어댑터와 다양한 diffusion 디코더에 연결하여 텍스트, 이미지, 비디오, 오디오의 임의 조합을 입출력할 수 있다.

아키텍처 구성

[입력] → ImageBind Encoder → Projection Layer → LLM (Vicuna-7B) → Output Projection → Diffusion Decoder → [출력]

입력 인코더: ImageBind를 사용하여 다양한 모달리티에서 피처 추출
Projection Layers: 각 모달리티의 피처를 LLM 공간으로 매핑
LLM 백본: Vicuna 7B-v0 사용
출력 디코더:
- Stable Diffusion: 이미지 합성
- Zeroscope: 비디오 합성
- AudioLDM: 오디오 합성

학습 전략

NExT-GPT는 3단계 학습을 수행한다.

Multimodal Encoding Alignment: ImageBind 피처와 LLM 입력 공간 정렬
Multimodal Decoding Alignment: LLM 출력과 diffusion 디코더 입력 공간 정렬
Instruction Tuning: 멀티모달 명령-응답 데이터로 미세조정

논문: "NExT-GPT: Any-to-Any Multimodal LLM" (arXiv:2309.05519, Sep 2023)

2.6 CoDi / CoDi-2

CoDi: Composable Diffusion

CoDi(Composable Diffusion)는 임의의 입력 모달리티 조합으로부터 임의의 출력 모달리티 조합을 생성할 수 있는 생성 모델이다.

핵심 기술:

Composable Generation Strategy: 서로 다른 모달리티의 diffusion 프로세스를 조합하여 동기화된 생성
Bridged Alignment: 공유 멀티모달 공간을 구축하여 cross-modal 정렬을 diffusion 과정에서 수행
병렬 생성: 여러 모달리티를 동시에 생성 가능
텍스트, 이미지, 비디오, 오디오 간 자유로운 조합

논문: "Any-to-Any Generation via Composable Diffusion" (arXiv:2305.11846, NeurIPS 2023)

CoDi-2: In-Context Any-to-Any

CoDi-2는 CoDi를 확장하여 In-Context Learning, Interleaved 입출력, 대화형 생성을 지원한다.

LLM의 추론 능력을 활용한 멀티모달 in-context 학습
텍스트, 비전, 오디오를 포함하는 interleaved 멀티모달 명령어 이해
연속 피처 공간에서의 autoregressive 멀티모달 생성
Subject-driven 이미지 생성, 비전 변환, 오디오 편집 등에서 기존 도메인 특화 모델 능가

논문: "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation" (arXiv:2311.18775, CVPR 2024)

2.7 Unified-IO / Unified-IO 2

Unified-IO 2

Unified-IO 2는 이미지, 텍스트, 오디오, 액션을 이해하고 생성할 수 있는 최초의 autoregressive 멀티모달 모델이다.

아키텍처

Encoder-Decoder Transformer: 다양한 모달리티의 입력을 인코더로 처리하고, 디코더에서 이산 토큰을 생성
통합 토크나이제이션: 이미지, 텍스트, 오디오, 바운딩 박스 등을 공유 의미 공간으로 토큰화
2D Rotary Embedding: 이미지에 적합한 2차원 회전 임베딩
QK Normalization: 학습 안정성을 위한 Query-Key 정규화
Scaled Cosine Attention: Perceiver Resampler에 적용
Dynamic Packing: 가변 길이 시퀀스 처리를 위한 효율적 구현 (4배 훈련 처리량 증가)

학습 데이터 (7B 모델 기준)

데이터 유형	규모
Image-Text Pairs	10억 쌍
Text Tokens	1조 토큰
Video Clips	1.8억 개
Interleaved Image & Text	1.3억 개
3D Assets	300만 개
Agent Trajectories	100만 개

논문: "Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action" (arXiv:2312.17172, Dec 2023)

2.8 Janus / Janus-Pro (DeepSeek)

Janus: Decoupled Visual Encoding

Janus의 핵심 혁신은 **시각적 인코딩의 분리(Decoupling)**에 있다.

문제 인식: 멀티모달 이해(understanding)와 생성(generation)은 서로 다른 수준의 정보 세분성(granularity)을 필요로 한다. 단일 시각 인코더를 사용하면 두 작업 모두에서 최적이 아닌 성능을 보인다.

해결책: 시각적 인코딩을 별도의 경로(pathway)로 분리하되, 처리는 단일 통합 Transformer 아키텍처를 사용한다.

이해 경로: 고수준 의미 정보를 추출하는 인코더 (예: SigLIP)
생성 경로: 세밀한 시각 정보를 생성하는 VQ 토크나이저
통합 처리: 하나의 autoregressive Transformer에서 두 경로를 모두 처리

논문: "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation" (arXiv:2410.13848, CVPR 2025)

Janus-Pro

Janus-Pro는 Janus의 개선 버전으로 다음을 포함한다.

최적화된 학습 전략: 더 효과적인 multi-stage 학습
확장된 학습 데이터: 이해와 생성 모두에서 데이터 규모 확대
모델 스케일링: 1B, 7B 모델로 확장성 검증

논문: "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling" (arXiv:2501.17811, Jan 2025)

2.9 Emu Series (BAAI)

Emu: Generative Pretraining in Multimodality

Emu는 멀티모달 컨텍스트에서 이미지와 텍스트를 자연스럽게 생성할 수 있는 Transformer 기반 멀티모달 파운데이션 모델이다.

논문: "Emu: Generative Pretraining in Multimodality" (arXiv:2307.05222, Jul 2023)

Emu2: Generative Multimodal In-Context Learning

Emu2는 37B 파라미터의 생성형 멀티모달 모델로, 통합 autoregressive 목표 함수를 사용하여 대규모 멀티모달 시퀀스에서 학습한다.

핵심 특성:

멀티모달 In-Context Learning: Visual Prompting, Object-grounded 생성 등 추론이 필요한 작업 수행
Unified Autoregressive Objective: 텍스트와 이미지를 동일한 autoregressive 방식으로 학습

논문: "Generative Multimodal Models are In-Context Learners" (arXiv:2312.13286, Dec 2023)

Emu3: Next-Token Prediction is All You Need

Emu3는 Emu 시리즈의 집대성으로, 오직 Next-Token Prediction만으로 멀티모달 이해와 생성을 달성한다.

혁신적 접근:

통합 토큰화: 이미지, 텍스트, 비디오를 이산 공간으로 토큰화
단일 Transformer: 처음부터(from scratch) 혼합 멀티모달 시퀀스에서 학습
Diffusion 불필요: 전통적인 diffusion이나 compositional 아키텍처 없이 순수한 autoregressive 방식
비디오 생성: Next-token prediction으로 고품질 비디오 생성 가능

성능: SDXL, LLaVA-1.6 등 task-specific 모델을 능가하는 성능

논문: "Emu3: Next-Token Prediction is All You Need" (arXiv:2409.18869, Sep 2024)

2.10 Show-o

개요

Show-o는 단일 Transformer로 멀티모달 이해와 생성을 통합하는 모델이다. 완전 autoregressive 모델과 달리, autoregressive와 (이산) diffusion 모델링을 통합하여 다양한 모달리티를 적응적으로 처리한다.

Omni-Attention 메커니즘

Show-o의 핵심은 Omni-Attention 메커니즘이다.

텍스트 토큰: Causal Attention으로 처리 (좌-우 순차적)
이미지 토큰: Full Attention으로 처리 (모든 토큰 간 상호작용)
적응적 혼합: 입력 시퀀스의 형식에 따라 어텐션 방식을 자동 전환

성능 및 효율성

이미지 autoregressive 생성 대비 약 20배 적은 샘플링 스텝 필요
동일 또는 더 큰 파라미터 수의 task-specific 모델과 동등하거나 우수한 성능
1.3B 파라미터로 SDXL(2.6B), SD3(2B) 등과 비교 가능한 성능

논문: "Show-o: One Single Transformer to Unify Multimodal Understanding and Generation" (arXiv:2408.12528, Aug 2024)

2.11 SEED / SEED-X

SEED-LLaMA

SEED 시리즈는 Image Tokenizer를 통해 LLM에 시각적 이해와 생성 능력을 동시에 부여하는 연구이다.

핵심 통찰:

이미지 토큰은 2D 물리적 패치 위치에 독립적이어야 하며, 1D causal dependency로 생성되어야 한다
이를 통해 LLM의 좌-우 autoregressive 예측 메커니즘과 자연스럽게 정렬

논문: "Making LLaMA SEE and Draw with SEED Tokenizer" (arXiv:2310.01218, ICLR 2024)

SEED-X

SEED-X는 다중 세분성(multi-granularity) 시각 의미론을 모델링하는 통합 파운데이션 모델이다.

임의 크기/비율 이미지 이해: Dynamic resolution 지원
다중 세분성 이미지 생성: 고수준 명령적 이미지 생성과 저수준 이미지 조작 모두 지원
멀티턴 대화: 이미지, 텍스트, 바운딩 박스를 포함한 응답 생성

논문: "SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation" (arXiv:2404.14396, Apr 2024)

2.12 4M / 4M-21

4M: Massively Multimodal Masked Modeling

4M은 EPFL에서 개발한 멀티모달 학습 프레임워크로, Masked Modeling 목표 함수를 통해 다양한 모달리티를 통합 학습한다.

핵심 접근:

모든 모달리티를 이산 토큰으로 매핑: 텍스트, 이미지, 기하학적 모달리티, 의미적 모달리티, 신경망 피처 맵 등
Masked Modeling: 토큰의 소규모 무작위 부분집합에 대해 마스킹 후 예측
Encoder-Decoder Transformer: 통합 인코더-디코더 구조

논문: "4M: Massively Multimodal Masked Modeling" (arXiv:2312.06647, NeurIPS 2023)

4M-21: An Any-to-Any Vision Model

4M-21은 4M의 확장으로, 21가지 모달리티와 태스크를 지원한다.

4M-7 대비 3배 더 많은 태스크를 해결하면서도 기존 성능 유지
대규모 텍스트 코퍼스와 공동 학습하여 텍스트 이해 능력 강화
NeurIPS 2024에 채택

논문: "4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities" (NeurIPS 2024)

2.13 OmniGen

개요

OmniGen은 통합 이미지 생성 모델로, ControlNet이나 IP-Adapter 같은 추가 모듈 없이 다양한 이미지 생성 작업을 수행한다.

아키텍처

VAE + Large Transformer: Variational Autoencoder로 시각 피처를 추출하고, 사전학습된 대형 Transformer로 이미지 생성
통합 조건 처리: 텍스트, 참조 이미지, 구조 조건 등을 별도의 플러그인 없이 처리
Knowledge Transfer: 서로 다른 태스크 간 지식 전이가 자연스럽게 발생

지원 태스크

Text-to-Image 생성
이미지 편집
Subject-driven 생성
Visual-conditional 생성
미확인(unseen) 태스크 및 도메인에 대한 일반화

논문: "OmniGen: Unified Image Generation" (arXiv:2409.11340, Sep 2024)

2.14 AnyGPT

개요

AnyGPT는 이산 시퀀스 모델링을 통한 통합 Any-to-Any 멀티모달 LLM이다. 음성, 텍스트, 이미지, 음악을 이해하고 생성할 수 있다.

핵심 접근

이산 표현으로 통합: 멀티모달 토크나이저를 사용하여 이미지, 오디오 등의 원본 데이터를 이산 의미 토큰 시퀀스로 압축
Language Model 프레임워크: 모든 모달리티를 이산 토큰으로 변환 후 LLM의 next-token prediction으로 학습
AnyInstruct-108k 데이터셋: 생성형 AI를 활용하여 합성된 108K 멀티턴 대화 데이터

성능

이산 표현만으로도 여러 모달리티를 효과적이고 편리하게 Language Model 내에서 통합할 수 있음을 증명한다.

논문: "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling" (arXiv:2402.12226, ACL 2024)

2.15 AnyMAL (Meta)

개요

AnyMAL(Any-Modality Augmented Language Model)은 텍스트, 이미지, 비디오, 오디오, IMU 모션 센서 등 다양한 모달리티의 입력 신호를 추론하고 텍스트 응답을 생성하는 모델이다.

아키텍처

LLM 백본: Llama-3 (70B) 등 최신 LLM의 강력한 텍스트 추론 능력을 계승
Pre-trained Aligner Module: 모달리티별 신호를 텍스트 공간으로 변환
Lightweight Adaptor: 각 모달리티에 대한 경량 어댑터를 통한 효율적 정렬

성능

VQAv2에서 +7.0% 상대적 정확도 향상
Zero-shot COCO Image Captioning에서 +8.4% CIDEr 향상
AudioCaps에서 +14.5% CIDEr 향상

논문: "AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model" (arXiv:2309.16058, EMNLP 2024 Industry Track)

2.16 Qwen2.5-Omni (Alibaba)

개요

Qwen2.5-Omni는 Alibaba에서 개발한 End-to-End 멀티모달 모델로, 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 동시에 생성한다.

핵심 혁신

TMRoPE (Time-aligned Multimodal RoPE): 서로 다른 모달리티 간의 시간적 정렬을 위한 새로운 위치 임베딩 방식

Thinker-Talker 아키텍처: 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하는 이중 구조

Thinker: 멀티모달 입력을 처리하고 텍스트 응답을 생성
Talker: Thinker의 출력을 기반으로 실시간 음성을 생성

성능

End-to-End 음성 명령 수행 능력이 텍스트 입력과 비교 가능한 수준이다. MMLU, GSM8K 등의 벤치마크에서 검증되었다.

논문: "Qwen2.5-Omni Technical Report" (arXiv:2503.20215, Mar 2025)

2.17 기타 주목할 모델들 (2024-2025)

VITA

VITA는 비디오, 이미지, 텍스트, 오디오를 동시에 처리하는 오픈소스 Interactive Omni MLLM이다.

LLM 백본: Mixtral 8x7B
2단계 학습: 멀티모달 정렬 → 명령어 튜닝
Non-awakening Interaction: 웨이크워드 없이 사용자 음성에 반응

논문: "VITA: Towards Open-Source Interactive Omni Multimodal LLM" (arXiv:2408.05211, Aug 2024)

Baichuan-Omni

7B 규모의 오픈소스 Omni-Modal MLLM으로, 이미지, 비디오, 오디오, 텍스트를 동시에 처리한다.

논문: "Baichuan-Omni Technical Report" (arXiv:2410.08565, Oct 2024)

Mini-Omni

최초의 완전 End-to-End 오픈소스 실시간 음성 상호작용 모델이다.

Text-instructed Speech Generation 방법 제안
VoiceAssistant-400K 데이터셋 공개
Batch-parallel 추론 전략으로 성능 최적화

논문: "Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming" (arXiv:2408.16725, Aug 2024)

OneLLM

8가지 모달리티를 언어와 정렬하는 통합 프레임워크이다.

Universal Projection Module (UPM): 여러 이미지 프로젝션 모듈을 혼합한 동적 라우팅
Progressive Alignment Pipeline: 점진적으로 더 많은 모달리티를 LLM에 정렬
이미지, 오디오, 비디오, 포인트 클라우드, Depth, Normal Map, IMU, fMRI 등 8가지 모달리티
2M 항목의 멀티모달 명령어 데이터셋

논문: "OneLLM: One Framework to Align All Modalities with Language" (arXiv:2312.03700, CVPR 2024)

Llama 4 (Meta)

2025년 4월, Meta는 Llama 4 Scout/Maverick을 공개했다.

MoE 아키텍처: 17B active parameters, 128 routed experts + shared expert
네이티브 멀티모달: 텍스트, 이미지, 비디오 프레임을 Early Fusion으로 처리
10M 토큰 컨텍스트: Llama 4 Scout에서 업계 최고 수준의 컨텍스트 윈도우
GPT-4o, Gemini 2.0 Flash를 능가하는 벤치마크 성능 (멀티모달 클래스 내)

ImageBind (Meta)

ImageBind는 Omni Model의 핵심 인프라 중 하나로, 6가지 모달리티를 단일 임베딩 공간에 결합한다.

이미지, 텍스트, 오디오, 깊이, 열화상, IMU 데이터
Binding Property: 이미지를 매개로 각 모달리티의 임베딩을 정렬하면, 모든 모달리티 간 자발적 정렬(emergent alignment) 발생
NExT-GPT 등 여러 Omni Model의 입력 인코더로 활용

논문: "ImageBind: One Embedding Space To Bind Them All" (arXiv:2305.05665, CVPR 2023)

3. 학습 데이터 분석

3.1 주요 모델별 학습 데이터 비교

Omni Model의 성능은 학습 데이터의 규모, 다양성, 품질에 크게 좌우된다. 아래 표는 공개된 정보를 기준으로 주요 모델의 학습 데이터를 비교한다.

모델	텍스트 데이터	Image-Text 쌍	비디오 데이터	오디오 데이터	총 토큰 규모	데이터 공개
GPT-4o	비공개	비공개	비공개	비공개	비공개	X
Gemini 1.0	웹, 도서, 코드	포함	포함	포함	비공개	X
Chameleon	웹 텍스트	Image-Text 쌍	-	-	~4.4T 토큰	부분
Unified-IO 2	1T 토큰	10억 쌍	1.8억 클립	포함	~1T+	O
Emu3	혼합 텍스트	혼합 이미지	혼합 비디오	-	비공개	부분
NExT-GPT	명령어 데이터	정렬 데이터	정렬 데이터	정렬 데이터	비교적 소규모	O
AnyGPT	AnyInstruct-108k	합성 데이터	-	합성 데이터	소규모	O
Qwen2.5-Omni	대규모 웹	포함	포함	포함	비공개	부분
Baichuan-Omni	고품질 Omni 데이터	포함	포함	포함	비공개	부분

3.2 Text Corpora

Omni Model의 텍스트 학습 데이터는 기존 LLM의 학습 데이터를 기반으로 한다.

주요 텍스트 데이터 소스:

Common Crawl: 웹 크롤링 기반 대규모 텍스트 (수조 토큰)
Wikipedia: 다국어 백과사전 텍스트
Books: 도서 전문 텍스트
Code: GitHub 등의 프로그래밍 코드
ArXiv: 학술 논문 (수학, 과학, 컴퓨터 과학)
StackExchange: Q&A 기반 기술 텍스트

3.3 Image-Text Pairs

데이터셋	규모	특징
LAION-5B	58.5억 쌍	CLIP 필터링된 웹 크롤링 이미지-텍스트 쌍
LAION-400M	4억 쌍	LAION-5B의 전신
CommonPool	128억 쌍	DataComp 벤치마크의 기반 데이터, LAION-5B의 2.5배
COYO-700M	7억 쌍	Kakao Brain의 이미지-텍스트 쌍 데이터
WebLI	비공개 규모	Google 내부 웹 이미지-텍스트 데이터 (Gemini 학습에 사용)
JFT-3B	30억 이미지	Google 내부 다중 레이블 분류 데이터
CC12M	1200만 쌍	Conceptual Captions 데이터셋

3.4 Video Data

비디오 데이터는 Omni Model의 시간적 이해와 생성 능력에 핵심적이다.

WebVid-10M: 1000만 개의 비디오-텍스트 쌍 (Frozen in Time 논문)
InternVid: 약 7백만 개의 비디오-텍스트 쌍
HD-VILA-100M: 1억 개의 비디오-텍스트 쌍
Panda-70M: 7000만 개의 고품질 비디오-캡션 쌍

3.5 Audio Data

AudioCaps: 약 46,000개의 오디오-캡션 쌍
AudioSet: 약 200만 개의 오디오 클립 (10초, 527개 레이블)
LibriSpeech: 약 1,000시간의 영어 음성
WavCaps: 약 40만 개의 오디오-캡션 쌍
VoiceAssistant-400K: Mini-Omni 학습용 합성 음성 데이터

3.6 Data Curation과 Synthetic Data

데이터 큐레이션 방법

최근 Omni Model 학습에서는 데이터 품질이 규모 못지않게 중요하다는 인식이 확산되고 있다.

CLIP Score 필터링: 이미지-텍스트 쌍의 의미적 일치도를 CLIP 점수로 평가하여 저품질 데이터 제거
Deduplication: 중복 데이터 제거를 통한 학습 효율성 향상
Safety Filtering: 유해 콘텐츠(NSFW, 편향, 개인정보 등) 필터링
Language Identification: 다국어 데이터의 언어 식별 및 분류

Synthetic Data 활용

DALL-E 3의 캡션 개선: OpenAI는 기존 이미지-텍스트 데이터의 캡션을 LLM으로 재생성하여 학습 데이터 품질을 크게 향상시켰다
AnyGPT의 AnyInstruct-108k: 생성형 AI를 활용하여 멀티턴 멀티모달 대화 데이터를 합성
Recaptioning: 기존 이미지의 캡션을 더 상세하고 정확한 설명으로 교체하는 기법

4. 핵심 학습 방법론

4.1 Early Fusion vs Late Fusion

Omni Model 설계에서 가장 근본적인 아키텍처 결정은 모달리티 융합(fusion) 시점이다.

Early Fusion

정의: 서로 다른 모달리티의 데이터를 입력 단계에서 결합하여 단일 모델로 처리하는 방식

장점:

학습 초기부터 모달리티 간 상호작용 학습 가능
더 풍부하고 세밀한 cross-modal 표현 학습
별도의 모달리티별 처리가 불필요하여 계산 비용 절감 가능

단점:

고차원 피처 공간 → 차원의 저주(curse of dimensionality)
학습 안정성 문제 (Chameleon에서 특별한 안정화 기법 필요)
대규모 데이터 필요

대표 모델: Chameleon, GPT-4o, Gemini, Emu3

Late Fusion

정의: 각 모달리티를 독립적으로 처리한 후, 예측 단계에서 결합하는 방식

장점:

결측 데이터에 대한 강건성
모달리티별 독립적 최적화 가능
기존 단일 모달리티 모델 재활용 가능

단점:

모달리티 간 상호작용을 학습하지 못함
복잡한 cross-modal 추론에 제한

대표 모델: NExT-GPT, CoDi

Intermediate Fusion (하이브리드)

최근에는 Early Fusion과 Late Fusion의 장점을 결합한 Intermediate Fusion이 주류로 부상하고 있다.

Janus: 이해와 생성에 서로 다른 인코딩 경로를 사용하되, 하나의 Transformer에서 통합 처리
Show-o: Omni-Attention으로 텍스트(Causal)와 이미지(Full) 어텐션을 적응적으로 전환
Transfusion: 텍스트에는 LM Loss, 이미지에는 Diffusion Loss를 동일 모델에서 적용

융합 방식	Cross-Modal 학습	결측 데이터 강건성	학습 안정성	구현 복잡도
Early Fusion	매우 우수	낮음	어려움	낮음
Late Fusion	불가	매우 우수	쉬움	높음
Intermediate Fusion	우수	중간	중간	중간

4.2 토큰화 전략 (Tokenization Strategies)

멀티모달 모델에서 서로 다른 모달리티를 통합 처리하기 위한 핵심은 토큰화이다.

텍스트 토큰화

BPE(Byte Pair Encoding), SentencePiece 등 기존 LLM 토크나이저 활용
Vocabulary 크기: 32K ~ 128K+ 토큰

이미지 토큰화: Discrete vs Continuous

이산 토큰화 (Discrete Tokenization):

VQ-VAE(Vector Quantized Variational AutoEncoder) 기반으로 이미지를 이산 코드북의 인덱스 시퀀스로 변환한다.

방법	Codebook 크기	토큰 수/이미지	사용 모델
VQGAN	8192	256~1024	Chameleon, Emu3
FSQ (Finite Scalar Quantizer)	가변	가변	OmniJARVIS
RQ-VAE (Residual Quantization)	가변	가변	SEED
dVAE	8192	1024	DALL-E

장점: LLM의 이산 토큰 처리 파이프라인과 자연스럽게 통합, 통합 vocabulary 가능 단점: 양자화로 인한 정보 손실, 높은 fidelity의 이미지 재구성 어려움

연속 표현 (Continuous Representation):

이미지를 연속적인 임베딩 벡터로 인코딩하며, Diffusion 과정을 통해 이미지를 생성한다.

방법	인코더	사용 모델
VAE Latent	Stable Diffusion VAE	Transfusion, OmniGen
CLIP Features	CLIP ViT	LLaVA, BLIP-2
SigLIP Features	SigLIP ViT	Janus (이해 경로)
DINOv2 Features	DINOv2 ViT	4M-21

장점: 정보 손실 최소화, 고품질 이미지 생성 가능 단점: LLM의 이산 토큰 체계와 직접 통합이 어려움, 별도의 디퓨전 프로세스 필요

오디오 토큰화

방법	특징	사용 모델
EnCodec	Meta의 신경 오디오 코덱, 이산 토큰	AnyGPT
SpeechTokenizer	의미와 음향을 분리한 토큰화	AnyGPT
USM Features	Google의 Universal Speech Model	Gemini
Whisper Features	OpenAI의 음성 인식 모델 피처	Mini-Omni

비디오 토큰화

비디오는 일반적으로 프레임 단위 이미지 토큰화 + 시간적 토큰화의 조합으로 처리된다.

프레임 샘플링 + 이미지 토크나이저: 일정 간격으로 프레임을 추출하고 각각을 이미지로 토큰화
3D 토크나이저: 시공간(spatiotemporal) 정보를 함께 인코딩 (Emu3)
Video VQVAE: 비디오 전용 벡터 양자화

4.3 Joint Training vs Modular Training

Joint Training (통합 학습)

모든 모달리티를 처음부터 함께 학습하는 방식이다.

장점: 모달리티 간 깊은 상호작용 학습, 단일 모델로 모든 태스크 수행
단점: 방대한 계산 자원 필요, 학습 안정성 확보 어려움
대표 모델: Chameleon, Gemini, Emu3, GPT-4o

Modular Training (모듈식 학습)

사전학습된 모달리티별 전문 모델을 LLM에 연결하고 정렬 학습을 수행하는 방식이다.

장점: 기존 모델 재활용, 적은 계산 자원, 유연한 모듈 교체
단점: 모달리티 간 상호작용의 깊이 제한, 파이프라인 복잡도
대표 모델: NExT-GPT, CoDi, AnyMAL

Multi-Stage Training (다단계 학습)

대부분의 Omni Model은 다단계 학습 전략을 채택한다.

단계	목적	학습 데이터	학습 가능 파라미터
Stage 1: Pre-training	기본 멀티모달 이해	대규모 Image-Text 쌍	전체 또는 프로젝터만
Stage 2: Alignment	모달리티 간 정렬	멀티모달 정렬 데이터	어댑터/프로젝터
Stage 3: Instruction Tuning	명령어 수행 능력	멀티모달 명령어-응답	전체 미세조정
Stage 4: RLHF/DPO	인간 선호도 정렬	선호도 데이터	전체 또는 일부

4.4 Alignment 기법

Contrastive Learning

CLIP에서 도입된 대조 학습은 이미지와 텍스트 임베딩을 공통 공간에서 정렬하는 기본 기법이다.

InfoNCE Loss: 매칭된 쌍의 유사도를 높이고 비매칭 쌍의 유사도를 낮춤
ImageBind의 Binding: 이미지를 매개로 6가지 모달리티를 간접적으로 정렬

Instruction Tuning

멀티모달 명령어-응답 데이터를 사용하여 모델이 다양한 멀티모달 작업을 수행하도록 미세조정한다.

Preference Optimization

RLHF(Reinforcement Learning from Human Feedback)나 DPO(Direct Preference Optimization)를 사용하여 인간 선호도에 맞는 출력을 생성하도록 학습한다.

4.5 Interleaved Multimodal Training

Interleaved(교차 배치) 멀티모달 학습은 텍스트와 이미지가 자연스럽게 혼재된 시퀀스에서 학습하는 방식이다.

VILA 논문에서는 다음과 같은 핵심 발견을 보고한다.

LLM Freezing의 한계: Pre-training 중 LLM을 동결하면 decent한 zero-shot 성능은 얻지만, in-context learning 능력이 부족해진다. LLM의 동결을 해제해야 한다.
Interleaved 데이터의 우월성: Image-Text 쌍만으로는 최적이 아니며, interleaved pre-training 데이터가 유익하다.
텍스트 데이터 재혼합: Instruction fine-tuning 시 텍스트 전용 데이터를 이미지-텍스트 데이터에 재혼합하면, 텍스트 태스크 성능 저하를 방지하면서 VLM 태스크 정확도도 향상된다.

4.6 Any-to-Any 생성 학습 전략

Any-to-Any 생성을 위한 학습 전략은 크게 세 가지로 분류된다.

1) Unified Autoregressive (통합 Autoregressive)

모든 모달리티를 이산 토큰으로 변환하고 단일 autoregressive 모델로 학습한다.

[텍스트 토큰1] [텍스트 토큰2] ... [이미지 토큰1] [이미지 토큰2] ... [오디오 토큰1] ...

대표 모델: Chameleon, Emu3, AnyGPT
장점: 아키텍처 단순성, 통합 학습
단점: 이미지 품질 제한 (이산 토큰화로 인한 정보 손실)

2) Hybrid (Token Prediction + Diffusion)

텍스트에는 autoregressive, 이미지에는 diffusion을 적용한다.

대표 모델: Transfusion, Show-o
장점: 각 모달리티에 최적의 학습 방식 적용, 높은 이미지 품질
단점: 아키텍처 복잡도 증가

3) LLM + External Decoders

LLM이 중간 표현을 생성하고, 외부 디코더(Diffusion Model 등)가 최종 출력을 생성한다.

대표 모델: NExT-GPT, CoDi, SEED-X
장점: 기존 고성능 모델 활용, 유연한 모듈 교체
단점: End-to-End 최적화 어려움, 파이프라인 지연

5. 아키텍처 비교

5.1 Encoder-Decoder vs Decoder-Only

특성	Encoder-Decoder	Decoder-Only
구조	인코더가 입력 처리, 디코더가 출력 생성	단일 디코더로 입출력 모두 처리
대표 모델	Unified-IO 2, 4M/4M-21	Chameleon, GPT-4o, Gemini, Emu3
장점	인코더에서 양방향 어텐션 가능, 입력 이해력 우수	아키텍처 단순성, 확장성, LLM과의 자연스러운 통합
단점	디코더 전용 대비 확장성 제한	양방향 컨텍스트 활용 제한
추세	점차 감소	주류로 부상

최근 트렌드는 확실히 Decoder-Only 아키텍처 쪽으로 수렴하고 있다. 이는 LLM 생태계와의 호환성, 아키텍처의 단순성, 그리고 충분한 규모에서의 성능 동등성에 기인한다.

5.2 모달리티별 인코더/디코더

모델	이미지 인코더	이미지 디코더	오디오 인코더	오디오 디코더	비디오 처리
GPT-4o	통합 (네이티브)	통합 (네이티브)	통합 (네이티브)	통합 (네이티브)	통합
Gemini	통합 (네이티브)	통합 (네이티브)	USM 기반	통합	통합
Chameleon	VQ Tokenizer	VQ Detokenizer	-	-	-
NExT-GPT	ImageBind	Stable Diffusion	ImageBind	AudioLDM	Zeroscope
CoDi	모달리티별	모달리티별 Diffusion	모달리티별	모달리티별	모달리티별
Emu3	SBER-MoVQGAN	SBER-MoVQGAN	-	-	3D Tokenizer
Show-o	Phi-1.5 + Magvit-v2	Magvit-v2	-	-	-
Janus	SigLIP (이해) / VQ (생성)	VQ Decoder	-	-	-
Qwen2.5-Omni	통합	통합	Whisper 기반	Talker 모듈	TMRoPE

5.3 통합 토크나이저 접근법

**통합 토크나이저(Unified Tokenizer)**는 모든 모달리티를 단일 vocabulary로 매핑하는 접근이다.

접근법	설명	대표 모델
공유 Vocabulary	텍스트와 이미지 토큰이 동일 vocabulary 공간	Chameleon, Emu3
확장 Vocabulary	기존 텍스트 vocabulary에 이미지/오디오 토큰 추가	AnyGPT, SEED-LLaMA
별도 Vocabulary	모달리티별 독립 vocabulary, 프로젝션으로 연결	NExT-GPT, AnyMAL
하이브리드	이해와 생성에 서로 다른 토큰화 전략	Janus, Show-o

메커니즘	설명	대표 모델
Causal Self-Attention	모든 토큰에 동일한 causal 마스크 적용	Chameleon, Emu3
Omni-Attention	텍스트에 causal, 이미지에 full attention 적용	Show-o
Cross-Attention	별도의 cross-modal attention 레이어	Flamingo, BLIP-2
Perceiver Resampler	가변 길이 입력을 고정 길이로 압축	Unified-IO 2
TMRoPE	시간 정렬된 멀티모달 위치 임베딩	Qwen2.5-Omni
Dynamic Routing	모달리티에 따라 동적으로 경로 선택	OneLLM

5.5 종합 아키텍처 비교표

모델	아키텍처 유형	Fusion 방식	토큰화	학습 목표	모달리티 (I/O)	파라미터
GPT-4o	Decoder-only	Early	네이티브	통합	T,I,A → T,I,A	비공개
Gemini 1.5	Decoder-only	Early	VQ+USM	통합	T,I,A,V → T	비공개
Chameleon	Decoder-only	Early	Discrete (VQ)	Next-Token	T,I → T,I	7B/34B
Transfusion	Decoder-only	Early	Hybrid	NTP+Diffusion	T,I → T,I	0.16B~7B
Emu3	Decoder-only	Early	Discrete (VQ)	Next-Token	T,I,V → T,I,V	8B
Show-o	Decoder-only	Intermediate	Hybrid	AR+Discrete Diff	T,I → T,I	1.3B
NExT-GPT	Decoder-only + Decoders	Late	연속	LM+Diffusion	T,I,A,V → T,I,A,V	7B+
CoDi	Multi-Diffusion	Late	연속	Diffusion	T,I,A,V → T,I,A,V	-
Unified-IO 2	Enc-Dec	Early	Discrete	Seq2Seq	T,I,A,V → T,I,A	7B
Janus	Decoder-only	Intermediate	Decoupled	Next-Token	T,I → T,I	1.3B/7B
AnyGPT	Decoder-only	Early	Discrete	Next-Token	T,I,A,Music → 동일	7B
4M-21	Enc-Dec	Early	Discrete (Tokenizer)	Masked Modeling	21종 모달리티	-
OmniGen	VAE+Transformer	-	연속 (VAE)	Diffusion	T,I → I	-
Qwen2.5-Omni	Decoder-only (Thinker-Talker)	Early	통합	통합	T,I,A,V → T,A	7B
SEED-X	Decoder-only	Intermediate	다중 세분성	AR+Diffusion	T,I → T,I	17B
Llama 4	Decoder-only (MoE)	Early	네이티브	Next-Token	T,I,V → T	17B active (Scout)

T: Text, I: Image, A: Audio, V: Video

6. 주요 논문 레퍼런스

6.1 핵심 Omni Model 논문

#	논문명	저자/기관	연도	핵심 기여	링크
1	GPT-4 Technical Report	OpenAI	2023	대규모 멀티모달 LLM의 기초	arXiv:2303.08774
2	GPT-4o System Card	OpenAI	2024	End-to-End 네이티브 멀티모달 모델 안전성 분석	OpenAI
3	Gemini: A Family of Highly Capable Multimodal Models	Google DeepMind	2023	네이티브 멀티모달 훈련, 30/32 벤치마크 SOTA	arXiv:2312.11805
4	Gemini 1.5: Unlocking multimodal understanding across millions of tokens	Google DeepMind	2024	10M 토큰 컨텍스트, MoE 아키텍처	arXiv:2403.05530
5	Chameleon: Mixed-Modal Early-Fusion Foundation Models	Meta AI (FAIR)	2024	Early-Fusion 토큰 기반 혼합 모달 모델	arXiv:2405.09818
6	Transfusion: Predict the Next Token and Diffuse Images with One Model	Meta AI	2024	Token Prediction + Diffusion 결합	arXiv:2408.11039
7	NExT-GPT: Any-to-Any Multimodal LLM	NUS	2023	LLM+Diffusion 기반 Any-to-Any 생성	arXiv:2309.05519
8	CoDi: Any-to-Any Generation via Composable Diffusion	UNC+Microsoft	2023	Composable Diffusion으로 Any-to-Any 생성	arXiv:2305.11846
9	CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation	UNC+Microsoft	2024	In-Context 멀티모달 생성	arXiv:2311.18775
10	Unified-IO 2: Scaling Autoregressive Multimodal Models	AI2	2023	최초의 통합 멀티모달 autoregressive 모델	arXiv:2312.17172
11	Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation	DeepSeek	2024	시각 인코딩 분리로 이해/생성 통합	arXiv:2410.13848
12	Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling	DeepSeek	2025	Janus의 스케일링 및 최적화	arXiv:2501.17811
13	Emu: Generative Pretraining in Multimodality	BAAI	2023	멀티모달 생성형 사전학습	arXiv:2307.05222
14	Emu2: Generative Multimodal Models are In-Context Learners	BAAI	2023	37B 멀티모달 In-Context 학습	arXiv:2312.13286
15	Emu3: Next-Token Prediction is All You Need	BAAI	2024	순수 Next-Token으로 멀티모달 통합	arXiv:2409.18869
16	Show-o: One Single Transformer to Unify Multimodal Understanding and Generation	ShowLab	2024	Omni-Attention, AR+Discrete Diffusion 통합	arXiv:2408.12528
17	OmniGen: Unified Image Generation	VectorSpaceLab	2024	플러그인 없는 통합 이미지 생성	arXiv:2409.11340
18	4M: Massively Multimodal Masked Modeling	EPFL	2023	Masked Modeling으로 다중 모달리티 통합 학습	arXiv:2312.06647
19	AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling	Fudan	2024	이산 시퀀스로 Any-to-Any 통합	arXiv:2402.12226
20	AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model	Meta	2023	효율적 모달리티 정렬, 5+모달리티 지원	arXiv:2309.16058

6.2 인프라 및 기반 기술 논문

#	논문명	저자/기관	연도	핵심 기여	링크
21	ImageBind: One Embedding Space To Bind Them All	Meta AI	2023	6개 모달리티 통합 임베딩 공간	arXiv:2305.05665
22	SEED-LLaMA: Making LLaMA SEE and Draw with SEED Tokenizer	Tencent	2023	1D Causal 이미지 토크나이저	arXiv:2310.01218
23	SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation	Tencent	2024	다중 세분성 시각 이해 및 생성	arXiv:2404.14396
24	OneLLM: One Framework to Align All Modalities with Language	중국과학기술대 외	2024	8개 모달리티 통합 정렬 프레임워크	arXiv:2312.03700
25	VILA: On Pre-training for Visual Language Models	NVIDIA	2024	멀티모달 사전학습 레시피	arXiv:2312.07533

6.3 Omni 음성/오디오 모델 논문

#	논문명	저자/기관	연도	핵심 기여	링크
26	Qwen2.5-Omni Technical Report	Alibaba (Qwen)	2025	Thinker-Talker 아키텍처, TMRoPE	arXiv:2503.20215
27	Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming	-	2024	최초 End-to-End 오픈소스 실시간 음성 모델	arXiv:2408.16725
28	VITA: Towards Open-Source Interactive Omni Multimodal LLM	-	2024	Mixtral 기반 오픈소스 Omni LLM	arXiv:2408.05211
29	Baichuan-Omni Technical Report	Baichuan	2024	7B 오픈소스 Omni 모달 MLLM	arXiv:2410.08565

6.4 서베이 및 벤치마크 논문

#	논문명	저자/기관	연도	핵심 기여	링크
30	From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities	-	2024	Omni-MLLM 종합 서베이	arXiv:2412.11694
31	Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities	-	2025	통합 멀티모달 모델 서베이	arXiv:2505.02567
32	LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models	LAION	2022	58.5억 이미지-텍스트 쌍 공개 데이터셋	arXiv:2210.08402
33	World Model on Million-Length Video And Language With Blockwise RingAttention	UC Berkeley	2024	1M 토큰 비디오-언어 모델	arXiv:2402.08268
34	MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens	UC Santa Cruz	2023	Generative Vokens 기반 교차 생성	arXiv:2310.02239

7. 미래 전망과 한계점

7.1 현재의 한계점

학습 데이터의 한계

모달리티 간 데이터 불균형: 텍스트 데이터는 수조 토큰 규모지만, 고품질 비디오-텍스트 쌍이나 오디오-텍스트 쌍은 상대적으로 부족하다. 이 불균형은 모델이 특정 모달리티에서 약한 성능을 보이는 원인이 된다.
Interleaved 멀티모달 데이터 부족: 텍스트와 이미지가 자연스럽게 교차된 대규모 학습 데이터의 확보가 어렵다. 실제 웹 데이터에서 추출할 수 있지만, 품질 필터링이 까다롭다.
멀티모달 정렬 데이터: 동일한 의미를 갖는 다양한 모달리티의 정렬된 데이터(예: 같은 장면의 텍스트 설명, 이미지, 오디오, 비디오)를 대규모로 확보하기 어렵다.

아키텍처적 한계

Understanding vs Generation 갈등: Janus 논문에서 지적한 것처럼, 멀티모달 이해와 생성은 서로 다른 수준의 정보 세분성을 필요로 한다. 단일 인코더로 두 작업을 모두 최적화하기 어렵다.
이산 토큰화의 정보 손실: VQ-VAE 기반 이산 토큰화는 이미지 품질에 제한을 가한다. Transfusion이 보여주듯, 이산 토큰보다 연속 표현이 확장성 면에서 유리할 수 있다.
계산 비용: 모든 모달리티를 네이티브하게 처리하는 Early Fusion 모델은 방대한 계산 자원을 필요로 한다. Chameleon의 경우 학습 안정성 확보를 위해 특별한 기법이 필요했다.

평가의 한계

통합 벤치마크 부재: 모든 모달리티의 이해와 생성을 동시에 평가할 수 있는 표준화된 벤치마크가 부족하다.
생성 품질 평가의 어려움: 이미지, 오디오, 비디오 생성 품질을 객관적으로 평가하는 것은 텍스트 평가보다 훨씬 복잡하다.
Cross-Modal 능력 평가: 모달리티 간 추론, 변환, 조합 능력을 체계적으로 평가하는 방법론이 미성숙하다.

7.2 연구 동향 및 미래 전망

단기 전망 (2025-2026)

Unified Tokenization의 진화: VQ-VAE를 넘어서는 새로운 시각 토크나이저의 등장이 예상된다. SoftVQ-VAE, VAEVQ 등 양자화 품질을 개선하는 연구가 활발하다.
실시간 Omni 상호작용: GPT-4o에서 시작된 실시간 멀티모달 상호작용이 오픈소스 생태계로 확산될 것이다. Qwen2.5-Omni, Mini-Omni 등이 이미 이 방향을 개척하고 있다.
효율적 Omni 모델: 경량 Omni 모델(3B 이하)의 개발이 가속화되어, 엣지 디바이스에서의 멀티모달 처리가 가능해질 것이다.
MoE 기반 Omni 모델: Llama 4에서 보여준 것처럼, Mixture-of-Experts 아키텍처를 통해 모달리티별 전문 expert를 활용하는 접근이 확산될 것이다.

중장기 전망 (2026-2028)

World Model로의 진화: Omni Model은 단순한 입출력 변환을 넘어, 세계에 대한 내부 모델을 구축하는 방향으로 진화할 것이다. LWM(Large World Model)처럼 백만 토큰 규모의 비디오를 이해하고 미래를 예측하는 능력이 강화될 것이다.
Embodied AI와의 통합: Omni Model이 로봇의 센서 데이터(시각, 촉각, 관절 각도 등)를 이해하고 행동을 생성하는 방향으로 확장될 것이다. Unified-IO 2의 "Action" 모달리티가 이 방향의 초기 사례다.
개인화된 Omni Agent: 사용자의 음성, 시각 환경, 텍스트 대화를 종합적으로 이해하고, 상황에 맞는 멀티모달 응답을 실시간으로 생성하는 개인 비서형 AI의 실현이 가능해질 것이다.
과학 및 의료 분야 활용: 멀티모달 데이터가 풍부한 과학(분자 구조, 스펙트럼, 현미경 이미지)과 의료(의료 영상, 병리 보고서, 환자 음성) 분야에서 Omni Model의 활용이 확대될 것이다.

7.3 핵심 과제

Omni Model이 성숙하기 위해 해결해야 할 핵심 과제를 정리하면 다음과 같다.

과제	설명	현재 진행 상황
학습 안정성	Early Fusion 대규모 학습의 안정적 수렴	Chameleon의 QK-Norm, z-loss 등 부분적 해결
모달리티 균형	서로 다른 모달리티 간 학습 균형 유지	Loss weighting, masked sequence packing 등 연구 중
생성 품질	Diffusion 전용 모델 수준의 이미지/비디오 생성	Transfusion의 하이브리드 접근으로 격차 축소
효율성	추론 시 계산 효율성 확보	MoE, 양자화, 모달리티별 early exit 등 연구 중
안전성	멀티모달 출력의 안전성 보장	GPT-4o System Card 등 초기 프레임워크 제시
평가 체계	통합 멀티모달 벤치마크 확립	SEED-Bench, MMBench 등 부분적 커버
데이터 확보	고품질 멀티모달 정렬 데이터	Synthetic data 활용 확대 (AnyInstruct, DALL-E 3 recaptioning)

8. 결론

Omni Model은 AI의 모달리티 장벽을 허물고, 인간처럼 다양한 감각 정보를 통합적으로 이해하고 표현할 수 있는 시스템을 향한 중요한 진전이다.

2023년의 NExT-GPT, CoDi에서 시작된 Any-to-Any 멀티모달 연구는, 2024년의 Chameleon, Transfusion, Emu3를 거치며 아키텍처적 패러다임이 확립되었다. 2025년에는 Qwen2.5-Omni, Janus-Pro, Llama 4 등을 통해 실용화 단계에 접어들고 있다.

핵심 교훈을 정리하면:

Early Fusion이 대세: 모달리티별 전문 모델을 조합하는 Late Fusion보다, 처음부터 모든 모달리티를 통합 학습하는 Early Fusion이 더 강력한 cross-modal 능력을 보인다.
Tokenization이 핵심: 이산 토큰화(Chameleon, Emu3) vs 연속 표현+Diffusion(Transfusion) vs 하이브리드(Show-o, Janus) 중 어떤 접근이 최적인지는 아직 정해지지 않았다. 각각의 trade-off가 존재한다.
스케일링이 여전히 중요: Chameleon의 4.4T 토큰 학습, Gemini의 대규모 학습 등에서 보듯, 데이터와 모델 규모의 확장이 멀티모달 능력 향상의 핵심 동력이다.
오픈소스 생태계의 급성장: 2024-2025년에 Baichuan-Omni, VITA, Mini-Omni, Janus, Emu3 등 고품질 오픈소스 Omni Model이 대거 등장하면서, 연구와 응용의 접근성이 크게 향상되었다.

Omni Model 분야는 현재 가장 빠르게 발전하는 AI 연구 영역 중 하나이며, 향후 AI 시스템의 핵심 아키텍처로 자리 잡을 것으로 전망된다.

References

OpenAI. "GPT-4 Technical Report." arXiv:2303.08774 (2023). https://arxiv.org/abs/2303.08774
OpenAI. "GPT-4o System Card." (2024). https://cdn.openai.com/gpt-4o-system-card.pdf
Google DeepMind. "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805 (2023). https://arxiv.org/abs/2312.11805
Google DeepMind. "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context." arXiv:2403.05530 (2024). https://arxiv.org/abs/2403.05530
Chameleon Team, Meta. "Chameleon: Mixed-Modal Early-Fusion Foundation Models." arXiv:2405.09818 (2024). https://arxiv.org/abs/2405.09818
Zhou et al. "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model." arXiv:2408.11039 (2024). https://arxiv.org/abs/2408.11039
Wu et al. "NExT-GPT: Any-to-Any Multimodal LLM." arXiv:2309.05519 (2023). https://arxiv.org/abs/2309.05519
Tang et al. "Any-to-Any Generation via Composable Diffusion (CoDi)." arXiv:2305.11846 (2023). https://arxiv.org/abs/2305.11846
Tang et al. "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation." arXiv:2311.18775 (2023). https://arxiv.org/abs/2311.18775
Lu et al. "Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action." arXiv:2312.17172 (2023). https://arxiv.org/abs/2312.17172
Wu et al. "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation." arXiv:2410.13848 (2024). https://arxiv.org/abs/2410.13848
Wu et al. "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling." arXiv:2501.17811 (2025). https://arxiv.org/abs/2501.17811
Sun et al. "Emu: Generative Pretraining in Multimodality." arXiv:2307.05222 (2023). https://arxiv.org/abs/2307.05222
Sun et al. "Emu2: Generative Multimodal Models are In-Context Learners." arXiv:2312.13286 (2023). https://arxiv.org/abs/2312.13286
Wang et al. "Emu3: Next-Token Prediction is All You Need." arXiv:2409.18869 (2024). https://arxiv.org/abs/2409.18869
Xie et al. "Show-o: One Single Transformer to Unify Multimodal Understanding and Generation." arXiv:2408.12528 (2024). https://arxiv.org/abs/2408.12528
Xiao et al. "OmniGen: Unified Image Generation." arXiv:2409.11340 (2024). https://arxiv.org/abs/2409.11340
Bachmann et al. "4M: Massively Multimodal Masked Modeling." arXiv:2312.06647 (2023). https://arxiv.org/abs/2312.06647
Zhan et al. "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling." arXiv:2402.12226 (2024). https://arxiv.org/abs/2402.12226
Moon et al. "AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model." arXiv:2309.16058 (2023). https://arxiv.org/abs/2309.16058
Girdhar et al. "ImageBind: One Embedding Space To Bind Them All." arXiv:2305.05665 (2023). https://arxiv.org/abs/2305.05665
Ge et al. "Making LLaMA SEE and Draw with SEED Tokenizer." arXiv:2310.01218 (2023). https://arxiv.org/abs/2310.01218
Ge et al. "SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation." arXiv:2404.14396 (2024). https://arxiv.org/abs/2404.14396
Han et al. "OneLLM: One Framework to Align All Modalities with Language." arXiv:2312.03700 (2024). https://arxiv.org/abs/2312.03700
Lin et al. "VILA: On Pre-training for Visual Language Models." arXiv:2312.07533 (2024). https://arxiv.org/abs/2312.07533
Xu et al. "Qwen2.5-Omni Technical Report." arXiv:2503.20215 (2025). https://arxiv.org/abs/2503.20215
Xie et al. "Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming." arXiv:2408.16725 (2024). https://arxiv.org/abs/2408.16725
Fu et al. "VITA: Towards Open-Source Interactive Omni Multimodal LLM." arXiv:2408.05211 (2024). https://arxiv.org/abs/2408.05211
Li et al. "Baichuan-Omni Technical Report." arXiv:2410.08565 (2024). https://arxiv.org/abs/2410.08565
"From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities." arXiv:2412.11694 (2024). https://arxiv.org/abs/2412.11694
"Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities." arXiv:2505.02567 (2025). https://arxiv.org/abs/2505.02567
Schuhmann et al. "LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models." arXiv:2210.08402 (2022). https://arxiv.org/abs/2210.08402
Liu et al. "World Model on Million-Length Video And Language With Blockwise RingAttention." arXiv:2402.08268 (2024). https://arxiv.org/abs/2402.08268
Zheng et al. "MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens." arXiv:2310.02239 (2023). https://arxiv.org/abs/2310.02239