Skip to content
Published on

Omni Model 완전 분석: Any-to-Any 멀티모달 AI의 아키텍처, 학습 데이터, 핵심 논문 총정리

Authors
  • Name
    Twitter

1. 서론: Omni Model의 정의와 등장 배경

1.1 Multimodal AI의 진화

인공지능의 역사는 단일 모달리티에서 멀티모달리티로, 그리고 궁극적으로 Any-to-Any 생성으로의 진화 과정이다. 이 진화는 크게 네 단계로 구분할 수 있다.

단계시기특징대표 모델
1단계: 단일 모달리티~2020텍스트 또는 이미지만 처리GPT-3, ResNet, DALL-E
2단계: 멀티모달 입력2021-2022여러 모달리티 입력, 텍스트 출력CLIP, Flamingo, BLIP-2
3단계: 멀티모달 입출력2023텍스트+이미지 입력, 텍스트+이미지 출력LLaVA, MiniGPT-4, Emu
4단계: Omni/Any-to-Any2024~모든 모달리티 입출력 동시 처리GPT-4o, Gemini, Chameleon, Emu3

초기의 멀티모달 모델은 CLIP(Contrastive Language-Image Pre-training)처럼 텍스트와 이미지를 공통 임베딩 공간에 매핑하는 방식으로 시작되었다. 이후 Flamingo, BLIP-2 등이 이미지를 이해하는 능력을 LLM에 부여했지만, 이들은 출력이 텍스트로 제한되는 한계가 있었다.

2023년부터는 LLM이 이미지를 생성할 수 있는 모델들이 등장했고, 2024년에 접어들면서 텍스트, 이미지, 오디오, 비디오를 동시에 이해하고 생성할 수 있는 진정한 의미의 Omni Model이 본격적으로 등장했다.

1.2 Omni Model이란 무엇인가

Omni Model(또는 Any-to-Any Multimodal Model)은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 입력으로 받아들이고, 동시에 여러 모달리티를 출력으로 생성할 수 있는 통합 AI 모델을 의미한다.

핵심적인 구분 기준은 다음과 같다.

  • Multimodal Understanding Model: 여러 모달리티를 이해하지만 텍스트만 출력 (예: LLaVA, InternVL)
  • Multimodal Generation Model: 텍스트 입력으로 이미지/오디오 등을 생성 (예: DALL-E 3, Stable Diffusion)
  • Omni Model (Any-to-Any): 임의의 모달리티 조합을 입력받아 임의의 모달리티 조합을 출력

2024년 12월에 발표된 서베이 논문 "From Specific-MLLMs to Omni-MLLMs" (arXiv:2412.11694)에서는 Omni-MLLM의 4가지 핵심 구성요소를 다음과 같이 정의한다.

  1. Modality Encoder: 각 모달리티의 원본 데이터를 LLM이 이해할 수 있는 임베딩으로 변환
  2. LLM Backbone: 통합된 표현 공간에서 추론과 생성을 수행하는 핵심 모델
  3. Modality Decoder: LLM의 출력을 각 모달리티의 원본 형태로 변환
  4. Alignment Module: 서로 다른 모달리티 간의 의미적 정렬을 수행

1.3 왜 Omni Model이 중요한가

Omni Model의 등장이 중요한 이유는 단순히 기능적 통합을 넘어서 근본적인 아키텍처적 변화를 의미하기 때문이다.

파이프라인 방식의 한계: 기존에는 음성을 텍스트로 변환(ASR) -> LLM 처리 -> 텍스트를 음성으로 변환(TTS)하는 캐스케이드 방식을 사용했다. 이 방식은 변환 단계마다 정보 손실이 발생하고, 음성의 감정, 억양 등 비언어적 정보가 소실되며, 단계별 지연시간이 누적된다.

End-to-End Omni Model의 장점: 반면 GPT-4o와 같은 네이티브 멀티모달 모델은 음성 입력을 직접 처리하여 음성 출력을 생성한다. 이를 통해 부언어적 단서(paralinguistic cues)를 보존하고, 실시간 대화를 가능하게 하며, 모달리티 간 풍부한 상호작용을 구현한다.


2. 핵심 Omni Models 심층 분석

2.1 GPT-4o (OpenAI)

개요

2024년 5월 13일, OpenAI는 GPT-4o ("o"는 "omni"를 의미)를 공개했다. GPT-4o는 텍스트, 이미지, 오디오를 네이티브하게 처리하고 생성할 수 있는 최초의 상용 End-to-End 멀티모달 모델이다.

아키텍처

GPT-4o는 통합 Decoder-only Transformer 아키텍처를 사용한다. 핵심 설계 원칙은 다음과 같다.

  • Unified Embedding Space: 텍스트, 이미지, 오디오(파형/음성)가 단일 공유 임베딩 공간으로 인코딩된다
  • Modality-Agnostic Weights: 모달리티에 관계없이 동일한 가중치를 사용하여 처리한다
  • Cross-Modal Attention: 공통 시퀀스 처리 스택을 통해 크로스-모달 어텐션을 수행한다

훈련 방식

GPT-4o의 차별점은 End-to-End 훈련에 있다. 별도의 시스템을 조합하는 대신, 하나의 신경망이 여러 모달리티를 동시에 이해하고 생성하도록 훈련되었다. 이를 통해:

  • 실시간 음성 상호작용: 중간 텍스트 표현 없이 오디오 입력에서 직접 오디오 출력을 생성
  • 감정/억양 보존: 부언어적 단서를 유지하면서 대화
  • 응답 속도: GPT-4 Turbo 대비 약 2-3배 빠른 처리 속도 (~110 tokens/sec)

제한 사항

GPT-4o의 구체적인 아키텍처 세부사항과 학습 데이터는 공개되지 않았다. OpenAI는 2024년 8월에 GPT-4o System Card를 발표했지만, 안전성 평가에 초점을 맞추었으며 아키텍처 세부사항은 비공개로 유지하고 있다.

2.2 Gemini (Google DeepMind)

모델 계보

모델발표 시기핵심 특징arXiv
Gemini 1.0 (Ultra/Pro/Nano)2023.12최초의 네이티브 멀티모달 모델2312.11805
Gemini 1.5 (Pro/Flash)2024.021M+ 토큰 컨텍스트 윈도우2403.05530
Gemini 2.0 (Flash)2024.12네이티브 이미지/오디오 출력, 에이전트 기능-
Gemini 2.5 (Pro/Flash)2025.03고급 추론, 멀티모달리티, 에이전트-

Gemini 1.0 아키텍처

Gemini 1.0은 통합 Decoder-only Transformer 아키텍처를 기반으로 하며, 텍스트, 이미지, 오디오, 비디오를 네이티브하게 처리한다.

핵심 기술적 접근:

  • 단일 토큰 스트림: 모든 입력 모달리티(텍스트, 이미지, 오디오, 비디오)가 모달리티 마커와 함께 단일 토큰 스트림으로 변환
  • 이미지 데이터의 이산화: VQ-VAE와 유사한 방식으로 이미지를 이산 토큰으로 변환
  • 오디오 데이터: USM(Universal Speech Model) 피처를 활용하여 오디오를 임베딩
  • 통합 Transformer Decoder: 토큰 타입에 관계없이 causal self-attention을 적용

학습 데이터

Gemini의 학습 데이터셋은 멀티모달이자 다국어로 구성되어 있다.

  • 웹 문서, 도서, 코드를 포함한 텍스트 데이터
  • 이미지, 오디오, 비디오 데이터
  • Google의 TPU가 Gemini 2.0의 100% 훈련 및 추론을 지원

Gemini 1.5의 혁신

Gemini 1.5 Pro는 아키텍처 전반에 걸친 개선(architecture, data, optimization, systems)을 통해 최대 1천만 토큰의 컨텍스트 윈도우를 지원하며, 성능 저하 없이 장문 컨텍스트를 이해할 수 있다. Gemini 1.0 Ultra와 비슷한 품질을 달성하면서도 훈련 컴퓨트를 크게 절감했다.

Gemini 2.0의 진화

Gemini 2.0은 네이티브 이미지 및 오디오 출력네이티브 도구 사용 지원을 도입하여, 구조적으로 에이전트 기반 응용에 최적화된 모델이다. 정제된 아키텍처 설계와 새로운 최적화 방법을 통해 훈련 안정성과 계산 효율성이 크게 향상되었다.

2.3 Chameleon (Meta)

개요

Chameleon은 Meta AI(FAIR)에서 개발한 Early-Fusion Token-based Mixed-Modal Foundation Model로, 이미지와 텍스트를 임의의 시퀀스로 이해하고 생성할 수 있다.

핵심 아키텍처

Chameleon의 가장 큰 특징은 Early Fusion 접근 방식이다.

  • 모든 모달리티를 토큰으로 통합: 이미지도 텍스트와 동일한 방식으로 이산 토큰으로 변환
  • 이미지 토크나이저: 이미지를 1024개의 이산 토큰으로 변환하는 image tokenizer 사용 (8192 codebook size)
  • 단일 Transformer: 텍스트와 이미지 토큰을 구분 없이 동일한 Transformer로 처리
  • Autoregressive 생성: 텍스트와 이미지 모두 next-token prediction으로 생성

학습 데이터 및 안정성

Chameleon은 대규모 학습을 위해 특별한 안정화 기법을 개발했다.

  • 학습 데이터 규모: 약 4.4조(trillion) 토큰 (텍스트, 이미지, 이미지-텍스트 쌍, interleaved 데이터)
  • 2단계 학습: Pre-training과 alignment의 2단계로 구성
  • 안정적 학습을 위한 기법: QK-Norm, z-loss regularization, dropout 등 early-fusion 환경에 맞춘 아키텍처 파라미터화

성능

  • Visual Question Answering, Image Captioning에서 SOTA 성능
  • 텍스트 전용 작업에서 Llama-2를 능가하고 Mixtral 8x7B, Gemini-Pro와 경쟁적 성능
  • 단일 모델로 이미지 생성까지 수행

논문: "Chameleon: Mixed-Modal Early-Fusion Foundation Models" (arXiv:2405.09818, May 2024)

2.4 Transfusion (Meta)

핵심 아이디어

Transfusion은 Language Modeling Loss(Next Token Prediction)와 Diffusion을 단일 Transformer에서 결합하는 혁신적인 접근 방식이다. 이산적(텍스트)과 연속적(이미지) 데이터를 동일한 모델에서 처리하는 "레시피"를 제안한다.

아키텍처

  • 텍스트: 기존 LLM처럼 next-token prediction loss 사용
  • 이미지: 연속적 잠재 표현에 대해 diffusion loss 사용
  • Mixed-modality 시퀀스: 텍스트 토큰과 이미지 패치가 혼재된 시퀀스를 단일 Transformer로 처리
  • Modality-specific 인코딩/디코딩 레이어: 성능 향상을 위한 모달리티별 특화 레이어 도입

학습 및 확장성

  • 최대 7B 파라미터 모델을 처음부터(from scratch) 사전학습
  • 2T 멀티모달 토큰에 대한 학습
  • 이미지를 16개 패치만으로 압축 가능
  • 이산 이미지 토큰 기반 모델 대비 현저히 우수한 스케일링 법칙

핵심 결론

Transfusion은 이미지를 양자화(quantize)하여 이산 토큰으로 학습하는 방식보다 확장성(scaling)이 크게 우수하다는 것을 실험적으로 증명했다. 7B 모델에서 유사 규모의 diffusion 모델 및 language model과 동등한 성능을 달성한다.

논문: "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model" (arXiv:2408.11039, Aug 2024)

2.5 NExT-GPT

개요

NExT-GPT는 Any-to-Any Multimodal LLM의 선구적 연구로, LLM을 멀티모달 어댑터와 다양한 diffusion 디코더에 연결하여 텍스트, 이미지, 비디오, 오디오의 임의 조합을 입출력할 수 있다.

아키텍처 구성

[입력]ImageBind EncoderProjection LayerLLM (Vicuna-7B)Output ProjectionDiffusion Decoder[출력]
  • 입력 인코더: ImageBind를 사용하여 다양한 모달리티에서 피처 추출
  • Projection Layers: 각 모달리티의 피처를 LLM 공간으로 매핑
  • LLM 백본: Vicuna 7B-v0 사용
  • 출력 디코더:
    • Stable Diffusion: 이미지 합성
    • Zeroscope: 비디오 합성
    • AudioLDM: 오디오 합성

학습 전략

NExT-GPT는 3단계 학습을 수행한다.

  1. Multimodal Encoding Alignment: ImageBind 피처와 LLM 입력 공간 정렬
  2. Multimodal Decoding Alignment: LLM 출력과 diffusion 디코더 입력 공간 정렬
  3. Instruction Tuning: 멀티모달 명령-응답 데이터로 미세조정

논문: "NExT-GPT: Any-to-Any Multimodal LLM" (arXiv:2309.05519, Sep 2023)

2.6 CoDi / CoDi-2

CoDi: Composable Diffusion

CoDi(Composable Diffusion)는 임의의 입력 모달리티 조합으로부터 임의의 출력 모달리티 조합을 생성할 수 있는 생성 모델이다.

핵심 기술:

  • Composable Generation Strategy: 서로 다른 모달리티의 diffusion 프로세스를 조합하여 동기화된 생성
  • Bridged Alignment: 공유 멀티모달 공간을 구축하여 cross-modal 정렬을 diffusion 과정에서 수행
  • 병렬 생성: 여러 모달리티를 동시에 생성 가능
  • 텍스트, 이미지, 비디오, 오디오 간 자유로운 조합

논문: "Any-to-Any Generation via Composable Diffusion" (arXiv:2305.11846, NeurIPS 2023)

CoDi-2: In-Context Any-to-Any

CoDi-2는 CoDi를 확장하여 In-Context Learning, Interleaved 입출력, 대화형 생성을 지원한다.

  • LLM의 추론 능력을 활용한 멀티모달 in-context 학습
  • 텍스트, 비전, 오디오를 포함하는 interleaved 멀티모달 명령어 이해
  • 연속 피처 공간에서의 autoregressive 멀티모달 생성
  • Subject-driven 이미지 생성, 비전 변환, 오디오 편집 등에서 기존 도메인 특화 모델 능가

논문: "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation" (arXiv:2311.18775, CVPR 2024)

2.7 Unified-IO / Unified-IO 2

Unified-IO 2

Unified-IO 2는 이미지, 텍스트, 오디오, 액션을 이해하고 생성할 수 있는 최초의 autoregressive 멀티모달 모델이다.

아키텍처

  • Encoder-Decoder Transformer: 다양한 모달리티의 입력을 인코더로 처리하고, 디코더에서 이산 토큰을 생성
  • 통합 토크나이제이션: 이미지, 텍스트, 오디오, 바운딩 박스 등을 공유 의미 공간으로 토큰화
  • 2D Rotary Embedding: 이미지에 적합한 2차원 회전 임베딩
  • QK Normalization: 학습 안정성을 위한 Query-Key 정규화
  • Scaled Cosine Attention: Perceiver Resampler에 적용
  • Dynamic Packing: 가변 길이 시퀀스 처리를 위한 효율적 구현 (4배 훈련 처리량 증가)

학습 데이터 (7B 모델 기준)

데이터 유형규모
Image-Text Pairs10억 쌍
Text Tokens1조 토큰
Video Clips1.8억 개
Interleaved Image & Text1.3억 개
3D Assets300만 개
Agent Trajectories100만 개

논문: "Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action" (arXiv:2312.17172, Dec 2023)

2.8 Janus / Janus-Pro (DeepSeek)

Janus: Decoupled Visual Encoding

Janus의 핵심 혁신은 **시각적 인코딩의 분리(Decoupling)**에 있다.

문제 인식: 멀티모달 이해(understanding)와 생성(generation)은 서로 다른 수준의 정보 세분성(granularity)을 필요로 한다. 단일 시각 인코더를 사용하면 두 작업 모두에서 최적이 아닌 성능을 보인다.

해결책: 시각적 인코딩을 별도의 경로(pathway)로 분리하되, 처리는 단일 통합 Transformer 아키텍처를 사용한다.

  • 이해 경로: 고수준 의미 정보를 추출하는 인코더 (예: SigLIP)
  • 생성 경로: 세밀한 시각 정보를 생성하는 VQ 토크나이저
  • 통합 처리: 하나의 autoregressive Transformer에서 두 경로를 모두 처리

논문: "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation" (arXiv:2410.13848, CVPR 2025)

Janus-Pro

Janus-Pro는 Janus의 개선 버전으로 다음을 포함한다.

  • 최적화된 학습 전략: 더 효과적인 multi-stage 학습
  • 확장된 학습 데이터: 이해와 생성 모두에서 데이터 규모 확대
  • 모델 스케일링: 1B, 7B 모델로 확장성 검증

논문: "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling" (arXiv:2501.17811, Jan 2025)

2.9 Emu Series (BAAI)

Emu: Generative Pretraining in Multimodality

Emu는 멀티모달 컨텍스트에서 이미지와 텍스트를 자연스럽게 생성할 수 있는 Transformer 기반 멀티모달 파운데이션 모델이다.

논문: "Emu: Generative Pretraining in Multimodality" (arXiv:2307.05222, Jul 2023)

Emu2: Generative Multimodal In-Context Learning

Emu2는 37B 파라미터의 생성형 멀티모달 모델로, 통합 autoregressive 목표 함수를 사용하여 대규모 멀티모달 시퀀스에서 학습한다.

핵심 특성:

  • 멀티모달 In-Context Learning: Visual Prompting, Object-grounded 생성 등 추론이 필요한 작업 수행
  • Unified Autoregressive Objective: 텍스트와 이미지를 동일한 autoregressive 방식으로 학습

논문: "Generative Multimodal Models are In-Context Learners" (arXiv:2312.13286, Dec 2023)

Emu3: Next-Token Prediction is All You Need

Emu3는 Emu 시리즈의 집대성으로, 오직 Next-Token Prediction만으로 멀티모달 이해와 생성을 달성한다.

혁신적 접근:

  • 통합 토큰화: 이미지, 텍스트, 비디오를 이산 공간으로 토큰화
  • 단일 Transformer: 처음부터(from scratch) 혼합 멀티모달 시퀀스에서 학습
  • Diffusion 불필요: 전통적인 diffusion이나 compositional 아키텍처 없이 순수한 autoregressive 방식
  • 비디오 생성: Next-token prediction으로 고품질 비디오 생성 가능

성능: SDXL, LLaVA-1.6 등 task-specific 모델을 능가하는 성능

논문: "Emu3: Next-Token Prediction is All You Need" (arXiv:2409.18869, Sep 2024)

2.10 Show-o

개요

Show-o는 단일 Transformer로 멀티모달 이해와 생성을 통합하는 모델이다. 완전 autoregressive 모델과 달리, autoregressive와 (이산) diffusion 모델링을 통합하여 다양한 모달리티를 적응적으로 처리한다.

Omni-Attention 메커니즘

Show-o의 핵심은 Omni-Attention 메커니즘이다.

  • 텍스트 토큰: Causal Attention으로 처리 (좌-우 순차적)
  • 이미지 토큰: Full Attention으로 처리 (모든 토큰 간 상호작용)
  • 적응적 혼합: 입력 시퀀스의 형식에 따라 어텐션 방식을 자동 전환

성능 및 효율성

  • 이미지 autoregressive 생성 대비 약 20배 적은 샘플링 스텝 필요
  • 동일 또는 더 큰 파라미터 수의 task-specific 모델과 동등하거나 우수한 성능
  • 1.3B 파라미터로 SDXL(2.6B), SD3(2B) 등과 비교 가능한 성능

논문: "Show-o: One Single Transformer to Unify Multimodal Understanding and Generation" (arXiv:2408.12528, Aug 2024)

2.11 SEED / SEED-X

SEED-LLaMA

SEED 시리즈는 Image Tokenizer를 통해 LLM에 시각적 이해와 생성 능력을 동시에 부여하는 연구이다.

핵심 통찰:

  • 이미지 토큰은 2D 물리적 패치 위치에 독립적이어야 하며, 1D causal dependency로 생성되어야 한다
  • 이를 통해 LLM의 좌-우 autoregressive 예측 메커니즘과 자연스럽게 정렬

논문: "Making LLaMA SEE and Draw with SEED Tokenizer" (arXiv:2310.01218, ICLR 2024)

SEED-X

SEED-X는 다중 세분성(multi-granularity) 시각 의미론을 모델링하는 통합 파운데이션 모델이다.

  • 임의 크기/비율 이미지 이해: Dynamic resolution 지원
  • 다중 세분성 이미지 생성: 고수준 명령적 이미지 생성과 저수준 이미지 조작 모두 지원
  • 멀티턴 대화: 이미지, 텍스트, 바운딩 박스를 포함한 응답 생성

논문: "SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation" (arXiv:2404.14396, Apr 2024)

2.12 4M / 4M-21

4M: Massively Multimodal Masked Modeling

4M은 EPFL에서 개발한 멀티모달 학습 프레임워크로, Masked Modeling 목표 함수를 통해 다양한 모달리티를 통합 학습한다.

핵심 접근:

  • 모든 모달리티를 이산 토큰으로 매핑: 텍스트, 이미지, 기하학적 모달리티, 의미적 모달리티, 신경망 피처 맵 등
  • Masked Modeling: 토큰의 소규모 무작위 부분집합에 대해 마스킹 후 예측
  • Encoder-Decoder Transformer: 통합 인코더-디코더 구조

논문: "4M: Massively Multimodal Masked Modeling" (arXiv:2312.06647, NeurIPS 2023)

4M-21: An Any-to-Any Vision Model

4M-21은 4M의 확장으로, 21가지 모달리티와 태스크를 지원한다.

  • 4M-7 대비 3배 더 많은 태스크를 해결하면서도 기존 성능 유지
  • 대규모 텍스트 코퍼스와 공동 학습하여 텍스트 이해 능력 강화
  • NeurIPS 2024에 채택

논문: "4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities" (NeurIPS 2024)

2.13 OmniGen

개요

OmniGen은 통합 이미지 생성 모델로, ControlNet이나 IP-Adapter 같은 추가 모듈 없이 다양한 이미지 생성 작업을 수행한다.

아키텍처

  • VAE + Large Transformer: Variational Autoencoder로 시각 피처를 추출하고, 사전학습된 대형 Transformer로 이미지 생성
  • 통합 조건 처리: 텍스트, 참조 이미지, 구조 조건 등을 별도의 플러그인 없이 처리
  • Knowledge Transfer: 서로 다른 태스크 간 지식 전이가 자연스럽게 발생

지원 태스크

  • Text-to-Image 생성
  • 이미지 편집
  • Subject-driven 생성
  • Visual-conditional 생성
  • 미확인(unseen) 태스크 및 도메인에 대한 일반화

논문: "OmniGen: Unified Image Generation" (arXiv:2409.11340, Sep 2024)

2.14 AnyGPT

개요

AnyGPT는 이산 시퀀스 모델링을 통한 통합 Any-to-Any 멀티모달 LLM이다. 음성, 텍스트, 이미지, 음악을 이해하고 생성할 수 있다.

핵심 접근

  • 이산 표현으로 통합: 멀티모달 토크나이저를 사용하여 이미지, 오디오 등의 원본 데이터를 이산 의미 토큰 시퀀스로 압축
  • Language Model 프레임워크: 모든 모달리티를 이산 토큰으로 변환 후 LLM의 next-token prediction으로 학습
  • AnyInstruct-108k 데이터셋: 생성형 AI를 활용하여 합성된 108K 멀티턴 대화 데이터

성능

이산 표현만으로도 여러 모달리티를 효과적이고 편리하게 Language Model 내에서 통합할 수 있음을 증명한다.

논문: "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling" (arXiv:2402.12226, ACL 2024)

2.15 AnyMAL (Meta)

개요

AnyMAL(Any-Modality Augmented Language Model)은 텍스트, 이미지, 비디오, 오디오, IMU 모션 센서 등 다양한 모달리티의 입력 신호를 추론하고 텍스트 응답을 생성하는 모델이다.

아키텍처

  • LLM 백본: Llama-3 (70B) 등 최신 LLM의 강력한 텍스트 추론 능력을 계승
  • Pre-trained Aligner Module: 모달리티별 신호를 텍스트 공간으로 변환
  • Lightweight Adaptor: 각 모달리티에 대한 경량 어댑터를 통한 효율적 정렬

성능

  • VQAv2에서 +7.0% 상대적 정확도 향상
  • Zero-shot COCO Image Captioning에서 +8.4% CIDEr 향상
  • AudioCaps에서 +14.5% CIDEr 향상

논문: "AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model" (arXiv:2309.16058, EMNLP 2024 Industry Track)

2.16 Qwen2.5-Omni (Alibaba)

개요

Qwen2.5-Omni는 Alibaba에서 개발한 End-to-End 멀티모달 모델로, 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 동시에 생성한다.

핵심 혁신

TMRoPE (Time-aligned Multimodal RoPE): 서로 다른 모달리티 간의 시간적 정렬을 위한 새로운 위치 임베딩 방식

Thinker-Talker 아키텍처: 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하는 이중 구조

  • Thinker: 멀티모달 입력을 처리하고 텍스트 응답을 생성
  • Talker: Thinker의 출력을 기반으로 실시간 음성을 생성

성능

End-to-End 음성 명령 수행 능력이 텍스트 입력과 비교 가능한 수준이다. MMLU, GSM8K 등의 벤치마크에서 검증되었다.

논문: "Qwen2.5-Omni Technical Report" (arXiv:2503.20215, Mar 2025)

2.17 기타 주목할 모델들 (2024-2025)

VITA

VITA는 비디오, 이미지, 텍스트, 오디오를 동시에 처리하는 오픈소스 Interactive Omni MLLM이다.

  • LLM 백본: Mixtral 8x7B
  • 2단계 학습: 멀티모달 정렬 → 명령어 튜닝
  • Non-awakening Interaction: 웨이크워드 없이 사용자 음성에 반응

논문: "VITA: Towards Open-Source Interactive Omni Multimodal LLM" (arXiv:2408.05211, Aug 2024)

Baichuan-Omni

7B 규모의 오픈소스 Omni-Modal MLLM으로, 이미지, 비디오, 오디오, 텍스트를 동시에 처리한다.

논문: "Baichuan-Omni Technical Report" (arXiv:2410.08565, Oct 2024)

Mini-Omni

최초의 완전 End-to-End 오픈소스 실시간 음성 상호작용 모델이다.

  • Text-instructed Speech Generation 방법 제안
  • VoiceAssistant-400K 데이터셋 공개
  • Batch-parallel 추론 전략으로 성능 최적화

논문: "Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming" (arXiv:2408.16725, Aug 2024)

OneLLM

8가지 모달리티를 언어와 정렬하는 통합 프레임워크이다.

  • Universal Projection Module (UPM): 여러 이미지 프로젝션 모듈을 혼합한 동적 라우팅
  • Progressive Alignment Pipeline: 점진적으로 더 많은 모달리티를 LLM에 정렬
  • 이미지, 오디오, 비디오, 포인트 클라우드, Depth, Normal Map, IMU, fMRI 등 8가지 모달리티
  • 2M 항목의 멀티모달 명령어 데이터셋

논문: "OneLLM: One Framework to Align All Modalities with Language" (arXiv:2312.03700, CVPR 2024)

Llama 4 (Meta)

2025년 4월, Meta는 Llama 4 Scout/Maverick을 공개했다.

  • MoE 아키텍처: 17B active parameters, 128 routed experts + shared expert
  • 네이티브 멀티모달: 텍스트, 이미지, 비디오 프레임을 Early Fusion으로 처리
  • 10M 토큰 컨텍스트: Llama 4 Scout에서 업계 최고 수준의 컨텍스트 윈도우
  • GPT-4o, Gemini 2.0 Flash를 능가하는 벤치마크 성능 (멀티모달 클래스 내)

ImageBind (Meta)

ImageBind는 Omni Model의 핵심 인프라 중 하나로, 6가지 모달리티를 단일 임베딩 공간에 결합한다.

  • 이미지, 텍스트, 오디오, 깊이, 열화상, IMU 데이터
  • Binding Property: 이미지를 매개로 각 모달리티의 임베딩을 정렬하면, 모든 모달리티 간 자발적 정렬(emergent alignment) 발생
  • NExT-GPT 등 여러 Omni Model의 입력 인코더로 활용

논문: "ImageBind: One Embedding Space To Bind Them All" (arXiv:2305.05665, CVPR 2023)


3. 학습 데이터 분석

3.1 주요 모델별 학습 데이터 비교

Omni Model의 성능은 학습 데이터의 규모, 다양성, 품질에 크게 좌우된다. 아래 표는 공개된 정보를 기준으로 주요 모델의 학습 데이터를 비교한다.

모델텍스트 데이터Image-Text 쌍비디오 데이터오디오 데이터총 토큰 규모데이터 공개
GPT-4o비공개비공개비공개비공개비공개X
Gemini 1.0웹, 도서, 코드포함포함포함비공개X
Chameleon웹 텍스트Image-Text 쌍--~4.4T 토큰부분
Unified-IO 21T 토큰10억 쌍1.8억 클립포함~1T+O
Emu3혼합 텍스트혼합 이미지혼합 비디오-비공개부분
NExT-GPT명령어 데이터정렬 데이터정렬 데이터정렬 데이터비교적 소규모O
AnyGPTAnyInstruct-108k합성 데이터-합성 데이터소규모O
Qwen2.5-Omni대규모 웹포함포함포함비공개부분
Baichuan-Omni고품질 Omni 데이터포함포함포함비공개부분

3.2 Text Corpora

Omni Model의 텍스트 학습 데이터는 기존 LLM의 학습 데이터를 기반으로 한다.

주요 텍스트 데이터 소스:

  • Common Crawl: 웹 크롤링 기반 대규모 텍스트 (수조 토큰)
  • Wikipedia: 다국어 백과사전 텍스트
  • Books: 도서 전문 텍스트
  • Code: GitHub 등의 프로그래밍 코드
  • ArXiv: 학술 논문 (수학, 과학, 컴퓨터 과학)
  • StackExchange: Q&A 기반 기술 텍스트

3.3 Image-Text Pairs

데이터셋규모특징
LAION-5B58.5억 쌍CLIP 필터링된 웹 크롤링 이미지-텍스트 쌍
LAION-400M4억 쌍LAION-5B의 전신
CommonPool128억 쌍DataComp 벤치마크의 기반 데이터, LAION-5B의 2.5배
COYO-700M7억 쌍Kakao Brain의 이미지-텍스트 쌍 데이터
WebLI비공개 규모Google 내부 웹 이미지-텍스트 데이터 (Gemini 학습에 사용)
JFT-3B30억 이미지Google 내부 다중 레이블 분류 데이터
CC12M1200만 쌍Conceptual Captions 데이터셋

3.4 Video Data

비디오 데이터는 Omni Model의 시간적 이해와 생성 능력에 핵심적이다.

  • WebVid-10M: 1000만 개의 비디오-텍스트 쌍 (Frozen in Time 논문)
  • InternVid: 약 7백만 개의 비디오-텍스트 쌍
  • HD-VILA-100M: 1억 개의 비디오-텍스트 쌍
  • Panda-70M: 7000만 개의 고품질 비디오-캡션 쌍

3.5 Audio Data

  • AudioCaps: 약 46,000개의 오디오-캡션 쌍
  • AudioSet: 약 200만 개의 오디오 클립 (10초, 527개 레이블)
  • LibriSpeech: 약 1,000시간의 영어 음성
  • WavCaps: 약 40만 개의 오디오-캡션 쌍
  • VoiceAssistant-400K: Mini-Omni 학습용 합성 음성 데이터

3.6 Data Curation과 Synthetic Data

데이터 큐레이션 방법

최근 Omni Model 학습에서는 데이터 품질이 규모 못지않게 중요하다는 인식이 확산되고 있다.

  1. CLIP Score 필터링: 이미지-텍스트 쌍의 의미적 일치도를 CLIP 점수로 평가하여 저품질 데이터 제거
  2. Deduplication: 중복 데이터 제거를 통한 학습 효율성 향상
  3. Safety Filtering: 유해 콘텐츠(NSFW, 편향, 개인정보 등) 필터링
  4. Language Identification: 다국어 데이터의 언어 식별 및 분류

Synthetic Data 활용

  • DALL-E 3의 캡션 개선: OpenAI는 기존 이미지-텍스트 데이터의 캡션을 LLM으로 재생성하여 학습 데이터 품질을 크게 향상시켰다
  • AnyGPT의 AnyInstruct-108k: 생성형 AI를 활용하여 멀티턴 멀티모달 대화 데이터를 합성
  • Recaptioning: 기존 이미지의 캡션을 더 상세하고 정확한 설명으로 교체하는 기법

4. 핵심 학습 방법론

4.1 Early Fusion vs Late Fusion

Omni Model 설계에서 가장 근본적인 아키텍처 결정은 모달리티 융합(fusion) 시점이다.

Early Fusion

정의: 서로 다른 모달리티의 데이터를 입력 단계에서 결합하여 단일 모델로 처리하는 방식

장점:

  • 학습 초기부터 모달리티 간 상호작용 학습 가능
  • 더 풍부하고 세밀한 cross-modal 표현 학습
  • 별도의 모달리티별 처리가 불필요하여 계산 비용 절감 가능

단점:

  • 고차원 피처 공간 → 차원의 저주(curse of dimensionality)
  • 학습 안정성 문제 (Chameleon에서 특별한 안정화 기법 필요)
  • 대규모 데이터 필요

대표 모델: Chameleon, GPT-4o, Gemini, Emu3

Late Fusion

정의: 각 모달리티를 독립적으로 처리한 후, 예측 단계에서 결합하는 방식

장점:

  • 결측 데이터에 대한 강건성
  • 모달리티별 독립적 최적화 가능
  • 기존 단일 모달리티 모델 재활용 가능

단점:

  • 모달리티 간 상호작용을 학습하지 못함
  • 복잡한 cross-modal 추론에 제한

대표 모델: NExT-GPT, CoDi

Intermediate Fusion (하이브리드)

최근에는 Early Fusion과 Late Fusion의 장점을 결합한 Intermediate Fusion이 주류로 부상하고 있다.

  • Janus: 이해와 생성에 서로 다른 인코딩 경로를 사용하되, 하나의 Transformer에서 통합 처리
  • Show-o: Omni-Attention으로 텍스트(Causal)와 이미지(Full) 어텐션을 적응적으로 전환
  • Transfusion: 텍스트에는 LM Loss, 이미지에는 Diffusion Loss를 동일 모델에서 적용
융합 방식Cross-Modal 학습결측 데이터 강건성학습 안정성구현 복잡도
Early Fusion매우 우수낮음어려움낮음
Late Fusion불가매우 우수쉬움높음
Intermediate Fusion우수중간중간중간

4.2 토큰화 전략 (Tokenization Strategies)

멀티모달 모델에서 서로 다른 모달리티를 통합 처리하기 위한 핵심은 토큰화이다.

텍스트 토큰화

  • BPE(Byte Pair Encoding), SentencePiece 등 기존 LLM 토크나이저 활용
  • Vocabulary 크기: 32K ~ 128K+ 토큰

이미지 토큰화: Discrete vs Continuous

이산 토큰화 (Discrete Tokenization):

VQ-VAE(Vector Quantized Variational AutoEncoder) 기반으로 이미지를 이산 코드북의 인덱스 시퀀스로 변환한다.

방법Codebook 크기토큰 수/이미지사용 모델
VQGAN8192256~1024Chameleon, Emu3
FSQ (Finite Scalar Quantizer)가변가변OmniJARVIS
RQ-VAE (Residual Quantization)가변가변SEED
dVAE81921024DALL-E

장점: LLM의 이산 토큰 처리 파이프라인과 자연스럽게 통합, 통합 vocabulary 가능 단점: 양자화로 인한 정보 손실, 높은 fidelity의 이미지 재구성 어려움

연속 표현 (Continuous Representation):

이미지를 연속적인 임베딩 벡터로 인코딩하며, Diffusion 과정을 통해 이미지를 생성한다.

방법인코더사용 모델
VAE LatentStable Diffusion VAETransfusion, OmniGen
CLIP FeaturesCLIP ViTLLaVA, BLIP-2
SigLIP FeaturesSigLIP ViTJanus (이해 경로)
DINOv2 FeaturesDINOv2 ViT4M-21

장점: 정보 손실 최소화, 고품질 이미지 생성 가능 단점: LLM의 이산 토큰 체계와 직접 통합이 어려움, 별도의 디퓨전 프로세스 필요

오디오 토큰화

방법특징사용 모델
EnCodecMeta의 신경 오디오 코덱, 이산 토큰AnyGPT
SpeechTokenizer의미와 음향을 분리한 토큰화AnyGPT
USM FeaturesGoogle의 Universal Speech ModelGemini
Whisper FeaturesOpenAI의 음성 인식 모델 피처Mini-Omni

비디오 토큰화

비디오는 일반적으로 프레임 단위 이미지 토큰화 + 시간적 토큰화의 조합으로 처리된다.

  • 프레임 샘플링 + 이미지 토크나이저: 일정 간격으로 프레임을 추출하고 각각을 이미지로 토큰화
  • 3D 토크나이저: 시공간(spatiotemporal) 정보를 함께 인코딩 (Emu3)
  • Video VQVAE: 비디오 전용 벡터 양자화

4.3 Joint Training vs Modular Training

Joint Training (통합 학습)

모든 모달리티를 처음부터 함께 학습하는 방식이다.

  • 장점: 모달리티 간 깊은 상호작용 학습, 단일 모델로 모든 태스크 수행
  • 단점: 방대한 계산 자원 필요, 학습 안정성 확보 어려움
  • 대표 모델: Chameleon, Gemini, Emu3, GPT-4o

Modular Training (모듈식 학습)

사전학습된 모달리티별 전문 모델을 LLM에 연결하고 정렬 학습을 수행하는 방식이다.

  • 장점: 기존 모델 재활용, 적은 계산 자원, 유연한 모듈 교체
  • 단점: 모달리티 간 상호작용의 깊이 제한, 파이프라인 복잡도
  • 대표 모델: NExT-GPT, CoDi, AnyMAL

Multi-Stage Training (다단계 학습)

대부분의 Omni Model은 다단계 학습 전략을 채택한다.

단계목적학습 데이터학습 가능 파라미터
Stage 1: Pre-training기본 멀티모달 이해대규모 Image-Text 쌍전체 또는 프로젝터만
Stage 2: Alignment모달리티 간 정렬멀티모달 정렬 데이터어댑터/프로젝터
Stage 3: Instruction Tuning명령어 수행 능력멀티모달 명령어-응답전체 미세조정
Stage 4: RLHF/DPO인간 선호도 정렬선호도 데이터전체 또는 일부

4.4 Alignment 기법

Contrastive Learning

CLIP에서 도입된 대조 학습은 이미지와 텍스트 임베딩을 공통 공간에서 정렬하는 기본 기법이다.

  • InfoNCE Loss: 매칭된 쌍의 유사도를 높이고 비매칭 쌍의 유사도를 낮춤
  • ImageBind의 Binding: 이미지를 매개로 6가지 모달리티를 간접적으로 정렬

Instruction Tuning

멀티모달 명령어-응답 데이터를 사용하여 모델이 다양한 멀티모달 작업을 수행하도록 미세조정한다.

Preference Optimization

RLHF(Reinforcement Learning from Human Feedback)나 DPO(Direct Preference Optimization)를 사용하여 인간 선호도에 맞는 출력을 생성하도록 학습한다.

4.5 Interleaved Multimodal Training

Interleaved(교차 배치) 멀티모달 학습은 텍스트와 이미지가 자연스럽게 혼재된 시퀀스에서 학습하는 방식이다.

VILA 논문에서는 다음과 같은 핵심 발견을 보고한다.

  1. LLM Freezing의 한계: Pre-training 중 LLM을 동결하면 decent한 zero-shot 성능은 얻지만, in-context learning 능력이 부족해진다. LLM의 동결을 해제해야 한다.
  2. Interleaved 데이터의 우월성: Image-Text 쌍만으로는 최적이 아니며, interleaved pre-training 데이터가 유익하다.
  3. 텍스트 데이터 재혼합: Instruction fine-tuning 시 텍스트 전용 데이터를 이미지-텍스트 데이터에 재혼합하면, 텍스트 태스크 성능 저하를 방지하면서 VLM 태스크 정확도도 향상된다.

4.6 Any-to-Any 생성 학습 전략

Any-to-Any 생성을 위한 학습 전략은 크게 세 가지로 분류된다.

1) Unified Autoregressive (통합 Autoregressive)

모든 모달리티를 이산 토큰으로 변환하고 단일 autoregressive 모델로 학습한다.

[텍스트 토큰1] [텍스트 토큰2] ... [이미지 토큰1] [이미지 토큰2] ... [오디오 토큰1] ...
  • 대표 모델: Chameleon, Emu3, AnyGPT
  • 장점: 아키텍처 단순성, 통합 학습
  • 단점: 이미지 품질 제한 (이산 토큰화로 인한 정보 손실)

2) Hybrid (Token Prediction + Diffusion)

텍스트에는 autoregressive, 이미지에는 diffusion을 적용한다.

  • 대표 모델: Transfusion, Show-o
  • 장점: 각 모달리티에 최적의 학습 방식 적용, 높은 이미지 품질
  • 단점: 아키텍처 복잡도 증가

3) LLM + External Decoders

LLM이 중간 표현을 생성하고, 외부 디코더(Diffusion Model 등)가 최종 출력을 생성한다.

  • 대표 모델: NExT-GPT, CoDi, SEED-X
  • 장점: 기존 고성능 모델 활용, 유연한 모듈 교체
  • 단점: End-to-End 최적화 어려움, 파이프라인 지연

5. 아키텍처 비교

5.1 Encoder-Decoder vs Decoder-Only

특성Encoder-DecoderDecoder-Only
구조인코더가 입력 처리, 디코더가 출력 생성단일 디코더로 입출력 모두 처리
대표 모델Unified-IO 2, 4M/4M-21Chameleon, GPT-4o, Gemini, Emu3
장점인코더에서 양방향 어텐션 가능, 입력 이해력 우수아키텍처 단순성, 확장성, LLM과의 자연스러운 통합
단점디코더 전용 대비 확장성 제한양방향 컨텍스트 활용 제한
추세점차 감소주류로 부상

최근 트렌드는 확실히 Decoder-Only 아키텍처 쪽으로 수렴하고 있다. 이는 LLM 생태계와의 호환성, 아키텍처의 단순성, 그리고 충분한 규모에서의 성능 동등성에 기인한다.

5.2 모달리티별 인코더/디코더

모델이미지 인코더이미지 디코더오디오 인코더오디오 디코더비디오 처리
GPT-4o통합 (네이티브)통합 (네이티브)통합 (네이티브)통합 (네이티브)통합
Gemini통합 (네이티브)통합 (네이티브)USM 기반통합통합
ChameleonVQ TokenizerVQ Detokenizer---
NExT-GPTImageBindStable DiffusionImageBindAudioLDMZeroscope
CoDi모달리티별모달리티별 Diffusion모달리티별모달리티별모달리티별
Emu3SBER-MoVQGANSBER-MoVQGAN--3D Tokenizer
Show-oPhi-1.5 + Magvit-v2Magvit-v2---
JanusSigLIP (이해) / VQ (생성)VQ Decoder---
Qwen2.5-Omni통합통합Whisper 기반Talker 모듈TMRoPE

5.3 통합 토크나이저 접근법

**통합 토크나이저(Unified Tokenizer)**는 모든 모달리티를 단일 vocabulary로 매핑하는 접근이다.

접근법설명대표 모델
공유 Vocabulary텍스트와 이미지 토큰이 동일 vocabulary 공간Chameleon, Emu3
확장 Vocabulary기존 텍스트 vocabulary에 이미지/오디오 토큰 추가AnyGPT, SEED-LLaMA
별도 Vocabulary모달리티별 독립 vocabulary, 프로젝션으로 연결NExT-GPT, AnyMAL
하이브리드이해와 생성에 서로 다른 토큰화 전략Janus, Show-o

5.4 Cross-Modal Attention 메커니즘

메커니즘설명대표 모델
Causal Self-Attention모든 토큰에 동일한 causal 마스크 적용Chameleon, Emu3
Omni-Attention텍스트에 causal, 이미지에 full attention 적용Show-o
Cross-Attention별도의 cross-modal attention 레이어Flamingo, BLIP-2
Perceiver Resampler가변 길이 입력을 고정 길이로 압축Unified-IO 2
TMRoPE시간 정렬된 멀티모달 위치 임베딩Qwen2.5-Omni
Dynamic Routing모달리티에 따라 동적으로 경로 선택OneLLM

5.5 종합 아키텍처 비교표

모델아키텍처 유형Fusion 방식토큰화학습 목표모달리티 (I/O)파라미터
GPT-4oDecoder-onlyEarly네이티브통합T,I,A → T,I,A비공개
Gemini 1.5Decoder-onlyEarlyVQ+USM통합T,I,A,V → T비공개
ChameleonDecoder-onlyEarlyDiscrete (VQ)Next-TokenT,I → T,I7B/34B
TransfusionDecoder-onlyEarlyHybridNTP+DiffusionT,I → T,I0.16B~7B
Emu3Decoder-onlyEarlyDiscrete (VQ)Next-TokenT,I,V → T,I,V8B
Show-oDecoder-onlyIntermediateHybridAR+Discrete DiffT,I → T,I1.3B
NExT-GPTDecoder-only + DecodersLate연속LM+DiffusionT,I,A,V → T,I,A,V7B+
CoDiMulti-DiffusionLate연속DiffusionT,I,A,V → T,I,A,V-
Unified-IO 2Enc-DecEarlyDiscreteSeq2SeqT,I,A,V → T,I,A7B
JanusDecoder-onlyIntermediateDecoupledNext-TokenT,I → T,I1.3B/7B
AnyGPTDecoder-onlyEarlyDiscreteNext-TokenT,I,A,Music → 동일7B
4M-21Enc-DecEarlyDiscrete (Tokenizer)Masked Modeling21종 모달리티-
OmniGenVAE+Transformer-연속 (VAE)DiffusionT,I → I-
Qwen2.5-OmniDecoder-only (Thinker-Talker)Early통합통합T,I,A,V → T,A7B
SEED-XDecoder-onlyIntermediate다중 세분성AR+DiffusionT,I → T,I17B
Llama 4Decoder-only (MoE)Early네이티브Next-TokenT,I,V → T17B active (Scout)

T: Text, I: Image, A: Audio, V: Video


6. 주요 논문 레퍼런스

6.1 핵심 Omni Model 논문

#논문명저자/기관연도핵심 기여링크
1GPT-4 Technical ReportOpenAI2023대규모 멀티모달 LLM의 기초arXiv:2303.08774
2GPT-4o System CardOpenAI2024End-to-End 네이티브 멀티모달 모델 안전성 분석OpenAI
3Gemini: A Family of Highly Capable Multimodal ModelsGoogle DeepMind2023네이티브 멀티모달 훈련, 30/32 벤치마크 SOTAarXiv:2312.11805
4Gemini 1.5: Unlocking multimodal understanding across millions of tokensGoogle DeepMind202410M 토큰 컨텍스트, MoE 아키텍처arXiv:2403.05530
5Chameleon: Mixed-Modal Early-Fusion Foundation ModelsMeta AI (FAIR)2024Early-Fusion 토큰 기반 혼합 모달 모델arXiv:2405.09818
6Transfusion: Predict the Next Token and Diffuse Images with One ModelMeta AI2024Token Prediction + Diffusion 결합arXiv:2408.11039
7NExT-GPT: Any-to-Any Multimodal LLMNUS2023LLM+Diffusion 기반 Any-to-Any 생성arXiv:2309.05519
8CoDi: Any-to-Any Generation via Composable DiffusionUNC+Microsoft2023Composable Diffusion으로 Any-to-Any 생성arXiv:2305.11846
9CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any GenerationUNC+Microsoft2024In-Context 멀티모달 생성arXiv:2311.18775
10Unified-IO 2: Scaling Autoregressive Multimodal ModelsAI22023최초의 통합 멀티모달 autoregressive 모델arXiv:2312.17172
11Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and GenerationDeepSeek2024시각 인코딩 분리로 이해/생성 통합arXiv:2410.13848
12Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model ScalingDeepSeek2025Janus의 스케일링 및 최적화arXiv:2501.17811
13Emu: Generative Pretraining in MultimodalityBAAI2023멀티모달 생성형 사전학습arXiv:2307.05222
14Emu2: Generative Multimodal Models are In-Context LearnersBAAI202337B 멀티모달 In-Context 학습arXiv:2312.13286
15Emu3: Next-Token Prediction is All You NeedBAAI2024순수 Next-Token으로 멀티모달 통합arXiv:2409.18869
16Show-o: One Single Transformer to Unify Multimodal Understanding and GenerationShowLab2024Omni-Attention, AR+Discrete Diffusion 통합arXiv:2408.12528
17OmniGen: Unified Image GenerationVectorSpaceLab2024플러그인 없는 통합 이미지 생성arXiv:2409.11340
184M: Massively Multimodal Masked ModelingEPFL2023Masked Modeling으로 다중 모달리티 통합 학습arXiv:2312.06647
19AnyGPT: Unified Multimodal LLM with Discrete Sequence ModelingFudan2024이산 시퀀스로 Any-to-Any 통합arXiv:2402.12226
20AnyMAL: An Efficient and Scalable Any-Modality Augmented Language ModelMeta2023효율적 모달리티 정렬, 5+모달리티 지원arXiv:2309.16058

6.2 인프라 및 기반 기술 논문

#논문명저자/기관연도핵심 기여링크
21ImageBind: One Embedding Space To Bind Them AllMeta AI20236개 모달리티 통합 임베딩 공간arXiv:2305.05665
22SEED-LLaMA: Making LLaMA SEE and Draw with SEED TokenizerTencent20231D Causal 이미지 토크나이저arXiv:2310.01218
23SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and GenerationTencent2024다중 세분성 시각 이해 및 생성arXiv:2404.14396
24OneLLM: One Framework to Align All Modalities with Language중국과학기술대 외20248개 모달리티 통합 정렬 프레임워크arXiv:2312.03700
25VILA: On Pre-training for Visual Language ModelsNVIDIA2024멀티모달 사전학습 레시피arXiv:2312.07533

6.3 Omni 음성/오디오 모델 논문

#논문명저자/기관연도핵심 기여링크
26Qwen2.5-Omni Technical ReportAlibaba (Qwen)2025Thinker-Talker 아키텍처, TMRoPEarXiv:2503.20215
27Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming-2024최초 End-to-End 오픈소스 실시간 음성 모델arXiv:2408.16725
28VITA: Towards Open-Source Interactive Omni Multimodal LLM-2024Mixtral 기반 오픈소스 Omni LLMarXiv:2408.05211
29Baichuan-Omni Technical ReportBaichuan20247B 오픈소스 Omni 모달 MLLMarXiv:2410.08565

6.4 서베이 및 벤치마크 논문

#논문명저자/기관연도핵심 기여링크
30From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities-2024Omni-MLLM 종합 서베이arXiv:2412.11694
31Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities-2025통합 멀티모달 모델 서베이arXiv:2505.02567
32LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text ModelsLAION202258.5억 이미지-텍스트 쌍 공개 데이터셋arXiv:2210.08402
33World Model on Million-Length Video And Language With Blockwise RingAttentionUC Berkeley20241M 토큰 비디오-언어 모델arXiv:2402.08268
34MiniGPT-5: Interleaved Vision-and-Language Generation via Generative VokensUC Santa Cruz2023Generative Vokens 기반 교차 생성arXiv:2310.02239

7. 미래 전망과 한계점

7.1 현재의 한계점

학습 데이터의 한계

  1. 모달리티 간 데이터 불균형: 텍스트 데이터는 수조 토큰 규모지만, 고품질 비디오-텍스트 쌍이나 오디오-텍스트 쌍은 상대적으로 부족하다. 이 불균형은 모델이 특정 모달리티에서 약한 성능을 보이는 원인이 된다.

  2. Interleaved 멀티모달 데이터 부족: 텍스트와 이미지가 자연스럽게 교차된 대규모 학습 데이터의 확보가 어렵다. 실제 웹 데이터에서 추출할 수 있지만, 품질 필터링이 까다롭다.

  3. 멀티모달 정렬 데이터: 동일한 의미를 갖는 다양한 모달리티의 정렬된 데이터(예: 같은 장면의 텍스트 설명, 이미지, 오디오, 비디오)를 대규모로 확보하기 어렵다.

아키텍처적 한계

  1. Understanding vs Generation 갈등: Janus 논문에서 지적한 것처럼, 멀티모달 이해와 생성은 서로 다른 수준의 정보 세분성을 필요로 한다. 단일 인코더로 두 작업을 모두 최적화하기 어렵다.

  2. 이산 토큰화의 정보 손실: VQ-VAE 기반 이산 토큰화는 이미지 품질에 제한을 가한다. Transfusion이 보여주듯, 이산 토큰보다 연속 표현이 확장성 면에서 유리할 수 있다.

  3. 계산 비용: 모든 모달리티를 네이티브하게 처리하는 Early Fusion 모델은 방대한 계산 자원을 필요로 한다. Chameleon의 경우 학습 안정성 확보를 위해 특별한 기법이 필요했다.

평가의 한계

  1. 통합 벤치마크 부재: 모든 모달리티의 이해와 생성을 동시에 평가할 수 있는 표준화된 벤치마크가 부족하다.

  2. 생성 품질 평가의 어려움: 이미지, 오디오, 비디오 생성 품질을 객관적으로 평가하는 것은 텍스트 평가보다 훨씬 복잡하다.

  3. Cross-Modal 능력 평가: 모달리티 간 추론, 변환, 조합 능력을 체계적으로 평가하는 방법론이 미성숙하다.

7.2 연구 동향 및 미래 전망

단기 전망 (2025-2026)

  1. Unified Tokenization의 진화: VQ-VAE를 넘어서는 새로운 시각 토크나이저의 등장이 예상된다. SoftVQ-VAE, VAEVQ 등 양자화 품질을 개선하는 연구가 활발하다.

  2. 실시간 Omni 상호작용: GPT-4o에서 시작된 실시간 멀티모달 상호작용이 오픈소스 생태계로 확산될 것이다. Qwen2.5-Omni, Mini-Omni 등이 이미 이 방향을 개척하고 있다.

  3. 효율적 Omni 모델: 경량 Omni 모델(3B 이하)의 개발이 가속화되어, 엣지 디바이스에서의 멀티모달 처리가 가능해질 것이다.

  4. MoE 기반 Omni 모델: Llama 4에서 보여준 것처럼, Mixture-of-Experts 아키텍처를 통해 모달리티별 전문 expert를 활용하는 접근이 확산될 것이다.

중장기 전망 (2026-2028)

  1. World Model로의 진화: Omni Model은 단순한 입출력 변환을 넘어, 세계에 대한 내부 모델을 구축하는 방향으로 진화할 것이다. LWM(Large World Model)처럼 백만 토큰 규모의 비디오를 이해하고 미래를 예측하는 능력이 강화될 것이다.

  2. Embodied AI와의 통합: Omni Model이 로봇의 센서 데이터(시각, 촉각, 관절 각도 등)를 이해하고 행동을 생성하는 방향으로 확장될 것이다. Unified-IO 2의 "Action" 모달리티가 이 방향의 초기 사례다.

  3. 개인화된 Omni Agent: 사용자의 음성, 시각 환경, 텍스트 대화를 종합적으로 이해하고, 상황에 맞는 멀티모달 응답을 실시간으로 생성하는 개인 비서형 AI의 실현이 가능해질 것이다.

  4. 과학 및 의료 분야 활용: 멀티모달 데이터가 풍부한 과학(분자 구조, 스펙트럼, 현미경 이미지)과 의료(의료 영상, 병리 보고서, 환자 음성) 분야에서 Omni Model의 활용이 확대될 것이다.

7.3 핵심 과제

Omni Model이 성숙하기 위해 해결해야 할 핵심 과제를 정리하면 다음과 같다.

과제설명현재 진행 상황
학습 안정성Early Fusion 대규모 학습의 안정적 수렴Chameleon의 QK-Norm, z-loss 등 부분적 해결
모달리티 균형서로 다른 모달리티 간 학습 균형 유지Loss weighting, masked sequence packing 등 연구 중
생성 품질Diffusion 전용 모델 수준의 이미지/비디오 생성Transfusion의 하이브리드 접근으로 격차 축소
효율성추론 시 계산 효율성 확보MoE, 양자화, 모달리티별 early exit 등 연구 중
안전성멀티모달 출력의 안전성 보장GPT-4o System Card 등 초기 프레임워크 제시
평가 체계통합 멀티모달 벤치마크 확립SEED-Bench, MMBench 등 부분적 커버
데이터 확보고품질 멀티모달 정렬 데이터Synthetic data 활용 확대 (AnyInstruct, DALL-E 3 recaptioning)

8. 결론

Omni Model은 AI의 모달리티 장벽을 허물고, 인간처럼 다양한 감각 정보를 통합적으로 이해하고 표현할 수 있는 시스템을 향한 중요한 진전이다.

2023년의 NExT-GPT, CoDi에서 시작된 Any-to-Any 멀티모달 연구는, 2024년의 Chameleon, Transfusion, Emu3를 거치며 아키텍처적 패러다임이 확립되었다. 2025년에는 Qwen2.5-Omni, Janus-Pro, Llama 4 등을 통해 실용화 단계에 접어들고 있다.

핵심 교훈을 정리하면:

  1. Early Fusion이 대세: 모달리티별 전문 모델을 조합하는 Late Fusion보다, 처음부터 모든 모달리티를 통합 학습하는 Early Fusion이 더 강력한 cross-modal 능력을 보인다.

  2. Tokenization이 핵심: 이산 토큰화(Chameleon, Emu3) vs 연속 표현+Diffusion(Transfusion) vs 하이브리드(Show-o, Janus) 중 어떤 접근이 최적인지는 아직 정해지지 않았다. 각각의 trade-off가 존재한다.

  3. 스케일링이 여전히 중요: Chameleon의 4.4T 토큰 학습, Gemini의 대규모 학습 등에서 보듯, 데이터와 모델 규모의 확장이 멀티모달 능력 향상의 핵심 동력이다.

  4. 오픈소스 생태계의 급성장: 2024-2025년에 Baichuan-Omni, VITA, Mini-Omni, Janus, Emu3 등 고품질 오픈소스 Omni Model이 대거 등장하면서, 연구와 응용의 접근성이 크게 향상되었다.

Omni Model 분야는 현재 가장 빠르게 발전하는 AI 연구 영역 중 하나이며, 향후 AI 시스템의 핵심 아키텍처로 자리 잡을 것으로 전망된다.


References

  1. OpenAI. "GPT-4 Technical Report." arXiv:2303.08774 (2023). https://arxiv.org/abs/2303.08774
  2. OpenAI. "GPT-4o System Card." (2024). https://cdn.openai.com/gpt-4o-system-card.pdf
  3. Google DeepMind. "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805 (2023). https://arxiv.org/abs/2312.11805
  4. Google DeepMind. "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context." arXiv:2403.05530 (2024). https://arxiv.org/abs/2403.05530
  5. Chameleon Team, Meta. "Chameleon: Mixed-Modal Early-Fusion Foundation Models." arXiv:2405.09818 (2024). https://arxiv.org/abs/2405.09818
  6. Zhou et al. "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model." arXiv:2408.11039 (2024). https://arxiv.org/abs/2408.11039
  7. Wu et al. "NExT-GPT: Any-to-Any Multimodal LLM." arXiv:2309.05519 (2023). https://arxiv.org/abs/2309.05519
  8. Tang et al. "Any-to-Any Generation via Composable Diffusion (CoDi)." arXiv:2305.11846 (2023). https://arxiv.org/abs/2305.11846
  9. Tang et al. "CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation." arXiv:2311.18775 (2023). https://arxiv.org/abs/2311.18775
  10. Lu et al. "Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action." arXiv:2312.17172 (2023). https://arxiv.org/abs/2312.17172
  11. Wu et al. "Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation." arXiv:2410.13848 (2024). https://arxiv.org/abs/2410.13848
  12. Wu et al. "Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling." arXiv:2501.17811 (2025). https://arxiv.org/abs/2501.17811
  13. Sun et al. "Emu: Generative Pretraining in Multimodality." arXiv:2307.05222 (2023). https://arxiv.org/abs/2307.05222
  14. Sun et al. "Emu2: Generative Multimodal Models are In-Context Learners." arXiv:2312.13286 (2023). https://arxiv.org/abs/2312.13286
  15. Wang et al. "Emu3: Next-Token Prediction is All You Need." arXiv:2409.18869 (2024). https://arxiv.org/abs/2409.18869
  16. Xie et al. "Show-o: One Single Transformer to Unify Multimodal Understanding and Generation." arXiv:2408.12528 (2024). https://arxiv.org/abs/2408.12528
  17. Xiao et al. "OmniGen: Unified Image Generation." arXiv:2409.11340 (2024). https://arxiv.org/abs/2409.11340
  18. Bachmann et al. "4M: Massively Multimodal Masked Modeling." arXiv:2312.06647 (2023). https://arxiv.org/abs/2312.06647
  19. Zhan et al. "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling." arXiv:2402.12226 (2024). https://arxiv.org/abs/2402.12226
  20. Moon et al. "AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model." arXiv:2309.16058 (2023). https://arxiv.org/abs/2309.16058
  21. Girdhar et al. "ImageBind: One Embedding Space To Bind Them All." arXiv:2305.05665 (2023). https://arxiv.org/abs/2305.05665
  22. Ge et al. "Making LLaMA SEE and Draw with SEED Tokenizer." arXiv:2310.01218 (2023). https://arxiv.org/abs/2310.01218
  23. Ge et al. "SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation." arXiv:2404.14396 (2024). https://arxiv.org/abs/2404.14396
  24. Han et al. "OneLLM: One Framework to Align All Modalities with Language." arXiv:2312.03700 (2024). https://arxiv.org/abs/2312.03700
  25. Lin et al. "VILA: On Pre-training for Visual Language Models." arXiv:2312.07533 (2024). https://arxiv.org/abs/2312.07533
  26. Xu et al. "Qwen2.5-Omni Technical Report." arXiv:2503.20215 (2025). https://arxiv.org/abs/2503.20215
  27. Xie et al. "Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming." arXiv:2408.16725 (2024). https://arxiv.org/abs/2408.16725
  28. Fu et al. "VITA: Towards Open-Source Interactive Omni Multimodal LLM." arXiv:2408.05211 (2024). https://arxiv.org/abs/2408.05211
  29. Li et al. "Baichuan-Omni Technical Report." arXiv:2410.08565 (2024). https://arxiv.org/abs/2410.08565
  30. "From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities." arXiv:2412.11694 (2024). https://arxiv.org/abs/2412.11694
  31. "Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities." arXiv:2505.02567 (2025). https://arxiv.org/abs/2505.02567
  32. Schuhmann et al. "LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models." arXiv:2210.08402 (2022). https://arxiv.org/abs/2210.08402
  33. Liu et al. "World Model on Million-Length Video And Language With Blockwise RingAttention." arXiv:2402.08268 (2024). https://arxiv.org/abs/2402.08268
  34. Zheng et al. "MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens." arXiv:2310.02239 (2023). https://arxiv.org/abs/2310.02239