들어가며: 왜 멀티모달인가
몇 년 전만 해도 "LLM"이라는 단어는 곧 텍스트를 뜻했습니다. 사용자가 문장을 입력하면 모델이 문장으로 답하는, 순수한 언어 모델이었죠. 그런데 인간이 세상을 이해하는 방식을 떠올려 보면, 우리는 결코 텍스트만으로 사고하지 않습니다. 눈으로 장면을 보고, 귀로 소리를 듣고, 입으로 말을 하고, 손으로 그림을 그립니다. 이 모든 감각 채널, 즉 모달리티(modality)를 하나로 엮어 세계를 이해하고 표현합니다.
멀티모달 LLM(Multimodal Large Language Model)은 바로 이 지점을 노립니다. 여러 모달리티를 하나의 대형 언어 모델 안으로 통합하여, 텍스트를 다루던 능력을 이미지, 오디오, 비디오로 확장하는 것입니다. 최근 몇 년간 이 분야는 급격히 발전했고, "보고, 듣고, 말하는" 단일 모델이라는 목표가 점점 현실이 되고 있습니다.
이 글에서는 멀티모달 LLM의 기본 개념부터 아키텍처, 학습 전략, 대표적인 모델 계열, 그리고 벤치마크와 한계까지를 정리합니다. AI 분야는 매우 빠르게 변하므로, 구체적인 순위나 최신 수치보다는 개념과 아키텍처의 원리에 무게를 두어 설명하겠습니다. 특정 상용 모델의 세부 스펙은 공개되지 않은 부분이 많아, 확실히 알려진 범위 안에서 신중하게 다루겠습니다.
모달리티란 무엇인가
먼저 용어를 정리하고 넘어가겠습니다. 모달리티는 정보가 담긴 형식 또는 감각 채널을 뜻합니다. 대표적으로 다음과 같은 것들이 있습니다.
- 텍스트: 자연어 문장, 코드, 수식 등
- 이미지: 사진, 도표, 스크린샷, 문서 스캔 등
- 오디오: 음성, 음악, 환경음 등
- 비디오: 시간축을 가진 이미지 시퀀스와 그에 딸린 오디오
"멀티모달"은 이 중 둘 이상을 동시에 다룬다는 뜻입니다. 예를 들어 이미지를 입력받아 그 내용을 텍스트로 설명하는 모델은 이미지와 텍스트라는 두 모달리티를 다루는 멀티모달 모델입니다. 여기서 한 걸음 더 나아가, 입력과 출력 모두에서 임의의 모달리티를 자유롭게 조합하는 것을 any-to-any라고 부릅니다. 텍스트로 물어 이미지로 답하거나, 오디오를 듣고 텍스트로 요약하거나, 이미지를 보고 음성으로 설명하는 식입니다.
핵심 아이디어: 모든 것을 토큰으로
멀티모달 LLM을 이해하는 가장 중요한 열쇠는 "토큰"이라는 개념입니다. 원래 LLM은 텍스트를 토큰 단위로 쪼갭니다. 단어나 서브워드를 정수 ID로 바꾸고, 각 ID를 고차원 벡터(임베딩)로 변환한 뒤, 이 벡터 시퀀스를 트랜스포머(Transformer)에 흘려보냅니다. 트랜스포머는 셀프 어텐션(self-attention)을 통해 토큰들 사이의 관계를 학습합니다.
멀티모달의 핵심 통찰은 단순합니다. "이미지든 오디오든, 결국 벡터 시퀀스로 바꿀 수만 있다면 텍스트 토큰과 똑같이 트랜스포머에 넣을 수 있다"는 것입니다. 즉, 서로 다른 모달리티를 공통의 토큰 공간(unified token space)으로 매핑하기만 하면, LLM은 그것이 텍스트에서 왔는지 이미지에서 왔는지 신경 쓰지 않고 동일한 방식으로 처리할 수 있습니다.
이 발상 덕분에 멀티모달 LLM의 아키텍처는 다음과 같은 공통 골격을 가지게 됩니다.
[이미지] [오디오] [텍스트]
| | |
이미지 인코더 오디오 인코더 토크나이저
| | |
프로젝터 프로젝터 임베딩
| | |
+-------+-------+-------+-------+
|
통합 토큰 시퀀스 (unified token space)
|
+-----------+
| LLM | <- 트랜스포머 백본
| (디코더) |
+-----------+
|
출력 토큰 시퀀스
|
+-------+-------+
| |
텍스트 디코드 이미지/오디오 디코더
이 그림이 멀티모달 LLM의 전형적인 청사진입니다. 각 구성 요소를 하나씩 뜯어보겠습니다.
아키텍처 구성 요소
1. 모달별 인코더 (Modality Encoder)
각 비텍스트 모달리티는 먼저 전용 인코더를 통과합니다. 인코더의 역할은 원시 입력(픽셀, 파형)을 의미 있는 특징 벡터로 압축하는 것입니다.
이미지의 경우, 오랫동안 CLIP(Contrastive Language-Image Pre-training) 계열의 비전 인코더가 사실상 표준으로 쓰였습니다. CLIP은 이미지와 텍스트를 대조 학습(contrastive learning)으로 같은 임베딩 공간에 정렬시킨 모델로, 이미 텍스트와 궁합이 맞는 이미지 표현을 내놓기 때문에 언어 모델과 접합하기에 유리합니다. 비전 트랜스포머(ViT, Vision Transformer)를 백본으로 삼아 이미지를 패치(patch) 단위로 잘라 각 패치를 토큰처럼 처리합니다.
오디오의 경우, 파형을 멜 스펙트로그램(mel spectrogram)으로 변환한 뒤 트랜스포머 기반 인코더에 통과시키는 방식이 널리 쓰입니다. 음성 인식에서 잘 알려진 Whisper 계열의 인코더가 대표적인 예로, 다양한 언어와 잡음 환경에서 견고한 음성 표현을 학습했습니다.
비디오의 경우, 프레임을 이미지처럼 인코딩하되 시간축을 함께 고려해야 합니다. 프레임을 일정 간격으로 샘플링해 각각을 이미지 인코더로 처리하고, 시간 방향의 위치 정보를 더하거나, 공간과 시간을 함께 보는 3D 어텐션을 적용하기도 합니다.
2. 프로젝터 (Projector / Connector)
인코더가 내놓은 특징 벡터는 아직 LLM이 이해하는 임베딩 공간과 차원도, 의미 분포도 다릅니다. 프로젝터는 이 간극을 메우는 다리입니다. 인코더 출력을 받아 LLM의 토큰 임베딩 공간으로 변환해 주는 역할을 합니다.
프로젝터의 형태는 몇 가지로 나뉩니다.
- 선형 사영(linear projection): 가장 단순하게 행렬 하나로 차원을 맞춥니다. LLaVA 초기 버전이 이 방식을 사용해 놀랍도록 강력한 결과를 냈습니다.
- MLP: 선형 층 여러 개와 비선형 활성화를 쌓아 표현력을 높입니다. 이후 LLaVA 개선판 등에서 널리 채택되었습니다.
- 크로스 어텐션 기반 리샘플러(resampler): 예를 들어 Flamingo의 Perceiver Resampler나 BLIP-2의 Q-Former처럼, 학습 가능한 소수의 쿼리 토큰이 인코더 특징에서 정보를 뽑아내 고정된 개수의 토큰으로 압축합니다. 이미지 하나가 수백 개의 패치 토큰으로 표현될 때 이를 줄여 효율을 높이는 데 유용합니다.
3. LLM 백본 (Backbone)
토큰 공간으로 정렬된 멀티모달 토큰들은 이제 텍스트 토큰과 나란히 놓여 LLM 백본으로 들어갑니다. 이 백본은 보통 이미 잘 학습된 디코더 전용(decoder-only) 트랜스포머입니다. 언어 모델이 이미 방대한 텍스트에서 세계 지식과 추론 능력을 학습해 두었기 때문에, 여기에 시각·청각 정보를 얹으면 그 지식을 시각적 질문 응답이나 오디오 이해에 재활용할 수 있습니다.
핵심은 어텐션을 통해 서로 다른 모달리티의 토큰들이 상호작용한다는 점입니다. 예를 들어 "이 사진에서 왼쪽에 있는 사람은 무엇을 들고 있나요"라는 질문에 답할 때, 텍스트 토큰(질문)과 이미지 토큰(사진의 패치들)이 같은 어텐션 층 안에서 서로를 참조하며 답을 만들어 냅니다.
4. 출력 측: 생성으로 가는 길
여기까지는 주로 "이해"에 관한 이야기였습니다. 이미지를 보고 텍스트로 답하는 것은 입력이 멀티모달이고 출력은 텍스트인 경우입니다. 진정한 any-to-any가 되려면 출력에서도 비텍스트 모달리티를 만들어 낼 수 있어야 합니다.
이를 위한 접근은 크게 두 갈래입니다.
첫째, 외부 생성 모델을 도구처럼 호출하는 방식입니다. LLM이 이미지 생성 프롬프트를 만들어 별도의 확산 모델(diffusion model)에 넘기고, 그 결과 이미지를 반환합니다. 구현이 단순하고 각 생성 모델의 최신 성능을 그대로 활용할 수 있지만, 두 모델이 느슨하게 연결되어 있어 일관성 유지가 어려울 수 있습니다.
둘째, 모델 자체가 비텍스트 토큰을 생성하는 방식입니다. 이미지를 이산 토큰(discrete token)으로 표현하는 코드북(codebook)을 두고, LLM이 텍스트 토큰과 이미지 토큰을 한 시퀀스 안에서 함께 생성하도록 하는 것입니다. 이렇게 생성된 이미지 토큰은 디코더(예를 들어 VQ-VAE의 디코더나 확산 디코더)를 거쳐 실제 픽셀로 복원됩니다. 오디오도 뉴럴 코덱(neural codec)으로 파형을 이산 토큰으로 바꾼 뒤 같은 원리를 적용할 수 있습니다.
any-to-any 흐름 자세히 보기
any-to-any 모델의 이상적인 데이터 흐름을 조금 더 구체적으로 그려 보겠습니다.
입력 (임의 모달 조합)
텍스트 + 이미지 + 오디오
|
[모달별 인코딩]
각 모달을 토큰으로
|
[인터리빙(interleaving)]
"이 소리는 [audio] 무슨 악기?"
처럼 텍스트와 다른 모달 토큰을
한 시퀀스에 섞어 배치
|
[LLM 백본 처리]
통합 어텐션으로 교차 참조
|
[출력 라우팅]
다음 토큰이 텍스트면 텍스트로,
이미지 토큰이면 이미지 디코더로,
오디오 토큰이면 코덱 디코더로
|
출력 (임의 모달 조합)
텍스트 + 이미지 + 오디오
여기서 인터리빙이라는 개념이 중요합니다. 초기 멀티모달 모델은 이미지 하나에 텍스트 하나가 붙는 단순한 쌍을 다루었지만, 실제 문서나 대화는 텍스트와 이미지가 자유롭게 섞여 있습니다. 웹 페이지를 떠올려 보면 문단 사이사이에 그림이 끼어 있죠. 인터리빙된 멀티모달 시퀀스를 학습하면 이런 자연스러운 문맥을 다룰 수 있게 됩니다.
또한 출력 라우팅도 중요한 설계 포인트입니다. 모델이 매 순간 "다음에 어떤 모달리티의 토큰을 낼지"를 스스로 결정해야 하기 때문입니다. 특수한 경계 토큰(예를 들어 이미지 시작·끝을 알리는 토큰)을 두어 모달 전환을 표시하는 방식이 흔히 쓰입니다.
네이티브 멀티모달 vs 어댑터 접합
멀티모달 LLM을 만드는 철학은 크게 두 가지로 나뉩니다. 이 구분은 이 분야를 이해하는 데 매우 중요합니다.
어댑터 접합 방식 (Late Fusion, 후기 융합)
이미 완성된 강력한 텍스트 LLM을 가져와서, 그 앞단에 비전·오디오 인코더와 프로젝터를 붙이는 방식입니다. LLM의 대부분 가중치는 그대로 두거나 살짝만 조정하고, 주로 프로젝터와 인코더의 연결부만 학습합니다.
장점은 명확합니다. 텍스트 LLM의 방대한 지식과 언어 능력을 그대로 물려받으며, 학습 비용이 상대적으로 저렴합니다. 비교적 적은 멀티모달 데이터로도 쓸만한 시각 이해 능력을 얻을 수 있습니다. LLaVA, BLIP-2, MiniGPT-4 같은 오픈 연구 계열이 이 접근으로 큰 성과를 냈고, 오픈소스 커뮤니티에서 멀티모달 붐을 일으킨 원동력이 되었습니다.
단점은 모달리티 사이의 통합이 다소 얕을 수 있다는 점입니다. 시각 정보가 언어 모델에 "번역되어" 들어가는 형태라, 진정으로 시각을 기반으로 사고하는 능력에는 한계가 있을 수 있습니다.
네이티브 멀티모달 방식 (Early Fusion, 초기 융합)
처음부터 여러 모달리티를 함께 학습하는 방식입니다. 사전학습 단계에서부터 텍스트, 이미지, 오디오 데이터를 섞어 하나의 모델을 훈련합니다. 모달리티 사이의 경계가 학습 초기부터 흐려지기 때문에, 더 깊고 자연스러운 통합이 가능하다고 여겨집니다.
최근 여러 상용 프런티어 모델이 "처음부터 멀티모달로 설계되었다"고 소개되는 것은 이 방향을 지향한다는 뜻으로 이해할 수 있습니다. 다만 각 모델의 정확한 내부 구조는 공개되지 않은 경우가 많아, 세부는 단정하기 어렵습니다.
장점은 더 깊은 교차 모달 추론과 낮은 지연 시간(특히 음성 대화에서), 그리고 모달리티 간 매끄러운 전환입니다. 단점은 막대한 학습 비용과 데이터 균형 조정의 어려움입니다.
두 방식을 표로 비교하면 다음과 같습니다.
| 구분 | 어댑터 접합 (후기 융합) | 네이티브 멀티모달 (초기 융합) |
| --- | --- | --- |
| 출발점 | 완성된 텍스트 LLM | 처음부터 멀티모달 사전학습 |
| 학습 비용 | 상대적으로 저렴 | 매우 큼 |
| 통합 깊이 | 얕을 수 있음 | 깊음 |
| 필요 데이터 | 적음 | 매우 많음 |
| 대표 사례 | 오픈 연구 계열 | 최신 프런티어 계열 |
| 강점 | 빠른 구축, 지식 재활용 | 깊은 추론, 낮은 지연 |
실제로는 이 두 극단 사이에 다양한 중간 지점이 존재합니다. 텍스트 LLM에서 출발하되 대규모 멀티모달 사전학습을 다시 거치는 하이브리드 방식도 흔합니다.
학습 전략: 정렬에서 인스트럭션까지
멀티모달 LLM의 학습은 대체로 여러 단계로 나뉩니다. 전형적인 파이프라인을 살펴보겠습니다.
1단계: 정렬 사전학습 (Alignment Pre-training)
첫 단계의 목표는 비텍스트 인코더의 출력을 LLM의 언어 공간에 정렬하는 것입니다. 대량의 이미지-캡션 쌍(이미지와 그것을 설명하는 문장)을 사용해, 모델이 이미지를 보고 캡션을 생성하도록 학습합니다. 이 단계에서는 주로 프로젝터를 학습시키며, 인코더와 LLM 본체는 얼리거나(freeze) 최소한으로만 조정합니다.
이 과정을 통해 프로젝터는 "이 이미지 특징 벡터를 LLM이 알아들을 수 있는 임베딩으로 어떻게 옮길지"를 배웁니다. 말하자면 모달리티 사이의 번역기를 훈련하는 셈입니다.
2단계: 인스트럭션 튜닝 (Instruction Tuning)
정렬만으로는 모델이 캡션은 잘 달지 몰라도, 사용자의 다양한 지시를 따르지는 못합니다. 그래서 두 번째 단계에서는 멀티모달 인스트럭션 데이터로 튜닝합니다. "이 그래프에서 가장 높은 값은 무엇인가요", "이 사진의 분위기를 시로 표현해 주세요", "이 문서에서 총액을 찾아 주세요" 같은 다양한 지시-응답 쌍을 학습합니다.
이 단계에서 비로소 모델은 대화형 어시스턴트로서의 성격을 갖추게 됩니다. LLaVA가 GPT 계열 모델로 합성한 시각 인스트럭션 데이터를 활용해 이 단계를 효과적으로 수행한 것이 잘 알려진 사례입니다.
3단계: 정렬 및 선호 최적화 (선택적)
텍스트 LLM에서와 마찬가지로, 인간 선호도에 맞추기 위한 추가 단계가 붙기도 합니다. RLHF나 DPO 같은 기법을 멀티모달로 확장해, 모델이 더 유용하고 안전하며 환각(hallucination)이 적은 답을 내도록 조정합니다. 특히 멀티모달에서는 이미지에 없는 것을 있다고 우기는 시각적 환각이 문제가 되기 때문에, 이를 줄이는 방향의 최적화가 중요합니다.
전체 학습 흐름을 요약하면 다음과 같습니다.
[1단계] 정렬 사전학습
이미지-캡션 대량 학습
프로젝터 위주 학습, 백본은 동결
|
v
[2단계] 인스트럭션 튜닝
다양한 지시-응답 데이터
대화형 어시스턴트로 변신
|
v
[3단계] 선호 최적화 (선택)
RLHF / DPO 등
환각 감소, 안전성, 유용성
토큰화, 해상도, 효율
멀티모달 LLM에서 실무적으로 가장 골치 아픈 부분 중 하나는 비텍스트 입력이 토큰을 너무 많이 잡아먹는다는 점입니다.
이미지를 예로 들면, 고해상도 이미지를 패치로 쪼갤 경우 패치 수가 급격히 늘어납니다. 예컨대 이미지를 작은 격자로 나누면 격자 칸 수만큼 토큰이 생기고, 이는 곧 어텐션 연산량 증가로 이어집니다. 트랜스포머의 어텐션은 시퀀스 길이의 제곱에 비례하는 비용을 가지므로, 토큰이 많아지면 계산과 메모리 부담이 빠르게 커집니다.
이 문제를 다루는 기법은 여러 가지입니다.
- 리샘플러로 토큰 압축: 앞서 언급한 Q-Former나 Perceiver Resampler처럼 고정된 소수의 토큰으로 이미지를 요약합니다.
- 동적 해상도: 이미지의 종횡비와 크기에 맞춰 타일로 나누고, 각 타일을 처리한 뒤 합치는 방식입니다. 고해상도 문서나 표를 다룰 때 유용합니다.
- 토큰 풀링/병합: 인접한 유사 토큰을 합쳐 개수를 줄입니다.
오디오와 비디오는 이 문제가 더 심각합니다. 비디오는 프레임 수만큼 이미지 토큰이 곱해지기 때문에, 몇 초짜리 영상만으로도 토큰이 폭발할 수 있습니다. 그래서 프레임 샘플링 간격을 조절하거나 시간 방향으로 토큰을 병합하는 등의 절충이 필수적입니다.
효율과 성능 사이의 이 균형점 찾기는 멀티모달 LLM 설계의 핵심 난제 중 하나입니다.
대표 계열 개념 정리
이제 대표적인 모델 계열들을 개념 중심으로 살펴보겠습니다. 다시 강조하지만, 상용 모델의 세부 스펙과 순위는 시점과 버전에 따라 크게 달라지므로, 여기서는 아키텍처적 아이디어와 널리 알려진 특징에 집중하겠습니다.
오픈 연구 계열: CLIP, Flamingo, BLIP-2, LLaVA
이 계열은 멀티모달 LLM의 개념적 토대를 놓았습니다.
- CLIP: 이미지와 텍스트를 대조 학습으로 같은 공간에 정렬한 모델. 이후 수많은 멀티모달 모델의 비전 인코더로 재활용되었습니다.
- Flamingo: 사전학습된 비전 인코더와 언어 모델 사이에 크로스 어텐션 층을 삽입하고, 인터리빙된 이미지-텍스트를 다루는 few-shot 능력을 보여 준 초기 대표작입니다.
- BLIP-2: Q-Former라는 경량 브리지 모듈로 얼려 둔 이미지 인코더와 LLM을 효율적으로 연결하는 방식을 제시했습니다.
- LLaVA: CLIP 비전 인코더와 언어 모델을 단순한 프로젝터로 잇고, 합성 시각 인스트럭션 데이터로 튜닝하는 간결한 레시피로 오픈소스 멀티모달의 표준을 세웠습니다.
상용 프런티어 계열 (개념 중심)
다음 이름들은 "네이티브 멀티모달을 지향하는 최신 프런티어" 계열로 널리 언급됩니다. 구체적 성능 우열이나 내부 구조는 공식적으로 확인되지 않은 부분이 많아, 개념적 특징만 조심스럽게 정리합니다.
- GPT-4o 류: 텍스트, 이미지, 오디오를 하나의 모델에서 다루며 실시간에 가까운 음성 대화를 강조하는 방향으로 알려져 있습니다. 이름의 "o"는 옴니(omni), 즉 여러 모달을 아우른다는 의미로 소개되었습니다.
- Gemini 류: 처음부터 멀티모달로 설계되었다고 소개된 계열로, 긴 문맥과 여러 모달 입력을 함께 다루는 방향으로 알려져 있습니다.
- Qwen-VL 류: 비전-언어 능력을 강조한 오픈 가중치 계열로, 문서 이해, OCR, 정밀한 위치 지정(grounding) 등에서 폭넓게 활용됩니다. 오픈 가중치라는 점에서 연구와 실무 모두에 접근성이 높습니다.
이 외에도 다양한 오픈·상용 계열이 존재하며, 각자 강점 분야가 다릅니다. 어느 것이 "최고"인지는 과제, 벤치마크, 시점에 따라 달라진다는 점을 늘 염두에 두어야 합니다.
계보: 발전의 흐름
멀티모달 LLM의 발전 흐름을 대략적으로 정리하면 다음과 같은 이야기로 요약할 수 있습니다.
[대조 학습 정렬]
CLIP 계열: 이미지-텍스트 공동 임베딩
|
v
[인코더 + LLM 접합]
Flamingo, BLIP-2: 브리지 모듈로 연결
|
v
[간결한 인스트럭션 레시피]
LLaVA 계열: 프로젝터 + 시각 인스트럭션
|
v
[네이티브 멀티모달 지향]
프런티어 계열: 처음부터 멀티모달 설계
|
v
[any-to-any 확장]
출력에서도 이미지/오디오 생성
통합 토큰 공간에서 임의 모달 입출력
이 흐름의 큰 방향은 "느슨한 접합"에서 "깊은 통합"으로, 그리고 "이해 중심"에서 "이해와 생성의 통합"으로 나아가는 것입니다. 초기에는 이미 있는 부품을 조립하는 데 집중했다면, 점차 처음부터 하나의 모델로 여러 모달을 함께 학습하는 방향으로, 나아가 임의의 모달을 입출력하는 방향으로 확장되어 왔습니다.
벤치마크: 무엇을 어떻게 재는가
멀티모달 LLM의 성능을 재기 위한 벤치마크는 과제별로 다양합니다. 대표적인 축들을 정리해 봅니다.
- 시각적 질문 응답(VQA): 이미지에 관한 질문에 답하는 능력. 일반 상식형부터 세밀한 지각형까지 폭이 넓습니다.
- 문서·차트·표 이해: 스크린샷이나 스캔된 문서, 그래프에서 정보를 읽어 내는 능력. OCR과 구조 이해가 함께 필요합니다.
- 시각적 추론: 여러 이미지나 복잡한 장면에서 논리적으로 추론하는 능력.
- 위치 지정(grounding): 텍스트로 지목한 대상이 이미지의 어디에 있는지 정확히 짚는 능력.
- 오디오·비디오 이해: 소리나 영상의 내용을 파악하고 질문에 답하는 능력.
벤치마크 점수를 해석할 때는 몇 가지 주의가 필요합니다. 첫째, 벤치마크마다 측정하는 능력이 다르므로 하나의 숫자로 모델의 우열을 단정할 수 없습니다. 둘째, 데이터 오염(모델이 학습 중에 벤치마크 문제를 이미 본 경우)의 가능성 때문에 점수가 실제 일반화 능력을 과대평가할 수 있습니다. 셋째, 순위는 새 모델이 나올 때마다 빠르게 바뀝니다. 따라서 특정 시점의 리더보드 순위를 절대적 진실로 받아들이기보다는, 경향과 강점 분야를 이해하는 데 활용하는 편이 좋습니다.
한계와 열린 문제
멀티모달 LLM은 인상적인 발전을 이뤘지만, 여전히 여러 한계를 안고 있습니다.
첫째, 시각적 환각입니다. 이미지에 없는 물체를 있다고 하거나, 세부를 잘못 읽는 경우가 여전히 발생합니다. 특히 작은 글씨, 복잡한 표, 미세한 공간 관계에서 오류가 두드러집니다.
둘째, 정밀한 지각의 한계입니다. 인간에게는 쉬운 개수 세기, 정확한 위치 판단, 미세한 색·질감 구분 등이 모델에게는 여전히 어려운 경우가 많습니다.
셋째, 효율 문제입니다. 앞서 다룬 대로 고해상도 이미지나 긴 비디오는 토큰 폭발을 일으켜 계산 비용을 크게 높입니다. 실시간 응용에서는 이 지연이 걸림돌이 됩니다.
넷째, 모달리티 불균형입니다. 대부분의 학습 데이터가 이미지-텍스트에 집중되어 있어, 오디오나 비디오 이해는 상대적으로 덜 성숙한 경우가 많습니다. any-to-any 생성 품질도 텍스트 이해에 비하면 아직 개선의 여지가 큽니다.
다섯째, 평가의 어려움입니다. 생성된 이미지나 오디오의 품질, 교차 모달 일관성 등을 자동으로 공정하게 평가하는 것은 여전히 미해결 과제입니다.
크로스 모달 어텐션을 조금 더 깊이
멀티모달 LLM이 실제로 "이미지를 보고 생각한다"고 말할 때, 그 안에서 벌어지는 일은 결국 어텐션 연산입니다. 이 부분을 조금 더 들여다보면 왜 통합 토큰 공간이라는 발상이 강력한지 이해할 수 있습니다.
디코더 전용 트랜스포머의 각 층에는 셀프 어텐션이 있습니다. 어텐션은 각 토큰이 "쿼리(query)"를 만들어 다른 토큰들의 "키(key)"와 비교하고, 유사도가 높은 토큰의 "값(value)"을 많이 가져오는 연산입니다. 텍스트만 다룰 때는 이 쿼리, 키, 값이 모두 단어에서 나옵니다.
멀티모달에서는 이미지 패치 토큰과 텍스트 토큰이 같은 시퀀스에 놓이기 때문에, 텍스트 토큰의 쿼리가 이미지 토큰의 키를 참조할 수 있습니다. 즉 "빨간색 우산"이라는 텍스트 토큰이 이미지 안에서 빨간 영역에 해당하는 패치 토큰에 주목하게 됩니다. 이 교차 참조가 여러 층에 걸쳐 반복되면서 텍스트와 이미지의 의미가 점점 깊게 얽힙니다.
질문 토큰들 이미지 패치 토큰들
[무엇을] [들고] [있나] [패치1] [패치2] ... [패치N]
| | | | | |
+------+------+--------+-------+----------+
|
셀프 어텐션 층
각 토큰이 모든 토큰을 참조
텍스트가 관련 패치에 주목
|
다음 층으로
여기서 위치 정보가 중요한 역할을 합니다. 텍스트는 1차원 순서를 가지지만 이미지 패치는 2차원 격자 위에 있습니다. 그래서 이미지 토큰에는 2차원 위치 인코딩을 부여해 "이 패치가 이미지의 어느 위치에 있는지"를 모델이 알 수 있게 합니다. 위치 정보가 잘 전달되어야 "왼쪽 위", "가운데 아래" 같은 공간적 질문에 답할 수 있습니다.
어댑터 접합의 두 갈래: 프리픽스와 크로스 어텐션
어댑터 접합 방식 안에서도 인코더의 정보를 LLM에 넣는 방법은 다시 둘로 나뉩니다.
첫째는 프리픽스 방식입니다. 이미지 토큰을 텍스트 토큰 앞이나 사이에 그냥 끼워 넣어 하나의 긴 시퀀스로 만드는 방법입니다. LLaVA 계열이 이 방식을 쓰며, 구현이 단순하고 LLM 본체를 거의 그대로 활용할 수 있다는 장점이 있습니다. 단점은 이미지 토큰이 많아질수록 시퀀스가 길어져 계산 부담이 커진다는 점입니다.
둘째는 크로스 어텐션 삽입 방식입니다. LLM 층 사이사이에 별도의 크로스 어텐션 층을 넣어, 텍스트 토큰이 이미지 특징을 참조하도록 하되 이미지 토큰 자체는 메인 시퀀스에 포함하지 않는 방법입니다. Flamingo가 이 방식의 대표입니다. 시퀀스 길이를 늘리지 않으면서 시각 정보를 주입할 수 있어 긴 문맥에 유리하지만, LLM 구조를 변경해야 하므로 구현이 복잡합니다.
두 방식을 표로 비교하면 다음과 같습니다.
| 구분 | 프리픽스 방식 | 크로스 어텐션 삽입 |
| --- | --- | --- |
| 이미지 토큰 위치 | 메인 시퀀스에 삽입 | 별도 어텐션으로 참조 |
| 시퀀스 길이 영향 | 늘어남 | 거의 없음 |
| 구현 난이도 | 단순 | 복잡 |
| 대표 계열 | LLaVA | Flamingo |
| LLM 변경 | 최소 | 층 추가 필요 |
오디오와 음성: 두 갈래의 접근
오디오 모달리티는 종종 두 가지 성격으로 나눠 다루는 것이 유용합니다. 하나는 음성(말소리)이고, 다른 하나는 비음성 오디오(음악, 환경음)입니다.
음성 이해는 자동 음성 인식(ASR)과 깊게 연결됩니다. 파형을 스펙트로그램으로 바꾼 뒤 인코더를 통과시키고, 그 표현을 LLM에 연결하면 음성을 듣고 이해하는 능력이 생깁니다. Whisper 계열의 인코더가 이 용도로 널리 재활용됩니다. 반대로 출력 측에서 음성을 만들려면 텍스트를 음성으로 바꾸는 신경망 기반 TTS나, 오디오를 이산 토큰으로 다루는 코덱 언어 모델(VALL-E 계열 개념)이 필요합니다.
음악이나 환경음 같은 비음성 오디오는 뉴럴 코덱으로 파형을 이산 토큰으로 압축한 뒤, 이 토큰을 LLM이 다루도록 하는 방식이 자연스럽습니다. EnCodec이나 SoundStream 같은 뉴럴 코덱이 이런 이산 오디오 토큰의 기반이 됩니다. MusicGen 계열은 이런 오디오 토큰을 오토리그레시브하게 생성해 음악을 만드는 방향을 보여 주었습니다.
실시간 음성 대화가 강조되는 최신 흐름에서는, 음성 입력을 텍스트로 변환하고 다시 텍스트를 음성으로 바꾸는 여러 단계를 거치는 대신, 음성을 직접 토큰으로 다루어 지연을 줄이려는 시도가 이어지고 있습니다. 이것이 네이티브 멀티모달이 음성 대화에서 이점을 갖는다고 알려진 이유입니다.
비디오: 시간이라는 축의 도전
비디오는 멀티모달 LLM에서 가장 까다로운 모달리티 중 하나입니다. 이미지에 시간이라는 축이 하나 더 붙기 때문입니다.
가장 단순한 접근은 비디오를 프레임 시퀀스로 보고, 일정 간격으로 프레임을 뽑아 각각을 이미지처럼 인코딩하는 것입니다. 여기에 각 프레임이 몇 번째 시점인지 알려 주는 시간 위치 정보를 더합니다. 문제는 앞서 다룬 토큰 폭발입니다. 초당 여러 프레임을 그대로 넣으면 몇 초짜리 영상만으로도 토큰이 수천 개로 불어납니다.
그래서 실무에서는 여러 절충이 동원됩니다. 프레임 샘플링 간격을 넓혀 프레임 수를 줄이거나, 인접 프레임의 토큰을 병합하거나, 시간 방향으로 정보를 압축하는 시공간 풀링을 적용합니다. 또한 긴 영상에서는 장면 단위로 나눠 요약을 계층적으로 쌓는 접근도 연구됩니다.
[원본 비디오]
수많은 프레임
|
프레임 샘플링
대표 프레임만 선택
|
프레임별 인코딩
이미지 인코더 재활용
|
시간 위치 부여 + 토큰 병합
시퀀스 길이 압축
|
LLM으로 전달
비디오 이해가 어려운 만큼, 이 영역은 여전히 활발히 발전하고 있으며 이미지 이해에 비하면 성숙도가 낮은 편입니다.
실무적 함의
마지막으로, 이런 흐름이 실무에 주는 함의를 정리해 보겠습니다.
멀티모달 LLM을 도입할 때는 먼저 과제의 성격을 명확히 해야 합니다. 이미지를 이해해 텍스트로 답하는 것만 필요하다면 어댑터 접합 계열의 경량 모델로도 충분한 경우가 많습니다. 반면 실시간 음성 대화나 이미지 생성까지 필요하다면 네이티브 멀티모달 계열이나 도구 조합이 필요합니다.
효율도 중요합니다. 고해상도 문서를 대량으로 처리해야 한다면 동적 해상도나 토큰 압축을 지원하는 모델을 고르는 것이 비용에 직접적인 영향을 줍니다. 오픈 가중치 계열은 온프레미스 배포와 세밀한 커스터마이징이 필요할 때 유리합니다.
환각 관리도 빼놓을 수 없습니다. 특히 문서 정보 추출처럼 정확성이 중요한 응용에서는 모델 출력을 검증하는 안전장치를 반드시 두어야 합니다. 모델이 자신 있게 틀리는 경우가 있기 때문입니다.
마치며
멀티모달 LLM은 "텍스트만 다루는 언어 모델"에서 "여러 감각을 통합하는 모델"로 나아가는 큰 전환의 중심에 있습니다. 그 핵심 원리는 의외로 단순합니다. 모든 모달리티를 공통의 토큰 공간으로 옮기고, 이미 강력한 트랜스포머로 함께 처리한다는 것입니다.
이 단순한 발상 위에 인코더, 프로젝터, 통합 토큰 공간, any-to-any 라우팅, 그리고 정렬-인스트럭션-선호 최적화로 이어지는 학습 파이프라인이 쌓여 오늘의 성과를 만들어 냈습니다. 어댑터 접합에서 네이티브 멀티모달로, 이해에서 생성으로, 단일 모달에서 임의 모달로 나아가는 흐름은 앞으로도 계속될 것입니다.
다만 시각적 환각, 정밀 지각, 효율, 모달리티 불균형 같은 열린 문제들이 남아 있고, 이 분야는 매우 빠르게 변합니다. 그러므로 구체적인 순위나 수치보다는 그 밑에 깔린 아키텍처의 원리를 이해하는 것이, 빠르게 바뀌는 흐름 속에서 오래가는 안목을 길러 줄 것입니다.
참고 자료
- Attention Is All You Need (Transformer): https://arxiv.org/abs/1706.03762
- Learning Transferable Visual Models From Natural Language Supervision (CLIP): https://arxiv.org/abs/2103.00020
- Flamingo: a Visual Language Model for Few-Shot Learning: https://arxiv.org/abs/2204.14198
- BLIP-2: https://arxiv.org/abs/2301.12597
- Visual Instruction Tuning (LLaVA): https://arxiv.org/abs/2304.08485
- Robust Speech Recognition via Large-Scale Weak Supervision (Whisper): https://arxiv.org/abs/2212.04356
- An Image is Worth 16x16 Words (ViT): https://arxiv.org/abs/2010.11929
- Qwen-VL: https://arxiv.org/abs/2308.12966
- Hugging Face Transformers 문서: https://huggingface.co/docs/transformers
- OpenAI 공식 블로그: https://openai.com/blog
현재 단락 (1/225)
몇 년 전만 해도 "LLM"이라는 단어는 곧 텍스트를 뜻했습니다. 사용자가 문장을 입력하면 모델이 문장으로 답하는, 순수한 언어 모델이었죠. 그런데 인간이 세상을 이해하는 방식을 ...