Skip to content

필사 모드: SOTA 비디오 생성 모델 분석 — 시공간 확산 트랜스포머

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

이미지 생성이 성숙기에 접어들면서, 다음 최전선은 비디오 생성으로 옮겨 갔습니다. 비디오는 이미지의 단순 확장이 아닙니다. 시간축이라는 새로운 차원이 더해지면서, 프레임 사이의 일관성과 폭증하는 연산량이라는 두 가지 근본 난제가 생깁니다. 이 글에서는 특정 제품의 세부 스펙을 단정하기보다, 최신 비디오 생성 모델들이 공유하는 시공간 확산 트랜스포머의 원리를 중심으로 정리합니다.

이 분야는 매우 빠르게 바뀌고, 상용 모델의 내부 구조는 대부분 비공개입니다. 아래 내용은 공개된 개념·아키텍처 계열을 기준으로 하며, 순위나 구체 수치는 벤치마크·버전에 따라 다르다는 점을 전제로 읽어 주세요.

비디오 생성의 두 난제

시간 일관성

비디오는 여러 프레임의 연속입니다. 각 프레임을 따로 생성하면, 인물의 얼굴이 프레임마다 미묘하게 바뀌거나, 배경 물체가 갑자기 사라지고 색이 튀는 문제가 생깁니다. 좋은 비디오 모델은 시간에 걸쳐 정체성(identity)과 장면 구조를 유지해야 합니다.

나쁜 경우(프레임 독립 생성):

프레임1: 파란 셔츠 프레임2: 남색 셔츠 프레임3: 보라 셔츠 (깜빡임/불안정)

좋은 경우(시간 일관):

프레임1: 파란 셔츠 프레임2: 파란 셔츠 프레임3: 파란 셔츠 (안정적 지속)

연산 비용

한 장의 이미지가 아니라 초당 수십 프레임을, 수 초 길이로 만들어야 합니다. 데이터량이 프레임 수에 비례해 늘고, 시간 방향 어텐션까지 더해지면 연산이 급격히 커집니다. 그래서 비디오 모델은 이미지보다 훨씬 공격적인 압축과 효율화가 필요합니다.

시공간 라텐트 패치

핵심 아이디어는 비디오를 픽셀 그대로 다루지 않고, 압축된 시공간 잠재(spatiotemporal latent)로 바꾸는 것입니다. 이미지 라텐트 확산이 이미지를 공간적으로 압축했다면, 비디오는 공간과 시간을 함께 압축합니다.

먼저 3D 오토인코더가 비디오를 시공간 잠재 텐서로 인코딩합니다. 그 다음 이 잠재 텐서를 시공간 패치(patch)로 잘라 토큰 시퀀스를 만듭니다. 각 패치는 "짧은 시간, 작은 공간 조각"에 해당합니다.

[원본 비디오: 시간 x 높이 x 너비 x 채널]

|

[3D 오토인코더로 시공간 압축]

|

[시공간 잠재 텐서] --패치 분할--> [시공간 토큰 시퀀스]

(각 토큰 = 시간 조각 x 공간 조각)

이 "시공간 패치" 개념은 Sora가 대중적으로 널리 알린 것으로 알려져 있습니다. 다양한 해상도·길이·종횡비의 비디오를 하나의 토큰 표현으로 통일할 수 있어, 서로 다른 형식의 데이터를 함께 학습하기에 유리하다는 점이 강조됩니다.

DiT 기반 시공간 확산

토큰화가 끝나면, 이 토큰 시퀀스 위에서 확산 트랜스포머(DiT)를 돌립니다. 이미지 DiT와 발상은 같지만, 어텐션이 공간뿐 아니라 시간축까지 포괄한다는 점이 다릅니다.

[시공간 토큰 시퀀스] + [텍스트 조건]

|

[트랜스포머 블록 x N]

- 공간 어텐션(같은 시점 내 위치들)

- 시간 어텐션(같은 위치의 여러 시점)

- 또는 통합 시공간 어텐션

|

[노이즈/속도 예측] --> 디노이즈 반복

|

[시공간 잠재 복원] --> [3D 디코더] --> [비디오]

어텐션을 어떻게 나눌지는 설계 선택입니다. 공간과 시간을 분리해 번갈아 처리하면(factorized) 연산이 줄고, 시공간을 하나로 묶어 처리하면(full) 상호작용이 풍부하지만 비쌉니다. 많은 모델이 효율과 품질 사이에서 이 둘을 절충합니다.

학습 정식화는 이미지 쪽과 마찬가지로 노이즈 예측 또는 속도장(flow matching / rectified flow) 방식을 씁니다. 잠재 공간에서 확산을 수행한다는 큰 틀은 이미지 라텐트 확산과 동일합니다.

조건화, 길이, 해상도

텍스트 조건화

이미지 모델과 마찬가지로, 텍스트 인코더(CLIP·T5 계열)로 프롬프트를 임베딩하고 크로스 어텐션 또는 joint 어텐션으로 주입합니다. 여기에 더해 첫 프레임 이미지를 조건으로 주는 image-to-video, 저해상도 비디오를 조건으로 주는 업스케일 방식 등 다양한 조건화가 쓰입니다.

가변 길이와 해상도

시공간 패치 표현의 장점은 유연성입니다. 토큰 개수를 조절해 서로 다른 길이·해상도·종횡비를 같은 모델로 다룰 수 있습니다. 다만 긴 영상일수록 토큰이 많아져 연산이 커지므로, 실제로는 캐스케이드(저해상도 생성 후 업스케일)나 청크 단위 생성 같은 전략을 함께 씁니다.

[짧은 저해상도 비디오 생성]

|

[시간 보간 / 프레임 확장]

|

[공간 업스케일(초해상)]

|

[최종 고해상도 비디오]

후속 모델 계열 (개념 중심)

Sora가 시공간 라텐트 패치와 대규모 확산 트랜스포머라는 방향을 대중적으로 각인시킨 뒤, 여러 상용·연구 모델이 등장했습니다. Veo, Kling, Runway, Pika 등의 모델이 존재하는 것으로 알려져 있으며, 각기 다른 학습 데이터와 레시피를 쓰는 것으로 보입니다. 다만 대부분 내부 구조가 비공개이므로, 여기서는 공통된 아키텍처 방향만 언급합니다.

공통적으로 관찰되는 방향은 다음과 같습니다. (1) 시공간 잠재 압축, (2) 확산 트랜스포머 백본, (3) 텍스트·이미지 조건화, (4) 캐스케이드나 업스케일로 해상도·길이 확장. 세부 성능·순위는 벤치마크·버전·프롬프트에 따라 크게 달라지므로 단정은 피합니다.

참고로 Sora에 대해서는 2026년 종료(서비스 중단) 관련 보도가 있었던 것으로 전해집니다. 이는 보도 기반 정보이며, 정확한 사실관계와 시점은 공식 발표를 확인하는 편이 안전합니다. 어느 특정 제품의 존폐와 무관하게, 시공간 확산 트랜스포머라는 아키텍처 계열 자체는 이 분야의 공통 기반으로 남아 있습니다.

비교표: 이미지 생성과의 대비

| 축 | 이미지 생성 | 비디오 생성 |

| --- | --- | --- |

| 압축 | 공간(VAE) | 시공간(3D 오토인코더) |

| 토큰 | 공간 패치 | 시공간 패치 |

| 어텐션 | 공간 중심 | 공간 + 시간 |

| 핵심 난제 | 구성·디테일 | 시간 일관성 + 연산 |

| 조건화 | 텍스트 | 텍스트 + 첫 프레임 등 |

| 출력 확장 | 초해상 | 시간 보간 + 초해상 |

값은 계열의 일반적 경향이며, 특정 모델 구성과 다를 수 있습니다.

물리 일관성의 한계

비디오 모델은 종종 "세계 시뮬레이터"에 비유되지만, 실제로는 물리를 명시적으로 계산하지 않습니다. 데이터에서 통계적 패턴을 배울 뿐입니다. 그래서 다음과 같은 실패가 나타납니다.

- **인과·물리 위반**: 깨진 유리가 다시 붙거나, 액체 부피가 보존되지 않거나, 물체가 근거 없이 나타나고 사라짐.

- **장기 일관성 붕괴**: 영상이 길어질수록 물체 정체성·개수가 흔들림. 카메라가 되돌아왔을 때 장면이 달라지는 문제.

- **접촉·강체 상호작용**: 손이 물체를 잡는 순간의 부자연스러움 등 미세 상호작용은 여전히 어렵습니다.

이런 한계는 모델이 물리 법칙을 "이해"하는 것이 아니라 그럴듯한 픽셀 움직임을 생성한다는 본질에서 옵니다. 최근 크게 개선되고 있지만, 완전한 물리 일관성은 아직 열린 문제입니다.

평가

비디오 생성 평가는 이미지보다 더 어렵습니다. 지각 품질, 시간 일관성, 프롬프트 충실도, 움직임의 자연스러움을 함께 봐야 합니다.

- **자동 지표**: 프레임 품질과 시간 일관성을 함께 보는 지표들(예: FVD 계열, VBench 같은 다면 평가 스위트)이 쓰이지만, 사람 지각과 완전히 일치하지는 않습니다.

- **사람 평가**: 실제로는 사람 선호 비교가 가장 신뢰됩니다. 다만 비용이 크고 주관적입니다.

- **주의점**: 순위는 프롬프트 집합·해상도·길이·평가 방식에 따라 크게 달라집니다. "무엇이 최고"라는 단정보다 조건을 명시한 비교가 필요합니다.

전체 파이프라인 다이어그램

[프롬프트 텍스트] --(옵션: 첫 프레임 이미지)

|

[텍스트 인코더]

|

[조건 임베딩] ---------------------+

|

[순수 노이즈(시공간 잠재)] --> [시공간 DiT 백본]

|

[디노이즈 반복: 샘플러 + CFG]

|

[시공간 잠재 텐서]

|

[3D 디코더]

|

[저해상 비디오] --> [보간/초해상]

|

[최종 비디오]

강점

- **통일된 표현**: 시공간 패치 덕분에 다양한 길이·해상도·종횡비를 한 모델로 다룹니다.

- **확장성**: 트랜스포머 백본으로 대규모 스케일링의 이득을 얻습니다.

- **조건화 유연성**: 텍스트, 첫 프레임, 저해상 입력 등 여러 조건을 결합할 수 있습니다.

- **급속한 품질 향상**: 짧은 시간 안에 해상도·일관성·움직임 품질이 크게 좋아졌습니다.

한계와 열린 문제

- **연산 비용**: 길고 고해상도인 영상일수록 학습·추론 비용이 급증합니다.

- **장기 일관성**: 수 초를 넘어 수십 초로 갈수록 정체성·장면 유지가 어려워집니다.

- **물리·인과**: 앞서 다룬 물리 위반이 남아 있습니다.

- **제어성**: 카메라 움직임, 세밀한 타이밍, 특정 개체 제어 같은 정밀 제어는 아직 발전 중입니다.

- **평가·저작권**: 신뢰할 표준 지표의 부재, 학습 데이터 출처 문제는 이미지와 마찬가지로 큰 쟁점입니다.

실무적 함의

- 짧고 명확한 장면부터 시작하는 편이 안정적입니다. 긴 복합 장면은 일관성이 깨지기 쉽습니다.

- 정밀 제어가 필요하면 image-to-video나 구조 조건을 함께 쓰는 편이 낫습니다.

- 특정 제품의 존폐나 순위에 의존하기보다, 아키텍처 계열의 성질을 이해하고 대상 용도에서 직접 비교하는 태도가 안전합니다.

마치며

비디오 생성 SOTA의 공통 기반은 "시공간 잠재 압축 + 확산 트랜스포머 + 텍스트·이미지 조건화"로 요약됩니다. Sora가 대중화한 시공간 패치 개념은 후속 모델들의 사실상 표준 언어가 되었습니다. 개별 제품의 존폐와 순위는 빠르게 바뀌지만, 이 아키텍처 원리를 이해하면 새로운 모델이 나와도 그 구조를 빠르게 파악할 수 있습니다.

참고 자료

- [Scalable Diffusion Models with Transformers, DiT (arXiv 2212.09748)](https://arxiv.org/abs/2212.09748)

- [High-Resolution Image Synthesis with Latent Diffusion Models (arXiv 2112.10752)](https://arxiv.org/abs/2112.10752)

- [Video Diffusion Models (arXiv 2204.03458)](https://arxiv.org/abs/2204.03458)

- [Denoising Diffusion Probabilistic Models (arXiv 2006.11239)](https://arxiv.org/abs/2006.11239)

- [Flow Matching for Generative Modeling (arXiv 2210.02747)](https://arxiv.org/abs/2210.02747)

- [VBench: Comprehensive Benchmark Suite for Video Generative Models (arXiv 2311.17982)](https://arxiv.org/abs/2311.17982)

- [OpenAI Sora 소개 페이지](https://openai.com/sora)

- [Runway Research](https://runwayml.com/research)

- [Hugging Face Diffusers 문서](https://huggingface.co/docs/diffusers)

현재 단락 (1/99)

이미지 생성이 성숙기에 접어들면서, 다음 최전선은 비디오 생성으로 옮겨 갔습니다. 비디오는 이미지의 단순 확장이 아닙니다. 시간축이라는 새로운 차원이 더해지면서, 프레임 사이의 일...

작성 글자: 0원문 글자: 4,518작성 단락: 0/99