Skip to content

Split View: 2025년 AI 논문 트렌딩 총정리: HuggingFace 인기 논문부터 10대 연구 트렌드까지

✨ Learn with Quiz
|

2025년 AI 논문 트렌딩 총정리: HuggingFace 인기 논문부터 10대 연구 트렌드까지

들어가며

2025년은 AI 연구 역사에서 전환점으로 기록될 해입니다. DeepSeek-R1이 순수 강화학습(RL)만으로 추론 능력을 학습할 수 있다는 것을 증명했고, NVIDIA의 Nemotron-Cascade는 3B 활성 파라미터만으로 수학 올림피아드 금메달급 성능을 달성했습니다. 100만 토큰 컨텍스트 윈도우가 상용화되었지만, 실효 활용률은 여전히 10-20%에 불과하다는 냉정한 현실도 드러났습니다.

이 글에서는 HuggingFace 트렌딩 논문 TOP 10을 먼저 살펴본 뒤, 2025년 AI 연구의 10대 트렌드를 개발자 관점에서 깊이 있게 리뷰합니다. 각 트렌드가 실무에 어떤 의미를 갖는지, 어떤 논문을 읽어야 하는지, 그리고 앞으로 어떤 방향으로 발전할지를 함께 다룹니다.

이 글의 구성:

  • Part 1: HuggingFace 트렌딩 논문 TOP 10 - 커뮤니티가 가장 주목한 최신 연구
  • Part 2: 2025년 AI 연구 10대 트렌드 - 추론, MoE, DiT, 롱 컨텍스트, 효율적 추론, 에이전트, RLHF 대안, 멀티모달, 코드 생성, 비디오 생성
  • Part 3: 개발자를 위한 5가지 핵심 인사이트 - 실무에 바로 적용할 수 있는 시사점
  • 실전 퀴즈: 5개 문항으로 이해도 점검

각 섹션은 독립적으로 읽을 수 있으므로, 관심 있는 트렌드부터 읽어도 좋습니다.


Part 1: HuggingFace 트렌딩 논문 TOP 10

HuggingFace의 트렌딩 페이퍼 페이지는 AI 연구 커뮤니티의 관심을 가장 직접적으로 반영하는 지표입니다. 2025년 상반기에 가장 많은 업보트를 받은 논문들을 정리하겠습니다.

1위: MOSS-TTS - 오픈소스 음성 합성의 새로운 기준 (961 upvotes)

MOSS-TTS는 MOSI.AI와 OpenMOSS 팀이 공개한 오픈소스 음성 합성 모델 패밀리로, 961개의 업보트를 기록하며 트렌딩 1위를 차지했습니다. 단순한 텍스트-음성 변환을 넘어, 음성 생성의 모든 측면을 커버하는 종합 플랫폼입니다.

MOSS-TTS 패밀리 구성:

  • MOSS-TTS: 플래그십 프로덕션 모델. 고충실도 제로샷 음성 복제 지원
  • MOSS-TTSD: 대화형 음성 생성 모델. 다화자 대화, 초장문 대화 지원
  • MOSS-TTS-Realtime: 실시간 스트리밍 TTS. 멀티턴 컨텍스트 인식 음성 생성

MOSS-TTSD가 Doubao(ByteDance)와 Gemini 2.5 Pro의 음성 합성 품질을 능가한다는 벤치마크 결과가 큰 주목을 받았습니다. 특히 음성 디자인(Voice Design) 기능 - 텍스트 설명만으로 원하는 음색과 스타일의 목소리를 생성하는 기술 - 이 프로덕션 수준에 도달한 것은 오픈소스 진영에서 처음입니다.

개발자 시사점: Apache 2.0 라이선스로 상업적 활용이 가능합니다. 실시간 음성 에이전트, 오디오북 자동 생성, 게임 캐릭터 보이스 등에 즉시 적용 가능한 수준입니다.

2위: Nemotron-Cascade 2 - 20배 적은 파라미터로 금메달급 추론

NVIDIA가 공개한 Nemotron-Cascade-2-30B-A3B는 총 30B 파라미터의 MoE 아키텍처에서 실제로는 3B만 활성화하면서, 국제 수학 올림피아드(IMO 2025), 국제 정보 올림피아드(IOI 2025), ICPC 세계 결선에서 금메달급 성능을 달성했습니다.

왜 이것이 혁명적인가:

이전에 이 수준의 성능을 달성한 오픈웨이트 모델은 DeepSeek-V3.2-Speciale-671B-A37B뿐이었습니다. Nemotron-Cascade 2는 20배 적은 파라미터로 동일한 성과를 냈습니다.

핵심 기술 - Cascade RL Framework:

1단계로 각 도메인별 Cascade RL 학습을 수행합니다. 2단계에서 Multi-domain On-policy Distillation으로 최고 성능 교사 모델의 지식을 통합합니다. 이 과정에서 도메인 간 성능 회귀(regression)를 방지하면서 전 영역에서 강한 성능을 유지합니다.

SFT 데이터 규모:

  • 190만 건의 Python 추론 데이터
  • 130만 건의 도구 호출(tool-calling) 데이터

이 데이터셋도 함께 공개되어 후속 연구에 큰 기여를 하고 있습니다. Nemotron-Cascade 2의 SFT 데이터와 RL 데이터 모두 HuggingFace에서 다운로드할 수 있습니다.

3위: Memento-Skills - 에이전트가 에이전트를 설계하다

UCL Centre for Artificial Intelligence와 Huawei Noah's Ark Lab이 공동 개발한 Memento는 LLM 에이전트를 파인튜닝 없이 지속적으로 개선하는 프레임워크입니다. 핵심 아이디어는 에이전트의 경험을 마크다운 형식의 스킬로 저장하고, 이를 재활용하는 것입니다.

아키텍처 3요소:

  • Case Memory: 벡터화된 과거 사례 저장소 (고수준 계획 수립용)
  • Subtask Memory: 텍스트 기반 현재 작업 상태 추적
  • Tool Memory: 도구 상호작용 로그

성능 결과:

  • GAIA 리더보드 오픈소스 1위 달성 (2025년 6월 기준)
  • Humanity's Last Exam에서 +116.2% 성능 향상
  • 기존 파인튜닝 대비 50-80% 적은 컴퓨팅 자원 사용

Memento의 가장 인상적인 점은 파인튜닝이 필요 없다는 것입니다. 기반 LLM을 그대로 유지하면서 외부 메모리 시스템만으로 성능을 끌어올립니다. 이는 모델 업데이트 없이도 에이전트의 능력을 지속적으로 확장할 수 있다는 것을 의미합니다.

4위: ReactMotion - 대화형 제스처 생성 (107 upvotes)

ReactMotion은 화자의 발화(speech)를 분석하여 청자의 자연스러운 제스처를 자동 생성하는 모델입니다. 기존의 제스처 생성 연구가 화자의 동작에 집중했다면, ReactMotion은 듣는 사람의 반응적 동작(고개 끄덕임, 손짓, 표정 변화 등)을 생성합니다.

응용 분야:

  • 메타버스 아바타의 자연스러운 대화 인터랙션
  • 가상 회의에서의 비언어적 소통 강화
  • 체화 AI(Embodied AI) 에이전트의 사회적 행동 모델링

이 연구는 AI가 인간의 비언어적 커뮤니케이션을 이해하고 재현하는 데 한 단계 더 가까워졌다는 것을 보여줍니다. 대화형 체화 AI의 핵심 퍼즐 조각 중 하나입니다.

5위: H-EmbodVis - 생성 모델 속 3D 공간 지식 (82 upvotes)

H-EmbodVis는 기존 이미지/비디오 생성 모델이 이미 내재적으로 3D 공간에 대한 이해를 갖고 있다는 흥미로운 가설을 검증한 연구입니다. Stable Diffusion이나 DALL-E 같은 모델이 이미지를 생성할 때, 단순히 2D 픽셀을 배치하는 것이 아니라 3D 공간 구조를 내부적으로 표현하고 있다는 것입니다.

핵심 발견:

  • 생성 모델의 중간 특징 벡터(feature)에서 깊이, 법선, 3D 구조 정보를 추출 가능
  • 별도의 3D 학습 없이도 공간 이해 능력이 창발(emergence)적으로 나타남
  • 이를 활용하면 로봇 내비게이션, AR/VR 장면 생성 등에 활용 가능

이 연구는 거대 생성 모델을 "월드 모델(World Model)"로 재해석하는 흐름의 일부입니다. 별도의 3D 비전 파이프라인 없이 생성 모델 자체에서 공간 정보를 뽑아낼 수 있다면, 로보틱스와 체화 AI에 큰 영향을 미칠 것입니다.

6위: Cubic Discrete Diffusion - 이산 확산의 새 패러다임

텍스트와 같은 이산(discrete) 데이터에 대한 확산 모델 연구입니다. 기존의 연속 공간 확산 모델(이미지용)을 이산 토큰 공간으로 확장하는 것은 오랫동안 난제였는데, Cubic Discrete Diffusion은 3차(cubic) 스케줄링을 통해 이산 확산의 생성 품질과 다양성을 동시에 개선했습니다.

기존 이산 확산의 한계:

이산 확산 모델은 각 시간 스텝에서 토큰을 "마스크" 또는 "노이즈"로 대체하고, 역방향 과정에서 원본 토큰을 복원합니다. 문제는 노이즈 스케줄링이 선형(linear)이면 생성 초기에 너무 많은 토큰이 동시에 결정되어 품질이 떨어지고, 생성 후기에는 변화가 거의 없어 비효율적이라는 점이었습니다.

Cubic 스케줄링의 해법:

3차 함수 기반 스케줄링은 생성 초기에는 천천히 토큰을 결정하고, 중반에 집중적으로 생성한 뒤, 후반에 다시 세밀한 조정을 수행합니다. 이 S자 커브가 이산 확산의 생성 품질과 다양성을 동시에 개선합니다.

의의: 텍스트 생성에서 자기회귀(autoregressive) 방식의 대안으로, 병렬 생성이 가능한 확산 기반 접근법의 가능성을 보여줍니다. 자기회귀 모델이 토큰을 하나씩 순차적으로 생성하는 반면, 확산 모델은 여러 토큰을 동시에 생성할 수 있어 잠재적으로 더 빠른 추론이 가능합니다.

7위: EffectErase - 영상 특수 효과 제거

영상에서 특수 효과(VFX)를 자동으로 감지하고 제거하는 모델입니다. 예를 들어 영화 장면에서 CG로 추가된 효과를 제거하여 원본 배경을 복원하거나, 후처리 효과를 선택적으로 조작할 수 있습니다.

기술적 접근:

EffectErase는 영상의 시간적 일관성(temporal consistency)을 유지하면서 특수 효과만 선택적으로 제거합니다. 단일 프레임이 아닌 비디오 시퀀스 전체를 분석하여 어떤 요소가 "원본"이고 어떤 요소가 "추가된 효과"인지를 구분합니다. 폭발, 연기, 마법 효과, 렌즈 플레어 등 다양한 유형의 VFX를 처리할 수 있습니다.

실용적 가치: 영상 편집 파이프라인에서 인건비를 크게 절감할 수 있으며, 기존 콘텐츠의 재활용과 리마스터링에도 활용됩니다. 특히 광고 산업에서 기존 영상의 효과를 교체하거나 제거하는 작업에 직접적으로 적용 가능합니다.

8위: LVOmniBench - 대규모 비전-언어 모델 통합 벤치마크

멀티모달 모델의 능력을 체계적으로 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크들이 이미지 이해, 텍스트 생성 등을 개별적으로 평가했다면, LVOmniBench는 비전과 언어의 통합 능력을 종합적으로 측정합니다.

평가 차원:

  • 시각적 질문 응답(VQA): 이미지를 보고 질문에 답하는 능력
  • 시각적 추론: 이미지 내 객체 간의 관계를 파악하는 능력
  • 문서 이해: 차트, 그래프, 표 등 구조화된 시각 정보 해석
  • 다중 이미지 비교: 여러 이미지를 동시에 분석하는 능력
  • 비디오 이해: 시간 축을 포함한 멀티모달 추론

LVOmniBench는 MiniCPM-V, GPT-4V, Gemini Pro 등 주요 멀티모달 모델의 강점과 약점을 공정하게 비교할 수 있는 표준화된 프레임워크를 제공합니다.

9위: VTC-Bench - 비디오-텍스트 일관성 벤치마크

비디오 생성 모델이 텍스트 프롬프트를 얼마나 충실하게 반영하는지를 평가하는 전문 벤치마크입니다. 단순한 시각적 품질이 아니라, 텍스트 지시사항과의 의미적 일관성을 정밀하게 측정합니다.

왜 중요한가:

비디오 생성 모델의 평가에서 "보기 좋은 비디오"와 "프롬프트에 충실한 비디오"는 다릅니다. 예를 들어 "빨간 공이 파란 벽에 부딪혀 튕겨나가는" 프롬프트에서, 모델이 시각적으로 아름답지만 공이 녹색이거나 벽을 관통하는 비디오를 생성한다면 이는 실패입니다. VTC-Bench는 이러한 세밀한 텍스트-비디오 정렬을 측정합니다.

평가 항목:

  • 객체 속성 일치 (색상, 크기, 형태)
  • 공간 관계 준수 (위치, 방향)
  • 시간 순서 일관성 (이벤트 순서)
  • 동작 정확성 (물리적 행동)

10위: SAMA - 효율적 어텐션 메커니즘

SAMA(Sparse Attention with Multi-scale Aggregation)는 Transformer의 어텐션 연산을 다중 스케일로 분해하여, 긴 시퀀스에서도 효율적으로 동작하는 새로운 어텐션 메커니즘을 제안합니다. 기존 어텐션의 O(n제곱) 복잡도를 줄이면서도 성능 저하를 최소화하는 것이 목표입니다.

다중 스케일 접근법:

SAMA는 입력 시퀀스를 여러 해상도로 분해합니다. 로컬 레벨에서는 인접 토큰 간의 세밀한 관계를 포착하고, 글로벌 레벨에서는 먼 거리의 토큰 간 관계를 저해상도로 처리합니다. 이를 통해 로컬 정보의 정밀도와 글로벌 컨텍스트의 포괄성을 동시에 확보합니다.

개발자 시사점: SAMA 같은 효율적 어텐션 메커니즘은 긴 문서 처리, 코드 분석, 비디오 이해 등 시퀀스 길이가 중요한 응용에서 실질적인 성능/비용 개선을 제공합니다. FlashAttention, RingAttention과 함께 추론 효율화의 핵심 연구 방향입니다.


Part 2: 2025년 AI 연구 10대 트렌드

HuggingFace 트렌딩 논문을 넘어서, 2025년 AI 연구 전반의 거시적 흐름을 정리합니다. 각 트렌드가 서로 어떻게 연결되는지, 그리고 개발자에게 어떤 실무적 함의를 갖는지에 초점을 맞춥니다.

트렌드 1: 추론 모델의 부상 - "기본 모델은 이미 추론할 줄 안다"

2025년 AI 연구의 가장 큰 사건은 단연 DeepSeek-R1입니다. Nature에 게재된 이 연구는 순수 강화학습(RL)만으로 - SFT(Supervised Fine-Tuning) 단계 없이 - LLM에 추론 능력을 학습시킬 수 있다는 것을 증명했습니다.

DeepSeek-R1-Zero: 순수 RL의 위력

DeepSeek-V3-Base를 기반으로 GRPO(Group Relative Policy Optimization) 알고리즘만 적용한 결과:

  • AIME 2024: 15.6%에서 71.0%으로 상승 (pass at 1)
  • 다수결 투표 적용 시 86.7%까지 도달 (OpenAI o1-0912 수준)

이 결과가 의미하는 바는 심오합니다. 기본 모델(base model)은 이미 추론 능력의 씨앗을 갖고 있으며, RL은 그 능력을 "언제 발휘할지"를 가르칠 뿐이라는 것입니다.

DeepSeek-R1: 최종 정제 모델의 성능

순수 RL 위에 추가 정제를 거친 DeepSeek-R1은 다음과 같은 성능을 달성했습니다:

벤치마크DeepSeek-R1OpenAI o1-1217
AIME 202479.8%79.2%
MATH-50097.3%96.4%

OpenAI o1을 근소하게 앞선 이 수치는 오픈소스 진영의 경쟁력을 극적으로 보여줍니다.

증류 모델의 효율성

DeepSeek-R1의 지식을 작은 모델로 증류(distillation)한 결과도 인상적입니다:

  • DeepSeek-R1-Distill-Qwen-7B: AIME 55.5%
  • DeepSeek-R1-Distill-Qwen-32B: AIME 72.6%, MATH-500 94.3%

14B 증류 모델이 QwQ-32B를 능가하는 결과를 보여주었습니다. 더 작은 모델이 더 큰 모델을 이기는 시대입니다.

Chain-of-Thought의 자발적 출현:

특히 주목할 점은 DeepSeek-R1-Zero에서 Chain-of-Thought(CoT) 추론이 명시적으로 학습하지 않았음에도 자발적으로 출현했다는 것입니다. RL 보상 신호만으로 모델이 스스로 "먼저 생각하고 답하는" 패턴을 발견한 것입니다. 이는 CoT가 인간이 설계한 프롬프팅 기법이 아니라, 추론 최적화의 자연스러운 결과물일 수 있다는 것을 시사합니다.

산업적 파급 효과:

DeepSeek-R1의 성공 이후, 여러 연구 그룹이 순수 RL 기반 추론 학습을 재현하고 확장하는 연구를 진행하고 있습니다. Tsinghua University의 Absolute Zero는 외부 데이터 없이 모델이 스스로 문제를 제안하고 풀어가는 RL 패러다임을 제시했고, 이는 데이터 의존성을 더욱 줄이는 방향으로의 진화를 보여줍니다.

핵심 인사이트: 지도학습(SFT) 없이도 RL만으로 추론 능력을 학습할 수 있다는 발견은 앞으로의 LLM 학습 패러다임을 근본적으로 바꿀 잠재력을 갖고 있습니다.

트렌드 2: MoE 스케일링 - 프론티어 모델의 기본 아키텍처

2025년에 출시된 거의 모든 프론티어 모델이 MoE(Mixture of Experts) 아키텍처를 채택했습니다. Dense 모델 시대는 사실상 끝났습니다.

주요 MoE 모델 비교:

모델총 파라미터활성 파라미터전문가 수특징
DeepSeek V3671B37B256세분화된 전문가, 보조 손실 없는 로드 밸런싱
Llama 4---공유 전문가 + 라우팅 전문가
Nemotron-Cascade 230B3B-Cascade RL + On-policy Distillation

2025년 MoE 설계 트렌드:

첫째, 세분화된 전문가(Fine-grained Expert) 설계입니다. DeepSeek V3는 256개의 작은 전문가를 사용합니다. 전통적인 MoE가 8-16개의 큰 전문가를 사용했던 것과 대비됩니다. 전문가를 더 세밀하게 나누면 라우팅 정밀도가 올라가고, 각 전문가의 전문성이 높아집니다.

둘째, 보조 손실 없는 로드 밸런싱입니다. 기존 MoE는 특정 전문가에 토큰이 몰리는 문제를 해결하기 위해 보조 손실(auxiliary loss)을 추가했습니다. DeepSeek V3는 이 보조 손실 없이도 균등한 로드 밸런싱을 달성하는 새로운 전략을 도입했습니다.

셋째, 공유 전문가(Shared Expert) 패턴입니다. Llama 4와 DeepSeek V3 모두 일부 전문가를 "항상 활성화"되는 공유 전문가로 지정합니다. 이 공유 전문가는 도메인에 관계없이 공통적으로 필요한 지식(문법, 상식 등)을 담당하고, 나머지 라우팅 전문가들이 도메인 특화 지식을 처리합니다.

MoE 모델의 서빙 도전 과제:

MoE는 추론 시 활성 파라미터만 연산하므로 연산량이 적지만, 모든 전문가의 가중치를 메모리에 올려야 하기 때문에 메모리 요구량은 여전히 높습니다. 예를 들어 DeepSeek V3는 추론 시 37B만 활성화하지만, 671B 전체를 메모리에 로드해야 합니다. 이 때문에 MoE 모델의 효율적 서빙은 그 자체로 중요한 연구 주제입니다.

해결 방안으로는 전문가별 오프로딩(GPU와 CPU 메모리 사이에서 전문가를 동적으로 이동), 전문가 병합(자주 함께 활성화되는 전문가를 합치기), 양자화와의 결합(활성화되지 않는 전문가는 더 낮은 비트로 저장) 등이 연구되고 있습니다.

개발자 시사점: MoE 모델은 추론(inference) 시 활성 파라미터만 연산하므로, 총 파라미터 대비 훨씬 적은 연산량으로 동작합니다. Nemotron-Cascade 2의 30B/3B 구조는 RTX 4090 같은 소비자 GPU에서도 구동 가능한 수준입니다. 다만 MoE 서빙에 최적화된 인프라(vLLM의 MoE 지원, TensorRT-LLM의 전문가 병렬화 등)에 대한 이해가 필수적입니다.

트렌드 3: 디퓨전 트랜스포머(DiT) - 비디오 생성의 표준 아키텍처

이미지 생성에서 U-Net 기반 확산 모델이 지배적이었다면, 비디오 생성에서는 Diffusion Transformer(DiT)가 표준으로 자리잡았습니다. 2025년의 주요 비디오 생성 모델은 모두 DiT 변형을 사용합니다.

주요 DiT 기반 모델:

Wan 2.1 / 2.2 (알리바바)

Wan 2.1은 DiT 패러다임을 따르며 3D VAE(Variational Autoencoder)로 시공간 압축을 수행합니다. Wan 2.2는 여기에 MoE를 결합한 것이 핵심 혁신입니다. 총 27B 파라미터 중 14B만 활성화됩니다. 고노이즈 단계와 저노이즈 단계를 서로 다른 전문가가 처리하는 구조입니다.

Wan 2.2의 학습 데이터는 Wan 2.1 대비 이미지 65.6%, 비디오 83.2% 증가했습니다. Apache 2.0 라이선스로 상업적 활용이 자유롭고, RTX 4090 단일 GPU로 720P/24fps 5초 클립을 약 9분 만에 생성할 수 있습니다.

Open-Sora 2.0 (Peking University)

20만 달러 이하의 학습 비용으로 프로덕션 수준의 비디오 생성 모델을 만들 수 있다는 것을 증명한 프로젝트입니다. 효율적 학습과 소비자급 하드웨어(40GB+ VRAM)에서의 구동에 초점을 맞추고 있습니다.

OpenAI Sora 2

OpenAI가 공개한 Sora 2는 VideoScience-Bench에서 현존 최고 성능(약 64%)을 기록했습니다. 다만 여전히 물리 법칙에 대한 완전한 이해에는 미치지 못합니다.

FLUX의 MMDiT 영향

FLUX에서 도입된 MMDiT(Multi-Modal Diffusion Transformer) 아키텍처는 텍스트와 이미지 토큰을 동일한 Transformer 내에서 처리하는 설계로, 후속 비디오 생성 모델에 큰 영향을 미쳤습니다. 기존의 크로스 어텐션(cross-attention) 방식이 텍스트와 이미지를 별도로 인코딩한 후 연결했다면, MMDiT는 두 모달리티를 처음부터 동일한 공간에서 함께 처리합니다. 이를 통해 텍스트-이미지 정렬이 더욱 정밀해졌습니다.

DiT 생태계의 성숙:

2025년은 DiT가 "실험적 아키텍처"에서 "프로덕션 표준"으로 전환된 해입니다. Wan 시리즈의 상업적 성공, Open-Sora의 저비용 학습 검증, FLUX의 이미지 생성 품질 혁신이 이를 뒷받침합니다. U-Net 기반 Stable Diffusion이 이미지 생성을 민주화했듯이, DiT 기반 모델들이 비디오 생성을 민주화하고 있습니다.

트렌드 4: 100만 토큰 컨텍스트의 불편한 진실

2025년에 Claude, Gemini, GPT 등 주요 모델 모두 100만(1M) 토큰 이상의 컨텍스트 윈도우를 지원하게 되었습니다. 하지만 "지원"과 "효과적 활용"은 전혀 다른 이야기입니다.

마케팅 vs 현실:

100만 토큰을 입력할 수 있다고 해서 모델이 그 모든 정보를 동등하게 활용하는 것은 아닙니다. 독립적인 평가에 따르면, 실효 활용률은 10-20% 수준에 불과합니다.

Lost in the Middle 문제:

Stanford와 University of Washington의 연구에서 밝혀진 이 현상은 2025년에도 여전히 해결되지 않았습니다. LLM은 입력의 시작 부분과 끝 부분은 잘 기억하지만, 중간에 위치한 정보는 놓치는 U자형 성능 곡선을 보입니다.

기술적 원인:

Transformer의 Rotary Position Embedding(RoPE)이 장기 감쇠(long-term decay) 효과를 일으켜, 시퀀스 시작과 끝의 토큰에 가중치가 집중됩니다. 이는 아키텍처 수준의 한계이기 때문에 단순한 학습 데이터 증가로는 해결이 어렵습니다.

LongRoPE: 해결책의 시도

Microsoft가 개발한 LongRoPE는 단 1K 파인튜닝 스텝으로 256K 컨텍스트를 2048K까지 확장하는 기법입니다. 핵심은 위치 보간(positional interpolation)의 비균일성을 식별하고 활용하는 것, 256K에서 먼저 학습한 후 2048K로 점진적 확장하는 전략, 그리고 8K 길이에서 재조정하여 짧은 컨텍스트 성능을 유지하는 3가지 기법의 조합입니다. ICML 2024에서 발표되었으며, Microsoft Phi-3에 통합되었습니다.

실무에서의 롱 컨텍스트 활용 패턴:

현재 100만 토큰 컨텍스트가 효과적인 시나리오와 비효과적인 시나리오를 구분할 필요가 있습니다.

효과적인 시나리오:

  • 전체 코드베이스를 컨텍스트에 넣고 특정 함수를 찾거나 수정하는 작업
  • 긴 문서의 요약 (정보 추출이 아닌 전체 구조 이해가 목적)
  • 대화의 히스토리를 유지하면서 이전 내용을 참조하는 작업

비효과적인 시나리오:

  • 컨텍스트 중간에 숨겨진 특정 사실을 정확히 찾아내는 작업 (needle-in-a-haystack)
  • 컨텍스트 전체에 걸친 복잡한 추론 (여러 위치의 정보를 종합해야 하는 경우)
  • 대량의 구조화된 데이터에서의 집계/분석

개발자 시사점: 100만 토큰 컨텍스트를 마케팅 수치 그대로 믿지 마십시오. 중요한 정보는 컨텍스트의 시작과 끝 부분에 배치하고, RAG(Retrieval-Augmented Generation)와 결합하여 사용하는 것이 실전에서 더 효과적입니다.

트렌드 5: 효율적 추론 - 4비트가 프로덕션 레디

LLM의 추론(inference) 비용을 줄이는 연구가 2025년에 폭발적으로 증가했습니다. 특히 KV 캐시 최적화와 양자화(quantization) 조합이 핵심입니다.

QuantSpec (Apple) - 자기 추측적 디코딩 + 4비트 KV 캐시

Apple Machine Learning Research가 발표한 QuantSpec은 두 가지 최적화를 결합합니다. 첫째, 4비트 양자화된 KV 캐시로 메모리 사용량을 절감합니다. 둘째, 자기 추측적 디코딩(Self-Speculative Decoding)으로 추론 속도를 향상시킵니다.

기존 추측적 디코딩은 작은 드래프트 모델과 큰 타겟 모델이 별도로 필요했습니다. QuantSpec은 동일 모델의 양자화 버전을 드래프트 모델로 사용하여, 별도 모델 관리가 불필요합니다.

QuantSpec의 성능 수치:

  • 수용률(acceptance rate) 90% 이상 유지
  • 종단간(end-to-end) 속도 최대 2.5배 향상
  • 메모리 요구량 1.3배 절감
  • ICML 2025에서 발표

NVFP4 (NVIDIA) - Blackwell GPU를 위한 4비트 최적화

NVIDIA는 Blackwell GPU에 최적화된 NVFP4(4-bit Floating Point) 포맷으로 KV 캐시를 양자화합니다.

핵심 결과:

  • FP8 대비 KV 캐시 메모리 50% 절감
  • 컨텍스트 길이와 배치 크기 2배 확대 가능
  • 정확도 손실 1% 미만 (LiveCodeBench, MMLU-PRO, MBPP, Ruler 64K 기준)
  • 블록 크기 16으로 기존 MXFP4(블록 32) 대비 더 정밀한 양자화
  • Time-to-first-token 지연 시간 FP8 대비 최대 3배 감소

W4A4KV4 표준화 추세:

가중치 4비트(W4), 활성화 4비트(A4), KV 캐시 4비트(KV4) 조합이 프로덕션 추론의 사실상 표준으로 자리잡고 있습니다. HellaSwag, MMLU, PiQA 등 주요 벤치마크에서 정밀도 간 정확도 차이가 0.5-1% 이내로, 실용적으로 무시할 수 있는 수준입니다.

vLLM의 PagedAttention:

UC Berkeley에서 개발한 vLLM은 OS의 가상 메모리처럼 KV 캐시를 페이지 단위로 동적 할당합니다. 기존 시스템이 KV 캐시 메모리의 60-80%를 낭비했던 것에 비해, vLLM은 4% 미만의 낭비율을 달성합니다. 동일 지연 시간에서 FasterTransformer, Orca 대비 2-4배 높은 처리량(throughput)을 보입니다.

PagedAttention의 핵심 혁신은 KV 캐시를 연속된 메모리 블록이 아닌 불연속 페이지로 저장한다는 점입니다. 이를 통해 요청 간, 그리고 요청 내에서 KV 캐시를 블록 단위로 공유할 수 있습니다. 예를 들어 동일한 시스템 프롬프트를 사용하는 여러 요청이 KV 캐시를 공유하면 메모리를 추가로 절약할 수 있습니다.

2025년에는 vLLM이 계층적 KV 캐싱(hierarchical KV caching)으로 진화했습니다. GPU 메모리에서 캐시 미스가 발생하면 CPU 메모리로 폴백하고, 그래도 없으면 재계산하는 3계층 구조입니다. 이를 통해 제한된 GPU 메모리에서도 더 긴 컨텍스트와 더 큰 배치를 처리할 수 있게 되었습니다.

개발자 시사점: 프로덕션 LLM 서빙에서 vLLM + 4비트 양자화는 이미 사실상의 표준입니다. 새 프로젝트를 시작한다면 FP16 서빙을 기본으로 가정하지 말고, 처음부터 양자화 모델과 PagedAttention 기반 서빙을 계획하세요.

트렌드 6: AI 에이전트 - Pipeline에서 Model-native로

2025년 AI 에이전트는 외부 파이프라인으로 도구를 연결하는 방식에서, 모델 자체에 도구 사용 능력을 내장하는 방향으로 전환하고 있습니다.

Pipeline 패러다임 (2023-2024):

LangChain, AutoGPT 등이 대표하는 방식입니다. LLM 외부에서 도구 호출 로직을 구현하고, 프롬프트 엔지니어링으로 연결합니다. 장점은 유연성이지만, 에러 전파와 일관성 문제가 있었습니다.

Model-native 패러다임 (2025-):

도구 호출(tool-calling)을 모델 학습에 직접 내장합니다. Nemotron-Cascade 2의 130만 건 도구 호출 SFT 데이터가 대표적입니다. 모델이 "도구를 언제, 어떻게 사용할지"를 학습 과정에서 직접 배우므로, 더 자연스럽고 안정적인 도구 활용이 가능합니다.

Memento-Skills의 혁신:

앞서 소개한 Memento는 에이전트가 에이전트를 설계하는 새로운 패러다임을 제시합니다. 에이전트가 자신의 경험에서 재사용 가능한 스킬을 추출하고, 이를 마크다운으로 저장하여 다른 에이전트나 미래의 자신이 활용할 수 있게 합니다.

이는 단순한 메모리 시스템을 넘어, 에이전트의 자기 개선(self-improvement) 루프를 구현한 것입니다. 파인튜닝 없이도 에이전트의 능력이 경험에 비례하여 성장합니다.

개발자 시사점: 도구 호출을 외부 파이프라인이 아닌 모델 학습에 통합하는 추세는, 프로덕션 에이전트의 안정성을 크게 높일 것입니다. Memento 같은 경험 기반 학습 프레임워크는 파인튜닝 비용 없이 에이전트를 개선할 수 있는 실용적 대안입니다.

트렌드 7: RLHF의 대안들 - 더 싸고, 더 빠르고, 더 간단하게

RLHF(Reinforcement Learning from Human Feedback)는 LLM 정렬(alignment)의 표준이었지만, 비용이 높고 구현이 복잡합니다. 2025년에는 여러 효율적 대안이 등장했습니다.

GRPO (DeepSeek-R1) - 가치 모델 제거

DeepSeek에서 DeepSeekMath 논문으로 처음 소개한 GRPO는 PPO의 핵심 병목인 별도 가치 함수(critic model)를 제거합니다.

GRPO의 작동 원리:

  • 하나의 프롬프트에 대해 여러 응답을 그룹으로 생성
  • 그룹 내에서 상대적 점수를 계산 (절대적 보상 대신 상대적 비교)
  • 이 상대 점수를 기반으로 정책을 업데이트

핵심 장점:

  • PPO 대비 메모리/연산 약 50% 절감
  • 보다 안정적인 이점 추정(advantage estimation)
  • 보수적 업데이트 메커니즘으로 학습 안정성 향상

GRPO는 DeepSeek-R1의 핵심 학습 알고리즘으로 사용되어, 그 효과가 실전에서 검증되었습니다.

DPO (Direct Preference Optimization) - 보상 모델도 제거

DPO는 한 단계 더 나아가 보상 모델(reward model) 자체를 제거합니다. 선호 데이터에서 이진 분류 손실(binary loss)을 직접 계산하여 정책을 최적화합니다.

DPO의 장점:

  • PPO 기반 RLHF보다 단순한 손실 함수로 학습 불안정성 감소
  • 더 적은 학습 샘플로 RLHF 수준 성능 달성 가능
  • 부분적으로 합성 생성된 쌍별 비교 데이터셋만으로도 충분

RLAIF (Reinforcement Learning from AI Feedback) - 인간 라벨링 최소화

인간 대신 AI가 선호도 라벨을 생성합니다. 피드백 모델이 준비되면 수천 개의 비교 데이터를 수분 내에 생성할 수 있으며, 데이터포인트당 비용은 약 0.01달러 수준입니다.

다만 RLAIF는 교사 LLM의 편향을 그대로 물려받을 수 있고, 라벨 노이즈가 상당하다는 한계가 있습니다.

RLTHF - 핵심만 사람이 라벨링

RLTHF(Reinforcement Learning from Targeted Human Feedback)는 전체 데이터의 6-7%만 인간이 라벨링하고 나머지는 AI가 처리하는 하이브리드 접근법입니다. 이 적은 비율의 인간 라벨링만으로도 전체 인간 라벨링 수준의 정렬 품질을 달성할 수 있습니다.

최신 동향:

2025년 하반기에는 Kimi K2의 Self-Critiqued Policy Optimization, Qwen 3의 GSPO(Group Sequence Policy Optimization) 등 더욱 다양한 변형이 등장하고 있습니다.

정렬 방법론 선택 가이드:

각 방법론의 적합한 사용 시나리오를 정리하면 다음과 같습니다:

방법론적합한 시나리오비용품질
RLHF (PPO)최고 품질이 필요한 프론티어 모델높음최고
GRPO추론 특화 모델 (수학, 코드)중간높음
DPO빠른 반복 실험, 중소 규모 모델낮음중상
RLAIF대규모 데이터 필요, 비용 민감매우 낮음중간
RLTHF인간 라벨링 예산 제한, 높은 품질 필요중하높음

개발자 시사점: 모든 프로젝트에 RLHF가 필요한 것은 아닙니다. 대부분의 실무 시나리오에서 DPO나 GRPO가 비용 대비 충분한 품질을 제공합니다. 인간 라벨링 예산이 제한적이라면 RLTHF의 타겟 라벨링 전략이 최선의 선택일 수 있습니다.

트렌드 8: 소형 멀티모달 모델 - 휴대폰에서 GPT-4V를 능가하다

거대 모델만이 답이 아닙니다. 2025년에는 엣지 디바이스에서 구동 가능한 소형 멀티모달 모델이 놀라운 성과를 보였습니다.

MiniCPM-V 시리즈의 성과:

MiniCPM-V는 Tsinghua University와 ModelBest가 개발한 효율적 멀티모달 LLM 시리즈입니다.

MiniCPM-Llama3-V 2.5:

  • OpenCompass 종합 평가(11개 벤치마크)에서 GPT-4V-1106, Gemini Pro, Claude 3 능가
  • Object HalBench에서 GPT-4V-1106 대비 더 낮은 환각률
  • 30개 이상 언어 지원

MiniCPM-V 2.6 (8B 파라미터):

  • 단일 이미지, 다중 이미지, 비디오 이해 모두에서 GPT-4V 능가
  • 모바일 폰에서 실시간 추론 가능 (2초 미만 첫 토큰 지연)

MiniCPM-V 4.5:

  • OpenCompass 평균 77.0점
  • GPT-4o-latest와 Gemini-2.0 Pro 능가

멀티모델 오케스트레이션 트렌드:

단일 거대 멀티모달 모델 대신, 여러 특화 모델을 조합하는 접근법도 부상하고 있습니다. 이미지 이해, 텍스트 생성, 코드 실행 등을 각각 전문 모델이 담당하고, 라우터가 적절한 모델로 요청을 분배하는 구조입니다. 이는 MoE의 모델 수준 확장판이라고 볼 수 있습니다.

SmolVLM과 효율성 경쟁:

HuggingFace와 Stanford가 공동 개발한 SmolVLM 시리즈도 주목할 만합니다. 가장 작은 256M 모델이 1GB 미만의 GPU 메모리로 동작하면서, 80배 큰 Idefics-80B를 능가하는 결과를 보였습니다. 이는 멀티모달 모델에서도 MoE와 유사한 "효율적 스케일링" 트렌드가 진행되고 있음을 보여줍니다.

개발자 시사점: 소형 멀티모달 모델은 클라우드 API 의존성 없이 로컬/온프레미스 환경에서 멀티모달 AI를 구동할 수 있게 합니다. 개인정보 보호가 중요한 의료, 법률, 금융 분야에서 특히 가치가 높습니다. MiniCPM-V의 모바일 배포 사례는 엣지 AI의 현실성을 보여주는 대표적 예시입니다.

트렌드 9: 코드 생성 - 에이전트 코딩 도구의 시대

AI 코드 생성은 2025년에 자동완성 수준을 넘어 완전한 에이전트 코딩 도구로 진화했습니다.

SWE-Bench Verified 성과:

SWE-Bench는 실제 GitHub 이슈를 해결하는 능력을 측정하는 가장 권위 있는 코드 생성 벤치마크입니다. 500개의 실제 이슈를 Docker 컨테이너에서 실행하며, 생성된 패치에 대해 유닛 테스트로 성공 여부를 판정합니다.

2025-2026년 주요 성과:

모델/도구SWE-Bench Verified
Claude Code (Opus 4.5)80.9%
Claude Opus 4.6 (Thinking)79.2%
GPT 5.477.2%

Claude 계열이 코드 품질에서 최고 수준을 보이고 있습니다. 특히 Claude Code는 에이전트형 코딩 도구로서 단일 모델 성능을 넘어 전체 워크플로우의 효율성을 높입니다.

에이전트 코딩의 특징:

기존의 코드 자동완성과 달리, 에이전트 코딩 도구는 다음과 같은 능력을 갖추고 있습니다:

  • 코드베이스 전체를 탐색하고 이해
  • 여러 파일에 걸친 수정을 계획하고 실행
  • 테스트를 작성하고 실행하여 결과를 검증
  • 빌드 오류를 자동으로 진단하고 수정

코드 생성의 미래 방향:

코드 생성 AI의 다음 단계는 "이슈 해결"에서 "프로젝트 구축"으로의 확장입니다. 현재 SWE-Bench는 기존 코드베이스의 버그 수정이나 기능 추가를 측정하지만, 아키텍처 설계, 시스템 간 통합, 성능 최적화 등 더 높은 수준의 엔지니어링 판단력은 아직 평가되지 않습니다.

또한 에이전트 코딩 도구의 보안 측면도 중요한 과제입니다. AI가 생성한 코드의 보안 취약점을 자동으로 탐지하고 수정하는 기능, 그리고 AI가 접근할 수 있는 코드베이스의 범위를 적절히 제한하는 권한 관리가 점점 더 중요해지고 있습니다.

2024년 SWE-Bench 50% 수준에서 2025년 80% 이상으로의 도약은, AI가 대부분의 일상적 소프트웨어 엔지니어링 작업을 자율적으로 처리할 수 있는 시점에 근접하고 있음을 시사합니다.

트렌드 10: 비디오 생성 - 아직 물리 법칙은 불완전하다

비디오 생성 AI는 시각적 품질에서 놀라운 발전을 이루었지만, 과학적 정확성과 물리 법칙 준수에서는 여전히 한계를 보이고 있습니다.

VideoScience-Bench 결과:

VideoScience-Bench는 비디오 모델의 과학적 이해 능력을 평가하는 벤치마크로, 물리학 9개 분야와 화학 5개 분야에 걸친 200개의 프롬프트(T2V 160개, I2V 40개)와 103개의 세부 개념을 포함합니다.

모델Phenomenon Congruency (Likert)
Sora 2약 64%
Veo 3약 58.7%

최고 성능 모델조차 64%에 불과합니다. 고전역학, 광학, 산화환원 반응, 반응 속도론 등의 과학적 현상을 정확하게 재현하는 것은 아직 어렵습니다.

2025년 비디오 생성 모델 특성 비교:

각 모델은 서로 다른 강점을 가지고 있습니다:

  • Sora 2 (OpenAI): VideoScience-Bench 최고 성능. 물리적 일관성에서 가장 앞서 있음
  • Veo 3.1 (Google): 포토리얼리즘(사실적 화질)에서 최고 수준
  • Kling (Kuaishou): 모션 제어(카메라 이동, 캐릭터 동작)에서 강점
  • Wan 2.2 (알리바바): 오픈소스. Apache 2.0. 소비자 GPU에서 구동 가능

현재의 한계와 전망:

현존하는 비디오 생성 모델은 시각적으로 아름답고 시간적으로 일관된 비디오를 만들 수 있지만, 기본적인 물리 법칙(중력, 관성, 반사 등)을 완전히 이해하지는 못합니다. 물이 위로 흐르거나, 그림자가 광원과 일치하지 않거나, 물체 간의 충돌이 비현실적인 결과를 보이는 경우가 여전히 발생합니다.

이 한계를 극복하기 위해서는 비디오 생성 모델에 물리 시뮬레이션 지식을 통합하거나, 월드 모델(World Model) 기반의 새로운 접근법이 필요할 것입니다.

오픈소스 생태계의 성장:

Wan 2.2의 Apache 2.0 공개는 비디오 생성 분야의 오픈소스 생태계를 크게 활성화했습니다. Diffusers 라이브러리와의 통합으로 T2V(텍스트-비디오), I2V(이미지-비디오), TI2V(텍스트+이미지-비디오) 파이프라인을 손쉽게 구축할 수 있습니다. LoRA를 통한 스타일 커스터마이징도 지원하여, 특정 도메인에 특화된 비디오 생성이 가능합니다.

Open-Sora 프로젝트의 지속적인 발전 역시 주목할 만합니다. 대학 연구실 수준의 리소스로도 경쟁력 있는 비디오 생성 모델을 학습할 수 있다는 것이 증명되면서, 비디오 생성 연구의 진입 장벽이 크게 낮아졌습니다.

프로덕션 적용 현황:

광고, 숏폼 콘텐츠, 프로토타이핑 등의 분야에서 AI 비디오 생성이 이미 실무에 도입되고 있습니다. 다만 아직은 완전 자동화보다는 인간 크리에이터의 작업을 가속하는 보조 도구로 활용되는 경우가 더 많습니다. 물리적 정확성이 중요하지 않은 추상적/예술적 콘텐츠에서 특히 효과적입니다.


Part 3: 개발자가 주목해야 할 핵심 인사이트

앞서 살펴본 트렌딩 논문과 연구 트렌드에서 개발자가 반드시 기억해야 할 5가지 핵심 시사점을 정리합니다.

인사이트 1: MoE가 프론티어 모델의 기본 아키텍처가 됐다

Dense 모델의 시대는 끝났습니다. DeepSeek V3(671B/37B), Nemotron-Cascade 2(30B/3B), Wan 2.2(27B/14B), Llama 4 모두 MoE를 채택했습니다. 이것은 단순한 트렌드가 아니라 구조적 전환입니다.

실무적 의미:

  • 모델 선택 시 "총 파라미터"보다 "활성 파라미터"가 더 중요한 지표입니다
  • MoE 모델의 추론 비용은 동일 성능의 Dense 모델 대비 5-20배 저렴합니다
  • 세분화된 전문가(256개 이상)와 공유 전문가가 설계의 핵심 패턴입니다
  • MoE 서빙에 최적화된 인프라(vLLM, TensorRT-LLM 등)에 대한 이해가 필수적입니다

인사이트 2: 순수 RL만으로 추론 능력을 학습할 수 있다

DeepSeek-R1이 증명한 이 발견은 LLM 학습 패러다임을 근본적으로 바꿀 잠재력을 갖고 있습니다.

기존 패러다임: 사전학습 -> SFT(지도학습) -> RLHF

새로운 패러다임: 사전학습 -> RL (SFT 생략 가능)

기본 모델은 이미 추론의 씨앗을 갖고 있습니다. RL의 역할은 새로운 능력을 "가르치는" 것이 아니라, 이미 있는 능력을 "언제 발휘할지" 알려주는 것입니다.

실무적 의미:

  • 고품질 SFT 데이터 수집에 들이는 비용과 노력을 재고할 필요가 있습니다
  • GRPO 같은 효율적 RL 알고리즘으로 적은 비용에 추론 능력 향상이 가능합니다
  • 14B 증류 모델이 32B 모델을 이긴다는 것은 모델 크기보다 학습 방법이 더 중요하다는 뜻입니다

인사이트 3: 100만 토큰 컨텍스트는 마케팅이다

100만 토큰을 입력할 수 있는 것과 100만 토큰을 효과적으로 활용하는 것은 전혀 다른 문제입니다.

냉정한 현실:

  • 실효 활용률 10-20%
  • Lost in the Middle 문제 미해결
  • RoPE의 장기 감쇠로 인한 아키텍처 수준의 한계

실무 전략:

  • 긴 컨텍스트에 의존하기보다 RAG와 결합하여 사용하세요
  • 중요한 정보는 컨텍스트의 시작과 끝 부분에 배치하세요
  • 청크 분할 + 요약 + 재조합 파이프라인이 긴 컨텍스트보다 효과적인 경우가 많습니다
  • LongRoPE 같은 기법의 발전을 지속적으로 모니터링하세요

인사이트 4: 에이전트가 에이전트를 설계하는 시대

Memento-Skills는 에이전트의 자기 개선 루프를 구현했습니다. 에이전트가 경험에서 스킬을 추출하고, 이를 재활용하여 지속적으로 성능을 향상시킵니다.

패러다임 전환의 핵심:

  • 파이프라인 기반에서 모델 네이티브 도구 활용으로
  • 고정된 에이전트에서 자기 개선하는 에이전트로
  • 파인튜닝 기반에서 메모리/경험 기반으로

실무적 의미:

  • 에이전트의 경험을 체계적으로 저장하고 재활용하는 메모리 시스템을 설계하세요
  • Memento의 Case Memory / Subtask Memory / Tool Memory 3계층 구조를 참고하세요
  • 130만 건 도구 호출 데이터(Nemotron-Cascade 2)처럼, 도구 사용 데이터도 핵심 학습 자원입니다

인사이트 5: 4비트 양자화가 프로덕션 레디

QuantSpec(Apple)과 NVFP4(NVIDIA)가 증명했듯이, W4A4KV4(가중치/활성화/KV 캐시 모두 4비트)로도 1% 미만의 정확도 손실만 발생합니다.

실무적 의미:

  • 프로덕션 환경에서 FP16/FP8을 고집할 이유가 줄고 있습니다
  • 4비트 양자화로 추론 비용을 3-4배 절감할 수 있습니다
  • vLLM의 PagedAttention과 결합하면 메모리 효율이 극대화됩니다
  • NVIDIA Blackwell GPU의 NVFP4 네이티브 지원으로 하드웨어 수준의 최적화가 가능합니다

실전 퀴즈

이 글에서 다룬 내용을 얼마나 이해했는지 확인해보세요.

Q1: DeepSeek-R1-Zero가 순수 RL만으로 달성한 AIME 2024 pass at 1 점수는?

정답: 71.0%

DeepSeek-V3-Base에 GRPO 알고리즘만 적용한 DeepSeek-R1-Zero는 AIME 2024에서 pass at 1 기준 15.6%에서 71.0%으로 상승했습니다. 다수결 투표를 적용하면 86.7%까지 도달하여 OpenAI o1-0912 수준에 도달합니다. 이 결과는 SFT(지도학습) 없이 순수 RL만으로 추론 능력을 학습할 수 있다는 것을 최초로 증명했습니다.

Q2: GRPO가 PPO 대비 갖는 핵심 장점은 무엇인가요?

정답: 별도의 가치 함수(critic model)가 필요 없다

GRPO(Group Relative Policy Optimization)는 PPO에서 필수적인 별도 가치 모델을 제거합니다. 대신 하나의 프롬프트에 대해 여러 응답을 그룹으로 생성하고, 그룹 내 상대적 점수를 기반으로 정책을 업데이트합니다. 이를 통해 메모리와 연산을 약 50% 절감하면서도 안정적인 이점 추정(advantage estimation)이 가능합니다.

Q3: Nemotron-Cascade 2의 총 파라미터와 활성 파라미터는 각각 얼마인가요?

정답: 총 30B, 활성 3B

Nemotron-Cascade-2-30B-A3B는 30B 총 파라미터의 MoE 아키텍처에서 실제로 3B만 활성화합니다. 이전에 IMO/IOI/ICPC 금메달급 성능을 달성한 유일한 오픈웨이트 모델인 DeepSeek-V3.2-Speciale(671B/37B) 대비 20배 적은 파라미터로 동일한 수준의 성과를 냈습니다.

Q4: "Lost in the Middle" 현상이란 무엇이며, 왜 발생하나요?

정답: LLM이 긴 컨텍스트의 중간 내용을 놓치는 현상

LLM은 입력의 시작 부분과 끝 부분은 잘 기억하지만, 중간에 위치한 정보는 놓치는 U자형 성능 곡선을 보입니다. 기술적 원인은 Transformer의 RoPE(Rotary Position Embedding)가 장기 감쇠(long-term decay) 효과를 일으켜, 시퀀스 시작과 끝의 토큰에 가중치가 집중되기 때문입니다. 이는 아키텍처 수준의 한계이므로 단순한 학습 데이터 증가로는 해결이 어렵습니다.

Q5: vLLM의 PagedAttention이 기존 시스템 대비 KV 캐시 메모리 낭비를 얼마나 줄였나요?

정답: 60-80%에서 4% 미만으로

기존 LLM 서빙 시스템은 KV 캐시 메모리의 60-80%를 낭비했습니다. vLLM의 PagedAttention은 OS의 가상 메모리 페이징 기법에서 영감을 받아, KV 캐시를 블록 단위로 동적 할당합니다. 이를 통해 낭비율을 4% 미만으로 줄이고, 동일 하드웨어에서 더 큰 배치 크기와 더 높은 처리량을 달성합니다.


참고 자료

본문에서 다룬 논문과 프로젝트의 원본 링크를 정리합니다.

HuggingFace 트렌딩 논문

  1. MOSS-TTS - OpenMOSS Team (HuggingFace)
  2. MOSS-TTS GitHub Repository
  3. Nemotron-Cascade 2 - NVIDIA Research
  4. Nemotron-Cascade-2-30B-A3B (HuggingFace)
  5. Nemotron-Cascade 2 Paper (arXiv 2603.19220)
  6. Memento: Fine-tuning LLM Agents without Fine-tuning LLMs (arXiv 2508.16153)

추론 모델 및 RL

  1. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv 2501.12948)
  2. DeepSeek-R1 - Nature 게재
  3. DeepSeek-R1 (HuggingFace)
  4. DeepSeekMath: Pushing the Limits of Mathematical Reasoning (arXiv 2402.03300)
  5. GRPO 해설 - Cameron R. Wolfe

MoE 아키텍처

  1. DeepSeek-V3 Technical Report (arXiv 2412.19437)
  2. DeepSeek-V3 GitHub

효율적 추론

  1. QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache (arXiv 2502.10424)
  2. QuantSpec - Apple Machine Learning Research
  3. NVFP4 KV Cache - NVIDIA Technical Blog
  4. vLLM: PagedAttention (arXiv 2309.06180)
  5. vLLM GitHub Repository

롱 컨텍스트

  1. Lost in the Middle: How Language Models Use Long Contexts (arXiv 2307.03172)
  2. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens (arXiv 2402.13753)
  3. LongRoPE - Microsoft GitHub

비디오 생성

  1. VideoScience-Bench (arXiv 2512.02942)
  2. Wan 2.2 - Alibaba GitHub
  3. Sora 2 - OpenAI

멀티모달

  1. MiniCPM-V: A GPT-4V Level MLLM on Your Phone (arXiv 2408.01800)
  2. MiniCPM-V - Nature Communications

RLHF 대안

  1. DPO: Simplifying Alignment - HuggingFace Blog
  2. RLTHF: Targeted Human Feedback for LLM Alignment (arXiv 2502.13417)

코드 생성

  1. SWE-Bench Results
  2. SWE-Bench - Vals AI

HuggingFace

  1. HuggingFace Trending Papers
  2. HuggingFace Daily Papers

마무리

2025년 AI 연구는 "더 크게"에서 "더 똑똑하게"로의 전환을 보여주었습니다. MoE로 효율적으로 스케일링하고, GRPO로 저비용 RL을 수행하며, 4비트 양자화로 프로덕션 비용을 절감합니다. DeepSeek-R1은 순수 RL만으로 추론 능력을 학습할 수 있다는 것을 증명했고, Memento-Skills는 에이전트가 스스로 성장하는 시대를 열었습니다.

동시에 100만 토큰 컨텍스트의 실효성 문제, 비디오 생성의 물리 법칙 한계 등 아직 해결하지 못한 과제도 분명합니다. 이런 한계를 인식하는 것이야말로 실무에서 AI를 효과적으로 활용하는 첫걸음입니다.

2026년을 향한 전망:

MoE 아키텍처는 더욱 세분화될 것이고, RL 기반 학습은 추론을 넘어 창의성과 계획 수립 영역으로 확장될 것입니다. 효율적 추론 기술은 엣지 디바이스에서의 LLM 구동을 현실화할 것이며, 에이전트 AI는 단순 자동화를 넘어 복잡한 워크플로우를 자율적으로 관리하는 수준으로 진화할 것입니다.

2025년의 연구 트렌드가 2026년 프로덕션의 표준이 될 것입니다. 지금 이 논문들을 읽고 이해하는 것이 앞으로의 경쟁력을 결정합니다. HuggingFace 트렌딩 페이퍼를 정기적으로 확인하고, 핵심 논문의 아이디어를 자신의 프로젝트에 적용해보는 습관을 들이시기 바랍니다.

2025 AI Research Trends: Top HuggingFace Papers and 10 Defining Research Directions

Introduction

The first quarter of 2025 was one of the most intense periods in AI research history. HuggingFace Daily Papers saw an explosion of highly upvoted work, covering everything from open-source TTS systems to million-token context experiments.

This post is organized in two parts. Part 1 reviews the top 10 trending papers on HuggingFace from March 2025. Part 2 synthesizes 10 macro research trends that defined the year, with concrete numbers and practical developer implications.


1. MOSS-TTS (961 Upvotes)

Open-source TTS that beats commercial systems

MOSS-TTS emerged as the highest-upvoted paper of the week with 961 upvotes. It is a fully open-source text-to-speech system that demonstrates quality rivaling or exceeding commercial offerings from Doubao and Gemini 2.5 Pro in human evaluation scores.

Key contributions:

  • Fully open weights and training code -- a rarity in high-quality TTS research
  • Multi-language support with natural prosody across English, Chinese, Japanese, and Korean
  • Low-latency streaming architecture suitable for real-time applications
  • Human evaluators rated it above Doubao TTS and Gemini 2.5 Pro voice on naturalness metrics

Developer takeaway: MOSS-TTS is production-viable for voice applications where commercial API costs are prohibitive. The open weights make fine-tuning on domain-specific voice data straightforward.

2. Nemotron-Cascade 2 (NVIDIA)

30B/3B MoE architecture achieving competition gold medals

NVIDIA released Nemotron-Cascade 2, a Mixture-of-Experts model with a 30B total parameter count but only 3B active parameters at inference time. Despite activating roughly 20x fewer parameters than dense models of similar quality, it achieved gold-medal-level performance on IMO (International Mathematical Olympiad), IOI (International Olympiad in Informatics), and ICPC (International Collegiate Programming Contest) benchmarks.

Architecture highlights:

  • Cascaded routing -- a novel routing mechanism that chains expert selections across layers
  • 30B total / 3B active parameter split achieves extreme efficiency
  • Gold-level scores on IMO, IOI, and ICPC problem sets
  • Inference cost is roughly 1/10th of a comparable dense 30B model

Developer takeaway: This validates the MoE approach for deploying powerful reasoning models on consumer hardware. A 3B active parameter model that solves competition math is a significant milestone for on-device AI.

3. Memento-Skills (UCL) -- Agent Designs Agents

+116.2% improvement on HLE benchmark

Researchers at University College London introduced Memento-Skills, a framework where an AI agent autonomously designs and refines sub-agent skills. The system achieved a +116.2% improvement on the HLE (Hard Language Evaluation) benchmark compared to baselines.

Core mechanism:

  • The meta-agent observes task failures and generates new skill modules to address them
  • Skills are stored in a persistent memory bank and composed for future tasks
  • Each skill is a self-contained prompt-code pair that can be reused across problems
  • Demonstrates emergent curriculum learning behavior

Developer takeaway: This points toward agent systems that improve themselves over time without human intervention in skill design. The memory bank concept is directly applicable to production agent architectures.

4. ReactMotion (107 Upvotes) -- Listener Gesture Generation

Generating realistic non-verbal responses

ReactMotion addresses a neglected problem in human-AI interaction: generating appropriate listener gestures (nods, head tilts, hand movements) in response to a speaker. With 107 upvotes, it proposes a diffusion-based model that generates temporally coherent gesture sequences.

Technical approach:

  • Diffusion model conditioned on audio and text of the speaker
  • Generates full-body motion capture data for the listener
  • Temporal coherence maintained through a novel cross-attention mechanism
  • Evaluated on naturalness and appropriateness by human judges

Developer takeaway: Relevant for avatar systems, video conferencing, and virtual assistant embodiment. The cross-modal conditioning approach could extend to other reactive generation tasks.

5. H-EmbodVis (82 Upvotes) -- 3D Priors in Generative Models

Injecting 3D understanding into 2D generation

H-EmbodVis proposes methods for embedding 3D spatial priors into generative image models. The core insight is that models generating 2D images can produce more physically plausible outputs when they have explicit access to 3D geometric information.

Key results:

  • Improved physical consistency in generated scenes (correct shadows, reflections, occlusion)
  • 3D priors injected via cross-attention conditioning on depth and normal maps
  • Works as a plug-in module compatible with existing diffusion pipelines
  • Significant improvement on spatial reasoning benchmarks

Developer takeaway: For teams working on image generation for e-commerce, gaming, or architectural visualization, this technique reduces the uncanny valley effect without requiring full 3D rendering pipelines.

6-10. Notable Mentions

6. Cubic Discrete Diffusion -- A new discrete diffusion framework that operates on a cubic lattice structure, enabling better token-level generation for text. Demonstrates improved perplexity scores over autoregressive baselines on certain benchmarks.

7. EffectErase -- Video effect removal system that can strip filters, overlays, and post-processing effects from videos while preserving the original content. Useful for forensic analysis and content restoration.

8. LVOmniBench -- A comprehensive benchmark for evaluating long-form video understanding in multimodal models. Tests temporal reasoning, character tracking, and plot comprehension across videos exceeding 30 minutes.

9. VTC-Bench -- Video-Text Consistency benchmark that evaluates whether generated video descriptions accurately reflect visual content, addressing hallucination in video captioning models.

10. SAMA -- Scalable Adaptive Memory Architecture for efficient long-context processing, offering a middle ground between full attention and sparse attention approaches.


Trend 1: Reasoning Models Go Pure RL

DeepSeek-R1 proves reinforcement learning alone can teach reasoning

The most significant research development of early 2025 was DeepSeek-R1, which demonstrated that pure reinforcement learning -- without supervised fine-tuning on chain-of-thought data -- can produce strong reasoning capabilities.

Key numbers:

  • AIME 2024: 79.8% accuracy (matching o1-level performance)
  • Published in Nature -- a landmark for AI reasoning research
  • Training used GRPO (Group Relative Policy Optimization) instead of traditional PPO
  • No curated chain-of-thought training data required

Why this matters for developers:

  • Reasoning capabilities are no longer gated behind expensive human annotation
  • GRPO is significantly cheaper than PPO (no separate critic model needed)
  • Opens the door to training domain-specific reasoning models with just reward signals
  • The Nature publication signals mainstream scientific validation

Trend 2: MoE Scaling Becomes the Default

DeepSeek V3, Llama 4, Nemotron -- all bet on Mixture-of-Experts

Every major model release in 2025 adopted MoE architecture. The trend moved from experimental to standard practice.

Key developments:

  • DeepSeek V3: 671B total parameters, 37B active, 256 experts
  • Llama 4 Maverick: MoE-based architecture for the high-performance variant
  • Nemotron-Cascade 2: 30B/3B with cascaded routing
  • Expert counts have scaled from 8 (early MoE) to 256+ in production models

Why MoE won:

  • Training compute scales with total parameters but inference cost scales with active parameters
  • Enables much larger total model capacity without proportional inference cost increase
  • Load balancing and routing have matured enough for stable training
  • Hardware (GPU memory) limitations make dense scaling increasingly impractical

Developer takeaway: If you are deploying models, MoE means you get significantly better quality per dollar of inference compute. Expect MoE-aware serving infrastructure to become critical.

Trend 3: Diffusion Transformers for Video

Wan 2.1/2.2 MoE DiT and Open-Sora push video generation forward

Video generation transitioned from pure U-Net architectures to Diffusion Transformers (DiT), with MoE variants emerging.

Key developments:

  • Wan 2.1 and 2.2: Alibaba released MoE-based DiT models for video generation
  • Open-Sora: Reproduced Sora-like video generation for approximately USD 200K in compute
  • DiT architecture enables better temporal coherence than U-Net approaches
  • MoE integration allows scaling model capacity without proportional compute increase

Architecture evolution:

  • 2023: U-Net based video diffusion (Stable Video Diffusion)
  • 2024: Dense DiT (Sora, internal)
  • 2025: MoE DiT (Wan 2.2, Open-Sora 2.0)

Developer takeaway: Video generation is becoming accessible. Open-Sora's USD 200K training cost means startups can fine-tune video models. The DiT+MoE combination will likely be the dominant architecture.

Trend 4: The Million-Token Context Reality Check

Only 10-20% of the context is effectively used

While models now advertise million-token context windows, research in 2025 revealed uncomfortable truths about their actual utility.

Key findings:

  • Effective utilization rate: Only 10-20% of tokens in a long context meaningfully influence the output
  • Lost in the Middle problem persists: information placed in the middle of long contexts is retrieved less reliably
  • Retrieval accuracy drops sharply beyond roughly 100K tokens in most practical tasks
  • The gap between benchmark performance and real-world utility remains large

Practical implications:

  • RAG (Retrieval-Augmented Generation) remains essential even with long-context models
  • Chunking strategies matter more than raw context length
  • Hybrid approaches (RAG + moderate context) outperform pure long-context on most tasks
  • Token costs for million-token inputs are substantial and often wasteful

Developer takeaway: Do not blindly stuff million tokens into a prompt. Design retrieval pipelines that select relevant chunks, and use long context primarily for tasks that genuinely require holistic document understanding (e.g., full-book summarization).

Trend 5: Efficient Inference Breakthroughs

QuantSpec, NVFP4, and W4A4KV4 push the boundaries

Inference efficiency research produced multiple practical breakthroughs in 2025.

Key results:

  • QuantSpec: Speculative decoding combined with quantization achieves 2.5x throughput improvement
  • NVFP4: NVIDIA's FP4 quantization format reduces KV cache memory by 50%
  • W4A4KV4: 4-bit weights, 4-bit activations, and 4-bit KV cache -- achieving near-lossless quality on most benchmarks
  • PagedAttention (from vLLM) became the de facto standard for memory-efficient serving

Practical impact:

  • Models that previously required 4x A100 GPUs can now run on a single GPU
  • Batch sizes can be increased 2-4x with KV cache compression
  • Latency reductions of 50-70% on time-to-first-token
  • These techniques are already integrated into vLLM, TensorRT-LLM, and SGLang

Developer takeaway: If you are serving LLMs in production, upgrading your inference stack to leverage these quantization techniques is one of the highest-ROI optimizations available today.

Trend 6: AI Agents Mature from Pipelines to Model-Native

From rigid pipelines to learned agent behavior

2025 marked the transition from pipeline-based agents (hardcoded tool sequences) to model-native agents where the model itself learns when and how to use tools.

Evolution timeline:

  • 2023: Chain-of-thought prompting + manual tool orchestration
  • 2024: ReAct-style reasoning-action loops with fixed tool definitions
  • 2025: Model-native tool use, persistent memory, self-improving skills (Memento-Skills)

Key developments:

  • Memento-Skills (UCL) demonstrated agents that design their own sub-skills
  • Function calling became native in all major model APIs
  • Multi-agent collaboration frameworks matured (CrewAI, AutoGen, LangGraph)
  • Agent evaluation benchmarks formalized (AgentBench, GAIA)

Remaining challenges:

  • Reliability is still insufficient for unsupervised autonomous operation
  • Error recovery mechanisms are primitive
  • Cost of agent loops (multiple LLM calls) remains high for complex tasks

Developer takeaway: Build agents with explicit fallback mechanisms and human-in-the-loop checkpoints. The technology is powerful but not yet trustworthy enough for fully autonomous deployment in critical systems.

Trend 7: RLHF Alternatives Gain Ground

GRPO, DPO, RLAIF dramatically reduce alignment costs

The traditional RLHF (Reinforcement Learning from Human Feedback) pipeline -- expensive, complex, and unstable -- is being replaced by simpler alternatives.

Key methods:

  • GRPO (Group Relative Policy Optimization): Used by DeepSeek-R1, eliminates the critic model entirely
  • DPO (Direct Preference Optimization): Converts RLHF into a simple classification loss
  • RLAIF (RL from AI Feedback): Uses AI-generated preference data at approximately USD 0.01 per comparison
  • RLTHF (RL from Teacher Human Feedback): Achieves 6-7% improvement with hybrid teacher-student approach

Cost comparison:

  • Traditional RLHF: Requires separate reward model + PPO training loop + human annotators
  • DPO: Single training pass with preference pairs, no separate reward model
  • RLAIF: Replaces human annotators with LLM judges, reducing cost by 100x or more

Developer takeaway: If you are fine-tuning models, DPO is the lowest-friction starting point. For production alignment, RLAIF offers a compelling cost-quality tradeoff. GRPO is worth investigating for reasoning-specific tasks.

Trend 8: Small Multimodal Models Punch Above Their Weight

MiniCPM-V 8B matches GPT-4V on key benchmarks

The assumption that multimodal capabilities require massive scale was challenged in 2025.

Key results:

  • MiniCPM-V 8B (OpenBMB): Matches GPT-4V on OCRBench, ChartQA, and DocVQA
  • InternVL2 series: Strong vision-language performance at various scales
  • Small multimodal models are now viable for on-device deployment
  • Fine-tuning multimodal models on domain-specific data yields large improvements

Why this matters:

  • Vision-language AI is no longer restricted to cloud-only deployment
  • 8B parameter models can run on consumer GPUs or even mobile devices
  • Domain-specific multimodal fine-tuning is accessible to small teams
  • Edge deployment enables privacy-preserving visual AI applications

Developer takeaway: For document understanding, chart analysis, or visual QA tasks, evaluate MiniCPM-V and InternVL2 before defaulting to expensive API calls. The quality gap has narrowed dramatically.

Trend 9: Code Generation Reaches New Heights

Claude 4 and Codex set new benchmarks

Code generation models achieved remarkable performance improvements in 2025.

Key benchmarks:

  • Claude 4: 77.2% on SWE-Bench Verified (full repository-level bug fixing)
  • Codex (OpenAI): 40% faster code completion with improved accuracy
  • DeepSeek-Coder-V2: Strong open-source alternative for code generation
  • Multi-file editing and cross-repository understanding became standard capabilities

Practical advances:

  • Models now reliably handle repository-level tasks, not just function-level completion
  • Test generation quality has improved to the point of being useful in CI/CD pipelines
  • Code review assistance has become meaningfully productive
  • IDE integrations (Cursor, Windsurf, Claude Code) matured significantly

Developer takeaway: AI-assisted coding has crossed the productivity threshold. The tools are no longer novelties; they are genuine productivity multipliers. Invest time in learning effective prompting patterns for your specific development workflow.

Trend 10: Video Generation -- Impressive but Unreliable

Sora 2 at 64%, Veo 3.1, and persistent physics problems

Video generation made headlines but also revealed significant limitations.

Key benchmarks:

  • Sora 2: 64% on VBench (a standardized video quality benchmark)
  • Veo 3.1 (Google DeepMind): Strong on visual quality but weak on temporal consistency
  • Kling 2.0 and Runway Gen-4: Competitive commercial offerings
  • Open-source alternatives (Open-Sora, CogVideo) closing the gap

Persistent problems:

  • Physics simulation remains unreliable: objects still pass through each other, gravity is inconsistent
  • Temporal coherence degrades beyond 5-10 seconds of generated video
  • Character consistency across scenes is still a major challenge
  • Generation cost remains prohibitive for production use at scale

Developer takeaway: Video generation is suitable for creative prototyping, short-form content, and concept visualization. It is not yet reliable enough for production video pipelines that require physical accuracy or long-duration consistency.


Part 3: 5 Key Takeaways for Developers

1. MoE Is the New Default Architecture

Every significant model release in 2025 used Mixture-of-Experts. This is not a trend; it is a paradigm shift. Plan your infrastructure accordingly -- MoE models have different memory and compute profiles than dense models.

2. Reasoning Is Trainable with Pure RL

DeepSeek-R1 proved that chain-of-thought reasoning can emerge from reinforcement learning alone. This means custom reasoning models for domain-specific tasks (legal reasoning, medical diagnosis, financial analysis) are now feasible without massive annotation efforts.

3. Long Context Is Necessary but Not Sufficient

Million-token context windows are marketing features until retrieval and utilization improve. Build RAG pipelines first, then use long context as a supplement for tasks that genuinely benefit from holistic document understanding.

4. Inference Efficiency Is a Competitive Advantage

The gap between a naive deployment and an optimized one (using quantization, speculative decoding, and PagedAttention) can be 4-10x in cost and latency. This is often a larger improvement than switching to a better model.

5. Open Source Has Won the Accessibility Battle

Between MOSS-TTS, DeepSeek, Nemotron, and the proliferation of open-weight models, the barrier to entry for AI development has never been lower. The differentiator is no longer access to models but skill in applying them.


Quiz

Q1. What RL algorithm did DeepSeek-R1 use instead of PPO?

Answer: GRPO (Group Relative Policy Optimization). Unlike PPO, GRPO eliminates the need for a separate critic model, making training simpler and more cost-effective.

Q2. How many parameters are active during inference in Nemotron-Cascade 2?

Answer: 3B active parameters out of 30B total. This roughly 10:1 ratio between total and active parameters is achieved through the cascaded MoE routing mechanism.

Q3. What percentage of a million-token context is effectively utilized according to 2025 research?

Answer: Only 10-20%. Research showed that most tokens in very long contexts do not meaningfully influence model outputs, and the Lost in the Middle problem persists.

Q4. What throughput improvement does QuantSpec achieve?

Answer: 2.5x throughput improvement. QuantSpec combines speculative decoding with quantization to achieve this speedup while maintaining near-lossless output quality.

Q5. What was Sora 2's score on VBench?

Answer: 64%. While impressive for generated video quality, significant challenges remain in physics simulation, temporal coherence beyond 5-10 seconds, and character consistency across scenes.


References

  1. MOSS-TTS: Open-Source Text-to-Speech System (HuggingFace Daily Papers, March 2025)
  2. NVIDIA Nemotron-Cascade 2: Efficient MoE Reasoning (arXiv, 2025)
  3. Memento-Skills: Self-Improving Agent Architectures (UCL, 2025)
  4. ReactMotion: Diffusion-Based Listener Gesture Generation (arXiv, 2025)
  5. H-EmbodVis: 3D Priors for Generative Models (arXiv, 2025)
  6. DeepSeek-R1: Incentivizing Reasoning in LLMs via RL (Nature, 2025)
  7. DeepSeek-V3 Technical Report (DeepSeek AI, 2025)
  8. Llama 4 Model Card (Meta AI, 2025)
  9. Wan 2.1/2.2: MoE Diffusion Transformers for Video (Alibaba, 2025)
  10. Open-Sora: Democratizing Video Generation (HPC-AI Tech, 2025)
  11. Lost in the Middle: How Language Models Use Long Contexts (Stanford, 2024; updated 2025)
  12. QuantSpec: Speculative Decoding with Quantization (arXiv, 2025)
  13. NVFP4: FP4 Inference for Large Language Models (NVIDIA, 2025)
  14. W4A4KV4: Ultra-Low Precision LLM Serving (arXiv, 2025)
  15. PagedAttention: Efficient Memory Management for LLMs (vLLM, 2024; widely adopted 2025)
  16. GRPO: Group Relative Policy Optimization (DeepSeek AI, 2025)
  17. DPO: Direct Preference Optimization (Rafailov et al., 2024; mainstreamed 2025)
  18. RLAIF: Reinforcement Learning from AI Feedback (Google DeepMind, 2024)
  19. MiniCPM-V: Efficient Multimodal LLM (OpenBMB, 2025)
  20. Claude 4 System Card (Anthropic, 2025)
  21. Codex: Next-Generation Code Model (OpenAI, 2025)
  22. Sora 2 Technical Report (OpenAI, 2025)
  23. Veo 3.1: Video Generation (Google DeepMind, 2025)
  24. VBench: Comprehensive Benchmark for Video Generation (arXiv, 2024)
  25. Cubic Discrete Diffusion (arXiv, 2025)
  26. EffectErase: Video Effect Removal (arXiv, 2025)
  27. LVOmniBench: Long Video Understanding Benchmark (arXiv, 2025)
  28. VTC-Bench: Video-Text Consistency Benchmark (arXiv, 2025)
  29. SAMA: Scalable Adaptive Memory Architecture (arXiv, 2025)