Skip to content

Language Learning Quiz

Based on: Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer에서 Mixtral까지의 발전과 효율적 스케일링 전략

Do you know this expression?

Sparse MoE
희소 전문가 혼합

각 입력 토큰에 대해 전체 전문가 중 소수만 활성화하여 연산량 대비 모델 용량을 극대화하는 방식

Tap to flip