Language Learning Quiz
Based on: Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer에서 Mixtral까지의 발전과 효율적 스케일링 전략
Do you know this expression?
Sparse MoE
희소 전문가 혼합
각 입력 토큰에 대해 전체 전문가 중 소수만 활성화하여 연산량 대비 모델 용량을 극대화하는 방식
Tap to flip
Based on: Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer에서 Mixtral까지의 발전과 효율적 스케일링 전략
각 입력 토큰에 대해 전체 전문가 중 소수만 활성화하여 연산량 대비 모델 용량을 극대화하는 방식
Tap to flip