Skip to content

Language Learning Quiz

Based on: Mixture of Experts(MoE) 아키텍처 심층 분석: Switch Transformer에서 Mixtral까지의 발전과 효율적 스케일링 전략

Do you know this expression?

Load Balancing Loss
로드 밸런싱 손실

특정 전문가에 토큰이 집중되는 것을 방지하여 전문가 간 부하를 균등하게 분배하는 보조 손실 함수

Tap to flip