11월 21, 2025

NVIDIA Nemotron 3 Mamba-Transformer MoE 아키텍처: 3B 활성 파라미터가 30B Dense 모델을 이기는 이유

드디어 정확도와 처리량 사이에서 선택을 강요하지 않는 오픈 모델 패밀리가 등장했습니다. NVIDIA Nemotron 3는 하이브리드 Mamba-Transformer MoE 아키텍처로 30B 파라미터 중 토큰당 3B만 활성화하면서도, 벤치마크에서 동급 […]