RIAA 2025 연말 보고서: 미국 음반 수입 115억 달러 돌파, 유료 스트리밍 구독 1.06억 시대

3월 26, 2026

TypeScript 6.0: Go 재작성 전 마지막 JavaScript 릴리스 — 신기능, 폐기 목록, 마이그레이션 완전 가이드

3월 27, 2026

Mistral Small 4 리뷰: 119B MoE 오픈소스 모델이 GPT-OSS 120B를 40% 낮은 지연시간으로 따라잡은 방법

Published by Sean Kim on 3월 27, 2026

Mistral Small 4가 특별한 이유: 3개 모델을 하나로 통합

Mistral Small 4의 가장 핵심적인 혁신은 기존에 별도로 운영하던 세 가지 모델 — Magistral(추론), Devstral(코딩), Pixtral(비전) — 을 하나의 통합 모델로 합쳤다는 점입니다. 이전까지 기업들은 작업 유형에 따라 서로 다른 모델을 배포하고 관리해야 했습니다. 추론이 필요하면 Magistral을, 코드 생성이 필요하면 Devstral을, 이미지 분석이 필요하면 Pixtral을 각각 호출해야 했죠.

이제 단 하나의 모델로 텍스트 추론, 코드 생성, 이미지 분석을 모두 처리할 수 있습니다. 이것이 왜 중요할까요? 세 가지 모델을 각각 배포하면 GPU 메모리를 3배로 사용하고, 모델 업데이트도 3번 해야 하며, API 엔드포인트 관리도 3배로 늘어납니다. Mistral Small 4는 이 모든 복잡성을 단일 배포로 해결합니다.

특히 reasoning_effort 파라미터를 통해 추론 깊이를 실시간으로 조절할 수 있다는 점이 실용적입니다. reasoning_effort="none"으로 설정하면 Small 3.2 수준의 빠른 응답을 제공하여 간단한 질의응답이나 텍스트 분류 작업에 적합합니다. 반면 reasoning_effort="high"로 설정하면 Magistral급의 깊은 단계별 추론을 수행하여 복잡한 수학 문제나 코딩 과제를 해결할 수 있습니다. 이전에는 이런 유연성을 얻으려면 여러 모델 사이에서 라우팅 로직을 구현해야 했지만, 이제는 하나의 API 파라미터로 해결됩니다.

Mistral Small 4 벤치마크 성능 비교 (출처: Mistral AI)

119B 파라미터의 비밀: 128개 전문가 중 4개만 활성화하는 MoE 아키텍처

Mistral Small 4의 MoE(Mixture of Experts) 아키텍처는 128개의 전문가(expert) 네트워크로 구성되어 있지만, 토큰당 실제로 활성화되는 전문가는 단 4개뿐입니다. 이 설계 덕분에 총 파라미터 수는 119B이지만, 실제 추론 시 활성화되는 파라미터는 약 6B(임베딩/출력 레이어 포함 시 8B)에 불과합니다. 이것이 MoE 아키텍처의 핵심 장점입니다.

기존 Dense 모델이라면 119B 파라미터를 모두 활성화해야 하므로 추론 비용이 엄청나겠지만, MoE 구조에서는 게이팅 네트워크가 각 토큰에 가장 적합한 4개의 전문가만 선택합니다. 나머지 124개의 전문가는 해당 토큰 처리에 관여하지 않으므로 연산 비용이 들지 않습니다. 128명의 전문가 팀이 있지만, 각 질문마다 가장 적합한 4명에게만 물어보는 것과 같은 원리입니다.

이것이 왜 실질적으로 중요할까요? Small 3가 토큰당 24B 파라미터를 활성화했던 것과 비교하면, Small 4는 같은 인프라에서 초당 100건의 요청을 처리하던 환경에서 300건까지 처리할 수 있습니다. 총 파라미터 수는 5배 늘었지만, 활성 파라미터가 75% 줄어든 덕분에 실제 성능은 극적으로 향상된 것입니다. 이는 동일한 하드웨어 비용으로 3배 더 많은 사용자에게 서비스를 제공할 수 있다는 의미입니다.

256K 토큰이라는 방대한 컨텍스트 윈도우도 주목할 만합니다. 대규모 코드베이스 분석, 장문의 법률 문서 검토, 여러 논문을 동시에 참조하는 연구 작업 등에서 컨텍스트 윈도우의 제한에 걸리는 일이 크게 줄어듭니다. MoE 구조의 효율성과 결합하면, 더 많은 정보를 모델에 제공하면서도 연산 비용은 비례적으로 증가하지 않는다는 뜻입니다.

벤치마크 심층 분석: GPT-OSS 120B와의 정면 대결

Mistral Small 4의 벤치마크 결과는 단순히 ‘좋다’를 넘어 ‘효율적으로 좋다’는 점에서 차별화됩니다. Mistral AI 공식 발표에 따르면, 추론 모드를 활성화한 상태에서 AA LCR 벤치마크에서 0.72점을 기록했는데, 이때 사용한 출력은 고작 1.6K 문자에 불과했습니다. 반면 Qwen 시리즈 모델들은 비슷한 점수를 얻기 위해 5.8K~6.1K 문자, 즉 3.5~4배 더 많은 출력이 필요했습니다.

이 차이가 의미하는 바는 명확합니다. 같은 정확도의 답변을 만들기 위해 Mistral Small 4는 훨씬 적은 토큰을 생성합니다. 출력 토큰이 줄어들면 응답 시간이 빨라지고, API 과금 기준이 토큰인 서비스에서는 비용이 직접적으로 줄어듭니다. 한 달에 수백만 건의 API 호출을 처리하는 기업이라면, 이 효율성 차이가 상당한 비용 절감으로 이어집니다.

LiveCodeBench에서는 GPT-OSS 120B를 능가하면서도 20% 적은 출력으로 이를 달성했습니다. 코딩 벤치마크에서의 우위는 특히 주목할 만합니다. 개발자 도구로서의 활용 가능성을 보여주기 때문입니다. AIME 2025 수학 벤치마크에서도 경쟁력 있는 결과를 보여주어, Mistral Small 4가 특정 영역에 치우치지 않은 범용 모델임을 증명했습니다.

지연시간: Small 3 대비 40% 감소 (최적화 설정 기준)
처리량: Small 3 대비 3배 증가 (초당 요청 수)
LiveCodeBench: GPT-OSS 120B 능가, 20% 적은 출력으로 달성
AA LCR: 0.72점 달성, 경쟁 모델 대비 3.5~4배 적은 출력 사용
컨텍스트 윈도우: 256K 토큰 지원으로 장문 처리 가능
AIME 2025: 수학 추론에서도 경쟁력 있는 성능 확인

멀티모달 지원과 기업 환경에서의 실전 활용

Mistral Small 4는 텍스트와 이미지를 동시에 입력받아 처리할 수 있는 멀티모달 모델입니다. Pixtral 모델의 비전 능력을 통합했기 때문에, 별도의 비전 모델 없이도 이미지 분석, 차트 해석, 문서 OCR, 스크린샷 분석 등의 작업이 가능합니다. 제조업 품질 검사 라인에서 불량 이미지를 분석하거나, 금융 보고서의 차트를 자동으로 해석하는 등의 시나리오에 바로 적용할 수 있습니다.

기업 환경에서의 가장 큰 장점은 인프라 단순화입니다. 기존에 추론용 모델, 코딩 어시스턴트, 비전 분석 모델을 각각 배포하던 기업은 이제 하나의 엔드포인트로 통합할 수 있습니다. 이는 GPU 리소스 활용 효율을 높이고, 모니터링과 디버깅 포인트를 줄이며, 팀의 운영 부담을 크게 줄여줍니다. DevOps 관점에서도 모델 업데이트, 롤백, 스케일링이 단일 파이프라인으로 관리되므로 운영 복잡성이 대폭 감소합니다.

Mistral Small 4 MoE 아키텍처 구조 — Mistral Small 4 MoE 아키텍처 및 성능 분석 (출처: Mistral AI)

Apache 2.0 라이선스와 배포 생태계: 진정한 오픈소스의 의미

Mistral Small 4가 Apache 2.0 라이선스로 공개되었다는 점은 기업 도입에 있어 결정적인 요소입니다. 상업적 사용, 수정, 재배포가 자유로우며, 기업들은 자체 인프라에서 완전한 통제권을 가지고 모델을 운영할 수 있습니다. 데이터 주권이 중요한 금융, 의료, 정부 기관에서 특히 매력적인 선택지가 됩니다.

배포 생태계도 탄탄합니다. NVIDIA NIM에서 Day-0 지원을 제공하고, Hugging Face 리포지토리에서 바로 다운로드할 수 있습니다. vLLM, llama.cpp, SGLang, Transformers 등 주요 추론 프레임워크와의 호환성도 확보했습니다. NVIDIA NIM을 통해 엔터프라이즈급 추론 최적화를 바로 적용할 수 있다는 점은 프로덕션 배포를 계획하는 팀에게 큰 이점입니다.

다만 자체 호스팅을 위해서는 최소 4대의 NVIDIA H100 GPU, 2대의 H200, 또는 1대의 DGX B200이 필요합니다. 이 수준의 하드웨어는 소규모 스타트업에게는 부담이 될 수 있지만, 이미 GPU 클러스터를 운영하는 중대형 기업이라면 API 비용 대비 자체 호스팅의 경제성을 충분히 따져볼 만합니다. Mistral API를 통한 클라우드 사용도 가능하므로, 자체 호스팅이 부담스러운 조직도 바로 시작할 수 있습니다.

결론: 오픈소스 AI의 새로운 기준점, Mistral Small 4

Mistral Small 4는 오픈소스 AI의 새로운 기준을 제시했습니다. 128개 전문가 중 4개만 활성화하는 MoE 아키텍처를 통해 효율성과 성능을 동시에 잡았고, 세 가지 전문 모델을 하나로 통합하면서도 각각의 영역에서 최고 수준을 유지했습니다. GPT-OSS 120B를 능가하는 벤치마크, 40% 낮은 지연시간, 3배 높은 처리량, 그리고 Apache 2.0 라이선스까지 — 이 모든 것이 하나의 모델에 담겨 있습니다. 폐쇄형 모델에 의존하던 조직이라면, 지금이 오픈소스 전환을 진지하게 검토할 최적의 시점입니다.

AI 기반 자동화 시스템 구축이나 오픈소스 LLM 도입 전략이 필요하시다면, 기술 컨설팅을 통해 최적의 솔루션을 찾아보세요.

기술 상담 받기 →

뉴스레터 구독하기 →

매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.

Sean Kim

Comments are closed.

RIAA 2025 연말 보고서: 미국 음반 수입 115억 달러 돌파, 유료 스트리밍 구독 1.06억 시대

TypeScript 6.0: Go 재작성 전 마지막 JavaScript 릴리스 — 신기능, 폐기 목록, 마이그레이션 완전 가이드

RIAA 2025 연말 보고서: 미국 음반 수입 115억 달러 돌파, 유료 스트리밍 구독 1.06억 시대

TypeScript 6.0: Go 재작성 전 마지막 JavaScript 릴리스 — 신기능, 폐기 목록, 마이그레이션 완전 가이드

Mistral Small 4가 특별한 이유: 3개 모델을 하나로 통합

119B 파라미터의 비밀: 128개 전문가 중 4개만 활성화하는 MoE 아키텍처

벤치마크 심층 분석: GPT-OSS 120B와의 정면 대결

멀티모달 지원과 기업 환경에서의 실전 활용

Apache 2.0 라이선스와 배포 생태계: 진정한 오픈소스의 의미

결론: 오픈소스 AI의 새로운 기준점, Mistral Small 4

OpenAI Codex Subagents GA: 멀티 에이전트 병렬 코딩 작동 원리, 실제 결과, Claude Code 비교

Adobe Firefly 커스텀 모델 퍼블릭 베타 — 이미지 10장이면 나만의 AI가 완성됩니다 (2026)

OpenClaw NVIDIA 완전 해설: 젠슨 황이 ‘역사상 가장 중요한 소프트웨어’라 선언한 에이전틱 OS의 모든 것