
NAMM 2026 스튜디오 모니터 헤드폰 프리뷰: 프로듀서와 엔지니어가 주목해야 할 7가지 신제품
1월 12, 2026
NAMM 2026 최고의 신제품 스튜디오 모니터와 헤드폰 8선: 프로듀서가 주목해야 할 모든 것
1월 12, 2026GPQA Diamond 93.8%, Humanity’s Last Exam 41.0% — Gemini 3 Pro 프리뷰 Deep Think 모드가 찍은 벤치마크 숫자들입니다. 그런데 이 숫자를 보려면 매달 $250을 내야 합니다. 과연 이 투자가 정당한 걸까요? 2025년 11월 출시 이후 2026년 1월까지, Google의 Gemini 3 패밀리가 어떤 모습으로 완성되었는지 직접 파헤쳐 봤습니다.
Gemini 3 Pro 프리뷰 Deep Think: 병렬 추론의 시대가 열리다
2025년 11월 18일, Google은 자사 역사상 가장 진보된 파운데이션 모델인 Gemini 3 Pro를 공개했습니다. 기록적인 벤치마크 점수와 함께 새로운 코딩 애플리케이션까지 선보이며 AI 업계에 큰 파장을 일으켰죠. 하지만 진짜 게임 체인저는 그로부터 약 2주 뒤에 등장했습니다.
2025년 12월, Google은 Gemini 3 Deep Think 모드를 AI Ultra 구독자($250/월)에게 독점 제공하기 시작했습니다. Deep Think의 핵심은 고급 병렬 추론(parallel reasoning)입니다. 기존 AI 모델들이 하나의 사고 경로를 순차적으로 따라가는 것과 달리, Deep Think는 여러 가설을 동시에 탐색합니다. 마치 체스 그랜드마스터가 여러 수를 동시에 계산하는 것처럼요.
물론 이런 깊은 추론에는 대가가 있습니다. 하나의 응답을 생성하는 데 수 분이 소요됩니다. 빠른 답변이 필요한 일상적 질문에는 과한 도구이지만, 복잡한 과학 문제나 고난도 코딩 과제에서는 그 진가를 발휘합니다. 실제로 9to5Google의 보도에 따르면, Deep Think 모드의 벤치마크 결과는 다음과 같습니다:
- GPQA Diamond: 93.8% — 대학원 수준의 과학 문제 해결 능력
- Humanity’s Last Exam: 41.0% (도구 없이) — 인류가 만든 가장 어려운 시험
- ARC-AGI-2: 45.1% (코드 실행 포함) — 일반 지능 벤치마크

Gemini 3 Flash 출시: 무료 사용자도 Pro급 성능을
Deep Think가 프리미엄 시장을 공략하는 동안, Google은 2025년 12월 17일 Gemini 3 Flash를 출시하며 반대 방향으로도 공격적인 행보를 보였습니다. Flash의 핵심 가치 제안은 명확합니다: “프론티어급 지능을 Flash 속도로.”
놀라운 점은 Gemini 3 Flash가 이전 세대의 플래그십 모델인 Gemini 2.5 Pro를 성능에서 능가하면서도 3배 빠르다는 것입니다. 가격도 파격적입니다 — 입력 토큰 100만 개당 $0.50, 출력 토큰 100만 개당 $3.00. 9to5Google 보도에 따르면 Flash의 벤치마크 성적표는 이렇습니다:
- GPQA Diamond: 90.4% — Deep Think의 93.8%에 근접
- SWE-Bench Verified: 78% — 실제 소프트웨어 엔지니어링 작업
- MMMU Pro: 81.2% — 멀티모달 이해력
GPQA Diamond 기준으로 보면 Deep Think(93.8%)와 Flash(90.4%)의 차이는 불과 3.4%p입니다. 하지만 가격 차이는 어마어마하죠. Deep Think에 접근하려면 월 $250의 AI Ultra 구독이 필요한 반면, Flash는 API 기준 극히 저렴한 비용으로 사용할 수 있습니다.
2026년 1월, Gemini 3 패밀리 완전체의 가치 분석
2026년 1월 기준, Gemini 3 패밀리는 Pro(프리뷰), Flash, Deep Think의 3개 모델로 완성되었습니다. 1월 21일에는 gemini-pro-latest 별칭이 gemini-3-pro-preview를 가리키도록 업데이트되었고, 1월 29일에는 gemini-3-pro-preview와 gemini-3-flash-preview 모두에 Computer Use 도구 지원이 확장되었습니다.
이 라인업을 경쟁 구도에서 바라보면 흥미로운 그림이 그려집니다. OpenAI의 GPT 시리즈, Anthropic의 Claude 시리즈와 비교했을 때, Google은 명확한 3단 전략을 구사하고 있습니다:
- Flash: 대중 시장 공략 — 빠르고 저렴하면서도 충분히 강력한 모델
- Pro (프리뷰): 개발자/전문가용 — 균형 잡힌 고성능 모델
- Deep Think: 최상위 추론 — 시간과 비용을 들여서라도 정확한 답이 필요한 영역

$250 AI Ultra 구독, 누구에게 적합한가?
솔직히 말하겠습니다. 월 $250의 Google AI Ultra 구독은 대부분의 사용자에게 과한 투자입니다. Deep Think의 GPQA Diamond 93.8%라는 숫자는 인상적이지만, Flash의 90.4%와의 실질적 체감 차이는 매우 특수한 상황에서만 드러납니다.
AI Ultra가 정당화되는 사용 시나리오를 정리하면 다음과 같습니다:
- 학술 연구자: 복잡한 과학적 추론이 일상적으로 필요한 경우
- 전문 개발팀: 고난도 아키텍처 설계나 디버깅에 Deep Think의 병렬 가설 탐색이 유용한 경우
- 기업 의사결정자: 데이터 기반 복합 분석에서 정확도 3%p 차이가 비즈니스에 큰 영향을 미치는 경우
반면, 콘텐츠 생성, 일반 코딩, 요약, 번역 등 대부분의 AI 활용 시나리오에서는 Gemini 3 Flash만으로도 충분합니다. 사실 Flash가 이전 세대 Pro를 넘어선다는 점에서, 무료/저가 티어의 성능 자체가 이미 혁명적 수준입니다.
Gemini 3 Pro Deep Think 이후: 빠르게 진화하는 AI 추론 경쟁
Google의 행보는 여기서 멈추지 않았습니다. 2026년 2월 19일, Google은 Gemini 3.1 Pro를 발표하며 복합 문제 해결 능력을 한 단계 끌어올렸습니다. 발표에 따르면 ARC-AGI-2 점수가 77.1%로, 3 Pro의 45.1%에서 두 배 이상 향상되었습니다.
이 급격한 성능 향상 속도는 2026년 AI 추론 모델 경쟁이 얼마나 치열한지를 보여줍니다. 3개월 만에 핵심 벤치마크가 두 배로 뛴다는 것은, 현재의 $250 가격표도 머지않아 재조정될 가능성을 시사합니다.
Google이 Gemini 3 패밀리를 통해 보여준 것은 명확합니다. AI 모델의 미래는 단일 모델의 절대 성능이 아니라, 용도와 예산에 맞는 최적의 모델을 선택할 수 있는 생태계를 구축하는 것입니다. Deep Think의 병렬 추론은 그 생태계의 정점에 서 있으며, Flash는 저변을 넓히는 핵심 동력입니다. 당신의 AI 워크플로우에 어떤 Gemini 3 모델이 가장 적합한지, 지금이 바로 따져볼 시점입니다.
AI 기반 자동화 시스템이나 기술 컨설팅이 필요하시다면, 28년 경력의 Sean Kim이 도와드리겠습니다.
매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.



