
GPT-5.1-Codex-Max 출시: SWE-Bench 80% 달성한 OpenAI 최강 AI 코딩 모델 5가지 핵심 분석
11월 5, 2025
블랙프라이데이 2025: 게이밍 PC 부품 최고 할인 총정리 — GPU, CPU, SSD 지금 사야 할 것들
11월 6, 20251501 Elo. 이 숫자 하나가 AI 리더보드를 완전히 뒤집었습니다. 구글 제미나이 3가 그 주인공입니다. 수개월간의 유출, 소셜 미디어의 애매한 힌트, 그리고 VertexAI 코드에서 발견된 “gemini-3-pro-preview-11-2025” 모델 ID까지 — 드디어 구글이 역대 가장 강력한 AI 시스템을 공식 발표했고, 벤치마크 결과는 압도적입니다.
구글 제미나이 3 프로: 숫자로 말하는 성능
구글 제미나이 3 프로는 구글 검색, 제미나이 앱, AI Studio, Vertex AI, 제미나이 CLI, 그리고 완전히 새로운 Antigravity IDE까지 동시에 배포되었습니다. 이전 제미나이 버전들이 일부 제품에만 먼저 출시되었던 것과 달리, 이번에는 모든 플랫폼에 동시 투입했습니다. 이 모델에 대한 구글의 자신감이 어느 정도인지 보여주는 대목입니다.
벤치마크가 그 자신감을 뒷받침합니다. LMArena에서 1501 Elo로 리더보드 1위를 차지하며 제미나이 2.5 Pro의 1451을 넘어섰습니다. 대학원 수준의 과학 추론 벤치마크인 GPQA Diamond에서는 91.9%를 기록했습니다. 프론티어 모델의 한계를 테스트하도록 설계된 Humanity’s Last Exam에서는 도구 없이 37.5%를 달성했는데, GPT-5.1의 26.5%와 비교하면 격차가 분명합니다. 수학 분야에서는 AIME 2025에서 코드 실행 활성화 시 100% 만점을 기록했습니다.

멀티모달 추론: 텍스트, 코드, 비디오를 한 번의 요청으로
구글 제미나이 3가 이전 모델들과 근본적으로 다른 점은 단순히 텍스트 생성 속도가 아닙니다. 통합 멀티모달 아키텍처에 있습니다. 제미나이 3 프로는 텍스트, 이미지, 비디오, 오디오, PDF를 단일 요청으로 처리합니다. 별도의 파이프라인이 필요 없습니다. 비전 모델과 언어 모델을 이어 붙일 필요도 없습니다. 200페이지 PDF, 스크린샷 3장, 10분짜리 비디오 클립을 보내면 모델이 모든 데이터를 한꺼번에 추론합니다.
컨텍스트 윈도우는 입력 기준 1,048,576 토큰, 출력은 최대 65,536 토큰까지 확장됩니다. 전체 코드베이스, 1시간 분량의 회의 녹취록, 또는 다수 문서 법률 검토를 한 번에 처리할 수 있는 규모입니다. 멀티모달 벤치마크에서 제미나이 3 프로는 MMMU-Pro 81%, Video-MMMU 87.6%를 달성하며 시각-텍스트 결합 추론의 새로운 최고 기록을 세웠습니다.
개발자에게 이것은 무엇을 의미할까요? 기존에 별도의 OCR, 음성 인식, 비전 모델 통합이 필요했던 애플리케이션을 이제 단일 API 호출로 해결할 수 있습니다. 금융 분석가는 분기별 실적 PDF와 실적 발표 녹음을 함께 분석할 수 있고, 법률팀은 계약서와 비디오 증언을 교차 참조할 수 있습니다. 실용적 영향은 방대합니다.
딥씽크 모드: 일반 추론으로는 부족할 때
구글은 딥씽크(Deep Think)를 가장 어려운 문제를 위한 고강도 추론 모드로 포지셔닝합니다. 경쟁 프로그래밍, 다단계 수학 증명, 지속적인 논리 체인이 필요한 장기 계획 작업이 그 대상입니다. 모델이 신중하고 체계적인 문제 해결 기어로 전환하는 것이라고 생각하시면 됩니다.
딥씽크 벤치마크는 놀랍습니다. Humanity’s Last Exam은 37.5%에서 초기 41.0%로 상승하고, 이후 업데이트에서 48.4%까지 도달하며 프론티어 모델 추론의 새로운 기준을 세웠습니다. GPQA Diamond는 93.8%로 올라갔습니다. 가장 인상적인 것은 ARC-AGI-2입니다. 패턴 매칭이 아닌 진정한 추론 능력을 테스트하도록 설계된 이 벤치마크에서 제미나이 2.5 Pro의 4.9%에서 코드 실행 시 45.1%로, 이후 ARC Prize Foundation이 검증한 84.6%까지 도달했습니다. Codeforces 경쟁 프로그래밍에서는 3455 Elo를 달성 — 전 세계 최상위 경쟁 프로그래머 수준입니다.
딥씽크는 향후 몇 주 내에 AI Ultra 구독자에게 제공되며, 엔터프라이즈 접근은 Vertex AI를 통해 가능합니다. 대부분의 일상적인 작업에는 표준 제미나이 3 프로로 충분합니다. 딥씽크는 표준 모델의 한계에 부딪히는 진정으로 복잡한 문제에 꺼내 쓰는 수술용 메스와 같습니다.
제너레이티브 UI: 아무도 예상하지 못한 기능
제미나이 3 출시에서 아마 가장 놀라운 요소는 제너레이티브 UI입니다. 개별 쿼리에 맞춰 동적으로 커스텀 사용자 인터페이스를 생성하는 기능입니다. 출시와 함께 두 가지 실험이 시작됩니다:
- 다이나믹 뷰(Dynamic View)는 대상에 따라 적응하는 맞춤형 인터랙티브 응답을 생성합니다. 양자역학을 설명해달라고 하면 물리학 박사 학생과 호기심 많은 12세 어린이에게 완전히 다른 경험을 만들어냅니다.
- 비주얼 레이아웃(Visual Layout)은 사진, 슬라이더, 커스터마이저블 필터가 포함된 매거진 스타일의 몰입형 인터페이스를 생성합니다. 텍스트 벽이 될 수 있는 답변을 인터랙티브 탐색 경험으로 전환합니다.
이것은 챗봇 패러다임으로부터의 이탈입니다. 텍스트 문단으로 질문에 답하는 대신, 제미나이 3는 주택담보대출 계산기, 물리 시뮬레이션, 인터랙티브 데이터 대시보드를 즉석에서 만들 수 있습니다.

코딩과 에이전틱 기능: IDE에서 인프라까지
구글 제미나이 3의 코딩 실력은 SWE-bench Verified 76.2%, WebDev Arena Elo 1487로 검증되었습니다. 하지만 벤치마크 수치는 이야기의 일부일 뿐입니다. 진짜 변화는 제미나이 3가 개발자 워크플로우에 통합되는 방식에 있습니다.
Code Assist를 통해 제미나이 3는 주요 IDE에서 에이전트 모드로 다단계 코딩 작업을 처리합니다. 제미나이 CLI는 애플리케이션 스캐폴딩, 리팩토링, 문서 생성, 경량 자율 에이전트를 터미널에서 직접 지원합니다. 그리고 구글 Antigravity가 있습니다. Mac, Windows, Linux에서 사용 가능한 완전히 새로운 에이전틱 개발 플랫폼으로, 에이전트가 자율적으로 복잡한 소프트웨어 작업을 계획하고 실행하면서 코드를 검증합니다.
엔터프라이즈 고객을 위한 에이전틱 기능은 코드를 넘어 확장됩니다. 구글은 금융 분석, 공급망 계획, 계약 검토를 핵심 사용 사례로 제시합니다. 도구 사용과 컴퓨터 작동을 측정하는 Terminal-Bench 2.0에서 제미나이 3은 54.2%를 기록하며, 단순한 텍스트 생성기가 아닌 자율 에이전트로서의 역량이 점점 강화되고 있음을 보여줍니다.
AI 지형도에 미치는 의미
구글 제미나이 3 출시는 단순한 점진적 업그레이드 이상입니다. AI를 “챗봇”으로 보는 시대가 끝났다는 구글의 가장 명확한 선언입니다. 제너레이티브 UI, 에이전틱 코딩, 딥씽크 추론, 통합 멀티모달 처리를 결합한 제미나이 3는 단순한 모델이 아니라 AI 플랫폼으로 포지셔닝됩니다.
OpenAI, Anthropic, Meta에 대한 경쟁 압력은 즉각적입니다. GPT-5.1의 Humanity’s Last Exam 26.5%는 제미나이 3의 37.5%(딥씽크의 48.4%)와 비교하면 겸손해 보입니다. 코딩과 장문 맥락에서 강점을 보이는 Claude는 제미나이 3의 100만 토큰 컨텍스트와 SWE-bench 점수로부터 직접적인 도전을 받습니다. 하루 수십억 건의 쿼리를 처리하는 검색에 동시 배포하면서, 구글은 어떤 경쟁자도 따라올 수 없는 배포 우위를 확보했습니다.
AI 플랫폼을 평가하는 개발자와 기업에게 메시지는 분명합니다. 멀티모달 추론은 더 이상 부가 기능이 아닙니다 — 기본 요건입니다. 그리고 구글 제미나이 3가 그 기본 요건의 새로운 바닥을 방금 설정했습니다.
멀티모달 AI 통합이나 자동화 파이프라인 구축에 대해 더 알고 싶으시다면, 전문 상담을 받아보세요.
매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.



