iPad 11 iPadOS 26 리퀴드 글래스 리뷰: $349 태블릿의 놀라운 변신, 그런데 AI는 어디에?

9월 29, 2025

AES 컨벤션 2025: 스튜디오 판도를 바꿀 프로 오디오 신제품 10선

9월 30, 2025

Claude Sonnet 4.5 출시: SWE-bench 77.2% 달성과 30시간 자율 에이전트 — 무엇이 달라졌나

Published by Sean Kim on 9월 30, 2025

Claude Sonnet 4.5 벤치마크 분석: 어디서 진짜 이기나

헤드라인 숫자부터 짚겠습니다. Claude Sonnet 4.5는 SWE-bench Verified에서 77.2%를 기록했습니다. 10회 시행 평균, 200K 사고 예산 기준입니다. 단순한 소폭 개선이 아니라 확실한 선언문 같은 숫자입니다. 1M 컨텍스트 창으로 구성하면 78.2%까지 올라가고, 고연산 병렬 접근법을 적용하면 82.0%에 도달합니다.

하지만 진짜 주목할 것은 OSWorld 결과입니다. Claude Sonnet 4.5는 실제 컴퓨터 작업을 테스트하는 이 벤치마크에서 61.4%를 기록했습니다. 참고로 불과 4개월 전 Sonnet 4가 42.2%로 선두였습니다. 한 세대 만에 상대적으로 45% 향상 — 컴퓨터 사용 AI의 가능성 자체를 재고하게 만드는 수준의 도약입니다.

Claude Sonnet 4.5 SWE-bench Verified 벤치마크 성능 — Claude Sonnet 4.5 SWE-bench Verified 성능 (출처: Anthropic)

30시간 에이전트: 속도보다 지속 시간이 중요한 이유

Claude Sonnet 4.5에서 개발자의 구축 방식을 근본적으로 바꿀 기능이 바로 이것입니다. 이전 모델은 복잡한 다단계 작업에서 약 7시간 정도 집중력을 유지할 수 있었습니다. Sonnet 4.5는 이를 30시간 이상의 지속적 자율 작업으로 끌어올렸습니다.

실제 코딩 워크플로우에서 이것이 무엇을 의미하는지 생각해 보십시오. 30시간 에이전트는 전체 기능 브랜치를 처리하고, 테스트 스위트를 실행하고, 실패한 테스트를 수정하고, 코드를 리팩토링하고, 깔끔한 풀 리퀘스트를 가지고 돌아올 수 있습니다 — 개발자가 잠들어 있는 동안에 말입니다. 이론적인 이야기가 아닙니다. Anthropic은 이 역량 위에 자체 Claude Agent SDK를 구축했고, 이를 개발자들에게 공개했습니다.

Claude Agent SDK는 Claude Code를 구동하는 것과 동일한 인프라로, 이제 누구나 활용할 수 있습니다. 진행 상황 저장과 롤백이 가능한 새로운 체크포인트 시스템과 결합하면, 개발자들은 마침내 안정적인 장기 실행 AI 에이전트를 구축할 수 있는 도구를 갖게 됩니다.

Claude Sonnet 4.5 vs GPT-5: 코딩 대결

2025년 8월에 GPT-5가 출시된 지 불과 한 달 만의 발표이므로 비교는 불가피합니다. 주요 수치를 비교해 보겠습니다:

SWE-bench Verified: Claude Sonnet 4.5 77.2% vs GPT-5 74.9%
컨텍스트 창: Sonnet 4.5 200K 최적화(1M 가능) vs GPT-5 약 400K
가격: Sonnet 4.5 $3/$15(100만 토큰당) vs GPT-5 $1.25/$10 — 원시 토큰 비용은 GPT-5가 저렴
에이전트 지속 시간: Sonnet 4.5 30시간 이상 지속 작업 — 확실한 차별화 요소
컴퓨터 사용: Sonnet 4.5 OSWorld 61.4% — 업계 선두

결론은 단순하지 않습니다. GPT-5는 가격과 컨텍스트 창 크기에서 우위를 점합니다. Claude Sonnet 4.5는 코딩 정확도, 지속적 에이전트 작업, 컴퓨터 사용에서 앞섭니다. 코딩 에이전트를 구축하는 개발자에게는 Sonnet 4.5가 더 유리합니다. 대규모 컨텍스트 창이 필요하거나 고볼륨 API 호출에서 비용에 민감한 팀에게는 GPT-5가 여전히 경쟁력이 있습니다.

Claude Sonnet 4.5 프론티어 모델 벤치마크 비교 — 프론티어 모델 벤치마크 비교 (출처: Anthropic)

Claude 생태계의 새로운 변화

Anthropic은 모델만 출시한 것이 아닙니다. Claude Sonnet 4.5와 함께 전체 생태계 업데이트를 배포했습니다:

Claude Code 업데이트: 진행 상황 저장 및 롤백을 위한 체크포인트 시스템, 새로워진 터미널 인터페이스, 네이티브 VS Code 확장
API 개선사항: 컨텍스트 편집 기능과 장기 에이전트 운영을 위한 메모리 도구
Claude 앱: 통합 코드 실행, 스프레드시트·슬라이드·문서 파일 생성
Chrome 확장: Max 구독자를 위한 Chrome용 Claude — 브라우저에서 바로 AI 지원
멀티 클라우드 가용성: Amazon Bedrock과 Google Cloud Vertex AI에서 첫 날부터 사용 가능

멀티 클라우드 전략은 특히 현명한 선택입니다. AWS나 GCP에 종속된 기업 팀은 별도의 Anthropic API 계정을 설정할 필요 없이, 기존 클라우드 인프라에서 익숙한 결제 및 컴플라이언스 프레임워크와 함께 Sonnet 4.5에 접근할 수 있습니다.

대규모 안전성: ASL-3과 기계적 해석 가능성

Anthropic은 Claude Sonnet 4.5를 ‘가장 정렬된 프론티어 모델’로 설명하며, 구체적인 조치로 이를 뒷받침하고 있습니다. 이 모델은 CBRN 관련 분류기와 강화된 모니터링이 포함된 AI Safety Level 3(ASL-3) 보호 조치 하에 출시되었습니다.

기술적 관점에서 더 흥미로운 것은 Anthropic이 이제 안전성 평가에 기계적 해석 가능성(mechanistic interpretability) 테스트를 통합하고 있다는 점입니다. 모델의 출력만 테스트하는 것이 아니라, 내부 표현을 검사하여 특정 응답을 생성하는 이유를 이해하는 접근법입니다. 이 방법론은 기만, 아첨(sycophancy), 권력 추구 행동의 측정 가능한 감소로 이어졌습니다.

프로덕션 시스템을 구축하는 개발자에게 이것은 중요합니다. 듣고 싶은 답변을 주기보다(아첨) 실제 문제를 지적할 가능성이 높은 모델이야말로 30시간 동안 감독 없이 실행되는 코딩 에이전트에 정확히 필요한 것입니다.

누가 Claude Sonnet 4.5로 전환해야 하나

여러 실제 워크플로우에서 Sonnet 4.5를 테스트한 결과, 가장 큰 혜택을 받을 대상을 정리했습니다:

AI 코딩 도구 개발자: 30시간 에이전트 역량과 Claude Agent SDK는 완전히 새로운 제품 카테고리를 열어줍니다. 지속적 자율 작업이 필요한 무엇이든 구축한다면, Sonnet 4.5가 현재 가장 좋은 기반입니다.
기업 개발팀: Sonnet 4와 동일한 가격이므로 업그레이드에 따른 예산 영향이 전무합니다. 개선된 코딩 정확도와 컴퓨터 사용 역량은 더 높은 작업 완료율로 직결됩니다.
솔로 개발자와 스타트업: Claude Code 업데이트(체크포인트, VS Code 확장)로 일상 개발 경험이 눈에 띄게 향상됩니다. Sonnet 가격에 Opus급 코딩 품질을 얻을 수 있습니다.
AWS/GCP 사용 팀: 네이티브 Bedrock 및 Vertex AI 지원으로 인프라 변경 없이 Sonnet 4.5를 도입할 수 있습니다.

2025년 9월의 AI 시장은 GPT-5, Gemini 2, 그리고 이제 Claude Sonnet 4.5까지 개발자의 선택을 놓고 역대 가장 치열한 경쟁이 벌어지고 있습니다. 그러나 Anthropic의 최상위 코딩 성능, 전례 없는 에이전트 지속 시간, 그리고 전작과 동일한 가격 포지셔닝의 조합은 AI 기반 개발 도구를 구축하는 모든 이에게 Sonnet 4.5를 넘어야 할 기준점으로 만들어 줍니다.

AI 자동화 파이프라인 구축이나 Claude Sonnet 4.5 워크플로우 통합에 관심이 있으시다면, 기술 스택에 대해 이야기해 보겠습니다.

기술 상담 받기 →

포트폴리오 보기

매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.

Sean Kim

Comments are closed.

iPad 11 iPadOS 26 리퀴드 글래스 리뷰: $349 태블릿의 놀라운 변신, 그런데 AI는 어디에?

AES 컨벤션 2025: 스튜디오 판도를 바꿀 프로 오디오 신제품 10선

iPad 11 iPadOS 26 리퀴드 글래스 리뷰: $349 태블릿의 놀라운 변신, 그런데 AI는 어디에?

AES 컨벤션 2025: 스튜디오 판도를 바꿀 프로 오디오 신제품 10선

Claude Sonnet 4.5 벤치마크 분석: 어디서 진짜 이기나

30시간 에이전트: 속도보다 지속 시간이 중요한 이유

Claude Sonnet 4.5 vs GPT-5: 코딩 대결

Claude 생태계의 새로운 변화

대규모 안전성: ASL-3과 기계적 해석 가능성

누가 Claude Sonnet 4.5로 전환해야 하나

Mistral Small 4 리뷰: 119B MoE 오픈소스 모델이 GPT-OSS 120B를 40% 낮은 지연시간으로 따라잡은 방법

OpenAI Codex Subagents GA: 멀티 에이전트 병렬 코딩 작동 원리, 실제 결과, Claude Code 비교

Adobe Firefly 커스텀 모델 퍼블릭 베타 — 이미지 10장이면 나만의 AI가 완성됩니다 (2026)