swe-bench - Sean Kim — Arts and Tech

2월 3, 2026

Published by Sean Kim on 2월 3, 2026

Categories

AI 도구 & 서비스

Claude Opus 4.6 vs GPT-5.1 vs Gemini 3.5: 2026년 2월 AI 벤치마크 대결 — 승자는 누구인가

한 달에 주요 AI 모델이 7개나 출시되었습니다. 2026년 2월, AI 업계의 경쟁이 이토록 치열했던 적은 없었습니다. Claude Opus 4.6 vs GPT-5.1 vs Gemini 3.5 비교 — […]

11월 5, 2025

Published by Sean Kim on 11월 5, 2025

Categories

프로그래밍 & 개발

GPT-5.1-Codex-Max 출시: SWE-Bench 80% 달성한 OpenAI 최강 AI 코딩 모델 5가지 핵심 분석

SWE-Bench 80%라는 숫자가 개발자 커뮤니티를 뒤흔들고 있습니다. GPT-5.1-Codex-Max는 OpenAI가 2025년 11월 20일에 출시한 에이전틱 코딩 모델로, 24시간 연속 코딩이 가능하면서도 성능 저하가 전혀 없는 혁신적인 AI […]

10월 30, 2025

Published by Sean Kim on 10월 30, 2025

Categories

AI 도구 & 서비스

Claude Haiku 4.5 출시: 가장 빠른 Claude 모델이 SWE-Bench 73.3%로 품질 대폭 향상

100만 토큰당 1달러짜리 모델이 3배 비싼 모델의 코딩 품질을 따라잡았습니다. 2025년 10월 15일 출시된 Claude Haiku 4.5는 단순한 업데이트가 아닙니다 — Anthropic이 “프론티어급 AI에 프론티어급 가격표가 […]

9월 30, 2025

Published by Sean Kim on 9월 30, 2025

Categories

AI 도구 & 서비스

Claude Sonnet 4.5 출시: SWE-bench 77.2% 달성과 30시간 자율 에이전트 — 무엇이 달라졌나

Anthropic이 Claude Sonnet 4.5를 공개했습니다. SWE-bench Verified 77.2%, OSWorld 61.4%, 그리고 30시간 이상 집중력을 유지하는 자율 에이전트까지. 전작과 동일한 $3/$15 토큰 가격에 이 정도 성능 도약이라면, […]

9월 2, 2025

Published by Sean Kim on 9월 2, 2025

Categories

AI 도구 & 서비스

Claude Sonnet 4.5 벤치마크 심층 분석: SWE-bench 77.2%로 GPT-5를 넘었다

SWE-bench 77.2%. 이 숫자 하나가 2025년 AI 코딩 모델 시장의 판도를 완전히 뒤집었습니다. Anthropic이 내놓은 Claude Sonnet 4.5 벤치마크 결과는 단순한 업그레이드가 아니라, 미드티어 모델이 플래그십을 […]

9월 1, 2025

Published by Sean Kim on 9월 1, 2025

Categories

AI 도구 & 서비스

Claude Sonnet 4.5 출시: SWE-Bench 77.2%, 30시간 자율 코딩 — 개발자들이 갈아타는 이유

Anthropic이 AI 코딩 전쟁의 가장 강력한 무기를 꺼내 들었습니다 — 그리고 가격은 이전 모델과 정확히 동일합니다. 2025년 9월 29일 출시된 Claude Sonnet 4.5는 SWE-bench Verified에서 77.2%를 […]

8월 8, 2025

Published by Sean Kim on 8월 8, 2025

Categories

AI 도구 & 서비스

Claude Opus 4.1: SWE-bench 74.5% 달성, Anthropic 최강의 코딩 모델 분석

3일 전, Anthropic이 플래그십 모델의 칼날을 한 번 더 갈았습니다. Claude Opus 4.1 — SWE-bench Verified 74.5%, 확장 사고 64K 토큰, 멀티파일 리팩토링 정밀도 향상. 숫자만 […]

8월 7, 2025

Published by Sean Kim on 8월 7, 2025

Categories

AI 도구 & 서비스

GPT-5 SWE-Bench Coding Performance 74.9% 달성 — 그런데 실전 평가는 7.46점?

SWE-Bench 74.9%, Aider Polyglot 88%, 멀티파일 리팩토링 91%. 오늘 출시된 GPT-5의 코딩 벤치마크 숫자만 보면, OpenAI가 드디어 AI 코딩의 새 시대를 열어젖힌 것 같습니다. 그런데 독립 […]

8월 6, 2025

Published by Sean Kim on 8월 6, 2025

Categories

AI 도구 & 서비스

GPT-5 vs Claude 3.5 Sonnet vs Gemini 2.5 Pro: 2025년 8월 벤치마크 종합 비교

드디어 GPT-5가 나왔습니다. 그리고 GPT-5 vs Claude 3.5 Sonnet vs Gemini 2.5 Pro — 이 세 모델의 벤치마크 격차가 역대 가장 치열합니다. 28년간 음악·오디오 기술 현장에서 […]

6월 6, 2025

Published by Sean Kim on 6월 6, 2025

Categories

AI 도구 & 서비스

Claude 3.5 Sonnet 에이전틱 코딩: SWE-bench 49% 달성이 AI 개발 도구의 판도를 바꾼 1년

실제 GitHub 이슈의 절반 가까이를 자율적으로 해결하는 AI 모델이 등장했을 때, 개발자 커뮤니티의 반응은 “정말 가능한 건가?”에서 “내 워크플로우에 어떻게 적용하지?”로 빠르게 바뀌었습니다. Claude 3.5 Sonnet […]