Anthropic이 Claude Sonnet 4.5를 공개했습니다. SWE-bench Verified 77.2%, OSWorld 61.4%, 그리고 30시간 이상 집중력을 유지하는 자율 에이전트까지. 전작과 동일한 $3/$15 토큰 가격에 이 정도 성능 도약이라면, […]
오픈소스 모델 6개를 합치니 GPT-4o를 넘었습니다. AlpacaEval 2.0에서 65.1% — GPT-4o의 57.5%를 7.6%p 차이로 제쳤습니다. Together AI의 Mixture of Agents(MoA)가 증명한 숫자입니다. 그리고 2025년 9월, Together […]