AMD 라데온 RX 9060 XT 출시: $299로 바뀌는 2025년 보급형 1080p 게이밍 판도

6월 9, 2025

iRig Pro Quattro I/O 리뷰: 326g에 4채널 XLR을 담은 포터블 인터페이스의 새로운 기준

6월 10, 2025

OpenAI o3 가격 80% 인하 + o3-pro 출시: 2025년 최대 API 가격 인하가 개발자에게 의미하는 것

Published by Sean Kim on 6월 10, 2025

OpenAI o3 가격 인하: 100만 토큰당 $10에서 $2로

OpenAI의 발표는 놀라울 정도로 간결했습니다. “o3를 서빙하는 추론 스택을 최적화했습니다. 완전히 동일한 모델 — 더 저렴해졌을 뿐입니다.” 단서 조항도, 성능 트레이드오프도 없습니다.

변경 전후 비교입니다:

o3 입력 (기존): 100만 토큰당 $10.00 → (변경): 100만 토큰당 $2.00
o3 출력 (기존): 100만 토큰당 $40.00 → (변경): 100만 토큰당 $8.00
캐시 입력: 100만 토큰당 $0.50 (신규 할인 티어)
실질 인하율: 전 구간 80%

추론 집약적 워크로드 기준으로 월 1,000만 입력 토큰 + 200만 출력 토큰을 처리할 경우, 비용이 $180에서 $36으로 떨어집니다. 월 $144 절감이며, 수십 개의 추론 파이프라인을 운영하는 팀에게는 누적 효과가 엄청납니다.

OpenAI o3 가격 인하 발표 80% 절감 — OpenAI o3 가격 인하 발표 (출처: OpenAI Developer Community)

o3-pro: o1-pro 대비 87% 저렴한 엔터프라이즈급 추론

o3 가격 인하와 함께 OpenAI는 o3-pro를 출시했습니다. 표준 o3보다 훨씬 더 많은 컴퓨팅을 사용하여 복잡한 문제를 “더 깊이 생각”하는 새로운 티어입니다. 속도보다 정확성과 신뢰성이 중요한 시나리오를 위해 설계되었습니다.

가격 구성:

o3-pro 입력: 100만 토큰당 $20
o3-pro 출력: 100만 토큰당 $80
vs o1-pro: 대체 모델로서 87% 저렴

OpenAI는 타임아웃 방지를 위해 장시간 비동기 작업에 o3-pro를 백그라운드 모드로 실행할 것을 권장합니다. API에서 즉시 사용 가능하며, Pro 및 Team 구독자는 ChatGPT 모델 선택기에서도 접근할 수 있습니다.

개발자 영향: OpenAI o3 가격 인하의 최대 수혜자는?

이것은 단순한 가격 발표가 아닙니다. 추론 모델로 경제적으로 실행 가능한 워크로드의 범위를 근본적으로 바꿉니다. 세 가지 유형의 개발자가 즉시 혜택을 받습니다:

1. 멀티 에이전트 오케스트레이션 빌더

코드 생성, 분석, 검증 루프가 연쇄적으로 이어지는 에이전틱 워크플로우를 운영 중이라면, 기존 o3의 호출당 비용은 부담스러웠습니다. $2/$8이면 이제 GPT-4o mini($0.15/$0.60) 같은 저렴하지만 덜 유능한 모델이 담당하던 중간 단계에도 추론 모델을 투입할 수 있습니다.

2. RAG 파이프라인 운영자

100만 토큰당 $0.50의 캐시 입력 할인은 RAG(Retrieval-Augmented Generation)의 게임체인저입니다. 법률 계약서, 코드베이스, 지식 베이스 등 동일한 컨텍스트 문서를 반복적으로 전송하는 경우, 쿼리당 실질 비용이 극적으로 하락합니다. Batch API의 추가 50% 할인까지 결합하면 대량 토큰 처리가 진정으로 합리적인 가격대에 진입합니다.

3. 추론과 예산 사이에서 고민하는 스타트업

이전에는 선택의 기로에 서야 했습니다: o3로 품질을 택하고 예산을 초과하거나, GPT-4o mini로 비용 효율성을 택하고 추론 능력을 포기하거나. $2/$8이면 o3는 GPT-4o mini보다 약 13배 비싸지만 — 핵심 추론 작업에는 투입할 수 있는 합리적 가격대에 위치하게 됩니다. 일상적 작업은 저렴한 모델에 맡기는 하이브리드 전략이 가능해졌습니다.

OpenAI o3 API 가격 비교 차트 — OpenAI o3 API 가격 비교 (출처: Apidog)

o3 새 가격 vs 경쟁 모델 비교

2025년 6월 기준, o3의 새 가격과 주요 API 제공업체의 추론 모델 비교입니다:

OpenAI o3 (변경 후): $2/$8 (100만 토큰) — 기존 대비 80% 인하
Anthropic Claude Sonnet 4: $3/$15 (100만 토큰) — o3가 입력 가격에서 우위
Google Gemini 2.5 Pro: $1.25/$10 (100만 토큰) — 입력은 더 저렴하나 출력은 더 비쌈
OpenAI GPT-4o: $2.50/$10 (100만 토큰) — o3가 이제 GPT-4o보다 저렴
DeepSeek R1: $0.55/$2.19 (100만 토큰) — 여전히 가성비 최강

가장 주목할 점: o3가 이제 GPT-4o보다 저렴합니다. 더 뛰어난 추론 모델이 범용 모델보다 토큰당 가격이 낮아진 이 역전 현상은, OpenAI가 o3를 다단계 추론이 필요한 모든 작업의 기본 선택지로 공격적으로 포지셔닝하고 있음을 시사합니다.

캐시 입력 전략: 대부분의 개발자가 놓치는 숨은 절감

헤드라인 80% 인하 외에도, $0.50 캐시 입력 요금은 특별한 관심을 받을 만합니다. 시스템 프롬프트, 퓨샷 예시, 공유 컨텍스트 문서 등 동일한 접두사를 여러 요청에 걸쳐 전송하는 경우, 실질 입력 비용이 이미 인하된 요금의 4분의 1로 떨어집니다.

법률 문서 분석 파이프라인에서 동일한 5만 토큰 계약서를 기반으로 100건의 쿼리를 처리할 경우, 캐시 절감만으로 입력 비용이 $10(기존 요금)에서 $2.75(변경 후 캐시 적용)로 줄어듭니다. 반복 컨텍스트에 대해 80% 인하 위에 추가로 72.5%가 절감되는 셈입니다.

OpenAI는 Batch API도 o3에 대해 캐시 입력 및 출력 모두에서 추가 50% 할인을 유지한다고 확인했습니다. 야간에 대량 토큰을 처리하는 기업 고객은 이 할인들을 중첩하여 최대 절감 효과를 얻을 수 있습니다.

AI 가격 경쟁 구도에 미치는 영향

OpenAI의 이번 조치는 진공 상태에서 일어난 것이 아닙니다. Anthropic은 최근 Claude Sonnet 4 가격을 낮췄고, Google은 Gemini 2.5 Pro 가격을 공격적으로 책정하고 있습니다. 더 큰 트렌드는 명확합니다: 추론 가능 모델이 프리미엄 티어에서 범용 가격대로 이동하는 속도가 누구도 예상하지 못했을 만큼 빠릅니다.

개발자에게 이는 의사결정 프레임워크의 전환을 의미합니다. 더 이상 “추론 모델을 감당할 수 있는가?”가 아니라 “내 특정 유스케이스에서 달러당 최고 품질을 주는 추론 모델은 무엇인가?”가 질문입니다. o3가 $2/$8이 된 지금, 이전에는 비용 때문에 불가능했던 작업에도 OpenAI의 추론 티어가 포함되는 경우가 늘어나고 있습니다.

OpenAI가 추론 최적화를 통해 이를 달성했다는 사실 — 모델 압축이나 성능 저하 없이 — 은 서빙 인프라 최적화가 계속됨에 따라 추가 가격 인하가 있을 것임을 시사합니다. 2025년에 AI 제품을 만들고 있다면, 추론 비용이 계속 하락하는 세계를 기준으로 계획을 세우십시오.

AI 제품의 API 비용 최적화, 모델 선택, 멀티 에이전트 시스템 설계가 필요하시다면 — 전략적 상담을 도와드립니다.

기술 상담 받기 →

Sean Kim 더 알아보기

매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.

Sean Kim

Comments are closed.

AMD 라데온 RX 9060 XT 출시: $299로 바뀌는 2025년 보급형 1080p 게이밍 판도

iRig Pro Quattro I/O 리뷰: 326g에 4채널 XLR을 담은 포터블 인터페이스의 새로운 기준

AMD 라데온 RX 9060 XT 출시: $299로 바뀌는 2025년 보급형 1080p 게이밍 판도

iRig Pro Quattro I/O 리뷰: 326g에 4채널 XLR을 담은 포터블 인터페이스의 새로운 기준

OpenAI o3 가격 인하: 100만 토큰당 $10에서 $2로

o3-pro: o1-pro 대비 87% 저렴한 엔터프라이즈급 추론

개발자 영향: OpenAI o3 가격 인하의 최대 수혜자는?

1. 멀티 에이전트 오케스트레이션 빌더

2. RAG 파이프라인 운영자

3. 추론과 예산 사이에서 고민하는 스타트업

o3 새 가격 vs 경쟁 모델 비교

캐시 입력 전략: 대부분의 개발자가 놓치는 숨은 절감

AI 가격 경쟁 구도에 미치는 영향

Mistral Small 4 리뷰: 119B MoE 오픈소스 모델이 GPT-OSS 120B를 40% 낮은 지연시간으로 따라잡은 방법

OpenAI Codex Subagents GA: 멀티 에이전트 병렬 코딩 작동 원리, 실제 결과, Claude Code 비교

Adobe Firefly 커스텀 모델 퍼블릭 베타 — 이미지 10장이면 나만의 AI가 완성됩니다 (2026)