
2025 홀리데이 테크 선물 가이드: 예산별 최고의 가젯 추천
11월 19, 2025
Output Portal 2.0 리뷰: 그래뉼러 이펙트의 판을 바꾸는 5가지 새 알고리즘
11월 20, 2025500,000개의 Trainium2 칩이 하나의 슈퍼컴퓨터로 연결됐습니다. 프로젝트 레이니어(Project Rainier)가 11월 초 공식 가동을 시작하면서, AWS는 12월 1일 개막하는 re:Invent 2025를 향해 엄청난 신호탄을 쏘아 올렸습니다. AWS re:Invent 2025에서 발표될 Amazon Bedrock과 SageMaker AI의 주요 업데이트를 미리 정리해 봤습니다.

re:Invent 2025 — 올해의 핵심 키워드는 ‘AI 에이전트’
AWS re:Invent 2025는 12월 1일부터 5일까지 라스베이거스에서 열립니다. 올해 CEO Matt Garman을 비롯해 Peter DeSantis, Swami Sivasubramanian, Werner Vogels 등 AWS 핵심 리더들이 키노트를 맡습니다. 1,000개 이상의 기술 세션이 준비되어 있으며, 지난해에 이어 생성형 AI가 중심 주제가 될 것이 확실합니다.
특히 올해는 단순한 챗봇이나 AI 어시스턴트를 넘어 자율적으로 작동하는 AI 에이전트가 핵심 화두로 떠오를 전망입니다. AWS가 10~11월에 걸쳐 Bedrock과 SageMaker에 연달아 새로운 기능을 추가한 것도 이 방향성과 맥을 같이합니다.
Amazon Bedrock — 모델 생태계 확장과 AgentCore
Amazon Bedrock은 지난 몇 달간 빠르게 진화했습니다. 10월에는 Stability AI Image Services에 4가지 새로운 이미지 편집 도구(Outpaint, Fast Upscale, Conservative Upscale, Creative Upscale)가 추가됐고, 11월 초에는 Amazon Nova Web Grounding이 등장해 실시간 웹 검색 기반 인용이 가능해졌습니다.
re:Invent에서는 더 큰 발표가 예상됩니다. 업계에서는 Bedrock의 강화학습 기반 파인튜닝(Reinforcement Fine-Tuning)이 핵심 발표 중 하나가 될 것으로 보고 있습니다. 대규모 라벨링 데이터셋 없이도 피드백 기반 학습으로 모델 정확도를 대폭 향상시킬 수 있는 기능입니다. 이는 ML 전문 인력이 부족한 기업에게 게임체인저가 될 수 있습니다.
또한 Bedrock AgentCore의 확장이 유력합니다. 현재까지 알려진 바로는 정책 제어(Policy Controls), 품질 평가(Evaluations), 에피소딕 메모리(Episodic Memory), 양방향 스트리밍 대화 등이 포함될 것으로 예상됩니다. 기업이 AI 에이전트를 안전하게 대규모 배포할 수 있는 인프라를 제공하겠다는 AWS의 의지가 엿보입니다.
SageMaker AI — HyperPod의 체크포인트리스 학습이 바꾸는 것
SageMaker 쪽에서는 HyperPod의 대규모 업그레이드가 기대됩니다. 현재 수천 개의 AI 가속기를 사용하는 대규모 학습 클러스터에서 가장 큰 고통은 장애 발생 시 체크포인트에서 복구하는 데 걸리는 시간입니다. 복구에 수 시간이 소요되면서 실질적인 학습 효율이 크게 떨어집니다.
re:Invent에서 발표될 것으로 예상되는 체크포인트리스 학습(Checkpointless Training)은 피어-투-피어 상태 복구를 통해 전통적인 체크포인트 저장/복원 사이클을 제거합니다. 장애 발생 시 수 시간이 아닌 수 분 내 자동 복구가 가능해져, 클러스터 효율이 최대 95%까지 올라갈 수 있습니다.
탄력적 학습(Elastic Training)도 주목할 기능입니다. 유휴 AI 가속기가 있으면 학습 작업이 자동으로 확장되고, 더 높은 우선순위의 워크로드가 리소스를 요구하면 학습을 중단하지 않고 축소하여 계속 진행합니다. 리소스 가용성에 따라 동적으로 확장/축소되는 이 기능은 대규모 AI 학습의 비용 효율성을 크게 개선할 것입니다.

Trainium3와 프로젝트 레이니어 — AWS의 AI 인프라 야망
re:Invent 2025의 하드웨어 발표도 눈여겨봐야 합니다. 11월 초 프로젝트 레이니어가 공식 가동됐습니다. Anthropic과 협력하여 구축한 이 슈퍼컴퓨터는 약 500,000개의 Trainium2 칩으로 구동되며, 세계에서 가장 강력한 운영 중 AI 슈퍼컴퓨터 중 하나입니다.
여기서 한 발 더 나아가 Trainium3의 발표가 유력합니다. 3나노미터 공정으로 제작될 이 차세대 AI 칩은 Trainium2 대비 4배 이상의 컴퓨팅 성능과 에너지 효율을 제공할 것으로 예상됩니다. 최대 144개의 Trainium3 칩을 하나의 UltraServer에 통합할 수 있어, 기존에 수 개월 걸리던 모델 학습을 수 주로 단축할 수 있습니다.
또한 AWS AI Factories — 고객의 기존 데이터센터에 AI 인프라를 구축하는 서비스 — 도 발표될 가능성이 높습니다. NVIDIA와의 협력 강화 신호도 있어, P6e-GB300 인스턴스 등 새로운 GPU 인스턴스도 기대됩니다.
개발자가 주목해야 할 5가지 핵심 포인트
- Bedrock 강화학습 파인튜닝 — ML 전문가 없이도 모델 커스터마이징이 가능해지는 기능. 소규모 팀에게 특히 유용할 전망
- AgentCore 엔터프라이즈 기능 — 정책 제어, 품질 모니터링, 에피소딕 메모리로 AI 에이전트를 안전하게 대규모 배포
- SageMaker HyperPod 체크포인트리스 학습 — 대규모 학습의 장애 복구 시간을 수 시간에서 수 분으로 단축
- Trainium3 UltraServer — 4배 성능 향상의 차세대 AI 칩과 새로운 하드웨어 아키텍처
- Amazon Nova 모델 패밀리 확장 — 더 다양한 모달리티와 추론 능력을 갖춘 차세대 파운데이션 모델
블랙프라이데이 시즌과 맞물린 전략적 타이밍
AWS가 re:Invent를 블랙프라이데이 직후인 12월 초에 개최하는 것은 우연이 아닙니다. 연말 예산 편성 시점에 맞춰 신규 서비스를 발표함으로써, 기업 고객들이 내년도 클라우드 AI 투자 계획을 수립할 때 AWS를 최우선으로 고려하도록 만드는 전략입니다.
특히 올해는 Google Cloud, Microsoft Azure와의 AI 인프라 경쟁이 어느 때보다 치열합니다. Google의 Gemini 모델과 TPU, Microsoft의 Azure AI와 Copilot이 시장 점유율을 빠르게 확대하고 있는 상황에서, AWS는 Bedrock의 모델 다양성(곧 100개에 달하는 서버리스 모델)과 커스텀 실리콘(Trainium/Graviton)이라는 두 축으로 차별화를 시도할 것입니다.
12월 1일부터 5일까지의 re:Invent 2025는 단순한 기술 컨퍼런스를 넘어, 2026년 기업 AI 전략의 방향을 결정짓는 이정표가 될 것입니다. Bedrock과 SageMaker의 신기능이 실제로 어떤 모습으로 공개될지, 그리고 Matt Garman CEO가 어떤 비전을 제시할지 — 라스베이거스에서의 5일이 매우 기대됩니다.
클라우드 AI 인프라 구축이나 AWS 기반 자동화 시스템에 대해 더 알고 싶으시다면, 28년 경력의 기술 전문가와 상담해 보세요.
매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.



