
Cursor Automations 클라우드 에이전트: GitHub PR·Slack·PagerDuty로 트리거되는 상시 AI 코딩의 시대
3월 19, 2026
Klobuchar 반독점 책임법: Live Nation ‘약한 합의’가 촉발한 7가지 핵심 개혁 포인트
3월 19, 2026칩 하나에 500MB SRAM. GPU가 아닌 전용 추론 프로세서가 NVIDIA 플랫폼에 합류했습니다. GTC 2026에서 공개된 NVIDIA Groq 3 LPU는 지금까지 우리가 알던 AI 추론의 공식을 완전히 뒤집어 놓았습니다.
NVIDIA가 $200억(약 27조 원)을 들여 Groq을 인수했을 때, 업계의 반응은 반반이었습니다. “GPU의 제왕이 왜 SRAM 기반 칩 스타트업을?” 하지만 GTC 2026 키노트가 끝난 지금, 그 질문에 대한 답이 명확해졌습니다. 학습은 GPU, 추론은 LPU — NVIDIA는 AI 인프라의 양쪽 날개를 모두 장악하려 합니다.

NVIDIA Groq 3 LPU 핵심 스펙: SRAM이 게임 체인저인 이유
Groq 3 LPU의 가장 파격적인 설계는 HBM(High Bandwidth Memory)을 완전히 제거하고 칩 내부 SRAM만으로 동작한다는 점입니다. 일반 GPU가 외부 HBM에서 데이터를 불러오느라 대기하는 시간 동안, Groq 3 LPU는 칩 안에서 모든 연산을 끝냅니다.
구체적인 수치를 보면 그 차이가 극명합니다. 칩당 500MB SRAM, 단일 칩 메모리 대역폭 150 TB/s. 이것은 현존하는 어떤 AI 가속기와도 비교할 수 없는 수치입니다. NVIDIA의 자체 Rubin GPU의 HBM 대역폭이 수 TB/s 수준인 것을 감안하면, SRAM의 속도 이점은 수십 배에 달합니다.
- 칩당 SRAM: 500MB — HBM 없이 온칩 메모리만으로 구동
- 메모리 대역폭: 150 TB/s — GPU 대비 수십 배 빠른 데이터 접근
- 랙 단위 구성: 256개 LPU, 총 128GB SRAM, 40 PB/s 대역폭
- 추론 성능: 기존 GPU 대비 토큰 생성 속도 35배 향상
이 아키텍처가 중요한 이유는 현재 AI 산업의 병목이 학습(training)에서 추론(inference)으로 급격히 이동하고 있기 때문입니다. ChatGPT, Claude, Gemini 등 대형 모델이 이미 학습을 마쳤고, 지금은 수억 명의 사용자 요청을 실시간으로 처리하는 추론 단계가 핵심 과제입니다. GPU는 범용 연산에 최적화되어 있지만, 추론만 놓고 보면 SRAM 기반 전용 칩이 에너지 효율과 레이턴시 모두에서 압도적입니다.
Groq LPX 랙 시스템: 256개 LPU가 만드는 추론 전용 데이터센터
단일 칩 성능만 놀라운 것이 아닙니다. NVIDIA는 GTC 2026에서 Groq LPX라는 랙 단위 시스템도 함께 공개했습니다. 하나의 LPX 랙에 256개의 Groq 3 LPU가 탑재되며, 이 랙 하나의 통합 SRAM 용량은 128GB, 내부 대역폭은 40 PB/s(페타바이트/초)에 달합니다.
40 PB/s라는 숫자가 와닿지 않을 수 있습니다. 비유하자면, 넷플릭스 전체 콘텐츠 라이브러리(약 15PB)를 0.4초 만에 전송할 수 있는 대역폭입니다. 이 엄청난 내부 통신 속도 덕분에 256개 LPU가 마치 하나의 거대한 프로세서처럼 동작할 수 있습니다.
특히 주목할 점은 Groq LPX가 NVIDIA의 Rubin 플랫폼과 완전히 통합된다는 것입니다. 학습은 Rubin GPU 클러스터에서, 추론은 Groq LPX 랙에서 — 이 조합은 AI 데이터센터의 새로운 표준이 될 가능성이 높습니다. The Decoder의 보도에 따르면, NVIDIA가 자사 플랫폼에 전용 추론 하드웨어를 포함시킨 것은 이번이 처음입니다.

$200억 인수의 진짜 이유: GPU만으로는 추론 시장을 지배할 수 없다
NVIDIA가 Groq에 $200억을 투자한 결정은 단순한 기술 인수가 아니었습니다. 이것은 AI 인프라의 패러다임 전환에 대한 전략적 베팅이었습니다.
현재 AI 산업의 구조를 보면 그 이유가 명확합니다. 2024-2025년까지는 대형 모델 학습이 주요 수익원이었습니다. Meta, Google, OpenAI 등이 수만 개의 GPU를 구매해 모델을 학습시켰습니다. 하지만 2026년 현재, 학습된 모델을 서비스하는 추론 워크로드가 전체 AI 컴퓨팅의 60% 이상을 차지하게 되었습니다.
문제는 GPU가 추론에 최적화된 하드웨어가 아니라는 점입니다. GPU의 강점은 대규모 병렬 행렬 연산 — 즉, 학습에 있습니다. 추론은 학습과 달리 배치 크기가 작고, 레이턴시가 핵심이며, 토큰을 순차적으로 생성해야 합니다. 이런 워크로드에서 SRAM 기반 LPU의 결정론적(deterministic) 연산 방식은 GPU보다 훨씬 효율적입니다.
NextPlatform의 분석에 따르면, Jensen Huang CEO는 GTC 키노트에서 “추론 전용 하드웨어 없이는 에이전틱 AI 시대를 열 수 없다”고 직접 언급했습니다. AI 에이전트가 실시간으로 수백 번의 API 호출을 하고, 멀티스텝 추론을 수행하는 시대에서, 밀리초 단위의 레이턴시가 사용자 경험을 결정짓기 때문입니다.
에이전틱 AI 시대의 추론 하드웨어: 왜 지금인가
2026년은 에이전틱 AI(Agentic AI)의 원년으로 불리고 있습니다. 단순히 질문에 답하는 챗봇이 아니라, 복잡한 작업을 자율적으로 수행하는 AI 에이전트가 기업 현장에 본격 도입되고 있습니다. 코드를 작성하고, 이메일을 분석하고, 데이터를 정리하고, 의사결정까지 내리는 AI 에이전트는 한 번의 작업에 수십~수백 번의 추론을 요청합니다.
이것이 추론 하드웨어의 성능이 중요한 이유입니다. 챗봇 시대에는 사용자가 질문 하나에 1-2초 기다려도 괜찮았습니다. 하지만 AI 에이전트가 100번의 연쇄 추론을 할 때, 각 추론에 1초가 걸리면 전체 작업이 100초가 됩니다. Groq 3 LPU처럼 토큰 생성 속도가 35배 빠른 하드웨어가 있다면, 같은 작업을 3초 이내에 완료할 수 있습니다.
실제로 Groq의 기존 GroqCloud API는 이미 LLaMA 모델에서 초당 수백 토큰의 생성 속도를 보여주며 개발자 커뮤니티에서 “가장 빠른 추론 API”로 인정받아 왔습니다. Groq 3 LPU가 NVIDIA의 대규모 인프라와 결합되면, 이 속도를 엔터프라이즈 스케일로 확장할 수 있게 됩니다.
GPU vs LPU: 경쟁이 아닌 공존의 시대
Groq 3 LPU의 등장이 GPU의 시대가 끝났다는 의미는 아닙니다. 오히려 NVIDIA는 학습과 추론이라는 AI 워크로드의 두 축을 각각 최적화된 하드웨어로 분리하는 전략을 택했습니다.
- 학습(Training): Rubin GPU — 대규모 병렬 행렬 연산, FP8/FP4 학습, 수천 GPU 클러스터
- 추론(Inference): Groq 3 LPU — 결정론적 실행, 초저지연, SRAM 기반 순차 토큰 생성
- 통합 플랫폼: NVLink + Groq LPX — 학습 후 즉시 추론 배포 가능한 원스톱 인프라
이 분업 구조는 클라우드 사업자(AWS, Azure, GCP)와 대형 AI 기업에게 매력적인 제안입니다. 지금까지는 학습과 추론 모두 같은 GPU 클러스터에서 처리했지만, 추론 워크로드가 급증하면서 GPU 자원이 부족해지는 문제가 심각해졌습니다. 추론 전용 Groq LPX 랙을 별도로 배치하면, 학습용 GPU 자원을 추론에 빼앗기지 않으면서도 추론 성능을 수십 배 높일 수 있습니다.
결국 NVIDIA의 GTC 2026 메시지는 명확합니다. AI 인프라의 미래는 “GPU + LPU” 조합이며, NVIDIA가 양쪽 모두를 공급하겠다는 것입니다. $200억이라는 인수 가격이 비쌌느냐는 질문에 대해, 추론 시장이 2027년까지 $500억 규모로 성장할 것이라는 전망을 감안하면, 이 베팅은 충분히 합리적인 판단입니다.
AI 하드웨어 시장의 지각 변동은 이제 시작입니다. Groq 3 LPU가 실제 데이터센터에 배치되고 벤치마크 결과가 공개되면, 추론 하드웨어의 경쟁 구도가 완전히 달라질 것입니다. AMD, Intel, 그리고 수많은 AI 칩 스타트업이 이 새로운 전장에서 어떤 답을 내놓을지 주목됩니다.
매주 AI, 음악, 테크 트렌드를 이메일로 받아보세요.



