안녕하세요, 아오씬나입니다.
앞선 글에서 베라 루빈 플랫폼과 LPU 논문을 각각 살펴보았었는데요~
바로 이어서 쓰려고 했는데 시리즈의 마지막인 이번 글은 조금 늦었습니다^^;
https://aaoossiinnaa.tistory.com/99
GTC 2026 NVIDIA Vera Rubin 플랫폼이란? 베라 루빈 구조 분석과 LPU 역할 정리
과거 애플 세계 개발자 회의(WWDC)에 모두의 이목이 쏠렸던 때가 있습니다.스티브 잡스의 한 마디, 그리고 손에서 나오는 혁신에 모두가 감탄을 했던 때가 있었는데, 요즘은 1월은 CES, 그리고 3월
aaoossiinnaa.tistory.com
https://aaoossiinnaa.tistory.com/98
[논문] LPU: A Latency-Optimized and Highly Scalable Processor for Large Language Model Inference
엔비디아 GTC의 중요 세션이었던 젠슨황 CEO의 키노트 스피치를 지난 글에서 다뤄보았었는데요. https://aaoossiinnaa.tistory.com/99 GTC 2026 NVIDIA Vera Rubin 플랫폼이란? 구조 분석과 LPU 역할 정리과거 애플
aaoossiinnaa.tistory.com
위 두 개의 글에서 베라 루빈이 어떤 구조로 설계되었는지, 그리고 LPU가 어떤 문제를 해결하기 위해 등장했는지 논문을 통해 따로 이해했다면, 이제 자연스럽게 이번 글로 이어집니다.
이제 NVIDIA의 GTC행사에서 젠슨황이 스피치한 내용 중 Groq 기반 LPU를 Vera Rubin 플랫폼에 결합하는 구조에 대해 알아보려 합니다.
이번 발표에서 의미있었던 부분은 단순히 새로운 칩을 소개하는 것이 아니라, Groq 기반 LPU를 Vera Rubin 플랫폼에 결합하여
LLM 추론 구조 자체를 바꾸는 방향을 제시한 것입니다.
이 구조를 중심으로, GPU와 LPU가 어떤 방식으로 역할을 나누고, 왜 이런 아키텍처가 등장하게 되었는지를 조금 더 구체적으로 정리해보겠습니다.
단일 GPU 구조의 한계
지금까지의 AI 시스템의 핵심은 역시 GPU였습니다.
처음 GPU가 만들어진 목적은 그래픽 처리를 위한 거였습니다.
GPU는 그냥 뭐.. 게임하는 사람들에게만 좋은거라고 생각했을 때가 있었죠.
그렇지만, CUDA 생태계를 중심으로 범용 연산이 가능해지면서 딥러닝과 AI의 핵심 연산 장치로 자리잡았습니다.
이후 Tensor Core와 같은 전용 연산 유닛이 추가되었고, HBM 기반의 고대역폭 메모리와 NVLink 같은 고속 인터커넥트가 도입되면서 단일 칩 성능뿐 아니라 GPU 간 확장성까지 크게 발전해왔습니다.
이러한 발전을 통해 GPU는 대규모 모델 학습과 추론 모두에서 사실상의 표준 인프라로 자리잡게 되었습니다.
지금까지는 하나의 GPU가 문맥을 이해하고, 토큰을 생성하고, 전체 추론 과정을 모두 처리하는 방식으로 이어왔습니다.
하지만 LLM이 커지고, reasoning 과정이 길어지면서 이 구조는 점점 비효율적으로 변하기 시작합니다.
특히 문제가 되는 구간은 추론 과정입니다.
LLM inference는 크게 두 단계로 나뉘는데요,
- Prefill: 입력 문맥을 처리하는 단계
- Decode: 토큰을 하나씩 생성하는 단계
이 두 단계는 성격이 완전히 다릅니다.
Prefill은 병렬 연산이 많기 때문에 GPU의 특기인 병렬 처리 구조로 매우 빠르게 수행합니다.
반면 Decode는 토큰을 순차적으로 생성해야 하기 때문에 GPU의 병렬 처리 구조를 충분히 활용하지 못합니다.
등장한 해결책: GPU와 LPU의 분업
이번 GTC에서 위 문제를 해결하고자 NVIDIA가 보여준 핵심은 단순합니다.
이 두 단계를 하드웨어 수준에서 분리한 것이죠.
앞서 말씀드린 추론의 단계를 책임지는 하드웨어를 아래와 같이 분리합니다.
- Vera Rubin GPU → Prefill 담당
- Groq LPU → Decode 담당
즉, 하나의 칩이 모든 것을 처리하는 것이 아니라, 각 단계에 최적화된 하드웨어가 역할을 나누는 구조입니다.
Groq의 LPX는 특히 decode 단계에서 발생하는 지연(latency)에 민감한 연산을 빠르게 처리하도록 설계되어 있습니다.
그리고 Rubin GPU와 LPX가 함께 동작하면서 각 토큰 생성 과정에서 협력하는 구조를 갖습니다.
현재 방향은 속도가 아닌 효율!
이 구조를 단순히 성능 향상으로만 보면 놓치는 부분이 있습니다.
중요한 건 속도가 아니라, 효율입니다.
LLM에서 실제 비용이 많이 발생하는 구간은 바로 decode 단계입니다.
토큰을 하나씩 생성하는 이 과정이 길어질수록 전체 latency와 비용이 함께 증가합니다.
이 구간을 LPU로 분리하면
- latency 감소
- token throughput 증가
- cost per token 감소
이 세 가지가 동시에 개선됩니다.
즉, “더 빠른 GPU”가 아니라 “더 효율적인 구조”로 문제를 해결한 것입니다.
Vera Rubin이 지향하는 방향
이로써 Vera Rubin 플랫폼은 단순한 GPU 플랫폼이 아님을 설명하고 있습니다.
- CPU: 데이터 흐름 제어
- GPU: 대규모 연산 처리
- NVLink / 네트워크: 통신
- DPU: 인프라 오프로드
- 그리고! LPU: 추론 가속
이 모든 요소를 하나의 플랫폼으로 묶었습니다.
즉, AI를 위한 완전한 컴퓨팅 구조를 만들고 있는 것입니다.
이번 GTC에서 NVIDIA가 보여준 것은 단순히 새로운 칩이 아닙니다.
AI를 처리하는 방식 자체의 변화로 한 번 더 정리할 수 있습니다.
GPU 하나로 처리하던 구조에서 역할별 하드웨어가 분리된 구조, 그리고 언어 추론은 LPU를 사용하게 발전했습니다.
Vera Rubin과 Groq LPU의 결합은 LLM의 Prefill과 Decode를 분리해 추론을 더 효율적으로 만드는 새로운 하드웨어 구조입니다.
참고
https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/
Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform | NVIDIA Technical Blog
NVIDIA Groq 3 LPX is a new rack-scale inference accelerator for the NVIDIA Vera Rubin platform, designed for the low-latency and large-context demands of agentic systems. Co-designed with the NVIDIA…
developer.nvidia.com
'AI > Trend' 카테고리의 다른 글
| 구글 새 TPU 8세대 공개: 학습과 추론을 더 분명하게 나누는 흐름 (0) | 2026.04.25 |
|---|---|
| 오픈클로(OpenClaw) 정체와 논란 정리 (0) | 2026.04.13 |
| Moltbook (몰트북): AI 에이전트들을 위한 SNS라니! (ft. META) (0) | 2026.03.31 |
| GTC 2026 NVIDIA Vera Rubin 플랫폼이란? 베라 루빈 구조 분석과 LPU 역할 정리 (0) | 2026.03.20 |
| Microsoft Graph는 RAG가 아니다. 개념과 검색 방식 설명 (0) | 2026.03.15 |
댓글