[논문] LPU: A Latency-Optimized and Highly Scalable Processor for Large Language Model Inference

엔비디아 GTC의 중요 세션이었던 젠슨황 CEO의 키노트 스피치를 지난 글에서 다뤄보았었는데요.

https://aaoossiinnaa.tistory.com/99

GTC 2026 NVIDIA Vera Rubin 플랫폼이란? 구조 분석과 LPU 역할 정리

과거 애플 세계 개발자 회의(WWDC)에 모두의 이목이 쏠렸던 때가 있습니다.스티브 잡스의 한 마디, 그리고 손에서 나오는 혁신에 모두가 감탄을 했던 때가 있었는데, 요즘은 1월은 CES, 그리고 3월

aaoossiinnaa.tistory.com

오늘은 지난 글에 이어서 베라 루빈 플랫폼에 통합될 LPU가 무엇인지.

국내에서 연구된 LPU 논문과 방식에 대해 알아보겠습니다.

여기서 짚고 넘어갈 점은,

LPU는 하이퍼엑셀이 처음 만든 단일 개념이라기보다

LLM 추론 전용 아키텍처를 설명하는 방향성에 가깝습니다.

국내에서는 하이퍼엑셀이 이를 논문으로 제안했고, NVIDIA는 GTC 2026에서 Groq 계열의 LPX/LPU를 베라 루빈 플랫폼과 결합하는 방향을 공개했습니다.

Groq은 해당 개념을 2016년부터 썼다고 하네요.

다음 3부작으로는 실제 Groq에서 개발한 LPU는 논문에서 소개된 방식은 뭔지! 까지 알아보려 한다는 점 알려드려요.ㅎㅎ

Title: LPU: A Latency-Optimized and Highly Scalable Processor for Large Language Model Inference

Author: Seungjae Moon, Jung-Hoon Kim, Junsoo Kim, Seongmin Hong, Junseo Cha, Minsu Kim, Sukbin Lim, Gyubin Choi, Dongjin Seo, Jongho Kim, Hunjong Lee, Hyunjun Park, Ryeowook Ko, Soongyu Choi, Jongse Park, Jinwon Lee, Joo-Young Kim

0. 요약 (Abstract)

문제의식: 대규모 언어 모델(LLM) 추론은 GPU 기반에서 지연(latency)과 확장성(scalability) 문제를 겪고 있습니다.
특히 작은 배치(batch) 입력과 동기화 과정에서 비효율이 발생합니다.
제안: 본 논문에서는 이를 해결하기 위해 HyperAccel의 LPU(Latency Processing Unit)라는 새로운 프로세서 아키텍처를 설계 및 제안합니다. (논문의 제 1저자가 2023년 설립된 HyperAccel의 Co-Founder라고 합니다.)
핵심 기술:
- SMA (Streamlined Memory Access): 메모리 접근 최적화로 병목 감소.
- SXE (Streamlined Execution Engine): 행렬-벡터 연산에 특화된 커스텀 MAC 트리.
- ESL (Expandable Synchronization Link): 다중 장치 간 동기화 지연을 숨겨 확장성 확보.
소프트웨어 지원: HyperDex 프레임워크를 통해 HuggingFace 모델을 자동 변환 및 실행 가능합니다.
성과: GPU 대비 최대 2.09배 빠른 추론 속도, 1.33배 높은 에너지 효율, 8개 장치까지 선형에 가까운 확장성 달성합니다.
결론: LPU는 LLM 추론에 최적화된 초저지연·고확장성 프로세서로, 클라우드 및 엣지 데이터센터에서 GPU를 대체할 수 있는 잠재력을 보여줍니다.

1. 개요 (Overview)

이 논문은 LLM(대형 언어 모델) 추론 성능의 본질적인 병목을 분석하고, 이를 해결하기 위한 새로운 프로세서 아키텍처인 LPU(Latency Processing Unit)를 제안합니다.

최근 ChatGPT와 같은 서비스의 확산으로 LLM inference는 단순한 연구 주제를 넘어, 실제 서비스 비용과 사용자 경험을 결정하는 핵심 요소가 되었지만 기존 GPU 기반 구조는 이러한 요구를 충분히 만족시키지 못합니다.

LLM은 토큰 단위로 순차적으로 생성되며, K-V cache 접근과 같은 반복적인 메모리 작업이 많기 때문에 연산 성능보다 메모리 접근과 latency가 병목이 되는 구조를 가지고 있습니다.

이 논문은 이러한 문제를 해결하기 위해 latency 최적화와 memory/compute 균형 설계를 중심으로 한 LPU 아키텍처를 제시합니다.

2. 기여한 점 (Contributions)

이 부분에는 저의 해석도 덧붙여보았습니다.

LLM inference 병목을 compute 중심이 아닌 memory I/O와 latency 문제로 재정의합니다
최근에는 HBM과 같은 메모리 기술을 통해 대역폭을 늘려 병목을 완화하려는 시도가 이어져 왔습니다.
반면 이 논문은 대역폭을 늘리는 것을 넘어, 데이터 이동 자체를 줄이는 방향으로 구조를 재설계합니다.
이러한 구조는 기존 방식보다 더 효율적인 추론 처리를 가능하게 할 것으로 보입니다.
메모리 대역폭 활용을 극대화하고 연산과의 균형을 맞춘 streamlined hardware 기반 LPU 아키텍처를 제안합니다
위와 같은 맥락으로 연산보다 메모리 대역폭을 효율적으로 쓰기 위해 하드웨어를 재설계합니다.
multi-chip 환경에서 동기화 지연을 줄이기 위해 ESL(Expandable Synchronization Link)을 도입하여 확장성을 개선합니다
LPU 실행을 지원하기 위해 소프트웨어 프레임워크 HyperDex를 제안하고, 실제 성능 및 에너지 효율 향상을 통해 효과를 검증합니다

3. 핵심 메서드 (Core Methods)

이 논문의 핵심 메서드는 그림을 기준으로 보면 더 이해하기 쉽습니다.

전체 구조를 뜯어보면, 맨 위에는 HBM(High Bandwidth Memory) 이 있고, 아래에는 메모리 접근을 정리하는 SMA,
그 아래에는 실행 흐름을 제어하는 OIU와 SXE, 그리고 실제 연산을 담당하는 MAC Tree, VXE가 배치되어 있습니다.

오른쪽에는 LMU, ICP, 그리고 각 I/F 같은 제어 및 연결부가 붙어 있고, 칩 여러 개를 함께 쓸 때는 여기에 ESL 개념이 연결된다고 이해하면 됩니다.

논문에서 소개되는 LPU 하드웨어 아키텍처는 메모리 접근부터 실행 흐름, 벡터 연산, 멀티칩 확장까지 LLM inference에 맞춰 한 방향으로 설계된 구조라는 점을 나타내고 있습니다.

SMA (Streamlined Memory Access)

SMA는 LPU 아키텍처에서 메모리 접근을 최적화하는 핵심 계층입니다.

데이터 흐름을 최적화하여 memory bandwidth와 compute가 동시에 병목 없이 동작하도록 설계되었다는 부분이 포인트라고 봅니다.

LLM inference에서는 KV cache를 계속 읽고 써야 하고, 문맥이 길어질수록 메모리 접근 비용이 빠르게 커집니다.

SMA는 이 과정에서 메모리 요청을 단순화하고 정리해서, HBM의 대역폭이 낭비되지 않도록 설계된 계층이라고 볼 수 있습니다.

이런 면에서 연산 성능은 충분하지만 데이터 이동에서 비효율이 발생했던 기존 GPU의 한계를 극복하고, LPU는 처음부터 이 문제를 해결하는 방향으로 설계된 구조입니다.

SXE (Streamlined Execution Engine)

이 부분은 실제 연산이 이루어지는 핵심 엔진입니다.

LPU는 불필요한 데이터 이동을 줄이기 위해 단순화된 데이터 흐름 구조를 채택합니다.

이를 통해 메모리 접근 횟수를 줄이고, 연산 단계 간 데이터 이동 비용을 최소화합니다.

참고로 기존 GPU에서는 "연산 → 메모리 → 연산 → 메모리" 이런 식으로 데이터를 계속 왕복합니다.

하지만 SXE는 한 번 들어온 데이터를 가능한 한 내부에서 계속 처리하도록 설계되어 있습니다.

이 구조 덕분에 LLM에서 반복적으로 발생하는 K-V cache 접근 비용도 자연스럽게 줄어들게 됩니다.

LLM이 빠르게 응답할 수 있는 배경에는 KV cache 최적화가 중요한 역할을 하는데, 이 구조를 통해 기존 방식 대비 더 효율적인 추론 처리를 기대할 수 있겠습니다.

아, 다음에 기회가 있다면 K-V Cache도 다뤄보겠습니다.

MAC Tree와 VXE (실제 연산부)

그림 중앙을 보면 여러 개의 MAC Tree가 반복적으로 배치되어 있고, 맨 아래에는 길게 VXE(Vector Execution Engine)가 놓여 있습니다.

여기가 실제 연산이 일어나는 핵심 영역입니다.

MAC Tree는 LLM에서 반복적으로 등장하는 행렬 연산을 빠르게 처리하기 위한 유닛이라고 이해하면 됩니다.

그리고 그 아래의 VXE는 벡터 단위 연산을 담당합니다.
즉, LLM inference에서 필요한 다양한 연산을 벡터 수준에서 처리하면서 전체 연산 흐름을 받쳐주는 기반 역할을 합니다.

ESL (Expandable Synchronization Link)

위 그림에는 나타나있지 않지만, 대규모 LLM을 처리하기 위해서는 여러 칩을 동시에 사용하는 구조가 필요합니다.

이때 가장 큰 문제는 칩 간 동기화로 인한 latency 증가입니다.

논문에서는 이를 해결하기 위해 ESL이라는 인터커넥트 구조를 제안합니다.

이 구조는 여러 LPU 간 동기화 비용을 줄이고, 확장 시에도 성능 저하를 최소화하도록 설계되었습니다.

HyperDex Software Stack

HyperDex는 하드웨어 구조를 실제 LLM 실행 환경과 연결해주는 역할을 합니다.
이를 통해 LPU는 단순한 아키텍처 제안을 넘어, 실제 동작 가능한 시스템으로 확장됩니다.

4. 성능 결과 (Performance)

논문에서 제시한 성능 결과는 다음과 같습니다.

1.3B 모델: 약 1.25ms/token
66B 모델: 약 20.9ms/token
1.3B 모델에서는 최대 2.09배, 66B 모델에서는 1.37배 수준으로 latency 개선
에너지 효율 역시 기존 GPU 대비 개선

이로써, 단순한 속도 향상뿐 아니라 효율 측면에서도 의미 있는 개선을 보여준다는 점을 알 수 있습니다.

5. 결론 (Conclusion)

이 논문은 LLM inference 성능의 핵심 문제가 단순한 연산 능력이 아니라 데이터 이동과 latency에 있다는 점을 명확히 보여줍니다.

그리고 이를 해결하기 위해 GPU와 같은 범용 구조가 아니라, LLM에 특화된 전용 아키텍처가 필요하다는 방향을 제시합니다.

LPU는 token 단위 처리 구조, memory 중심 설계, 그리고 latency 최적화를 결합한 새로운 컴퓨팅 접근입니다.

이는 단순한 성능 개선을 넘어, AI 인프라 구조 자체가 변화하고 있음을 보여주는 사례라고 볼 수 있습니다.

LPU 아키텍처의 모든 부분을 완전히 이해했다고 말하기는 아직 어렵습니다.
그래도 이번 논문을 통해, Memory I/O를 효율적으로 줄이고 실행부를 개선함으로써 기존에 GPU가 담당하던 추론 영역을 더 효율적으로 처리할 수 있다는 부분에 대해 감을 잡을 수 있었습니다.

다음 글에서는 예고드린 대로, 이번 NVIDIA GTC 키노트에서 공개된 베라 루빈 플랫폼에 LPU가 어떤 방식으로 결합되는지 조금 더 구체적으로 살펴보겠습니다.

오늘도 읽어주셔서 감사합니다. :

저작자표시 비영리 변경금지 (새창열림)

'AI > PAPER' 카테고리의 다른 글

[논문] ReAct: Synergizing Reasoning and Acting in Language Models (0)	2026.03.18
[논문] HNSW: Efficient and robust approximate nearest neighbor search using Hierar (0)	2022.01.10
[논문] The Netflix Recommender System: Algorithms, Business Value, and Innovation (0)	2022.01.03

아오씬나의 생각하는 블로그