REBEL-Quad

하이퍼스케일 멀티모달 AI∙MoE 가속을 위한 차세대 NPU

플래그십 GPU를 뛰어넘는 성능과 에너지 효율 - B200 SXM 대비 1.6배의 TPS / Watt

REBEL-Quad는 차세대 LLM 서비스를 고효율∙저전력으로 제공하며, 혼합 정밀도 코어와 Predictive DMA, 그리고 UCIe 인터커넥트를 통해 높은 연산 활용률과 신속한 데이터 처리를 실현합니다. 랙 스케일의 성능과 모듈형 확장성을 기반으로 다양한 환경에 즉시 배포해 안정적으로 운영할 수 있도록 지원합니다.

Architecture

4-homogeneous-chiplet SoC based on
UCIe-Advanced

Compute (Dense)

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

External Memory

HBM3E 144GB 4.8TB/s

Chiplet Interface (UCIe-A)

16Gbps
1TB/s per channel

Host Connection

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Power Consumption

Up to 600W

Software

Native-support of PyTorch 2.x, vLLM and Triton

REBEL-Quad vs. B200 SXM

REBEL-Quad
B200 SXM

Throughput
(TPS)

1.4

Efficiency
(TPS/Watt)

1.6

Power Consumption
(Watt)

0.9

하나의 엔진.
완벽한 혼합 정밀도.

REBEL-Quad는 FP8과 FP16 연산을 하나의 혼합 정밀도 파이프라인에서 동시에 처리합니다. 추가 블록도, 커널 재컴파일도 필요 없습니다. ATOM™ 대비 2.8배 더 높은 연산 밀도, 16% 더 뛰어난 자원 활용률을 제공합니다.

선제적 로딩.
더 빠른 디코딩.

REBEL-Quad는 KV 데이터를 사전 로딩하기 위해 소프트웨어 제어 방식의 예측 기반 DMA 엔진을 온칩 메시 네트워크와 밀접하게 결합합니다. 2.7TB/s의 유효 대역폭을 달성하며, 32K+ context LLM에서도 토큰 레벨 레이턴시를 획기적으로 줄입니다.

모듈형 구조.
단일 다이 효율.

REBEL-Quad는 UCIe-Advanced 인터커넥트를 통해 칩 전체 메시 구조를 확장합니다. 채널당 양방향 1TB/s, 11ns 지연 속도로 연결된 칩렛들이 하나의 가상 다이처럼 동작합니다. 소프트웨어 수정도, I/O 병목도 없이 자연스럽게 확장됩니다.

지체 없이,
성능은 끝까지.

REBEL-Quad는 256개 라우터 간 풀-메시 하드웨어 동기화를 지원합니다. 연산 편차가 크거나 희소한 워크로드에서도 모든 칩렛과 모델 구간에 걸쳐 높은 자원 활용률을 유지합니다.

도입 문의하기

대규모 AI 프로젝트부터 맞춤형 솔루션까지, 리벨리온과 함께라면 가능합니다.
리벨리온에 문의하고 싶으신 내용을 남겨주세요.

"*" indicates required fields

This field is hidden when viewing the form
This field is for validation purposes and should be left unchanged.