REBEL-Quad
하이퍼스케일 멀티모달 AI∙MoE 가속을 위한 차세대 NPU
플래그십 GPU를 뛰어넘는 성능과 에너지 효율 - B200 SXM 대비 1.6배의 TPS / Watt
REBEL-Quad는 차세대 LLM 서비스를 고효율∙저전력으로 제공하며, 혼합 정밀도 코어와 Predictive DMA, 그리고 UCIe 인터커넥트를 통해 높은 연산 활용률과 신속한 데이터 처리를 실현합니다. 랙 스케일의 성능과 모듈형 확장성을 기반으로 다양한 환경에 즉시 배포해 안정적으로 운영할 수 있도록 지원합니다.
4-homogeneous-chiplet SoC based on
UCIe-Advanced
1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)
HBM3E 144GB 4.8TB/s
16Gbps
1TB/s per channel
2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16
Up to 600W
Native-support of PyTorch 2.x, vLLM and Triton
REBEL-Quad vs. B200 SXM
Throughput
(TPS)
Efficiency
(TPS/Watt)
Power Consumption
(Watt)
하나의 엔진.
완벽한 혼합 정밀도.
REBEL-Quad는 FP8과 FP16 연산을 하나의 혼합 정밀도 파이프라인에서 동시에 처리합니다. 추가 블록도, 커널 재컴파일도 필요 없습니다. ATOM™ 대비 2.8배 더 높은 연산 밀도, 16% 더 뛰어난 자원 활용률을 제공합니다.
선제적 로딩.
더 빠른 디코딩.
REBEL-Quad는 KV 데이터를 사전 로딩하기 위해 소프트웨어 제어 방식의 예측 기반 DMA 엔진을 온칩 메시 네트워크와 밀접하게 결합합니다. 2.7TB/s의 유효 대역폭을 달성하며, 32K+ context LLM에서도 토큰 레벨 레이턴시를 획기적으로 줄입니다.
모듈형 구조.
단일 다이 효율.
REBEL-Quad는 UCIe-Advanced 인터커넥트를 통해 칩 전체 메시 구조를 확장합니다. 채널당 양방향 1TB/s, 11ns 지연 속도로 연결된 칩렛들이 하나의 가상 다이처럼 동작합니다. 소프트웨어 수정도, I/O 병목도 없이 자연스럽게 확장됩니다.
지체 없이,
성능은 끝까지.
REBEL-Quad는 256개 라우터 간 풀-메시 하드웨어 동기화를 지원합니다. 연산 편차가 크거나 희소한 워크로드에서도 모든 칩렛과 모델 구간에 걸쳐 높은 자원 활용률을 유지합니다.