NVIDIA는 블랙웰을 발표하고 스펙을 공개했으나 아키텍처에 대해서는 거의 아무것도 말하지 않았습니다. 호퍼와 완전히 다르지만 현재로선 밝힐 수 없다고 하네요.
블랙웰은 2개의 다이를 1개의 패키징에 패키징했습니다. 어떤 칩렛 기술(2D, 2.5D, 3D)를 썼는지도 공개하지 않았습니다. 다만 다이 사이즈를 줄여 수율을 높이는 것이 목적이 아니라, 현재 생산 기술로 만들 수 있는 크기의 한계에 가까운 칩을 함게 패키징했다고 강조했습니다. 즉, 수율이나 효율, 설계의 장점 때문에 칩렛을 쓴 게 아니라 성능 향상이 목적이라는 겁니다.
블랙웰(풀버전) | 호퍼(H100 SXM) | |
---|---|---|
프로세스 노드 | TSMC 4NP | TSMC 4N |
다이/패키지 | 2 | 1 |
FP64 | 45TFLOPS | 34TFLOPS |
TF32 (텐서코어) | 2.5PFLOPS | 989TFLOPS |
FP16/BF16(텐서 코어) | 5PFLOPS | 1979TLOPS |
FP8/FP6(B200 전용)/INT8(텐서 코어) | 10PFLOPS | 3958TFLOPS |
FP4(텐서 코어) | 20PFLOPS | - |
GPU 메모리 | 192GB(HBM3e) | 80GB(HBM3) |
GPU 메모리 대역폭 | 8TB/초 | 3.35TB/초 |
NV링크 | 5세대 | 4세대 |
NVLink 대역폭 | 1.8TB/s(양방향) | 900GB/s(양방향) |
NV-Switch 이용시 최대 스케일업 수 | 576 | 256 |
TDP | 1200W | 700W |
NVIDIA Blackwell Architecture Technical Brief에서 공개한 블랙웰의 상세 스펙입니다. FP64, TF32, FP16/BF16까지 3가지 값을 새로 발표했는데요. 텐서 코어를 활용해 연산하는 성능이 대폭 향상되어, TF32, FP16/BF16, FP8/INT8이 2.5배가 됐습니다. 하지만 FP64는 32%가 올랐습니다. 암페어(A100)에서 호퍼(H100)으로 오면서 3.5배가 오른 것과 비교하면 향상폭이 적습니다. 블랙웰은 일반적인 HPC보다 AI 처리에 초점을 맞춰 설계됐음을 알 수 있습니다.
블랙웰은 2세대 트랜스포머 엔진이라는 새로운 텐서 코어가 탑재되어, TF32, FP16, BF16, FP8, INT8 등의 기존 제품에서 지원한 정확도 외에도 FP6, FP4를 새로 지원합니다. 정밀도가 결과 값에 큰 영향을 주지 않는 AI 추론에서 효과적인 방법으로, 정밀도를 낮출수록 연산 성능은 높아집니다. 다만 FP6은 F8과 별 차이가 없고 FP4는 성능에 영향이 큽니다.
또 TDP도 크게 올랐습니다. 블랙웰 풀버전인 B200은 1200W로, H100 XSM(DGX에 들어가는 전용 모듈)의 700W와 비교하면 500W가 오른 것입니다. 블랙웰은 크게 3가지 제품이 있는데 나머지는 1000W와 700W입니다.
B200(GB200 버전) | B200(DGX/HGX 버전) | B100(HGX 버전) | 호퍼(H100 SXM) | |
---|---|---|---|---|
다이/패키지 | 2 | 2 | 2 | 1 |
FP64 | 45TFLOPS | 40TFOPS | 30TFOPS | 34TFLOPS |
TF32 | 2.5PFLOPS | 2.2PFLOPS | 1.8PFLOPS | 989TFLOPS |
FP16/BF16(Tensor 코어) | 5PFLOPS | 4.5PFLOPS | 3.5PFLOPS | 1.979PFLOPS |
FP8/FP6/INT8(Tensor 코어) | 10PFLOPS | 9PFLOPS | 7PFLOPS | 3.958PFLOPS |
FP4(Tensor 코어) | 20PFLOPS | 18PFLOPS | 14PFLOPS | - |
GPU 메모리 | 최대 192GB(HBM3e) | 최대 192GB(HBM3e) | 최대 192GB(HBM3e) | 80GB(HBM3) |
GPU 메모리 대역폭 | 8TB/초 | 8TB/초 | 8TB/초 | 3.35TB/초 |
NV링크 | 5세대 | 5세대 | 5세대 | 4세대 |
NVLink 대역폭 | 1.8TB/s(양방향) | 1.8TB/s(양방향) | 1.8TB/s(양방향) | 900GB/s(양방향) |
TDP | 1,200W | 1,000W | 700W | 700W |
GPT 같은 대규모 언어 모델에서 학습을 병렬 실행하는 구조인 트랜포머 모델입니다. 여기에선 MoE(mixture of experts)를 도입해 병렬성을 높여 실행합니다.
MOE로 연산할 경우 하나의 GPU가 연산을 끝낼 때까지 다른 GPU는 기다려야 합니다. 또 GPU 사이에 데이터 교환을 하는데 처리 능력의 60%를 소비합니다. 대규모 병렬 GPU에서 이런 낭비를 줄이는 것이 중요합니다. NVIDIA는 새로운 트랜스포머 모델의 병렬성 향상 기법(EP:Expert Parallelism, TP:Tensor Parallelism)을 2개로 나눠 병령성을 높여 AI 학습을 효율적으로 연산하고, GPU 사이의 통신을 줄일 수 있다고 설명합니다.