AMD는 올해 6월에 인스팅트 MI300 시리즈를 발표했습니다. 그 때는 스펙이나 성능은 언급하지 않았는데요. 이번에 공개했습니다.
인스팅트 MI300 시리즈는 GPU만 있는 MI300A, CPU+GPU인 MI300X의 두 가지가 있습니다. 둘 다 CDNA3 아키텍처를 사용하며, 3D와 2.5D 칩렛 패키징을 통해 여러 다이를 하나로 패키합니다.
MI300X는 4개의 IOD(캐시와 인피니티 패브릭)가 2.5D의 인터포저를 통해 연결되고 그 위에 8개의 XCD를 올립니다. IOD와 XCD 옆에는 HBM3 메모리가 8스택 됩니다. CDNA3 CU 308개, 캐시 256MB, HBM3 192GB, 메모리 대역폭 5.3TB/s, TDP 750W입니다.
TDP 700W와 NVIDIA H100과 비교해도 FP64/FP32에서 2.4배, AI에서 사용하는 TF32/FP16/BF16/FP8/INT8에서는 1.3배의 성능을 냅니다. 1개의 메인보드에 8개의 OAM 패키지 MI300X를 장착해, 한대의 서버에서 2432 CU에 1.5TB HBM3을 구성하고 인피니티 패브릭을 통해 연결할 수 있습니다. NVIDIA H100을 8개 탑재한 H100 HGX와 비교하면 메모리 용량은 2.4배, 연산 성능은 1.3배입니다.
MI300A도 2.5D와 3D 패키징을 통해 CPU와 GPU를 함께 패키징하며 4개의 IOD와 8스택 HBM3이라는 건 같지만 XCD는 6개입니다. XCD 2개가 줄어든 대신 젠4 CCD(8코어)가 올라갑니다. 그래서 228 CU GPU, 24코어 CPU, IOD 4개, 128GB 5.3TB/s HBM3가 나옵니다. 또 인피니티 패브릭 4x16, PCIe 5.0 4x16을 제공합니다.
MI300A는 통합 메모리 아키텍처로 CPU와 GPU가 같은 메모리 스페이스를 공유, CPU에서 GPU로 데이터를 복사할 필요가 없어 성능 효율이 오릅니다. 엘카피ㄷ탄 슈퍼컴퓨터에 탑재돼 2EFLOPS의 성능을 냅니다.
또 NVIDIA 쿠다와 비슷한 역할을 하는 ROCm의 최신 버전인 ROCm6 오픈 소프트웨어 플랫폼이 나왔습니다. 생성 AI 최적화해, vLLM 추론 2.6배, HIP 그래프 1.4배, 플래시 어텐션에서 1.3배의 성능 향상이 있습니다.