AMD가 새로운 GPU를 정식으로 발표
AMD의 여름 대공세가 시작됐습니다. AMD는 8월에 새로운 GPU인 라데온 RX 베가64 (Vega10)과, 16코어 CPU인 라이젠 쓰레드리퍼를 출시합니다. 2017년의 AMD 신제품이 중요한 건 구조가 크게 변화하기 때문입니다. 젠 아키텍처 CPU는 마이크로 아키텍쳐를 새로 바꿨으며, 이번 베가에서 GPU도 마이크로 아키텍처가 달라졌습니다. AMD에게 있어서 5년만에 GPU 마이크로 아키텍처를 대폭 변경한 것입니다.
마이크로 아키텍처를 혁신한 베가
라데온 RX 베가64로 상품화되는 베가 10
라데온 베가 64의 스펙
라데온 RX 베가64는 AMD가 2년만에 내놓은 플래그쉽 GPU입니다. AMD는 작년에 하이엔드 GPU를 발표하지 않았기에 하이엔드 GPU는 폴라리스 세대를 지나서 베가가 됩니다. 이번에 나오는 건 최상위 모델인 베가 10입니다.
베가 10 아키텍처의 가장 큰 특징은 NVIDIA와 같은 대형 다이가 아니라, 다이 크기를 줄였다는 것입니다. 다이 크기가 486제곱mm로 NVIDIA의 볼테 세대 GV100의 815제곱mm의 60% 수준입니다. AMD의 2015년 플래그십 GPU인 라데온 R9 퓨리 X(피지)의 596제곱mm의 82% 수준이며, 트랜지스터 수는 125억개로 이 역시 NVIDIA보다 작습니다. HBM2도 2스택이니 NVIDIA의 절반입니다.
베가 10의 특징
NVIDIA는 현세대의 마이크로 아키텍처에서 딥 러닝을 공략하고 있습니다. 딥 러닝과 그래픽용을 완전히 나누는 길을 택한 것으로 보입니다. 이에비해 AMD는 딥 러닝 기능을 추가하면서도 거기에 쓰는 트랜지스터를 억제했습니다. 결과적으로 베가10은 그래픽 성능이 높지만 제조 비용은 낮춰 균형을 잡은 GPU가 됩니다.
베가 10
피지와 베가
코어 수는 같지만 성능은 47% 향상
베가 10의 CU (Compute Unit) 수는 64개입니다. FP32 유닛(AMD는 스트림 프로세서라 가리킴) 수는 4096개로, 2015년의 라데온 r9 퓨리 X(피지)와 같은 수입니다. 하지만 FP32의 성능은 라데온 R9 퓨리 X가 8.6TFLOPS인데 라데온 RX 베가 64는 12.66TFLOPS로 47% 나 성능이 높아졌습니다.
베가 10의 전체 구성
대폭적인 성능 향상은 칩의 클럭 향상으로 이루어진 것입니다. 퓨리 X에서 동작 클럭은 1,050MHz였으나 라데온 RX 베가 64는 베이스 클럭 1,247MHz, 부스트 클럭 1,546MHz입니다. 동작 클럭의 상승이 그대로 성능 향상으로 이어졌습니다.
베가 아키텍처는 기존의 GCN에 비해 기본 파이프 라인 스테이지가 변하지 않았습니다. 벡터 유닛인 스트림 프로세서의 연산 파이프는 4 사이클 그대로입니다. 그러나 경로는 튜닝이 철저하게 이루어졌습니다.
논리 회로는 패스에 의해 지연이 달라지며 딜레이가 특히 긴 패스일수록 중요합니다. 프로세서의 동작 클럭은 딜레이가 긴 패스에 의해 제한됩니다. 따라서 패스를 조정해 지연을 줄이면 동작 클럭이 향상됩니다. 베가 10에선 패스를 튜닝하고 14nm LPP 프로세스를 조합해 1.7GHz 이상의 클럭이 가능해졌습니다.
베가는 회로 설계를 통해 고클럭을 실현
CPU 스타일의 커스텀 회로 설계 SRAM을 레지스터에 채택
파이프라인 자체를 바꾸지 않은 건, 파이프라인을 깊게 하고 스트림 프로세서 연산의 대기 시간을 늘리면, 파이프라인을 채우면서 많은 스레드가 필요해지기 때문이라 추측됩니다. 쓰레드 병렬성을 유지하기 위해서는 레지스터를 비롯해 더 많은 자원이 필요하게 됩니다. 반면 패스 조정은 아키텍처를 바꿀 필요가 없습니다.
GPU 코어의 마이크로 아키텍쳐를 쇄신
베가 세대는 CU (Compute Unit)의 마이크로 아키텍처가 크게 개편되었습니다. 새로운 디자인의 차세대 CU, NCU (Next-Generation Compute Unit)를 씁니다. NCU의 가장 큰 특징은 Rapid Packed Math (RPM)라 부르는 Packed (SIMD) 포맷의 FP16 반정밀도 부동 소수점 연산 지원입니다.
Packed FP16을 지원하는 베가
네이티브 명령 세트도 확장
AMD GPU는 단정밀도 FP32 (32-bit 부동 소수점) 연산에 최적화된 파이프 라인을 갖춥니다. 그러나 베가는 32비트 파이프에서 16비트 부동소수점 연산 2개 병렬의 SIMD (Single Instruction, Multiple Data)로 실행, FP16에선 FP32의 2배 성능을 낼 수 있습니다.
FP16은 모바일 그래픽 등에서 쓰이는 다른 머신 러닝에서도 급격히 늘어나고 있습니다. 머신 러닝의 학습 단계에서 데이터 정확도를 감내한 FP16을 많이 쓰기 때문입니다. 베가에서 FP16은 일반 연산도 지원합니다.
등으로 사용되고있는 다른 기계 학습에서도 급속히 침투하고있다. 기계 학습 교육 페이즈에서 데이터 정확도를 숙였다 FP16의 이용이 진행되고 있기 때문이다. Vega에서 FP16은 적 일본 재래의 주산 등 일반 연산은 지원하고있다.
8비트 정수 연산
베가 아키텍처는 Packed 8비트 정수 연산도 지원합니다. 그러나 SAD (Sum of Absolute Difference) 연산만 지원합니다. 동영상과 이미지 처리용이지 머신 러닝을 위한 구현이 아닙니다. 이 외에도 베가 차키텍처는 지오메트리 파이프 라인의 혁신과 새로운 캐시 회로 설계, 프리싱크 확장 등 여러 부분에서 아키텍처가 확장됐습니다.
라데온 RX 베가64
베가에 추가된 새로운 쉐이더
이름 |
Radeon Pro SSG | Radeon Pro WX9100 | Radeon RX Vega64 Liquid Cooled Edition | Radeon RX Vega64 |
---|---|---|---|---|
코드네임 | Vega10 | Vega10 | Vega10 | Vega10 |
베이스 클럭 | 1,406MHz | 1,247MHz | ||
코어 클럭 (최고) | 1,500MHz? | 1,500MHz? | 1,677MHz | 1,546MHz |
아키텍처 | GCN 5.0 | GCN 5.0 | GCN 5.0 | GCN 5.0 |
FP32 프로세서 | 4,096 | 4,096 | 4,096 | 4,096 |
CU | 64 | 64 | 64 | 64 |
FP32 MAD / CU | 64 | 64 | 64 | 64 |
FP16 프로세서 | 8,192 | 8,192 | 8,192 | 8,192 |
INT8 프로세서 | 16,384 | 16,384 | 16,384 | 16,384 |
FP32 GFLOPS | 10,215 | 10,215 | 11,518 | 10,215 |
FP32 GFLOPS (boost clock) | 12,288 | 12,288 | 13,738 | 12,665 |
FP16 GFLOPS | 20,431 | 20,431 | 23,036 | 20,431 |
FP16 GFLOPS (boost) | 24,576 | 24,576 | 27,476 | 25,330 |
Texture Units | 256 | 256 | 256 | 256 |
Texture Fill Rate | 319.2GT / s | 319.2GT / s | 359.9GT / s | 319.2GT / s |
ROP Units | 64 | 64 | 64 | 64 |
Pixel Fillrate | 79.81Gpixels / s | 79.81Gpixels / s | 89.98Gpixels / s | 79.81Gpixels / s |
L2 cache | 4,096KB | 4,096KB | 4,096KB | 4,096KB |
메모리 종류 | HBM2 | HBM2 | HBM2 | HBM2 |
메모리 전송 속도 | 1,892Mtps? | 1,892Mtps? | 1,892Mtps? | 1,892Mtps? |
비디오 메모리 인터페이스 폭 | 2,048bit | 2,048bit | 2,048bit | 2,048bit |
메모리 대역폭 (GB / Sec) | 484GB / s | 484GB / s | 484GB / s | 484GB / s |
내장 메모리 | 16GB | 16GB | 8GB | 8GB |
DRAM 용량 / 다이 | 8Gb | 8Gb | 8Gb | 8Gb |
DRAM 개수 | 16 개 | 16 개 | 8 개 | 8 개 |
SSG (NAND Storage) | 2TB | |||
제조 공정 기술 | 14nm | 14nm | 14nm | 14nm |
제조 공정 기술의 특징 | 14LPP | 14LPP | 14LPP | 14LPP |
트랜지스터 수 | 12,500M | 12,500M | 12,500M | 12,500M |
다이 크기 (첫 번째 다이) | 486 평방 mm | 486 평방 mm | 486 평방 mm | 486 평방 mm |
TDP Max | 300W | 250W | 345W | 295W |
이름 | Radeon RX Vega56 | Radeon RX 480 | Radeon R9 Fury X |
---|---|---|---|
코드네임 | Vega10 | Polaris 10 (Ellesmere) | Fiji |
베이스 클럭 | 1,156MHz | 1,100MHz | 1,050MHz |
코어 클럭 (최고) | 1,471MHz | 1,266MHz | 1,050MHz |
아키텍처 | GCN 5.0 | GCN 4.0 | GCN3 |
프로세서 수 FP32 | 3584 | 2304 | 4,096 |
CU 수 | 56 | 36 | 64 |
FP32 MAD / CU | 64 | 64 | 64 |
프로세서 수 FP16 | 7,168 | 2,304 | 4,096 |
프로세서 수 INT8 | 14,336 | ||
FP32 GFLOPS | 8,286 | 5,069 | 8,602 |
FP32 (boost clock) GFLOPS | 10,544 | 5,834 | 8,602 |
FP16 GFLOPS | 16,572 | 5,069 | 8,602 |
FP16 GFLOPS (boost) | 21,088 | 5,834 | 8,602 |
Texture Units | 224 | 144 | 256 |
Texture Fill Rate | 258.9GT / s | 158.4GT / s | 268.8GT / s |
ROP Units | 64 | 32 | 64 |
Pixel Fillrate | 73.98Gpixels / s | 35.20Gpixels / s | 67.20Gpixels / s |
L2 cache | 4,096KB | 2,048KB | 2,048KB |
메모리 종류 | HBM2 | GDDR5 | HBM1 |
메모리 전송 속도 | 1,700Mtps | 7,000Mtps | 1,000Mtps |
비디오 메모리 인터페이스 폭 | 2,048bit | 256bit | 4,096bit |
메모리 대역폭 (GB / Sec) | 435GB / s | 224GB / s | 512GB / s |
내장 메모리 | 8GB | 8GB | 4GB |
DRAM 용량 / 다이 | 8Gb | 4Gb | 2Gb |
DRAM 개수 | 8 개 | 16 개 | 16 개 |
SSG (NAND Storage) | |||
제조 공정 기술 | 14nm | 14nm | 28nm |
제조 공정 기술의 특징 | 14LPP | ||
트랜지스터 수 | 12,500M | 5,700M | 8,900M |
다이 크기 (첫 번째 다이) | 486 평방 mm | 232 평방 mm | 596 평방 mm |
TDP Max | 210W | 150W | 275W |
방대한 메모리 공간을 GPU가 사용하는 HBCC
베가 10은 스택 구조 DRAM인 HBM2을 지원합니다. AMD는 라데온 R9 퓨리(피지)에서 HBM1을 지원했습니다. 이번에는 데이터 전송율이 2배가 된 HBM2를 탑재합니다. 피지는 데이터 전송 속도가 1Gtps인 HBM를 4 스택 탑재합니다. 메모리 인터페이스는 4,096비트며 메모리 대역폭은 512GB/s입니다.
현재 AMD는 베가 10에 2048비트 HBM2 인터페이스를 구현했습니다. HBM2 메모리 스택은 2개로 피지의 절반입니다. 그러나 HBM2 자체의 데이터 전송 속도가 높아지면서 메모리 대역폭은 484GB/s를 달성했습니다. 또한 HBM1에서 DRAM 다이 용량은 2Gbit였지만 HBM2는 8Gbit가 되면서 2개의 스택으로도 8GB의 용량을 달성합니다.
베가의 중요한 특징인 HBCC (High-Bandwidth Cache Controller)
또한 베가는 HBCC (High-Bandwidth Cache Controller)라고 부르는 새로운 유닛을 탑재했습니다. HBCC은 GPU의 메모리뿐만 아니라 CPU의 시스템 메모리와 스토리지, GPU에 탑재한 플래시 스토리지 등을 원활하게 GPU 메모리로 처리할 수 있는 가상 메모리 시스템입니다. 베가 아키텍처는 CPU 시스템 메모리의 일부나 스토리지를 HBCC의 메모리 공간으로 처리할 수 있습니다.
그리고 온 패키지 HBM2을 캐시 메모리처럼 취급합니다. 인클루시브 캐시 모델에선 HBM2가 새로운 캐시 계층처럼 행동합니다. 익스클루시브 캐시 모델에선 HBM2와 GPU 외부 메모리가 함게 붙어 있는 메모리로 맵핑됩니다. 기본적인 발상은 액세스 빈도가 낮은 데이터는 먼 메모리에, 액세스 빈도가 높은 데이터는 가까운 HBM2에 두자는 것으로, 원활하게 대규모 작업 세트를 취급할 수 있도록 하자는 것입니다.
GPU의 성능과 메모리 용량의 차이
페이지 기반 HBCC의 메모리 관리
캐시된 HBCC 컨트롤 단위는 페이지입니다. 베가는 여러 페이지 크기를 동시에 처리할 수 있습니다. 그래픽에서 많이 사용되는 순차 액세스가 생기는 데이터 유형은 대형 페이지에 저장합니다. 분산된 액세스가 발생하는 데이터는 작은 페이지에 저장합니다. 베가 10에서는 512TB까지의 가상 주소 공간을 지원합니다.
익스클루시브 캐시 모드
인클루시브 캐시 모드
라데온 RX 베가 64의 제품 라인업
라데온 RX 베가는 여러 SKU가 있습니다. 풀 스펙인 라데온 RX 베가64가 499달러로 출시됩니다. 라데온 RX 베가64에선 64개의 NCU가 활성화되기에 64라고 숫자가 붙는 듯 합니다.
라데온 RX 베가64에선 64개의 NCU에 FP32 연산 유닛은 총 4096개가 됩니다. 동작 클럭은 부스트 1,546MHz에 피크 성능은 FP32 12.66TFLOPS, FP16 25.3TFLOPS. 라데온 RX 베가64는 한정판이 따로 나옵니다.
라데온 RX 베가 64 한정판
라데온 RX 베가 64 라인업
라데온 RX 베가 라인업의 스펙
수냉 버전의 라데온 RX 베가 64
라데온 RX 베가 64에는 수냉 쿨러를 쓰는 라데온 RX 베가 64 수냉 버전이 있습니다. 쿨링 성능을 높여 클럭을 올린 버전입니다. 기본 1,406MHz, 부스트 1,677MHz에 최고 성능은 FP32 13.7TFLOPS가 됩니다. FP16는 27.5TFLOPS에 달합니다.
라데온 RX 베가 제품군은 보급형인 라데온 RX 56이 399달러로 출시됩니다. 이건 56 NCU에 3,584FP32 유닛, 최대 성능은 10.5TFLOPS. 동작 클럭은 라데온 RX 베가 64보다 약간 줄어 기본 1,156MHz / 부스트 1,471MHz가 됩니다. TDP로 비교하면 베가 56이 210W, 베가 64가 295W, 베가 64 수냉이 345W입니다.
라데온 RX 베가 64
라데온 RX 베가 56
라데온 팩 번들 패키지
AMD는 라데온 RX 베가 64의 발매에 맞춰 추가 할인을 더한 번들 제품인 라데온 팩도 준비했습니다. 라데온 RX 베가 카드 외에 모니터, CPU, 메인보드의 할인과 게임 패키지를 묶은 것입니다.
34인치 모니터인 삼성 CF791 프리싱스카 200달러 할인, 라이젠 7과 X370 메인보드의 100달러 할인, 120달러 상당의 게임 패키지(지역에 따라 다름)이 포함됩니다. 라데온 RX 베가 외에 라이젠 7 플랫폼과 프리싱크 모니터까지 갖추려는 사람에게 좋은 조합입니다. 라데온 팩 역시 8월에 나옵니다.
팩은 3가지가 있습니다. 최상위인 라데온 아쿠아 팩은 수냉 버전 라데온 RX 베가64 팩에 699달러, 일반 카드인 라데온 RX 베가 64 기반 팩은 599 달러며 한정판이 포함됩니다. 이 밖에 라데온 RX 베가 56 기반 레드팩이 499달러로 나옵니다.
라데온 팩
3종류의 라데온 팩
라데온 RX 라인업
베가 기반 라데온 프로와 라데온 인스팅트
AMD는 베가 기반의 전문가용 GPU인 라데온 프로도 출시합니다. 베가 10 기반 라데온 프로는 2종류입니다. 일반형인 라데온 프로 WX9100과 플래시 스토리지를 탑재한 라데온 프로 SSG입니다. 이 라데온 프로 SSG는 어떤 의미에선 진정한 베가 10입니다.
라데온 프로 WX9100는 12.3TFLOPS로 라데온 RX 베가 64보다 클럭이 약간 낮은 듯 합니다. 라데온 RX와 가장 큰 차이는 비디오 메모리 탑재 용량입니다. 라데온 RX 베가 64가 HBM2 8GB인데 라데온 프로 WX9100은 16GB입니다.
라데온 프로 WX9100
HBM2는 1개의 DRAM 다이가 8Gbit(ECC를 포함한 것이며 실제론 9Gbit). 베가 10은 HBM2를 2스택 쓰니까 라데온 프로 WX9100의 HBM2는 8Hi(8개의 DRAM 적층)이 됩니다. 8Hi의 경우 HBM2는 2레벨 구성입니다.
그러나 라데온 프로 WX9100의 메모리 대역폭은 484GB/s로 라데온 rX 베가 64와 같으며 전송 속도는 1.9Gtps에 가깝습니다. HBM2는 전송 속도가 떨어지지 않음을 알 수 있습니다. 라데온 프로 WX9100의 TDP는 250W입니다.
라데온 프로 SSG
라데온 프로 SSG는 2TB 플래시 스토리지가 장착됩니다. TDP가 300W로 오르는 것 외에 다른 차이는 없습니다. 낸드 플래시 스토리지는 PCI Express 연결 NVMe로 그래픽카드 위에 장착됩니다. 베가 GPU는 PCI-E 브릿지 칩을 통해 연결됩니다. GPU에서 CPU를 통하지 않고 PCI-E에서 직접 SSG에 액세스할 수 있기에 읽기 8GB/s, 쓰기 6GB/s의 높은 성능을 냅니다. SSG는 HBCC에 의해 관리됩니다. 애플리케이션에선 SSG에 액세스하기 위한 API를 제공합니다.
HBCC에서 PCI Express 버스 사이에 PCI-E 브릿지가 있고 NVMe의 SSG 스토리지가 연결
고성능 병렬 프로세서에 광대역 스택 구조의 DRAM과 대용량 비휘발성 메모리를 연결한다는 아이디어는 AMD가 이전부터 계속 해온 생각입니다. 라데온 프로 SSG는 그 구상의 첫 걸음을 내딛은 GPU이기도 합니다.
AMD가 엑사 스케일 슈퍼 컴퓨터를 위해 제안한 메모리 아키텍처
베가 10에서는 이 외에도 GPU 컴퓨팅을 위한 라데온 인스팅트 제품을 제공합니다. 라데온 인스팅트 MI25에서 HPC(High Performance Computing) 외에 높은 FP16 성능을 살려 딥 러닝의 학습 단계를 공략합니다.