Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 http://pc.watch.impress.co.jp/docs/colum...73276.html

AMD가 새로운 GPU를 정식으로 발표

 

AMD의 여름 대공세가 시작됐습니다. AMD는 8월에 새로운 GPU인 라데온 RX 베가64 (Vega10)과, 16코어 CPU인 라이젠 쓰레드리퍼를 출시합니다. 2017년의 AMD 신제품이 중요한 건 구조가 크게 변화하기 때문입니다. 젠 아키텍처 CPU는 마이크로 아키텍쳐를 새로 바꿨으며, 이번 베가에서 GPU도 마이크로 아키텍처가 달라졌습니다. AMD에게 있어서 5년만에 GPU 마이크로 아키텍처를 대폭 변경한 것입니다. 

 

1.jpg

 

마이크로 아키텍처를 혁신한 베가

 

 

2.jpg

 

라데온 RX 베가64로 상품화되는 베가 10

 

3.jpg

 

라데온 베가 64의 스펙 

 

라데온 RX 베가64는 AMD가 2년만에 내놓은 플래그쉽 GPU입니다. AMD는 작년에 하이엔드 GPU를 발표하지 않았기에 하이엔드 GPU는 폴라리스 세대를 지나서 베가가 됩니다. 이번에 나오는 건 최상위 모델인 베가 10입니다.

 

베가 10 아키텍처의 가장 큰 특징은 NVIDIA와 같은 대형 다이가 아니라, 다이 크기를 줄였다는 것입니다. 다이 크기가 486제곱mm로 NVIDIA의 볼테 세대 GV100의 815제곱mm의 60% 수준입니다. AMD의 2015년 플래그십 GPU인 라데온 R9 퓨리 X(피지)의 596제곱mm의 82% 수준이며, 트랜지스터 수는 125억개로 이 역시 NVIDIA보다 작습니다. HBM2도 2스택이니 NVIDIA의 절반입니다.

 

4.jpg

 

베가 10의 특징 

 

NVIDIA는 현세대의 마이크로 아키텍처에서 딥 러닝을 공략하고 있습니다. 딥 러닝과 그래픽용을 완전히 나누는 길을 택한 것으로 보입니다. 이에비해 AMD는 딥 러닝 기능을 추가하면서도 거기에 쓰는 트랜지스터를 억제했습니다. 결과적으로 베가10은 그래픽 성능이 높지만 제조 비용은 낮춰 균형을 잡은 GPU가 됩니다.

 

5.jpg

 

베가 10

 

6.jpg

 

피지와 베가

 

 

코어 수는 같지만 성능은 47% 향상 

 

베가 10의 CU (Compute Unit) 수는 64개입니다. FP32 유닛(AMD는 스트림 프로세서라 가리킴) 수는 4096개로, 2015년의 라데온 r9 퓨리 X(피지)와 같은 수입니다. 하지만 FP32의 성능은 라데온 R9 퓨리 X가 8.6TFLOPS인데 라데온 RX 베가 64는 12.66TFLOPS로 47% 나 성능이 높아졌습니다.

 

7.jpg


베가 10의 전체 구성


대폭적인 성능 향상은 칩의 클럭 향상으로 이루어진 것입니다. 퓨리 X에서 동작 클럭은 1,050MHz였으나 라데온 RX 베가 64는 베이스 클럭 1,247MHz, 부스트 클럭 1,546MHz입니다. 동작 클럭의 상승이 그대로 성능 향상으로 이어졌습니다.

 

베가 아키텍처는 기존의 GCN에 비해 기본 파이프 라인 스테이지가 변하지 않았습니다. 벡터 유닛인 스트림 프로세서의 연산 파이프는 4 사이클 그대로입니다. 그러나 경로는 튜닝이 철저하게 이루어졌습니다.

 

논리 회로는 패스에 의해 지연이 달라지며 딜레이가 특히 긴 패스일수록 중요합니다. 프로세서의 동작 클럭은 딜레이가 긴 패스에 의해 제한됩니다. 따라서 패스를 조정해 지연을 줄이면 동작 클럭이 향상됩니다. 베가 10에선 패스를 튜닝하고 14nm LPP 프로세스를 조합해 1.7GHz 이상의 클럭이 가능해졌습니다.

 

8.jpg

 

베가는 회로 설계를 통해 고클럭을 실현

 

9.jpg

 

CPU 스타일의 커스텀 회로 설계 SRAM을 레지스터에 채택 

 

파이프라인 자체를 바꾸지 않은 건, 파이프라인을 깊게 하고 스트림 프로세서 연산의 대기 시간을 늘리면, 파이프라인을 채우면서 많은 스레드가 필요해지기 때문이라 추측됩니다. 쓰레드 병렬성을 유지하기 위해서는 레지스터를 비롯해 더 많은 자원이 필요하게 됩니다. 반면 패스 조정은 아키텍처를 바꿀 필요가 없습니다.

 

 

 

GPU 코어의 마이크로 아키텍쳐를 쇄신


베가 세대는 CU (Compute Unit)의 마이크로 아키텍처가 크게 개편되었습니다. 새로운 디자인의 차세대 CU, NCU (Next-Generation Compute Unit)를 씁니다. NCU의 가장 큰 특징은 Rapid Packed Math (RPM)라 부르는 Packed (SIMD) 포맷의 FP16 반정밀도 부동 소수점 연산 지원입니다.

 

10.jpg

 

Packed FP16을 지원하는 베가

 

11.jpg

 

12.jpg

 

네이티브 명령 세트도 확장 

 

AMD GPU는 단정밀도 FP32 (32-bit 부동 소수점) 연산에 최적화된 파이프 라인을 갖춥니다. 그러나 베가는 32비트 파이프에서 16비트 부동소수점 연산 2개 병렬의 SIMD (Single Instruction, Multiple Data)로 실행, FP16에선 FP32의 2배 성능을 낼 수 있습니다.

 

FP16은 모바일 그래픽 등에서 쓰이는 다른 머신 러닝에서도 급격히 늘어나고 있습니다. 머신 러닝의 학습 단계에서 데이터 정확도를 감내한 FP16을 많이 쓰기 때문입니다. 베가에서 FP16은 일반 연산도 지원합니다.

 

등으로 사용되고있는 다른 기계 학습에서도 급속히 침투하고있다. 기계 학습 교육 페이즈에서 데이터 정확도를 숙였다 FP16의 이용이 진행되고 있기 때문이다. Vega에서 FP16은 적 일본 재래의 주산 등 일반 연산은 지원하고있다.

 

13.jpg

 

8비트 정수 연산 


베가 아키텍처는 Packed 8비트 정수 연산도 지원합니다. 그러나 SAD (Sum of Absolute Difference) 연산만 지원합니다. 동영상과 이미지 처리용이지 머신 러닝을 위한 구현이 아닙니다. 이 외에도 베가 차키텍처는 지오메트리 파이프 라인의 혁신과 새로운 캐시 회로 설계, 프리싱크 확장 등 여러 부분에서 아키텍처가 확장됐습니다.

 

14.jpg

 

라데온 RX 베가64

 

15.jpg

 

베가에 추가된 새로운 쉐이더

 

 


이름
Radeon Pro SSG Radeon Pro WX9100 Radeon RX Vega64 Liquid Cooled Edition Radeon RX Vega64
코드네임 Vega10 Vega10 Vega10 Vega10
베이스 클럭     1,406MHz 1,247MHz
코어 클럭 (최고) 1,500MHz? 1,500MHz? 1,677MHz 1,546MHz
아키텍처 GCN 5.0 GCN 5.0 GCN 5.0 GCN 5.0
FP32 프로세서 4,096 4,096 4,096 4,096
CU  64 64 64 64
FP32 MAD / CU 64 64 64 64
FP16 프로세서 8,192 8,192 8,192 8,192
INT8 프로세서 16,384 16,384 16,384 16,384
FP32 GFLOPS 10,215 10,215 11,518 10,215
FP32 GFLOPS (boost clock) 12,288 12,288 13,738 12,665
FP16 GFLOPS 20,431 20,431 23,036 20,431
FP16 GFLOPS (boost) 24,576 24,576 27,476 25,330
Texture Units 256 256 256 256
Texture Fill Rate 319.2GT / s 319.2GT / s 359.9GT / s 319.2GT / s
ROP Units 64 64 64 64
Pixel Fillrate 79.81Gpixels / s 79.81Gpixels / s 89.98Gpixels / s 79.81Gpixels / s
L2 cache 4,096KB 4,096KB 4,096KB 4,096KB
메모리 종류 HBM2 HBM2 HBM2 HBM2
메모리 전송 속도 1,892Mtps? 1,892Mtps? 1,892Mtps? 1,892Mtps?
비디오 메모리 인터페이스 폭 2,048bit 2,048bit 2,048bit 2,048bit
메모리 대역폭 (GB / Sec) 484GB / s 484GB / s 484GB / s 484GB / s
내장 메모리 16GB 16GB 8GB 8GB
DRAM 용량 / 다이 8Gb 8Gb 8Gb 8Gb
DRAM 개수 16 개 16 개 8 개 8 개
SSG (NAND Storage) 2TB      
제조 공정 기술 14nm 14nm 14nm 14nm
제조 공정 기술의 특징 14LPP 14LPP 14LPP 14LPP
트랜지스터 수 12,500M 12,500M 12,500M 12,500M
다이 크기 (첫 번째 다이) 486 평방 mm 486 평방 mm 486 평방 mm 486 평방 mm
TDP Max 300W 250W 345W 295W

 

이름 Radeon RX Vega56 Radeon RX 480 Radeon R9 Fury X
코드네임 Vega10 Polaris 10 (Ellesmere) Fiji
베이스 클럭 1,156MHz 1,100MHz 1,050MHz
코어 클럭 (최고) 1,471MHz 1,266MHz 1,050MHz
아키텍처 GCN 5.0 GCN 4.0 GCN3
프로세서 수 FP32 3584 2304 4,096
CU 수 56 36 64
FP32 MAD / CU 64 64 64
프로세서 수 FP16 7,168 2,304 4,096
프로세서 수 INT8 14,336
FP32 GFLOPS 8,286 5,069 8,602
FP32 (boost clock) GFLOPS 10,544 5,834 8,602
FP16 GFLOPS 16,572 5,069 8,602
FP16 GFLOPS (boost) 21,088 5,834 8,602
Texture Units 224 144 256
Texture Fill Rate 258.9GT / s 158.4GT / s 268.8GT / s
ROP Units 64 32 64
Pixel Fillrate 73.98Gpixels / s 35.20Gpixels / s 67.20Gpixels / s
L2 cache 4,096KB 2,048KB 2,048KB
메모리 종류 HBM2 GDDR5 HBM1
메모리 전송 속도 1,700Mtps 7,000Mtps 1,000Mtps
비디오 메모리 인터페이스 폭 2,048bit 256bit 4,096bit
메모리 대역폭 (GB / Sec) 435GB / s 224GB / s 512GB / s
내장 메모리 8GB 8GB 4GB
DRAM 용량 / 다이 8Gb 4Gb 2Gb
DRAM 개수 8 개 16 개 16 개
SSG (NAND Storage)      
제조 공정 기술 14nm 14nm 28nm
제조 공정 기술의 특징 14LPP    
트랜지스터 수 12,500M 5,700M 8,900M
다이 크기 (첫 번째 다이) 486 평방 mm 232 평방 mm 596 평방 mm
TDP Max 210W 150W 275W


방대한 메모리 공간을 GPU가 사용하는 HBCC


베가 10은 스택 구조 DRAM인 HBM2을 지원합니다. AMD는 라데온 R9 퓨리(피지)에서 HBM1을 지원했습니다. 이번에는 데이터 전송율이 2배가 된 HBM2를 탑재합니다. 피지는 데이터 전송 속도가 1Gtps인 HBM를 4 스택 탑재합니다. 메모리 인터페이스는 4,096비트며 메모리 대역폭은 512GB/s입니다.

 

현재 AMD는 베가 10에 2048비트 HBM2 인터페이스를 구현했습니다. HBM2 메모리 스택은 2개로 피지의 절반입니다. 그러나 HBM2 자체의 데이터 전송 속도가 높아지면서 메모리 대역폭은 484GB/s를 달성했습니다. 또한 HBM1에서 DRAM 다이 용량은 2Gbit였지만 HBM2는 8Gbit가 되면서 2개의 스택으로도 8GB의 용량을 달성합니다.

 

16.jpg

 

베가의 중요한 특징인 HBCC (High-Bandwidth Cache Controller)


또한 베가는 HBCC (High-Bandwidth Cache Controller)라고 부르는 새로운 유닛을 탑재했습니다. HBCC은 GPU의 메모리뿐만 아니라 CPU의 시스템 메모리와 스토리지, GPU에 탑재한 플래시 스토리지 등을 원활하게 GPU 메모리로 처리할 수 ​​있는 가상 메모리 시스템입니다. 베가 아키텍처는 CPU 시스템 메모리의 일부나 스토리지를 HBCC의 메모리 공간으로 처리할 수 있습니다.

 

그리고 온 패키지 HBM2을 캐시 메모리처럼 취급합니다. 인클루시브 캐시 모델에선 HBM2가 새로운 캐시 계층처럼 행동합니다. 익스클루시브 캐시 모델에선 HBM2와 GPU 외부 메모리가 함게 붙어 있는 메모리로 맵핑됩니다. 기본적인 발상은 액세스 빈도가 낮은 데이터는 먼 메모리에, 액세스 빈도가 높은 데이터는 가까운 HBM2에 두자는 것으로, 원활하게 대규모 작업 세트를 취급할 수 있도록 하자는 것입니다.

 

17.jpg


GPU의 성능과 메모리 용량의 차이

 

18.jpg

 

페이지 기반 HBCC의 메모리 관리

 

캐시된 HBCC 컨트롤 단위는 페이지입니다. 베가는 여러 페이지 크기를 동시에 처리할 수 있습니다. 그래픽에서 많이 사용되는 순차 액세스가 생기는 데이터 유형은 대형 페이지에 저장합니다. 분산된 액세스가 발생하는 데이터는 작은 페이지에 저장합니다. 베가 10에서는 512TB까지의 가상 주소 공간을 지원합니다.

 

19.jpg


익스클루시브 캐시 모드

 

20.jpg

 

인클루시브 캐시 모드

 

 

라데온 RX 베가 64의 제품 라인업 

 

라데온 RX 베가는 여러 SKU가 있습니다. 풀 스펙인 라데온 RX 베가64가 499달러로 출시됩니다. 라데온 RX 베가64에선 64개의 NCU가 활성화되기에 64라고 숫자가 붙는 듯 합니다.

 

라데온 RX 베가64에선 64개의 NCU에 FP32 연산 유닛은 총 4096개가 됩니다. 동작 클럭은 부스트 ​​1,546MHz에 피크 성능은 FP32 12.66TFLOPS, FP16 25.3TFLOPS. 라데온 RX 베가64는 한정판이 따로 나옵니다.

 

21.jpg

 

라데온 RX 베가 64 한정판

 

22.jpg

 

라데온 RX 베가 64 라인업

 

23.jpg

 

라데온 RX 베가 라인업의 스펙

 

 

24.jpg

 

수냉 버전의 라데온 RX 베가 64

 

라데온 RX 베가 64에는 수냉 쿨러를 쓰는 라데온 RX 베가 64 수냉 버전이 있습니다. 쿨링 성능을 높여 클럭을 올린 버전입니다. 기본 1,406MHz, 부스트 1,677MHz에 최고 성능은 FP32 13.7TFLOPS가 됩니다. FP16는 27.5TFLOPS에 달합니다.

 

라데온 RX 베가 제품군은 보급형인 라데온 RX 56이 399달러로 출시됩니다. 이건 56 NCU에 3,584FP32 유닛, 최대 성능은 10.5TFLOPS. 동작 클럭은 라데온 RX 베가 64보다 약간 줄어 기본 1,156MHz / 부스트 1,471MHz가 됩니다. TDP로 비교하면 베가 56이 210W, 베가 64가 295W, 베가 64 수냉이 345W입니다.

 

25.jpg

 

라데온 RX 베가 64

 

26.jpg

 

라데온 RX 베가 56

 

 

라데온 팩 번들 패키지 

 

AMD는 라데온 RX 베가 64의 발매에 맞춰 추가 할인을 더한 번들 제품인 라데온 팩도 준비했습니다. 라데온 RX 베가 카드 외에 모니터, CPU, 메인보드의 할인과 게임 패키지를 묶은 것입니다. 

 

34인치 모니터인 삼성 CF791 프리싱스카 200달러 할인, 라이젠 7과 X370 메인보드의 100달러 할인, 120달러 상당의 게임 패키지(지역에 따라 다름)이 포함됩니다. 라데온 RX 베가 외에 라이젠 7 플랫폼과 프리싱크 모니터까지 갖추려는 사람에게 좋은 조합입니다. 라데온 팩 역시 8월에 나옵니다. 

 

팩은 3가지가 있습니다. 최상위인 라데온 아쿠아 팩은 수냉 버전 라데온 RX 베가64 팩에 699달러, 일반 카드인 라데온 RX 베가 64 기반 팩은 599 달러며 한정판이 포함됩니다. 이 밖에 라데온 RX 베가 56 기반 레드팩이 499달러로 나옵니다.

 

27.jpg

 

라데온 팩

 

 

28.jpg

 

3종류의 라데온 팩

 

29.jpg

 

라데온 RX 라인업

 

 

베가 기반 라데온 프로와 라데온 인스팅트 

 

AMD는 베가 기반의 전문가용 GPU인 라데온 프로도 출시합니다. 베가 10 기반 라데온 프로는 2종류입니다. 일반형인 라데온 프로 WX9100과 플래시 스토리지를 탑재한 라데온 프로 SSG입니다. 이 라데온 프로 SSG는 어떤 의미에선 진정한 베가 10입니다.

 

라데온 프로 WX9100는 12.3TFLOPS로 라데온 RX 베가 64보다 클럭이 약간 낮은 듯 합니다. 라데온 RX와 가장 큰 차이는 비디오 메모리 탑재 용량입니다. 라데온 RX 베가 64가 HBM2 8GB인데 라데온 프로 WX9100은 16GB입니다.

 

30.jpg

 

라데온 프로 WX9100
 

HBM2는 1개의 DRAM 다이가 8Gbit(ECC를 포함한 것이며 실제론 9Gbit). 베가 10은 HBM2를 2스택 쓰니까 라데온 프로 WX9100의 HBM2는 8Hi(8개의 DRAM 적층)이 됩니다. 8Hi의 경우 HBM2는 2레벨 구성입니다.

 

그러나 라데온 프로 WX9100의 메모리 대역폭은 484GB/s로 라데온 rX 베가 64와 같으며 전송 속도는 1.9Gtps에 가깝습니다. HBM2는 전송 속도가 떨어지지 않음을 알 수 있습니다. 라데온 프로 WX9100의 TDP는 250W입니다.

 

31.jpg

 

라데온 프로 SSG

 

라데온 프로 SSG는 2TB 플래시 스토리지가 장착됩니다. TDP가 300W로 오르는 것 외에 다른 차이는 없습니다. 낸드 플래시 스토리지는 PCI Express 연결 NVMe로 그래픽카드 위에 장착됩니다. 베가 GPU는 PCI-E 브릿지 칩을 통해 연결됩니다. GPU에서 CPU를 통하지 않고 PCI-E에서 직접 SSG에 액세스할 수 있기에 읽기 8GB/s, 쓰기 6GB/s의 높은 성능을 냅니다. SSG는 HBCC에 의해 관리됩니다. 애플리케이션에선 SSG에 액세스하기 위한 API를 제공합니다.

 

32.jpg


HBCC에서 PCI Express 버스 사이에 PCI-E 브릿지가 있고 NVMe의 SSG 스토리지가 연결

 

고성능 병렬 프로세서에 광대역 스택 구조의 DRAM과 대용량 비휘발성 메모리를 연결한다는 아이디어는 AMD가 이전부터 계속 해온 생각입니다. 라데온 프로 SSG는 그 구상의 첫 걸음을 내딛은 GPU이기도 합니다.

 

33.jpg

 

AMD가 엑사 스케일 슈퍼 컴퓨터를 위해 제안한 메모리 아키텍처 

 

베가 10에서는 이 외에도 GPU 컴퓨팅을 위한 라데온 인스팅트 제품을 제공합니다. 라데온 인스팅트 MI25에서 HPC(High Performance Computing) 외에 높은 FP16 성능을 살려 딥 러닝의 학습 단계를 공략합니다.

 

34.jpg

 



  • ?
    RuBisCO 2017.08.01 03:49
    이전 자료랑은 이야기가 약간 다르군요. 파이프라인을 깊게 팠다고 들었던걸로 기억하는데 파이프라인은 그대로 유지한 거였군요.
  • profile
    야메떼 2017.08.01 08:28
    피지보다 오히려TU가 줄어버렸네용.......
    아무래도 저게 게이밍 성능이 안나오는 원인이 아닐까 싶습니다.....
    너무 연산쪽으로 치우쳐 버린 느낌이네용.....
  • profile
    유자나무 2017.08.01 13:36
    작년부터 소문만 무성했던 제품이 드디어 나오네요.

    그런데 너무 늦게 나오는거 아닌가 싶군요...

    거기다 물량도 부족하다던데... 그냥 라데온 소수매니아만을 위해서 나오는 것 같네요. ㅎㅎ
  • ?
    다 좋네요. tdp만 빼고.
  • profile
    볼케이지 2017.08.01 23:03
    수냉 성능이 어느정도 나올지 궁금해요.
    이번엔 제발 초기 물량이 충분했으면 싶네요,
  • ?
    놀부심뽀 2017.08.01 23:28
    무슨말인지 하나도 모르겠...Orz
  • profile
    허태재정      본업보다는부업 2017.08.03 07:01
    공정과 클럭으로만으로 성능이 올라 간듯한 느낌이...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 등록된 글이 없습니다.
목록
Board Pagination Prev 1 ... 3 4 5 6 Next
/ 6

최근 코멘트 30개
라데니안
03:40
포인트 팡팡!
03:16
Lynen
03:16
유카
03:08
린네
02:29
린네
02:24
이수용
02:22
카에데
02:21
별밤전원주택
02:15
린네
02:14
별밤전원주택
02:13
카에데
02:10
nsys
02:09
빈도
01:58
빈도
01:58
마초코
01:41
이계인
01:40
이계인
01:38
세라프
01:37
냥뇽녕냥
01:36
세라프
01:34
세라프
01:31
니즛
01:31
파팟파파팟
01:30
세라프
01:29
유지니1203
01:29
니즛
01:27
니즛
01:27
포인트 팡팡!
01:19
白夜2ndT
01:19

한미마이크로닉스
MSI 코리아
AMD
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소