1.jpg

 

AMD의 새로운 플래그쉽 그래픽카드인 라데온 R9 퓨리의 아키텍처 설명과 벤치마크입니다. AMD 라데온 R9 퓨리 시리즈는 일체형 수냉 쿨러를 사용한 R9 퓨리 X, 공냉 쿨러를 사용한 R9 퓨리, 카드 길이를 152mm로 줄이고 공냉 쿨러를 사용한 R9 나노, 아직 이름이 공개되지 않은 모델까지 총 4가지가 있는데요.

 

2.jpg

 

Raja Koduri(Corporate Vice President, Visual Computing, AMD) 

 

이들 그래픽카드의 가장 큰 특징은 High Bandwidth Memory라 불리는 HBM 적층 메모리를 사용했다는 것인데요. HBM을 사용해 R9 퓨리에서 무엇이 달라졌는지를 우선 설명하고자 합니다.

 

3.jpg

 

라데온 R9 퓨리는 코드네임 피지(Fiji) GPU를 씁니다. 기존의 라데온 R9 290에 쓰인 하와이와 같은 TSMC의 28nm 공정을 사용해서 제조된 것으로, 다이 크기는 438제곱mm에서 596제곱mm로 36%, 트랜지스터 수는 62억개에서 89억개로 44% 늘어났습니다.

 

4.jpg

 

트랜지스터 수에 비해 크기가 그리 늘어나지 않은 건 설계 최적화 덕분일 것입니다. 또 피지는 적층 메모리를 온 패키지로 구현해 패키지(칩)의 크기가 1011제곱mm로 꽤 큽니다. 덕분에 기판 위에선 메모리를 찾아볼 수 없지만요.

 

5.jpg

 

다만 피지의 기본적인 구조는 라데온 R9 285에서 쓰인 통가 코어를 그대로 사용하고 있습니다. 다른 커널로 전환 실행하는 데 도움을 주는 GPU Graphics Preemption, GPU Compute Context Switch 등의 요소는 그대로 제공하며, 미니 GPU라 할 수 있는 쉐이더 엔진이 4 클라스터 구성된 것도 통가나 하와이와 같습니다.

 

6.jpg

 

피지는 쉐이더 엔진 1개에 16개의 컴퓨트 유닛을 탑재하며, 컴퓨트 유닛 한개에는 또 4개의 스트림 프로세서가 16 클러스터 있습니다. 그러니까 피지는 64(Stream Processor) × 16(Compute Unit) × 4(Shader Engine) = 4096개의 쉐이더 프로세서를 갖춘 셈입니다.

 

하와이는 64x11x4=2816개, 통가는 64x8x4=2048개니 피지는 쉐이더 엔진 하나의 컴퓨트 유닛 수를 늘려 더 큰 규모의 프로세서를 구축했다고 보면 됩니다. 쉐이더 엔진마다 하나씩 들어가는 지오메트리 프로세서에는 큰 변경이 없을 듯 합니다. 또 GPGPU 작업을 오더하는 Asynchronus Compute Engine(ACE)의 수도 여전히 8개 그대로입니다.

 

렌더링 결과를 메모리에 출력하는 렌더 백 엔드가 쉐이더 엔진 1개에 4개씩 들어가는 것도 하와이/통가와 같습니다. 쉐이더 엔진의 수가 4개 그대로니 렌더 백 엔드의 수도 총 16개입니다. 1개의 렌더 백 엔드는 1클럭 당 4픽셀의 능력을 갖췄으니 NVIDIA ROP 64개와 같다고 볼 수 있습니다.

 

7.jpg

 

이렇게 GPU 코어 자체에 큰 변화는 없습니다. 그래서 AMD는 피지의 가장 큰 변화를 HBM의 사용이라 설명합니다. HBM은 메모리 칩을 쌓아(적층, 스택) TSV(Through Silicon Via)로 배선을 연결하는 메모리 기술입니다.

 

8.jpg

 

Joe Macri (Corporate Fellow and CVP Product CTO, AMD)

 

경쟁사보다 빠르게 GDDR5에서 HBM으로 온 이유를 조 마크리 CTO는 이렇게 설명합니다. "GPU 세대가 바뀔 때마다 GPU 연산 성능은 1.4배가 늘어나며, 여기에 맞는 메모리 성능을 GDDR5로 실현하면 소비 전력이 기하급수적으로 상승합니다. 최근엔 PC 시스템의 소비 전력을 억제하려는 경향이 있기에 제한된 전력을 GPU와 메모리에 배분해야 하는데, 현 상황에선 GPU 성능과 메모리 성능을 모두 올릴 수 없습니다. 이러한 사태에 대처할 수 있는 가장 간단한 해결책이 HBM입니다".

 

9.jpg

 

최근 그래픽 메모리의 탑재량은 점점 늘어나고 있습니다. 메모리 칩의 수가 늘어나면 그래픽카드에서 많은 영역을 차지하게 되지요. HBM은 GDDR5에 비해 차지하는 공간이 매우 작아, 1GB의 경우 GDDR5 대비 6%의 면적만으로 HBM 구성이 가능하다고 합니다.

 

10.jpg

 

메모리 칩은 GPU를 둘러싸야 하기에 면적을 차지할 수밖에 없습니다. GPU에서 거리가 떨어지거나 각 칩의 거리가 제각각이라면 성능에 영향을 주니까요. 허나 다수의 메모리 칩을 적층해 GPU 바로 옆에 붙일 수 있는 HBM이라면 기판이 그만큼 작아집니다.

 

11.jpg

 

이것은 그래픽카드 자체의 길이를 줄이는 데에도 도움을 줍니다. R9 퓨리 X의 경우 카드 길이가 190.5mm밖에 안된다네요. R9 290X의 레퍼런스 디자인이 278mm였으니 69%까지 줄어든 것입니다.

 

12.jpg

 

그래픽 메모리를 프로세서 내부에 내장하는 방법도 있지만, 대용량 DRAM을 프로세서에 내장하면 다이가 커지면서 트랜지스터 수가 늘어납니다. 또 DRAM에 불량이 있을 경우 수율도 떨어집니다. HBM은 프로세서와 따로 제조된 메모리 칩을 패키지에 구현하기에, 프로세서 다이에 메모리를 내장해 생산하는 것보다 제조 단가가 낮습니다.

 

13.jpg

 

메모리 버스 대역폭을 높이는 간단한 해결책은 메모리 클럭을 높이는 것이지만 그것도 이젠 더 이상 현실적이지 않습니다. 클럭이 높아질수록 안정적인 데이터 전송을 위해 신호 전압을 올려야 하기에, 소비 전력을 줄여 나가는 현 상황과 거슬리게 됩니다. HBM은 메모리 버스 폭을 높이기 위해 클럭을 높이지 않고 적층을 늘려 메모리 버스를 넓히는 식으로 해결했습니다.

 

14.jpg

 

이것은 피지에 쓰인 HBM 1과 GDDR5의 비교입니다. GDDR5 칩 1개와 HBM 1의 1스택을 비교했을 때, GDDR5는 메모리 버스 폭은 32비트지만 하와이는 16스택이니 512비트고, 피지는 1스택에 1024비트에 4스택은 4096비트가 됩니다. 이러한 압도적인 버스 폭이 HBM의 특징입니다.

 

23.jpg

 

GDDR5의 경우 현재 쓰이는 최상위 제품의 클럭이 1750Mhz. GDDR5의 데이터 전송 속도는 4배니까 7GHz가 됩니다. 반면 HBM 1은 동작 클럭 500MHz에 데이터 속도는 2배니 1GHz가 됩니다. 클럭이 상당히 낮지만 HBM1은 4096 메모리 인터페이스니까-

 

GDDR5 : 32bit (= 4Bytes) × 7GHz = 28GB/s

HBM1 : 1024bit (= 128Bytes) × 1GHz = 128GB/s 

 

이렇게 HBM1의 대역폭이 압도적으로 높습니다.

 

15.jpg

 

또 소비 전력도 낮습니다. GDDR5가 1.5V인데 HBM 1은 1.3V입니다. 이건 HBM에서 클럭을 낮출 수 있어 그렇습니다. 덕분에 전력 효율도 GDDR5보다 HBM1이 우수하다고 할 수 있겠지요. 여기에 피지가 통가를 기반으로 한 코어이니 픽셀 데이터를 압축해 대역폭을 향상시키는 Lossless Delta Color Compression 기능도 쓸 수 있습니다.

 

16.jpg

 

R9 퓨리 X의 주요 스펙

 

NVIDIA는 차세대 GPU인 파스칼에서 1TB/s의 메모리 대역폭을 실현한다고 했는데, 이건 피지에서 사용하는 HBM이 1세대고 파스칼은 2세대를 사용할 예정이라 그렇습니다. AMD는 1세대 HBM만으로도 충분한 매리트가 있다고 판단, 먼저 도입한 것이지요. 또 용량의 경우 1세대는 1스택 당 4칩 적층이지만 2세대는 8칩 적층까지 가능하니 용량이 4GB에서 8GB로 늘어나게 됩니다.

 

17.jpg

 

이렇게 메모리 칩을 적층하면 GPU와 높이가 다르고, 메모리 칩이 쌓여 있으니 쿨링이 제대로 되지 않을거라 생각하실 분도 있습니다. 허나 구동 전압이 낮고 클럭이 느리기에 발열도 감소했고, 위/아래 메모리의 온도를 비교해 보니 실제로는 몇 도 차이밖에 안 났다고 하네요.

 

18.jpg

 

그리고 슬라이드 이미지에선 높이 차이가 대단히 큰 것처럼 보이지만, 실물을 보면 그렇게 크지 않습니다. 제조 단계에서 높이를 맞춰 패키징하며 몰드 수지를 씌우면서 사실상 차이가 없습니다. 또 온도가 높은 곳에서 낮은 곳으로 열이 이동하기에 GPU의 열이 메모리로 이동하게 되는데, 이를 활용해 적층 메모리를 GPU 코어의 히트 스프레더로 사용할 수도 있습니다.

 

19.jpg

 

정리해 봅시다. 피지에서 GPU 코어의 큰 변화는 없습니다. 컴퓨트 유닛의 수를 늘려 성능 향상을 높였지만 GCN 아키텍처 자체가 크게 변화했다고 할 순 없습니다. 무엇보다 달라진 건 HBM을 도입해서, 소비 전력과 효율의 개선, 카드의 길이와 전력 사용량이 크게 줄었다는 것이지요. 하이엔드 그래픽카드지만 8핀 보조전원 2개만 사용합니다.

 

20.jpg

 

다만 HDMI 2.0은 여전히 지원하지 않습니다. 제공하는 포트는 HDMI 1.4 포트 1개, 디스플레이포트 1.2 포트 3개입니다. AMD는 이에 대해 아직 HDMI 2.0을 지원하는 제품이 적다고 주장하지만 글쎄요.

 21.jpg

 

이번엔 AMD 라데온 R9 퓨리 X의 레퍼런스 그래픽카드 소개와 간단한 벤치마크를 봅시다. 출처는 http://www.expreview.com/41284-all.html

 

22.png

 

기존 제품과 경쟁 제품과의 스펙 비교.

 

24.jpg

 

AMD 라데온 R9 퓨리 X입니다.

  

26.jpg

 

7장의 날개를 쓴 쿨링팬이 라디에이터에 달려 있습니다.

 

27.jpg

 

사람의 피부와도 같은 느낌을 주는 재질인데, 이를 AMD는 소프트 터치라고 부릅니다.

 

28.jpg

 

라데온 로고는 알루미늄 합금.

 

29.jpg

 

여기에는 LED로 불도 들어옵니다. 위쪽의 작은 구멍은 듀얼 바이오스 전환 스위치.

 

30.jpg

 

8핀 보조전원 2개와 LED.

 

31.jpg

 

제로코어가 작동하면 녹색 불이 들어오고, 작업 상태에 따라 파란색이나 빨간색이 켜집니다.

 

32.jpg

 

뒷면엔 백플레이트가 있습니다.

 

33.jpg

 

확장 포트에 대해선 앞에서 설명했지요. 여기에 써진 라데온이란 글자가 인상적이네요.

 

35.jpg

 

수냉 쿨러는 쿨러마스터 FP120의 커스텀 버전입니다.

 

37.jpg

 

호스와의 연결 부위.

 

39.jpg

 

라디에이터.

 

40.jpg

 

쿨러 안쪽.

 

42.jpg

 

GPU는 구리, 모스펫은 써멀 패드가 붙어 있습니다.

 

43.jpg

 

그래픽카드에는 이렇게 장착됩니다.

 

44.jpg

 

호스의 연결 상태.

 

45.jpg

 

끝부분.

 

46.jpg

 

라디에이터와 그래픽카드.

 

47.jpg

 

기판입니다. 꽤 작은 편이지요.

 

48.jpg

 

퓨리 X GPU.

 

49.jpg

 

HBM 메모리.

 

50.jpg

 

4+2 페이즈 전원부로 최대 400A 공급.

 

51.jpg

 

뒷면에도 부품이 빼곡하네요.

 

52.jpg

 

IR3567B의 컨트롤러.

 

53.jpg

 

쿨러와의 연결 포트.

 

54.png

 

벤치마크 환경.

 

55.png

 

R9 퓨리 X와 R9 290X와 1080p에서 비교입니다. 30~40% 정도 성능이 높네요. GTA 5, 문명, 씨프에선 별 차이가 없지만 맨틀에선 차이가 더 큽니다.

 

56.png

 

해상도를 4K로 높이면 퓨리가 더 높은 성능을 냅니다. 평균 38% 정도 차이가 나네요.

 

57.png

 

R9 퓨리 X와 GTX 980을 비교해 봅시다. 컴퓨트마크처럼 압도적인 차이를 보이는 경우도 있지만, 다른 테스트에선 앞서거니 뒤서거니 합니다. 3D마크, 툼레이더, 위처 3에서 앞서네요. 평균 5.37%.

 

58.png

 

해상도를 4K로 높이면 성능 차이가 꽤 벌어집니다. 26%.

 

59.png

 

그럼 지포스 GTX 980 말고 GTX 980 Ti와 비교하면 어떨까요. R9 퓨리 X의 성능이 10~20% 낮습니다. GTX 980 Ti가 이 정도인데 타이탄 X와 비교할 필요는 없겠지요?

 

60.png

 

4K로 해상도를 높이면 성능 차이가 많이 줄어들긴 하네요.

 

61.png

 

전력 사용량은 헤븐 벤치마크만 보면 R9 290X보다 많이 줄은 것처럼 보이지만 퓨처마크에선 그렇지도 않습니다. 메모리 클럭을 줄였다고는 해도 GPU가 높은 클럭으로 작동하니까요.

 

62.png

 

GPU 온도는 꽤 낮습니다. 이건 수냉 쿨러를 사용했으니 당연하겠지요.

 

63.jpg

 

카탈리스트 컨트롤 센터에서 HBM 메모리의 클럭을 조절할 수는 없었습니다.

 

64.jpg

 

그래서 MSI 애프터버너를 동원했는데 여기에서도 메모리 클럭은 조절 불가. 코어 클럭과 TDP는 조절 가능했다네요. 1170MHz로 오버하니 불안정했고 1150MHz에서 안정화. 3D마크 파이어스트라이크 총전에선 5% 오른 13658점, GPU 스코어는 7.4% 오른 17110점.

 

100.jpg

 

GTX 980, GTX 980 Ti와 R9 퓨리 X의 성능을 비교한 건 앞에서 보셨고, 마지막으로 가격을 보면 대충 답이 나오지요.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.