기글 하드웨어 뉴스 리포트
출처: : | http://www.4gamer.net/games/302/G030238/20150623047/ |
---|
AMD의 새로운 플래그쉽 그래픽카드인 라데온 R9 퓨리의 아키텍처 설명과 벤치마크입니다. AMD 라데온 R9 퓨리 시리즈는 일체형 수냉 쿨러를 사용한 R9 퓨리 X, 공냉 쿨러를 사용한 R9 퓨리, 카드 길이를 152mm로 줄이고 공냉 쿨러를 사용한 R9 나노, 아직 이름이 공개되지 않은 모델까지 총 4가지가 있는데요.
Raja Koduri(Corporate Vice President, Visual Computing, AMD)
이들 그래픽카드의 가장 큰 특징은 High Bandwidth Memory라 불리는 HBM 적층 메모리를 사용했다는 것인데요. HBM을 사용해 R9 퓨리에서 무엇이 달라졌는지를 우선 설명하고자 합니다.
라데온 R9 퓨리는 코드네임 피지(Fiji) GPU를 씁니다. 기존의 라데온 R9 290에 쓰인 하와이와 같은 TSMC의 28nm 공정을 사용해서 제조된 것으로, 다이 크기는 438제곱mm에서 596제곱mm로 36%, 트랜지스터 수는 62억개에서 89억개로 44% 늘어났습니다.
트랜지스터 수에 비해 크기가 그리 늘어나지 않은 건 설계 최적화 덕분일 것입니다. 또 피지는 적층 메모리를 온 패키지로 구현해 패키지(칩)의 크기가 1011제곱mm로 꽤 큽니다. 덕분에 기판 위에선 메모리를 찾아볼 수 없지만요.
다만 피지의 기본적인 구조는 라데온 R9 285에서 쓰인 통가 코어를 그대로 사용하고 있습니다. 다른 커널로 전환 실행하는 데 도움을 주는 GPU Graphics Preemption, GPU Compute Context Switch 등의 요소는 그대로 제공하며, 미니 GPU라 할 수 있는 쉐이더 엔진이 4 클라스터 구성된 것도 통가나 하와이와 같습니다.
피지는 쉐이더 엔진 1개에 16개의 컴퓨트 유닛을 탑재하며, 컴퓨트 유닛 한개에는 또 4개의 스트림 프로세서가 16 클러스터 있습니다. 그러니까 피지는 64(Stream Processor) × 16(Compute Unit) × 4(Shader Engine) = 4096개의 쉐이더 프로세서를 갖춘 셈입니다.
하와이는 64x11x4=2816개, 통가는 64x8x4=2048개니 피지는 쉐이더 엔진 하나의 컴퓨트 유닛 수를 늘려 더 큰 규모의 프로세서를 구축했다고 보면 됩니다. 쉐이더 엔진마다 하나씩 들어가는 지오메트리 프로세서에는 큰 변경이 없을 듯 합니다. 또 GPGPU 작업을 오더하는 Asynchronus Compute Engine(ACE)의 수도 여전히 8개 그대로입니다.
렌더링 결과를 메모리에 출력하는 렌더 백 엔드가 쉐이더 엔진 1개에 4개씩 들어가는 것도 하와이/통가와 같습니다. 쉐이더 엔진의 수가 4개 그대로니 렌더 백 엔드의 수도 총 16개입니다. 1개의 렌더 백 엔드는 1클럭 당 4픽셀의 능력을 갖췄으니 NVIDIA ROP 64개와 같다고 볼 수 있습니다.
이렇게 GPU 코어 자체에 큰 변화는 없습니다. 그래서 AMD는 피지의 가장 큰 변화를 HBM의 사용이라 설명합니다. HBM은 메모리 칩을 쌓아(적층, 스택) TSV(Through Silicon Via)로 배선을 연결하는 메모리 기술입니다.
Joe Macri (Corporate Fellow and CVP Product CTO, AMD)
경쟁사보다 빠르게 GDDR5에서 HBM으로 온 이유를 조 마크리 CTO는 이렇게 설명합니다. "GPU 세대가 바뀔 때마다 GPU 연산 성능은 1.4배가 늘어나며, 여기에 맞는 메모리 성능을 GDDR5로 실현하면 소비 전력이 기하급수적으로 상승합니다. 최근엔 PC 시스템의 소비 전력을 억제하려는 경향이 있기에 제한된 전력을 GPU와 메모리에 배분해야 하는데, 현 상황에선 GPU 성능과 메모리 성능을 모두 올릴 수 없습니다. 이러한 사태에 대처할 수 있는 가장 간단한 해결책이 HBM입니다".
최근 그래픽 메모리의 탑재량은 점점 늘어나고 있습니다. 메모리 칩의 수가 늘어나면 그래픽카드에서 많은 영역을 차지하게 되지요. HBM은 GDDR5에 비해 차지하는 공간이 매우 작아, 1GB의 경우 GDDR5 대비 6%의 면적만으로 HBM 구성이 가능하다고 합니다.
메모리 칩은 GPU를 둘러싸야 하기에 면적을 차지할 수밖에 없습니다. GPU에서 거리가 떨어지거나 각 칩의 거리가 제각각이라면 성능에 영향을 주니까요. 허나 다수의 메모리 칩을 적층해 GPU 바로 옆에 붙일 수 있는 HBM이라면 기판이 그만큼 작아집니다.
이것은 그래픽카드 자체의 길이를 줄이는 데에도 도움을 줍니다. R9 퓨리 X의 경우 카드 길이가 190.5mm밖에 안된다네요. R9 290X의 레퍼런스 디자인이 278mm였으니 69%까지 줄어든 것입니다.
그래픽 메모리를 프로세서 내부에 내장하는 방법도 있지만, 대용량 DRAM을 프로세서에 내장하면 다이가 커지면서 트랜지스터 수가 늘어납니다. 또 DRAM에 불량이 있을 경우 수율도 떨어집니다. HBM은 프로세서와 따로 제조된 메모리 칩을 패키지에 구현하기에, 프로세서 다이에 메모리를 내장해 생산하는 것보다 제조 단가가 낮습니다.
메모리 버스 대역폭을 높이는 간단한 해결책은 메모리 클럭을 높이는 것이지만 그것도 이젠 더 이상 현실적이지 않습니다. 클럭이 높아질수록 안정적인 데이터 전송을 위해 신호 전압을 올려야 하기에, 소비 전력을 줄여 나가는 현 상황과 거슬리게 됩니다. HBM은 메모리 버스 폭을 높이기 위해 클럭을 높이지 않고 적층을 늘려 메모리 버스를 넓히는 식으로 해결했습니다.
이것은 피지에 쓰인 HBM 1과 GDDR5의 비교입니다. GDDR5 칩 1개와 HBM 1의 1스택을 비교했을 때, GDDR5는 메모리 버스 폭은 32비트지만 하와이는 16스택이니 512비트고, 피지는 1스택에 1024비트에 4스택은 4096비트가 됩니다. 이러한 압도적인 버스 폭이 HBM의 특징입니다.
GDDR5의 경우 현재 쓰이는 최상위 제품의 클럭이 1750Mhz. GDDR5의 데이터 전송 속도는 4배니까 7GHz가 됩니다. 반면 HBM 1은 동작 클럭 500MHz에 데이터 속도는 2배니 1GHz가 됩니다. 클럭이 상당히 낮지만 HBM1은 4096 메모리 인터페이스니까-
GDDR5 : 32bit (= 4Bytes) × 7GHz = 28GB/s
HBM1 : 1024bit (= 128Bytes) × 1GHz = 128GB/s
이렇게 HBM1의 대역폭이 압도적으로 높습니다.
또 소비 전력도 낮습니다. GDDR5가 1.5V인데 HBM 1은 1.3V입니다. 이건 HBM에서 클럭을 낮출 수 있어 그렇습니다. 덕분에 전력 효율도 GDDR5보다 HBM1이 우수하다고 할 수 있겠지요. 여기에 피지가 통가를 기반으로 한 코어이니 픽셀 데이터를 압축해 대역폭을 향상시키는 Lossless Delta Color Compression 기능도 쓸 수 있습니다.
R9 퓨리 X의 주요 스펙
NVIDIA는 차세대 GPU인 파스칼에서 1TB/s의 메모리 대역폭을 실현한다고 했는데, 이건 피지에서 사용하는 HBM이 1세대고 파스칼은 2세대를 사용할 예정이라 그렇습니다. AMD는 1세대 HBM만으로도 충분한 매리트가 있다고 판단, 먼저 도입한 것이지요. 또 용량의 경우 1세대는 1스택 당 4칩 적층이지만 2세대는 8칩 적층까지 가능하니 용량이 4GB에서 8GB로 늘어나게 됩니다.
이렇게 메모리 칩을 적층하면 GPU와 높이가 다르고, 메모리 칩이 쌓여 있으니 쿨링이 제대로 되지 않을거라 생각하실 분도 있습니다. 허나 구동 전압이 낮고 클럭이 느리기에 발열도 감소했고, 위/아래 메모리의 온도를 비교해 보니 실제로는 몇 도 차이밖에 안 났다고 하네요.
그리고 슬라이드 이미지에선 높이 차이가 대단히 큰 것처럼 보이지만, 실물을 보면 그렇게 크지 않습니다. 제조 단계에서 높이를 맞춰 패키징하며 몰드 수지를 씌우면서 사실상 차이가 없습니다. 또 온도가 높은 곳에서 낮은 곳으로 열이 이동하기에 GPU의 열이 메모리로 이동하게 되는데, 이를 활용해 적층 메모리를 GPU 코어의 히트 스프레더로 사용할 수도 있습니다.
정리해 봅시다. 피지에서 GPU 코어의 큰 변화는 없습니다. 컴퓨트 유닛의 수를 늘려 성능 향상을 높였지만 GCN 아키텍처 자체가 크게 변화했다고 할 순 없습니다. 무엇보다 달라진 건 HBM을 도입해서, 소비 전력과 효율의 개선, 카드의 길이와 전력 사용량이 크게 줄었다는 것이지요. 하이엔드 그래픽카드지만 8핀 보조전원 2개만 사용합니다.
다만 HDMI 2.0은 여전히 지원하지 않습니다. 제공하는 포트는 HDMI 1.4 포트 1개, 디스플레이포트 1.2 포트 3개입니다. AMD는 이에 대해 아직 HDMI 2.0을 지원하는 제품이 적다고 주장하지만 글쎄요.
이번엔 AMD 라데온 R9 퓨리 X의 레퍼런스 그래픽카드 소개와 간단한 벤치마크를 봅시다. 출처는 http://www.expreview.com/41284-all.html
기존 제품과 경쟁 제품과의 스펙 비교.
AMD 라데온 R9 퓨리 X입니다.
7장의 날개를 쓴 쿨링팬이 라디에이터에 달려 있습니다.
사람의 피부와도 같은 느낌을 주는 재질인데, 이를 AMD는 소프트 터치라고 부릅니다.
라데온 로고는 알루미늄 합금.
여기에는 LED로 불도 들어옵니다. 위쪽의 작은 구멍은 듀얼 바이오스 전환 스위치.
8핀 보조전원 2개와 LED.
제로코어가 작동하면 녹색 불이 들어오고, 작업 상태에 따라 파란색이나 빨간색이 켜집니다.
뒷면엔 백플레이트가 있습니다.
확장 포트에 대해선 앞에서 설명했지요. 여기에 써진 라데온이란 글자가 인상적이네요.
수냉 쿨러는 쿨러마스터 FP120의 커스텀 버전입니다.
호스와의 연결 부위.
라디에이터.
쿨러 안쪽.
GPU는 구리, 모스펫은 써멀 패드가 붙어 있습니다.
그래픽카드에는 이렇게 장착됩니다.
호스의 연결 상태.
끝부분.
라디에이터와 그래픽카드.
기판입니다. 꽤 작은 편이지요.
퓨리 X GPU.
HBM 메모리.
4+2 페이즈 전원부로 최대 400A 공급.
뒷면에도 부품이 빼곡하네요.
IR3567B의 컨트롤러.
쿨러와의 연결 포트.
벤치마크 환경.
R9 퓨리 X와 R9 290X와 1080p에서 비교입니다. 30~40% 정도 성능이 높네요. GTA 5, 문명, 씨프에선 별 차이가 없지만 맨틀에선 차이가 더 큽니다.
해상도를 4K로 높이면 퓨리가 더 높은 성능을 냅니다. 평균 38% 정도 차이가 나네요.
R9 퓨리 X와 GTX 980을 비교해 봅시다. 컴퓨트마크처럼 압도적인 차이를 보이는 경우도 있지만, 다른 테스트에선 앞서거니 뒤서거니 합니다. 3D마크, 툼레이더, 위처 3에서 앞서네요. 평균 5.37%.
해상도를 4K로 높이면 성능 차이가 꽤 벌어집니다. 26%.
그럼 지포스 GTX 980 말고 GTX 980 Ti와 비교하면 어떨까요. R9 퓨리 X의 성능이 10~20% 낮습니다. GTX 980 Ti가 이 정도인데 타이탄 X와 비교할 필요는 없겠지요?
4K로 해상도를 높이면 성능 차이가 많이 줄어들긴 하네요.
전력 사용량은 헤븐 벤치마크만 보면 R9 290X보다 많이 줄은 것처럼 보이지만 퓨처마크에선 그렇지도 않습니다. 메모리 클럭을 줄였다고는 해도 GPU가 높은 클럭으로 작동하니까요.
GPU 온도는 꽤 낮습니다. 이건 수냉 쿨러를 사용했으니 당연하겠지요.
카탈리스트 컨트롤 센터에서 HBM 메모리의 클럭을 조절할 수는 없었습니다.
그래서 MSI 애프터버너를 동원했는데 여기에서도 메모리 클럭은 조절 불가. 코어 클럭과 TDP는 조절 가능했다네요. 1170MHz로 오버하니 불안정했고 1150MHz에서 안정화. 3D마크 파이어스트라이크 총전에선 5% 오른 13658점, GPU 스코어는 7.4% 오른 17110점.
GTX 980, GTX 980 Ti와 R9 퓨리 X의 성능을 비교한 건 앞에서 보셨고, 마지막으로 가격을 보면 대충 답이 나오지요.
QHD에서 사용하거나, 아이피니티를 사용하지 않으면 그다지 메리트를 보기 어렵겠군요.
발열을 잡기위해 수냉쿨러를 사용했고 소음도 잡았지만
GPU 자체는 980TI보다 느려서 FHD에서는 밀리는 듯 하고
HBM의 막강한 클럭덕에 QHD에서는 더 좋고
HBM 1세대 용량이 4GB의 제한으로 4K는 애매하고
그렇다고 밥을 적게먹는것도 아닌.
어정쩡한 물건이 됬군요.
PS. 황회장의 980TI 비레퍼는 신의 한수가 되는듯한 느낌입니다. 타이탄X 불용칩처리도 하고.. 경쟁사도 한대 먹이고... ㅇㅅㅇ)-3
그래도 드라이버 버프를 기대해보면 괜찮을듯 합니다.
결국 1년 반 전 레퍼 쌍욕먹고 비레퍼 나오면서 똥값된 290x 레퍼를 40만원에 구매했었는데
제가 승리자입니다. 영수증 보니 아직 AS 1년 5개월 남았더군요.
4K에서의 성능은 준수하다고 하나 그렇다고 980Ti보다 우세라고 말할 수 없는 수준이고
4K에서 고사양으로 즐기려고 여러장을 묶게 되면 4GB 램이 결국은 발목을 잡게 됩니다.
4K 이하 해상도에서는 사실상 게임이 안 되므로 언급할 가치가 없음...
그렇다고 전기를 적게 먹는것도 아니고 발열이 착한 것도 아닙니다. 수냉은 어쩔 수 없는 선택이였을 뿐 오버클럭으로 인한 재미도 보기 힘듭니다.(980Ti도 오버 잘되는데다 비레퍼가 나오죠)
브랜드밸류도 그렇고 대부분의 소프트웨어들이 친엔당 성향을 띄는데다 있고 암드 특성상 드라이버 안정화가 빠르게 될지도 의문입니다.
발매일 차이까지 감안한다면 퓨리X는 980Ti와 대적할만한 제품은 아니라는게 제 지론입니다.
최소 50불은 가격을 내려야 4K 입문하는 게이머들의 입맛을 끌 수 있을 것 같네요
ROP의 압축 성능 개선으로 텍스쳐 메모리 성능 개선 및 정밀도가 높은 포멧(FP16, 32)의 필레이트 성능을 대폭 높이는데 도움이 되고, 대용량 L2 캐시 탑재로 컴퓨팅 연산을 강화시키는데 도움이 되고, 지오메트리 유닛을 대폭 늘려서 테셀레이션 및 지오메트리 세이더 성능을 대폭 향상시키는데 도움이 되고, 래스터라이저 다중화로 트라이앵글 셋업 성능을 대폭 증가시키고 팩터수가 높은 테셀레이션에서 부하를 견더내는데 도움이 되니까요.
그러므로 조화를 이루고 균형이 있고 실제 연산에 촛점을 둔 아키텍쳐가 나와야 되니까요.
가격이나 성능이나 전력사용량이나 전부 기대이하네요....