1.jpg

 

AMD 라데온 RX 480이 발표됐습니다. 199달러라는 저렴한 가격에 우수한 VR 경험을 제공하는다는 게 컨셉.

 

라데온 RX 480은 코드네임 폴라리스를 사용하는 GPU로, 아키텍처 자체는 GCN에 속하지만 라데온 HD 7000이 1세대, 라데온 R9 290X/260X가 2세대, 라데온 R9 퓨리가 3세대, 이번 폴라리스는 4세대로 발전했습니다.

 

기본 클럭은 1120Mhz, 부스트 클럭은 1266MHz, 최대 연산 성능은 5.8TFLOPS, 36개의 컴퓨트 유닛, 스트림 프로세서 수는 2304개, 256비트 메모리 버스, 8Gbps 메모리 클럭, TDP 150W.

 

메모리는 GDDR5 4GB와 8GB가 있는데 8GB는 8Gbps, 4GB는 7Gbps로 구동됩니다. 그래서 메모리 대역폭도 차이가 나 8GB는 256GB/s, 4GB는 224GB/s가 됩니다.

 

이 밖에 세부 스펙은 그래픽 명령 프로세서가 1개, 비동기 컴퓨트 엔진(ACE)는 4개, 하드웨어 스케줄러 2개, 지오메트리 프로세서 4개, 텍스처 유닛 144개, 1클럭 당 픽셀 출력 32개, L2 캐시 2MB입니다.

 


아키텍처의 특징

 

2.jpg

 

폴라리스는 폴라리스 10과 폴라리스 11의 두가지 다이가 있습니다.

 

3.jpg

 

4세대 GCN 아키텍처는 지오메트리 처리 강화, 메모리 컨트롤러와 메모리 압축 기술 강화, 쉐이더 명령 프리페치와 버퍼 강화, 비동기 컴퓨팅 스케줄링, 16비트 부동소수점/정수 연산(FP16/Int16) 기본 지원, TureAudio Next 오디오 기능을 지원합니다.

 

4.jpg

 

지오메트리 엔진은 Primitive Discard Accelerator를 탑재했습니다. 파이프라인에서 제로 에어리어와 샘플 포인트를 포함하지 않는 삼각형 부분을 버리는 것이 특징입니다.

 

특히 테셀레이션에서 멀티 샘플링 안티엘리어싱을 할 경우, 하나의 픽셀에 여러 삼각형이 포함될 가능성이 높아지는데, 이런 데이터를 일찍 버려 처리를 줄입니다. 삼각형의 수에 따라 다르지만 대체로 2.2~3.5배의 성능 향상이 있다고 합니다.

 

또 소용량 인스턴스드 지오메트리용으로 새로 인덱스 캐시를 추가해 데이터 이동을 줄일 수 있습니다. 덕분에 대역폭 리소스를 해제하고 인스턴싱 초기 처리량을 높일 수 있다고 합니다.

 

5.jpg

 

쉐이더도 강화돼 명령 프리페치를 강화하고 효율적으로 명령을 캐시하 파이프라인의 성능 하락을 막습니다. 또 웨이브 명령 버퍼 크기도 강화하고 단일 스레드 성능을 향상시켰습니다. L2 캐시의 동작도 조정했습니다. 이에 따라 CU 당 성능이 기존보다 15% 향상됐다고 합니다.

 

또한 FP16/Int16도 기본적으로 지원헤 메모리/레지스터의 대역폭과 스루풋 절갑이 가능하고, 그래픽, 컴퓨터 비전, 데이터 학습 분야에서 위력을 발휘할 수 있다고 합니다.

 

6.jpg

 

메모리 컨트롤러의 물리 계층도 바뀌어 새로 8Gbps GDDR5를 지원합니다. 256비트의 버스 폭에 따라 256GB/s의 대역폭을 제공합니다. 또 무손실 델타 컬러 압축 엔진도 지포스 파스칼 세대와 거의 비슷하며, 2:1이나 4:1, 8:1 압축도 지원합니다. 메모리 이용 효율도 높아졌습니다.

 

7.jpg

 

라데온이 초창기 GCN 세대에서 지원하는 Async Compute도 지원합니다. 경쟁 제품(지포스 GTX 960, 970)에서는 그래픽 처리와 GPGPU를 동시에 처리하지 못하고 작업을 서로 전환해야 하나, 라데온은 동시 실행이 가능합니다. 이것은 ACE를 하드웨어에 탑재한 것 덕분이라고 합니다.

 

그리고 폴라리스는 ACE를 강화해 퀄리티 오브 서비스 기술을 도입한 Quick Response Queue를 지원합니다. 오큘러스에서 구현하는 타임 워프처럼, 우선적으로 GPGPU를 처리해야 하는 중요도 높은 작업이 발생했을 경우 그래픽 처리의 우선 순위를 낮추고 GPGPU 처리를 우선합니다. 타임 워프 뿐만 아니라 낮은 지연 시간을 필요로 하는 GPGPU 처리에 적합합니다.

 

 

삼성/글로벌 파운드리의 14nm FinFET을 사용

 

제조는 글로벌 파운드리나 삼성의 14nm FinEFT 기술을 사용합니다. 28nm 평면 기술과 비교해 누설 전류를 억제하면서 성능을 강화했으며, 제품 성능의 편차도 줄일 수 있다고 합니다.

 

지금까지의 GPU는 안정성을 확보하기 위해 10~15% 정도 전압 마진을 줬으며 이것이 전력을 낭비하는 원인이 되기도 했지만, 폴라리스는 카리조 APU에 도입한 어댑티브 클럭킹 기술을 사용, ns 단위로 동작 클럭과 전압을 조절해 5~10% 정도 전압을 줄일 수 있었습니다. 덕분에 성능 저하를 최소화하면서 전력을 절감할 수 있습니다.

 

게다가 지금까지 GPU에 내장된 전력/온도 센서 외에 클럭을 검출하는 센서(Adaptive voltage & frequency scaling : AVFS)도 내장, 각각의 ASIC마다 최적의 효율, 전압, 온도를 제공합니다. 이에 따라 반도체가 가진 최대의 효율(최소 전압에서 최대 클럭)을 실현했습니다. 어댑티브 클럭킹과 결합하면 이전 세대인 라데온 R9 290에 비해 1.9배의 전력 효율을 제공합니다.

 

전원에는 Boot time power supply calibration(BTC)라는 구조를 도입했습니다. PC가 부팅할 때마다 전압 분석 코드를 실행해, 그래픽카드에 공급되는 전압을 기록하는 기능입니다. 보드의 전원 회로를 조절해 같은 전압이 유지되도록 맞춰, 보드와 시스템의 전력 손실을 줄일 수 있습니다. 또 부품 에이징으로 전압이 부족할 때도 보정과 AVFS로 성능이 나오도록 교정합니다.

 

또 라데온 RX 480은 2100만 개의 멀티 비트 플립 플롭 회로와 ASIC가 전체 TDP 중 15%를 차지하지만, 이러한 클럭 회로를 4개의 모듈로 나눠 공통화함으로서 4~5%의 TDP를 절감했습니다.

 

이 밖에 L2 캐시를 두배로 늘리고 L2 효율 개선, LDCC 알고리즘의 개선, 파워 게이팅과 클럭 게이팅 등으로 메모리 전력 효율도 라데온 R9 290 대비 40% 향상 등이 있습니다. 이처럼 라데온 RX 480의 전력 효율 향상은 14nm FinFET 뿐만 아니라 꾸준힌 전력 절감 기술이 많이 사용돼, 기존 28nm보다 1.7배의 전력 절감과, 전력 효율은 2.8배 증가됐습니다.

 

 

새로 도입된 오버클럭 유틸리티 WattMan

 

8.jpg

 

 AMD는 지금까지 오버드라이브 오버클럭 유틸리티를 제공했으나 라데온 RX에선 WattMan으로 대체했습니다. 라데온 소프트웨어의 셋팅에 WattMan이 통합됩니다.

 

원드라이브는 대상의 전압과 전력, 클럭을 설정하는 간단한 유틸리티였으나, WattMan은 히스토그램을 보고 직관적으로 7개의 전압 포인트마다 클럭을 설정할 수 있습니다. 이 설정은 전체를 따로 잡거나 각각 다르게 설정하는 것이 가능합니다.

 

9.jpg

 

WattMan에선 쿨링팬의 최소/목표 회전 속도의 GPU의 온도, 전력 제한 등도 조절할 수 있습니다. 이는 온도에 따라 쿨링팬의 회전 속도를 조절하거나, 클럭을 낮추는 것이 가능합니다. 또한 GPU의 동작 상황을 그래프로 표시, 모니터링하는 기능과 게임마다 다르게 오버클럭하는 것이 가능합니다. WattMan은 라데온 RX 시리즈 전용 기능으로 이전 제품에선 쓸 수 없는 듯 합니다.

 

레퍼런스 쿨러의 소음에 대해서도 설명했습니다. 3D마크 파이어 스트라이크를 실행했을 때 지포스 GTX 970은 34.8dB지만 이건 32.5dB라네요. 또 2000Hz를 제외함 800~6300Hz 등 중간 부분의 소음이 낮습니다. 다만 쿨러 자체가 좋아서라기보다는 라데온 RX 480이 온도가 낮아, 부하가 낮을 때는 회전 속도를 줄이도록 튜닝한 듯 합니다. 회전 속도가 같을 땐 GTX 970이 더 조용합니다.

 

 

HEVC 지원 비디오 인코더, 디스플레이 출력 

  

10.jpg

 

이 밖에 라데온 RX 480은 비디오 인코더를 강화해 새로운 HEVC 코덱을 지원합니다. 1080p/240fps, 1440p/120fps, 4K/60fps 같은 해상도/프레임 레이트를 지원합니다.

 

11.jpg

 

또 2패스 인코딩을 빠르게 할 수 있게 스트리밍 화질이 대폭 향상됐습니다. 나무의 미세한 디테일을 재현할 수 있을 정도라고 하네요. 움직임이 빠를 때도 화질 저하가 적습니다.

 

디코더는 라데온 R9 퓨리와 같은 세대로 H.264는 4K/120fps까지, MP4-P2는 1080p/60fps까지. VC1은 1080p/60fps까지 됩니다.

 

12.jpg

 

디스플레이 출력도 향상돼 디스플레이포트 1.3 HBR3 및 1.4-HDR을 지원합니다. 1.3은 4K 해상도를 120Hz로 출력할 수 있으며 덕분에 4K 프리싱크도 지원합니다. 또 5K 해상도에 60Hz 출력도 가능합니다.

 

13.jpg

 

HDMI는 마침내 2.0b 버전을 지원하며, HDMI를 통해 프리싱크를 쓸 수도 있습니다.

 

14.jpg

 

광색역/HDR 디스플레이 지원도 확장해, 10비트나 12비트 HDR을 지원합니다. 디스플레이 컬러 프로세싱 엔진을 내장해 프로그래밍이 가능한 감마 리맵핑이나 감마 컨트롤을 지원하고, 부동 소수점 연산에서 디스플레이가 지닌 색영역에 대해 1:1로 기본 맵핑이 가능합니다. 따라서 디스플레이 리맵핑에 의한 지연을 억제합니다.

 

15.jpg

 

또 HDR 게임 개발자에 라데온 포톤 SDK를 제공해 게임 엔진에서 톤 맵핑이 가능합니다. 다이렉트 X 11및 HDR 비디오 재생 드라이버는 개발자에게 제공 중이며, 다이렉트 X 12도 앞으로 지원할 것이라고 합니다.

 

16.jpg

 

GPGPU에서 오디오의 레이 트레이싱이 가능한 오디오 기능인 TureAudio Next입니다. VR에선 소리도 중요하기에 Async 컴퓨트를 사용하면 많은 오디오 소스를 레이 트레이싱하면서 낮은 지연 시간을 제공합니다.  

 

17.jpg

 

또 CU의 일부를 오디오용으로 상시 확보하는 것도 가능합니다.

 

 

라데온 RX 480의 성능은?

 

18.jpg

 

라데온 RX 시리즈의 성능은 벤치마크가 따로 올라겠지만, AMD는 다이렉트 X 12 게임 타이틀의 하이 옵션에선 지포스 GTX 970보다 유리하고, 다이렉트 X 11에선 거의 비슷하거나 다소 떨어진다고 설명합니다.

 

AMD는 게임을 원활하게 플레이하기 위해 개발을 진행했는데, 여기서 말하는 원활한 플레이는 단순히 높은 fps가 아니라 프레임 렌더링 시간이 짧다는 것을 의미합니다.

 

19.jpg

 

VR 성능을 테스트하는 스팀 VR 벤치마크에선 GTX 970보다 약간 낮기도 했으나, 원활하게 플레이 가능한 6점은 넘겼습니다.

 

20.jpg

 

다이렉트 X 12에서의 성능

 

21.jpg

 

다이렉트 X 11에서의 성능

 

22.jpg

 

23.jpg

 

24.jpg

 

폴아웃 4에서 2560x1440 해상도에 울트라 퀄리티로 설정하면 전체 프레임의 99%가 22.3ms만에 렌더링했고, 파크라이4나 위처3에서도 경쟁사와 비슷하거나 그보다 짧은 렌더링 시간을 실현했다고 합니다. 또 라이즈 오브 더 툼 레이더 같은 게임에선 4GB 버전보다 8GB 버전이 프레임 속도가 안정적이었다 합니다.

 

새로운 시스템을 맞추려는 사람에게 라데온 RX 480은 좋은 성능입니다. 기존 라데온 사용자의 경우 R9 285X/380X 미만 사용자는 성능에 불만이 있을 경우 바꿔볼만 합니다. 허나 R9 290/390 시리즈는 라데온 RX 480과 거의 비슷한 편이며, 낮은 전력 사용량이 목적이라면 바꿔볼만 하지만 그렇지 않다면 바꿀 이유가 없습니다. 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.