1.jpg

 

2010년 10월에 Barts 코어의 라데온 HD 6800 시리즈가 출시되었습니다. 새로운 아키텍처를 기대했지만 이전 아키텍처를 사용한 제품이었습니다.

 

11월에는 Cayman 코어의 라데온 HD 6900 시리즈를 기다렸지만, 출시는 연기되었습니다.

 

그리고 마침내 12월에 Cayman 코어의 라데온 HD 6970/6950이 등장했습니다. 3년만에 처음으로 새로운 아키텍처를 사용한 제품이 나온 것이지요.

 

2.jpg

 

Cayman 코어의 라데온 HD 6900 시리즈는 VLIW4 아키텍처, 듀얼 그래픽 코어 엔진과 향상된 테셀레이션 처리 능력, 강화된 PBE 유닛, 비동기 파견 매커니즘으로 GPU 계산 성능 강화, EQAA 모드의 화질 개선, 파워튠으로 GPU 전력 사용량과 온도를 실시간 모니터링 등의 특징이 있습니다.

 

 

VLIW(Very long instruction word) 아키텍처를 설명하려면 상당한 지면을 할애해야 합니다. 지금까지 전통적인 GPU는 줄곧 SIMD(Single Instruction Multiple Data) 아키텍처를 사용하였습니다. 이 아키텍처의 장점은 1개의 명령어 발사단이 여러개의 데이터 채널에 대응된다는 것입니다.

 

3.jpg

 

1개의 픽샐 컬러는 RGB 삼원색과 투명 채널(알파, Alpha)를 포함하여 RGBA의 4개 채널로 구성됩니다. 또한 픽셀의 위치는 XYZW(가로, 세로, 심도, 시간)의 좌표를 사용하여 표시하는데 이것 역시 4개의 데이터입니다. 3D 그래픽 렌더링의 본질은 RGBA와 XYZW의 값을 바꾸는 것입니다. 한개의 픽셀 렌더링이나 지오매트리 전환은 모두 4번의 연산을 필요로 하며, 이것은 최초의 픽셀 쉐이더와 버텍스 쉐이더가 4번의 연산 능력을 갖춘 ALU(Arithmetic Logic Unit)를 갖춘 이유이기도 합니다.

 

전통적인 GPU의 APU는 1개의 클럭 사이클에 4번의 병렬 연산을 합니다. 우리는 이것을 4D 벡터 조작이라 부르며, 벡터는 스칼라에 대응됩니다. 스칼라는 1개의 값을 가리키며, N개의 스칼라가 모여 벡터가 됩니다. GPU에서 버텍스 쉐이더같은 ALU는 오직 한개의 명령어 발사단만 있지만 동시에 4개의 데이터를 실행할 수 있는데, 이것이 바로 SIMD 아키텍처입니다.

 

SIMD 아키텍처는 GPU의 벡터 처리 성능을 끌어올릴 수 있지만, 4D SIMD 아키텍처가 1D 스칼라 명령어와 직명하게 될 경우 그 이용율은 1/4로 떨어지게 됩니다. ATI와 NVIDIA는 다이렉트 X 9 시대 이후에 혼합 설계를 사용하여 Co-issue 조작(벡터와 스칼라 명령의 병렬 실행)을 허용하였습니다. 예를 들면 2D+2D와 3D+1D 모드와 같은 것입니다. 이렇게 하여 많은 경우에 스칼라 명령의 실행 효율이 낮아지는 문제를 해결하였지만, 갈수록 API와 게임의 구조가 복잡해지면서 4D 명령의 사용일이 갈수록 줄어들었고, ALU의 효율은 사람들을 만족시키지 못하게 되었습니다.

 

GPU가 통합 쉐이더 아키텍처로 바뀐 이후에 NVIDIA는 SIMD 아키텍처를 버리고 G80 시대부터 MIMD(Multiple Instruction Multiple Data) 아키텍처를 사용하게 되었습니다. 반면 AMD는 R600에도 SIMD 아키텍처를 계속 사용하여 Cayman까지 계속되고 있습니다.

 

4.jpg

 

R600 코어에서는 여러 VLIW 프로세서를 설계하여(스트림 프로세싱 유닛과 스레드 프로세스라고 부릅니다), 각각의 VLIW 프로세서에 5개의 1D ALU와(흔히 말하는 스트림 프로세서) 1개의 분기 실행 유닛(Branch Execution Unit)이 있습니다. 다른 VLIW와 혼동되는 것을 막기 위해 R600의 이런 프로세서는 VLIW5 프로세서라고 부릅니다.

 

5개의 ALU는 1+1+1+1+1이나 1+4나 2+3 같은 식으로 분배하여, 이상적인 상황에서 특정 명령의 조합에 따라 1 클럭 사이클에 5개의 명령 연산을 완성할 수 있습니다. 쉐이더 명령은 드라이버 JIT 컴파일러의 최적화 이후에 식별 가능한 기계어 코드가 되어 매우 긴 VLIW 명령어 묶음으로 변화되며, 이 명령어 묶음은 명령 순서를 다시 새로 배열하게 됩니다.

 

실제로 VLIW 프로세서중에 5개 ALU는 대등한 것이 아닙니다. 이들은 2개의 ALU(X, Y, Z, W)와 ALU.trans의 두종류로 나뉘며, 4D+1D의 조합 방식이기도 합니다. 위 그림 중에서 T-Stream은 다른 스트림 코어보다 크기가 더 큰 ALU.trans입니다. MAD 이외에 특수한 함수 연산(SIN, COS, LOG, EXP 등)을 담당하지만, CUBE, Dot4, MOVA 명령은 ALU.trans에서 실행되지 않습니다.

 

5.jpg

 

NVIDIA의 G80은 철저한 스칼라 방식으로 ALU를 제일 근본적인 1D 스칼라로 나눠, 전통적인 GPU가 1 클럭 사이클에서 4D 벡터 조작을 완성하는데 비해, MIMD 아키텍처에서는 4개의 클럭 사이클이나 4개의 ALU 병렬 처리 연산이 필요로 합니다. 그 제일 큰 장점은 1D/2D/3D/4D의 어떤 명령이건 문제 없이 사용할 수 있다는 것인데, 왜냐하면 모두 1D 명령으로 나눠서 처리하기 때문입니다.

 

AMD가 사용한 SIMD 아키텍처는 4D 명령을 실행할때 매우 높은 효율을 낼 수 있습니다. 1개의 명령어를 발사하여 5개의 ALU에 대응하면서도 트랜지스터의 수는 줄일 수 있으며, 규모를 확대하는 어려움이 MIMD 아키텍처에 비해 많이 줄었습니다. 반면 NVIDIA의 MIMD 설계는 각각의 ALU가 명령어 발사단을 필요로 하기 때문에, 그만큼 더 많은 트랜지스터와, 방대한 스레드 중재 매커니즘, 포트, 캐시와 레지스터 등의 주변 리소스의 소모 역시 더 커지게 되며, 전력 사용량과 제조 원가에서도 손해를 보게 됩니다.

 

R600의 SIMD 아키텍처는 단점도 그만큼 존재합니다. 바로 효율의 문제입니다. VLIW 그 자체에 약간의 약속(4D+1D라는 조합을 전제로 하는)이 되어 있기 때문에, 일반적인 상황에서 출력량이 1/5밖에 되지 않을 수 있습니다. AMD가 제공한 데이터에 따르면 VLIW5 프로세서는 3~4개 ALU 정도만 이용한다고 합니다. AMD는 스트림 프로세서 유닛의 수를 대폭 늘림과 동시에 분기 실행 유닛을 개선하여 명령어 분배 문제를 해결하고, VLEW 명령어 조합을 개선하며, 드라이버 설계에 더 많은 노력을 해야 합니다. 이것은 AMD의 카탈리스트 드라이버에 줄곧 문제가 있던 원인이기도 합니다.

 

6.jpg

 

3년 전의 R600부터 지금가지, AMD의 GPU는 계속 VLIW5 프로세서의 SIMD 아키텍처를 사용해 왔습니다. 여기에 해당되는 제품은 라데온 HD 2900, 3000, 4000, 5000, 6800 시리즈가 있습니다. 코어는 새로운 세대로 진화하였지만 기본적인 아키텍처는 변하지 않은 것이며, 모두 R600 아키텍처에서 제조 공정을 업그레이드하고, 규모를 확장하며, 연산 방법을 최적화 하는등의 개량을 한 것입니다.

 

스트림 프로세서의 규모를 무한대로 확장할 수는 없기에, AMD는 반드시 아키텍처 효율에 투자를 해야 합니다. 단순하게 소프트웨어 드라이버를 최적화하는 것으로는 큰 폭의 상승은 불가능하기 때문에, AMD는 하드웨어 아키텍처의 최적화에 눈을 돌리게 되었습니다. Cayman 코어에서 VLIW 프로세서의 ALU 수는 4개로 줄였으며, 기존의 VLIW5 프로세서의 ALU.trans를 포기하였습니다. 따라서 우리는 Cayman의 이런 VLIW 아키텍처를 VLIW4 프로세서라고 부릅니다.

 

따라서 Cayman 코어는 R600 이후 하드웨어 아키텍처의 제일 큰 변화입니다. VLIW4로의 회귀는 전통적인 ALU의 4D 모드를 의미하며, 더 영활하게 사용할 수 있는 4개의 1D만 남게 되었습니다. 회사를 예로 들면, 4 사람을 관리하는 것이 5 사람을 관리하는 것보다는 더 편할 것이며, 그것이 바로 AMD의 생각입니다.

 

VLIW5 아키텍처와 다른 점은, VLIW4 중의 4개 ALU가 수행하는 기능이 모두 똑같다는 것입니다. 모두 4-way Co-issue 조작을 실현하며, 원래 ALU.trans에서 완성했던 특수한 함수 조작은 모두 4개의 ALU에 넘겨져서 완성됩니다. 하지만 이런 특수 함수를 조작하기 위해서는 4개의 명령어 발사 중에 3개를 필요로 합니다.

 

7.jpg

 

비록 VLIW4에서 ALU.trans가 줄어들긴 했지만 그 성능은 떨어지지 않았습니다. 1 클럭 사이클 내에 각각의 ALU에서 완성하게 되는 조작들은 Cypress 코어(라데온 HD 5800 시리즈)의 VLIW5 프로세서와 같습니다. 그 밖에 VLIW4 프로세서는 1 클럭 사이클에 한번의 배정밀도 조작을 완성할 수 있는데 VLIW5도 똑같이 1 클럭 사이클에 1번의 배정밀도 조작을 할 수 있습니다.

 

AMD는 VLIW 프로세서의 구조가 더 간단해지면서(VLIW5->VLIW4) 똑같은 코어 크기에서 10% 더 높은 성능을 낼 수 있고, 명령어 조절과 레지스터 관리가 간결해졌으며, 로직 회로의 이용율이 상승하였다고 설명했습니다.

 

VLIW5에서 VLIW4로 바뀌면서 트랜지스터 수와 전력 사용량은 대폭 늘어나게 되었습니다. 1600개의 스트림 프로세서가 있다고 가정했을 경우, VLIW5 아키텍처라면 320개의 묶음이 되어 320개의 명령어 발사단만 있으면 됩니다. 만약 VLIW4를 사용한다면 400개의 묶음이 되어 400개의 명령어 발사단이 필요하게 됩니다. 뿐만 아니라 VLIW 프로세서의 분기 실행에서 단독/통용 레지스터에 모두 대응되기 때문에, 80개의 명령어 발사단과 80개의 분기 실행 유닛고, 80개의 통용 레지스터가 더 늘어나게 되는 것입니다. 이렇게 유닛이 새로 늘어나면 전력 사용량과 트랜지스터를 그만큼 더 많이 차지하게 됩니다.

 

라데온 HD 6970을 예로 들어보면 1536개의 스트림 프로세서가 있지만 트랜지스터 수는 26.4억개이며 코어 면적은 389mm2 입니다. VLIW5를 사용하는 라데온 HD 5870은 이보다 더 많은 1600개의 스트림 프로세서를 사용하지만 트랜지스터 수는 21.5억개밖에 안되며 코어 면적도 334mm2 입니다. 전력 사용량은 라데온 HD 5870의 188W에서 라데온 HD 6970에서는 250W로 늘었습니다. 이런 변화는 모두 VLIW 아키텍처 때문에 일어난 것은 아니지만, 상당 부분이 VLIW 아키텍처의 변화 때문인건 사실입니다.

 

8.jpg

 

그래픽 엔진은 이전까지 셋업 엔진이라 불리던 것으로, 라데온 HD 5000부터 그래픽 엔진이라고 불리게 되었습니다. 그래픽 엔진은 Tessellator, Geometry Assembler, Vertex Assembler, Rasterizer, Hierarchical Z로 구성되며, 라데온 HD 5000과 라데온 HD 6800 시리즈에서는 2개의 Rasterizer와 2개의 Hierarchical Z를 사용하고,  Tessellator 유닛을 강화했습니다.

 

9.jpg

 

Cayman 코어에서는 그래픽 엔진을 강화하여 Geometry Assembler, Vertex Assembler, Tessellator를 두부분으로 나눠 듀얼 그래픽 엔진을 구성하였습니다.

 

듀얼 그래픽 엔진은 1 클럭 사이클에 2개의 primitive를 처리할 수 있다는 장점이 있습니다. 이렇게 하여 좌표 전환과 보이지 않는 부분을 없앨 대의 속도가 2배로 늘어나며, 타일 기반 렌더링의 속도도 개선됩니다. 또한 2개의 Rasterizer 성능을 향상하여 클럭 사이클마다 32개의 픽셀을 처리할 수 있습니다.

 

10.jpg

 

Cayman에서 AMD는 1개의 테셀레이터 유닛을 더 늘렸을 뿐만 아니라 테셀레이션도 8세대로 개선했습니다. 외부 캐시를 지원하여 테셀레이션 팩터가 높을 때의 성능을 대폭 강화하였는데, AMD는 라데온 HD 5870보다 테셀레이션 성능이 3배 더 늘어났다고 주장하고 있습니다.

 

경쟁상대인 지포스 GTX 5808/570이 10개의 테셀레이션 유닛을 가지고 있는데 비해, AMD는 여전히 보수적인 편입니다. 따라서 너무 높은 디테일의 화질에서는 성능 손실이 매우 클 것입니다.

 

11.jpg

 

AMD는 Cayman 코어의 Render Back-Ends도 강화하여, 16비트 조작의 속도를 2배, 32비트 부동소수점(싱글/듀얼 유닛)의 조작을 2~4배 개선하였습니다.

 

12.jpg

 

Cayman은 GPU 통용 계산 성능도 강화하였습니다. 비동기 파견 매커니즘을 사용하여 동시에 여러 커널을 실행할 수 있게 되었습니다. 이런 커널은 모두 자신만의 명령 배열과 보호를 받는 가상 주소를 가지고 있습니다. 그 밖에 듀얼 DMA(Direct Memory Access) 엔진을 가지고 있어, 더 빠른 시스템 메모리 엑세스가 가능해졌습니다.

 

그 밖에 쉐이더의 합병 읽기 조작 실현, 직접 LDS(Local Data Share)를 실현, 개선된 스트림 컨트롤, 더 빠른 배정밀도 조작이 있습니다. Cayman의 배정밀도 조작 성능은 단정밀도 조작의 1/4이지만 Cypress의 배정밀도 성능은 단정밀도 성능의 1/5입니다. 이것은 VLIW 구조의 변화에서 비롯된 것입니다.

 

13.jpg

 

MSAA를 기반으로 하여 AMD와 NVIDIA는 자신들의 안티 얼라이싱 기술을 발전시키고 있습니다. 2007년에 AMD는 CFAA(Customer Filter AA)를 발표했고 NVIDIA는 CSAA(Coverage Sampling AA)를 발표했지만, 최근 몇년 동안 CFAA의 반응은 그리 좋지 않았고 CSAA는 게임 회사들이 사용하기 시작했습니다.

 

얼마 전에 라데온 HD 6870/6850이 발표됐을때, AMD는 MLAA를 발표했찌만 그 성능과 화질은 사람들을 만족시키지 못했습니다.

 

14.jpg

 

Cayman 코어에서 AMD는 MLAA를 계속하여 사용하는것 외에도 EQAA(Enhanced Quality Anti-Aliasing)를 도입했습니다. 새로운 EQAA는 MSAA 기반이지만 Coverage 샘플링을 늘렸습니다. 8x EQAA에서 8개의 컬러 샘플링과 16개의 Coverage 샘플링을 하며, 8x MSAA보다 16개 더 많은 Coverage 샘플링을 하여, 더 나은 화질을 얻으내면서도 성능 손실은 매우 적습니다.

 

EQAA는 현재 2x/4x/8x의 3가지 모드가 있으며, 컬러 샘플링의 2배에 달하는 Coverage 샘플링을 하게 됩니다.

 

2xEQAA = 2xMSAA + 4 coverage sample
4xEQAA = 4xMSAA + 8 coverage sample
8xEQAA = 8xMSAA + 16coverage sample

 

EQAA 기술은 NVIDIA의 CSAA와 매우 비슷하며, 오직 샘플링하는 수에만 차이가 있을 뿐입니다. 예를 들면 8x CSAA는 4x MSAA에 8개의 Coverage 샘플링을 하며, 16xQ CSAA는 8x EQAA와 비슷합니다. 현재 CSAA는 32x까지 가능합니다.

 

AMD는 EQAA가 똑같은 메모리를 사용한다고 가정했을때 더 나은 화질을 얻을 수 있다고 설명하며,  Adaptive AA, Super-Sample AA, MLAA와 조합하여 사용이 가능합니다. 그 밖에 카탈리스트 컨트롤 센터에서 편리하게 eQAA를 설정할 수 있지만, 아직 10.12 버전에서는 관련 옵션을 제공하지 않습니다.

 

15.png

 

현재 데스크탑이건 모바일건 AMD의 그래픽카드는 파워플레이 절전 기술을 제공합니다. 동적 전원 관리 메커니즘(DPM)을 사용하여 GPU의 부하에 따라 자동으로 클럭과 전압을 조절하는 것입니다.

 

하지만 파워플레이는 일정한 한계가 있을 수밖에 없습니다. 전원 사용량을 아이들, 중간, 고부하의 3단계로만 나누기 때문입니다. 전통적인 습관대로라면 최고 성능 모드는 고정된 것이고, 실행 상태와 어떤 프로그램을 사용하느냐에 따라서, 그래픽카드의 전압, 클럭은 고정된 값을 사용하게 됩니다.

 

AMD는 Cayman 코어에서 새로운 전원 관리 기술인 파워튠(PowerTune)을 사용하여, 전력 사용량과 전원 관리를 더 효율적이고 민첩하게 할 수 있게 되었습니다. 파워튠은 파워플레이의 확장 버전이라 할 수 있습니다.

 

16.png

 

파워플레이가 3단계로 조절되는 것과 달리, 파워튠은 Intermediate P-State와 Highest P-State 사이에서 필요한 클럭을 세밀하게 조절할 수 있습니다. GPU는 현재의 부하 정도에 따라 어느 정도의 클럭이 필요한지를 자동으로 판단하여, 전력 사용량을 줄이면서 최고의 효과를 낼 수 있는 구간을 찾게 됩니다.

 

17.png

 

파워튠을 사용하면 전력 사용량은 일정한 범위 내에서 제한됩니다. 일부 변태적인(원문이 그렇다구요 -_-) 테스트 프로그램, 예를 들면 Furmark나 OCCT를 실행할때 파워튠은 그래픽카드가 지나친 발열로 손상되는 것을 막아주는데, 이것은 NVIDIA가 지포스 GTX 580/570에 도입한 전력 보호 매커니즘과 비슷합니다.

 

18.png

 

라데온 HD 6950의 기본 클럭은 800MHz입니다. 3D마크 밴티지 테스트를 할 때 파워튬의 작용에 의해 클럭이 600~800Mhz 사이에서 매우 자주 바뀌게 되지만, 성능은 별다른 변화 없이 유지되고 있습니다. 이것은 전력 사용량을 줄이기 위해 클럭을 줄이지만 성능은 보장한다는 것을 의미합니다.

 

19.png

 

AMD 카탈리스트 컨트롤 센터의 오버드라이브 항목에서는 전원 관리 설정이 추가되었습니다. 여기서 사용자는 20%의 범위 내에서 GPU의 최대 전력 사용량 제한을 조절할 수 있습니다. 이렇게 하여 다양한 사용자의 수요를 만족시킬 수 있게 되었습니다. 성능에 민감한 사람은 전력 사용량을 최고로 설정하고, 전력 사용량에 민감하다면 전력 사용량을 낮게 조절하면 됩니다.

 

20.png

 

드라이버의 설정에 따라 그래픽카드의 클럭 변화도 바뀌게 됩니다. +10%로 설정했다면 라데온 HD 6950의 코어 클럭은 800MHz 정도를 유지하며 자동으로 바뀌지 않습니다. 이때 전력 사용량이 비교적 커 보이는군요.

 

파워튠은 실시간 GPU 모니터링에 따라 GPU에 포함된 모든 부품의 전력 사용량을 계산하여, 코어 클럭을 조절하여 TDP의 요구를 조절합니다. 이는 NVIDIA의 지포스 GTX 580/570의 외부 모니터링 칩과 비교해서 상당히 적용성이 뛰어난 것입니다.

 

21.jpg

 

이번에 출시된 Cayman 코어의 라데온 HD 6970과 6950은 각각 Cayman XT와 Cayman Pro로 나뉩니다. 두 제품의 제일 큰 차이는 스트림 프로세서와 클럭입니다. 

 

22.png

 

아키텍처가 변화하면서 Cayman 코어의 트랜지스터는 26.4억개로 늘어났고 코어 면적은 389mm2가되었습니다. Cypress 코어(라데온 HD 5800)보다 확실히 늘어난 숫자이며, 이에 따라 전력 사용량도 늘어났습니다. 제일 눈에 띄는 변화라면 2GB 대용량 GDDR5 메모리로, 고해상도 고화질에서 더 나은 성능을 낼 수 있게 되었습니다.

 

라데온 HD 6970의 스트림 프로세서는 1536개이며 64개의 SP가 1개의 SIMD를 구성합니다. 각각의 SIMD는 16개 VLW4 프로세서를 내장하고 있으며 총 24개의 SIMD가 있습니다. 모든 SIMD는 4개의 텍스처 유닛이 있어 총 96개의 텍스처 유닛이 있는 것인데 이것은 라데온 HD 5870의 80개보다 상당히 늘어난 것입니다. 라데온 HD 6970의 클럭은 880MHz이고 메모리 클럭은 1375MHz로 속도는 5.5GHz입니다. 그래픽카드 전체의 전력 사용량은 250W이며 8+6핀 보조전원을 필요로 합니다.

 

라데온 HD 6950의 스펙은 이보다 낮습니다. 스트림 프로세서는 1408개, 22개의 SIMD, 88개의 텍스처 유닛, 코어 클럭 800MHz, 메모리 클럭 1250Mhz(데이터 레이트 5GHz), 전력 사용량 200W, 6+6핀 보조전원을 사용합니다.

 

전체적으로 보면 라데온 HD 6970/6950의 트랜지스터 수와 코어 크기는 늘어났지만 스트림 프로세서의 수는 줄었습니다. 이것이 성능이 어떤 영향을 미치는지 보도록 합시다.

 

23.jpg

 

XFX의 레퍼런스 라데온 HD 6970입니다. 기판 길이는 26.5cm로 라데온 HD 5870과 같습니다. 40나노 공정의 Cayman XT 코어를 사용, 1536개의 스트림 프로세서, 하이닉스 GDDR5 메모리 칩, 2GB/256비트 메모리, 클럭 880/1375Mhz입니다.

 

24.jpg

 

정면.

 

25.jpg

 

뒷면.

 

듀얼 슬롯에 블로워 팬, 백 플레이트를 사용합니다.

 

26.jpg

 

일체형 블로워 쿨러를 사용하지만 끝부분에 공기 구멍은 없습니다.

 

27.jpg

 

6+8핀 보조전원.

 

28.jpg

 

듀얼 바이오스 전환 스위치입니다. 레퍼런스 기판에 이런 스위치가 등장한건 처음입니다. 1개의 바이오스는 기본값이 설정되어 사용자가 수정이 불가능하며, 다른 바이오스는 사용자가 리프레시가 가능합니다. 이걸 사용하여 오버클럭과 전압 조절이 가능합니다.

 

29.jpg

 

박스 구성품.

 

30.jpg

 

쿨러를 제거한 기판 사진입니다.

 

31.jpg

 

기판 뒷면.

 

32.jpg

 

Cayman XT 코어는 45도 기울어져 장착되어 있습니다. 40나노 공정, 코어 크기 389mm2로 라데온 HD 5800 시리즈의 Cypress의 334mm2보다 16.5% 더 큽니다. Cayman 코어는 26.4억개의 트랜지스터가 내장되어 있으며 Cypress의 트랜지스터 수는 21.5억개입니다.

 

33.jpg

 

하이닉스의 GDDR5 메모리인 H5GQ2H24MFR-ROC입니다. 이전에 라데온 HD 6800/5800/5700 시리즈에 장착됐던 H5GQ1H24AFR-T2C와 제일 큰 차이점이라면 세계 최초로 칩 1개의 용량이 2Gb인 GDDR5 메모리 칩이라는 것입니다. 이걸 8개 장착하는 것만으로 256비트/2GB를 구성합니다. 이 메모리는 FBGA 170 볼 패키징을 사용하며 54나노로 제조되고, 1.5V의 전압에서 6000MHz까지 속도를 낼 수 있습니다.

 

34.jpg

 

전원부는 라데온 HD 5800/5900 시리즈에서 사용했던 볼테라의 디지털 전원부 솔루션을 그대로 사용합니다. GPU 코어는 6 페이즈, 메모리는 2 페이즈, 코어 I/O는 1 페이즈입니다.

 

35.jpg

 

코어 전원부는 CLA1108-4-50TR 4 페이즈 SMT 인덕터와 CLA1108-2-50TR 2 페이즈 SMT 인덕터를 사용합니다. MOS는 VT1636SF이며, 이 MOS는 드라이버 IC와 MOSFET을 내장하고 있습니다. 필터 역할을 하는 캐패시터는 MLCC 세라믹 캐패시터입니다.

 

2 페이즈 메모리 전원부는 GPU 전원부의 오른쪽 옆에 붙어 있습니다. 각 페이즈는 2개의 인덕터와 1개의 VT243WF 칩으로 구성되는데, VF243WF은 상당히 많은 기능을 내장하여 메인 컨트롤 칩, 드라이버 칩, MOSFET을 하나의 칩에 내장하고 있습니다.

 

36.jpg

 

전원부 컨트롤 칩은 볼테라 VT1556MF입니다. 이 칩이 쓰인 그래픽카드는 이게 처음인듯 합니다.

 

37.jpg

 

그래픽카드 왼쪽의 I/O 전원부 모듈입니다.

 

38.jpg

 

라데온 HD 6970의 쿨러는 라데온 HD 6870과 비슷하게 생겼지만 실제로는 큰 차이가 있습니다.

 

39.jpg

 

40.jpg

 

방열판에 알루미늄 핀을 부착한 형태인데 구리 방열판은 쿨러 베이스와 하나로 연결되어 있습니다.

 

41.jpg

 

쿨러 베이스.

 

42.jpg

 

알루미늄 방열판.

 

43.jpg

 

쿨링팬의 최대 전류는 2A로 상당히 높은 편입니다. 6950에 쓰인 팬은 1.2A입니다.

 

44.jpg

 

XFX의 레퍼런스 기판 라데온 HD 6950입니다. 생긴건 6970과 똑같습니다. 40나노 공정 Cayman Pro 코어, 1408개의 스트림 프로세서, 하이닉스 GDDR5 메모리 칩을 2GB/256비트 구성, 클럭은 800/1250Mhz.

 

45.jpg

 

졍면. 

 

46.jpg

 

뒷면.

 

라데온 HD 6950의 외관은 6970과 큰 차이가 없습니다. 쿨러는 완전히 똑같으며 기판 길이도 26.5cm입니다. 다만 보조전원이 8+6핀에서 6+6핀이 되었다는게 차이점입니다.

 

47.jpg

 

2개의 DVI, 2개의 미니 디스플레이포트, 1개의 HDMI 출력을 지원합니다.

 

48.jpg

 

2개의 6핀 보조전원.

 

49.jpg

 

끝부분. 6970과 같습니다.

 

50.jpg

 

박스 구성품.

 

51.jpg

 

라데온 HD 6950의 기판 앞면.

 

52.jpg

 

라데온 HD 6950의 기판 뒷면.

 

라데온 HD 6950과 6970의 기판은 완전히 같으며 회로 구성과 부품의 위치도 완전히 같습니다. 보조전원만 차이가 날 뿐입니다.

 

53.jpg

 

Cayman Pro 코어도 45도 기울어져 장착되어 있습니다. 40나노 공정, 코어 크기는 389mm2입니다.

 

54.jpg

 

라데온 HD 6970은 H5GQ2H24MFR-ROC 메모리를 사용했지만 6950은 H5GQ2H24MFR-T2C를 사용했습니다. 칩의 용량은 2Gb로 8개를 부착하여 256비트/2GB를 구성한다는 점은 같지만 클럭은 약간 낮아 5000MHz입니다.

 

55.jpg

 

전원부는 6970과 큰 차이가 나지 않습니다. 볼테라의 디지털 전원부 솔루션으로 6+2+1 페이즈를 사용합니다.

 

56.jpg

 

코어 전원부는 CLA1108-4-50TR 4 페이즈 SMT 인덕터와 CLA1108-2-50TR 2 페이즈 SMT 인덕터를 사용합니다. MOS는 VT1636SF이며, 이 MOS는 드라이버 IC와 MOSFET을 내장하고 있습니다. 필터 역할을 하는 캐패시터는 MLCC 세라믹 캐패시터입니다.

 

2 페이즈 메모리 전원부는 GPU 전원부의 오른쪽 옆에 붙어 있습니다. 각 페이즈는 2개의 인덕터와 1개의 VT243WF 칩으로 구성되는데, VF243WF은 상당히 많은 기능을 내장하여 메인 컨트롤 칩, 드라이버 칩, MOSFET을 하나의 칩에 내장하고 있습니다.

 

57.jpg

 

메인 컨트롤 칩은 볼테라 VT1586MF로 6970에서 사용한 1556MF와 다릅니다.

 

58.jpg

 

듀얼 바이오스 전환 스위치도 여전하고, 쿨러도 같지만 블로워 팬의 전류가 1.2A로 줄어들었습니다.

 

59.png

 

테스트 환경입니다. 

 

60.png

 

시스템 전체의 전력 사용량입니다. 시소닉 파워앵글을 사용하여 측정한 것으로 아이들은 윈도우즈 7 바탕화면에서 5분동안 대기하여 측정한 것이며, 로드는 3D마크 밴티지의 익스트림 모드에서 2번째 테스트를 실행하여 GPU에 부하를 준 것입니다. 

 

아이들에서 라데온 HD 6970/6950의 전압은 0.9V로 떨어지며 클럭은 250/150MHz입니다. 아이들 상황에서 그래픽카드들의 전력 사용량은 별 차이가 없습니다.

 

61.png

 

온도는 실온 24도에서 MSI 애프터버너를 사용하여 측정하였습니다. 아이들에서 48도, 팬 회전 속도는 26%였습니다.

 

62.png

 

헤븐을 실행했을때 6950의 전압은 1.175V, 클럭 800/1250Mhz, 온도는 78도, 팬 회전 속도는 35%로 소음이 약간 늘어났지만 들어줄만 했습니다.

 

63.png

 

6970도 아이들에서는 0.9V, 온도는 49도, 팬 회전 속도는 25%로 소음은 확실히 들리진 않았습니다.

 

64.png

 

6970에서 헤븐을 실행하자 전압은 1.175V, 클럭은 880/1375MHz, 온도는 80도, 팬 회전 속도는 35%로 소음이 확실히 늘었을 뿐만 아니라 6950보다 더 큰 소리를 냈습니다.

 

65.png

 

오버드라이브를 사용한 오버클럭입니다. 코어 전압 1.17V에서 파워 컨트롤 셋팅을 20%로 설정했습니다. 쿨러는 레퍼런스. 팬 스피드는 자동 조절됩니다.

 

66.jpg

 

6950은 840/1325MHz까지 올라갔는데 이것은 오버드라이브의 상한선입니다. 이때 3D마크 11의 성능은 X1676으로 기본 클럭의 X1598보다 4.88% 상승하였습니다.

 

67.jpg

 

6970은 950/1420MHz까지 상승했는데 이 역시 오버드라이브의 최고 한도입니다. 3D마크 11에서틑 X1898점이 나왔는데 기본 클럭의 X1826보다 3.9% 상승했습니다.

 

아직까지는 라데온 HD 6900 시리즈를 제대로 지원하는 오버클럭 소프트웨어가 없기 때문에 오버클럭이 얼마나 되는지 알기 힘듭니다.

 

68.png

 

라데온 HD 6970과 지포스 GTX 570을 비교하면 각 부분에서 일장일단이 있지만 전체적으로 봤을때 라데온 HD 6970의 성능이 더 높습니다. 6970은 다이렉트 X 10과 9 게임에서 GTX 570보다 성능이 좋으며, 다이렉트 X 11에서는 성능 차이가 꽤 납니다.

 

69.png

 

라데온 HD 6970과 지포스 GTX 580의 비교는 성능 차이가 괘 납니다. 평균 16.01% 정도 차이가 납니다. 물론, 두 제품의 가격 차이도 상당하지요.

 

70.png

 

라데온 HD 6970과 라데온 HD 6950은 스트림 프로세서의 수와 클럭의 차이가 납니다. 결과 11.44% 정도의 성능 차이가 났습니다. 다이렉트 X 9, 10, 11에서 다들 비슷한 성능 차이를 보여 주었습니다.

 

71.png

 

라데온 HD 6950과 라데온 HD 5870을 비교했을대, 크라이시스, 파 크라이 2, 로스트 플래닛 2에서 상당히 큰 성능 차이가 났습니다. 전체 평균은 4.66%.

 

72.png

 

라데온 HD 6950과 지포스 GTX 470을 비교하면 15.33%의 성능 차이가 났습니다. 물론 두 제품의 가격 차이는 꽤 나는 편입니다.

 

73.png

 

다이렉트 X 11 SDK에서 테셀레이션 팩터에 따른 성능 차이를 테스트해 보았습니다. 6970의 테셀레이션 성능은 6950보다 확실히 앞서는데, 이것은 테셀레이션 팩터가 낮을수록 그 차이가 큽니다.

 

74.jpg

 

라데온 HD 6970이 지포스 GTX 580과 경쟁하길 바란 ATI 팬들의 바램은 저버렸지만, 라데온 HD 6900 시리즈에서 새로 사용한 아키텍처는 앞으로의 AMD GPU에서 사용될 것입니다.      

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.