주의
아래의 모든 내용과 이미지들의 저작권은 http://techreport.com 에 있으며, 이글을 번역한 저에게는 지적재산권이 있습니다. (물론 http://techreport.com에서 지적시 바로 삭제가 가능하며, 이글은 비영리로 사용합니다.)

그래서 이 번역 글을 퍼가시거나, 옮기거나 인용하길 원하시는 분은, 꼭 이글의 주소를 전체적으로 밝혀야 합니다.



AMD의 Radeon HD 4870 그래픽 프로세서 by TechReport
출처:http://techreport.com/articles.x/14990/1

Author: Scott Wasson


소개

AMD가 ATI를 인수한 이후에, 두 그룹에게는 많은 좋은 일들이 일어나지 않았다. 왜냐하면, 두 그룹에서 나오는 새로운 칩들은 경쟁자와 비교하면 지연을 거듭했고, 뜨거웠고, 기대이하 였기 때문이다. 그리고 그러는 동안에 그들은 막대한 재정 손실을 기록하였고. 그래서 그런 손실때문에, 많은 사람들은 2개 회사가 독점하는 CPU와 그래픽 칩 시장에서 AMD가 라이벌로써 책임을 계속 열심히 할 수 있을지 걱정을 하였다..

약자가 자주 그렇듯이, AMD는 확실히 잘되기 바라는 자(팬)들의 좋은 점유율를 가지고 있다. 그리고 그들 중에 상당히 많은 이들이 Radeon HD 4800 시리즈에 대해 기디림과 기대를 가지고 있으며, 여러분은 흥분에 도가니에 있는 그런 그들을 거의 볼 수가 있을 것입니다. 게다가 Radeon HD 4800에 대한 좋은 소문들이 여러 주 동안에 만들지고 있었고, Radeon HD 4800이 출시하면서, AMD는 상당한 기간동안에서(ATI 인수 이후) 처음으로 그들의 손에  절대적인 승리자를 갖게 된 것 같다.

우리의 "첫번째 Radeon HD 4850 성능 잠깐 보기" 기사는 확실히 흥분을 전혀 진정시키지 않고 있으며, 그때 내가 말했듯이, Radeon HD 4850은 MMA cage(새장) 대결에서 한 쌍의 당나귀들(GTX 200 시리즈?) 보다 훨씬 더 대단했다. 게다가 여기서 끝잉 난게 아니라, 이것은 단지 이야기의 반에 불과하다. 왜냐하면 Radeon HD 4870은 우리에게, 그 당나귀들 모두는 풍선 껌을 다 써버렸다고 말하고 있기 때문입니다.

 자세한 내용은 계속 읽어주세요.

1 copy copy.JPG


 

The RV770 GPU

코드-네임 RV770 칩의 연구는 2년 반 전에 시작했습니다. 그리고 특이하게도 AMD의 설계 팀은 전세계에 있는 6개 사무실들로 흩어졌고, 이들의 공통된 목표는  R600 그래픽 프로세서 코어에서, 기대이하의 성능을 보여주는 성분들을 찾는 것이며, 훨씬 더 효율적인 GPU를 위해 그 성분들을 수정(개량)하는 것이였습니다. 이런 일들을 가능케 하기 위해서, 기술자들은 칩의 잠재력은 높이면서, 칩에있는 여러 로직 블럭들의 크기를 줄이도록 신중히 작업을 했습니다. 이렇게 칩의 면적을 효율있게 사용한다는 것은 칩 속에 가능한 더 많은 것을 집어 넣을 수 있게 해주면, 많은 방법을 통해 GPU의 능력을 최대로 상승시켜 준다. 그리고 기술자들은 동시에, 칩을 통하는 데이터의 흐름을 더 좋게 관리하고, 중요한 자원들을 잘 유지하게 하는 칩 자신의 잠재 능력을 더욱 완전히 끌어 올릴 수 있도록 목표를 정했다.

기술자들 노동의 성과는 우리가 잘 알고 있는 그래픽 프로세서의 구성 요소들이지만, 하지만 RV770의 성능과 효율은 정말로 대단한 성과였다. 그럼 여기서 많은 분량의 우리 리뷰를 살펴보도록 하고, 이후에, 우리는 RV770이 어떤 차이를 갖고 있는지 생각해 보겠습니다.

2 copy copy.JPG
RV770 GPU의 블럭 도표. AMD의 자료.

위 도표에서 일 부분은 한 번 보고 이해하기란 너무 작다라는 것을 저도 알고 있습니다. 그래서 우리는 다음 페이지에서 그 부분들을 더욱 자세히 다뤄 볼 것입니다.

여기에서 여러분이 첫번째로 주목하게 될 것은, 초기의 소문들에서 놀랍도록 비교 되었던 쉐이더 배치 부분의 프로세서 갯수입니다. 여러분이 볼 수 있듯이 RV770은 10개의 SIMD 코어들을 갖고 있고, SIMD 코어 하나당 10개의 스트림 프로세서들을 포함하고 있습니다. 여러분은 이것들을 위 그림에서 볼 수가 없을 것 같지만,이 SP(스트림 프로세서)들은 각각 5개의 ALU들로 이루어진 superscalar(연산 기기가 병렬로 연결되어 고속 처리) 처리 블럭들입니다. 그래서 이를 망라해보면, RV770은 총 800개의 장대한 ALU들을 가지고 있으며, 이것을 AMD는 800개 "스트림 프로세서"로 광고하고 있습니다. 여러분이 이들을 뭐라 불르던간에, 이것은 엄청난 연산 힘의 량이고, Radeon HD 3800 시리즈에 힘을 공급하고 있는 RV670의 320개 SP를 쉽게 넘어서는 것입니다. 그리고 사실상, Radeon HD 4850은 이론적으로 최대 1 TeraFlop이고, Radeon HD 4870은 1.2 TeraFlop이라서, 이 GPU가 처음으로 Teraflop 능력을 가진 GPU가 됩니다.

SIMD의 오른쪽에 있는 파란색 블럭은 텍스텨 유닛이다. RV770의 텍스쳐 유닛들은 현재 SIMD와 나란히 배치되었기 때문에, Nvidia의 최근 GPU들 처럼, 더 많은 쉐이더 힘을 추가하기 위해서는 똑같이 더 많은 텍스쳐 힘을 추가해야 한다. 그래서, RV770은 10개의 텍스쳐 유닛들을 가지고 있기 때문에, 클럭 당 addressing과 filtering up 능력이 40개 texel를 처리할 수 있으며, 이것은 RV670의 능력의 2배 이상이다.

도표에서 아래쪽으로 가보면, 여러분은 각각 64비트 메모리 인터페이스와 연결된 GPU의 4개 render back-end들를 볼 수 있을 것입니다.

참고: 보통 back-end 는 mask 제작에 필요한 layout 작업에 필요한 s/w 나 이에 관련된 일련의 작업을 지칭하고, front-end 는 layout 작업 이전 단계인 회로 구성 또는 개념 정립 등에 관련된 s/w 나 이에 관련된 일련의 작업을 지칭합니다. 라고들 하는데,, 뒤에 가면. 하는 역활이 설명 되어 있습니다.

그리고 나쁜 문신처럼, 4개 back-end와 총 265비트의 연결성은 이 GPU는 분명히 중급 GPU라고 누설하는 수치들이다. 하지만 그런 부분이 증급 GPU들의 특징이긴 하지만, RV770에 있는 각각의 back-end들은 이전 세대들보다 훨씬 더 상당히 강력해 졌고, 메모리컨트롤러는 모든 칩들보다 상당히 더 많은 대역폭을 제공하는 GDDR5 메모리를 지원하고 있다.  GDDR5는 AMD의 야심작인 전략이다.

이런 모든 변화들에도 불구하고, RV770은 DirectX 10.1 표준규격의 지원을 포함하여 이전에 나왔던 RV670의 기본 골격을 유지하고 있다. 그리고 RV770에서 가장 큰 뉴스는 개량으로써, 설계 곳곳에서의 효율적인 개선과 함께, 텍스쳐링 능력, 쉐이더 힘, 메모리 대역폭 등은 무서운 향상이다.

 

The chip
이전의 RV670 처럼, RV770도 TSMC의 55nm 처리에서 제조되었으며, RV770 다이안에는 대략  9억 6천 5백만개의 트랜지스터가 있고, 다이 면의 크기는 면마다 16mm 크기로 총 면적은 260mm²이다. 이것은 6억6천6백만개 트랜지스터를 갖고 192mm²의 크기를 갖는 RV670보다 커졌지만, 생각되는 것 만큼 크기가 커지지는 않았다.

물론, AMD의 새로운 GPU는 14억개 트랜지스터를 만들어진 577 mm²의 거대한 괴물 Nvidia GT200에 비하면 절대적으로 난쟁이다. 그리고 RV770과 더욱 적절한 비교는 Nvidia의 중급 GPU로써 65nm의 G92인 GeForce 9800 GTX가 될 것 같다. 이 GeForce 9800 GTX는 우리가 shaky 자로 쟤보니 다이 면마다 18mm이고 전체 크기는 324 mm²였었다(하지만 Nvidia는 공식적인 다이 크기 스펙을 요즘은 제공하지 않기 때문에, 이 GPU의 크기는 불확실하다). 그리고  RV770의 다음 경쟁자는 새로운 신입생인 GeForce 9800 GTX+ 로써, 이 GPU는 G92의 55nm 축소 버젼이다.

아래의 사진들은 똑같은 위치에서 카메라에 찍혀기 때문에, 그들은 거의 일정한 비율이 있을 것 같다.

3 copy copy.JPG
Nvidia's G92

4 copy copy.jpg
 RV770

5 copy copy.jpg
55nm의 GeForce 9800 GTX+

네, 너무 분명히 전 사진을 제대로 찍지 못했습니다.그리고 이들을 찍는데에 어려워 했었으면 안될거라는 것도 전 알고 있습니다. 어쨋든 여러분이 아직도 크기를 비교할 수 있는 감각이 있길 바랍니다.

흥미롭게도, 나의 측정에 따르면, RV770과 G92는 트랜지스터 갯수의 차이에도 불구하고, 55nm GTX+ 칩은 RV770 처럼, 다이 면 마다 16mm 인 것으로 보이고, 전체적으로 260 mm²처럼 보입니다. 그래서, Nvidia와 AMD는 트랜지스터를 다르게 세는 것 같으며, 다른 변수들이 많이 있는 것 같기도 합니다.

아래의 사진들은 칩 다이를 보다 더 자세히 보여줄 것입니다. 그리고 두번째 것은 중요한 로직 블럭들를 색칠했습니다.

6 copy copy.JPG
RV770 die

7 copy copy.JPG
 RV770 다이의 기능적 유닛들을 부각시킴.

여러분도 볼 수 있듯이, RV770의 메모리 인터페이스와 I/O 블럭들은 칩의 주변을 반지 형태로 만들고 있고, SIMD 코어들과 텍스쳐 유닛들은 대부분의 중간 지역를 차지고하고 있습니다. 그리고 SIMD들과 텍스쳐 유닛들은 서로 정렬되어 있습니다.

 


RV770에는 뭐가 들어 있을까?

초기에 Radeon HD 4800 시리즈는 4850 와 4870의 2가지 형태로 나옵니다. 그리고 현재에서, 여러분은 이미 많은 날들 동안 팔리고 있었던 4850에 대해 잘 알고 있을 것입니다.

8 copy copy.JPG

이것은 우리 이전 리뷰에서 보았던 Sapphire의 4850 샘플입니다. 4850의 기본 클럭은 675MHz이고, 이 클럭은 쉐이더 코어를 포함하여 거의 모든 칩들을 관리하며, 이 카드는 993MHz(1896MT/s)로 동작하는 GDDR3의 512MB를 갖추고 있고, AMD는 이 카드의 TDP를 110W로 고정시켰다. 그 결과, 4850은 잘 동작하기 위해 단지 하나의 6핀 추가 파워 컨넥터만을 필요로 한다.

초기부터, AMD는 4850를 온라인 가게에서 약 199달러에 팔릴 것이라 제안했으며, 지금까지 시장 가격은 대체적으로 그 가격과 일치하는 것 같다.

9 copy copy.JPG

10 copy copy.JPG


그리고 위 사진처럼, 현재 우리는 우두머리인 Radeon HD 4870를 가지고 있습니다.  이 카드는 2개 슬롯을 차지하면서 케이스 밖으로 뜨거운 공기를 내보내는 훨씬 더 우람한 쿨러를 갖추고 있습니다.. 이렇게 더 큰 쿨러와 듀얼 6핀 파워 컨넥터들은 4870에 주어진 160W TDP에 필수적입니다..

이 카드와 비슷한 VisionTek의 카드가 현재 약 299달러에 온라인으로 팔리기 시작했고, 이것은 4850보다 100달러 더 비싼 것입니다.그리고, 현재는 훨씬 더 많은 카드가 나오고 있고요.

4870의 코어 틀럭은 750MHz 이고, 이보다 훨씬 더 중요한 것은 512MB의 GDDR5 메모리와 짝을 이루고 있다는 점입니다. 이 메모리의 기본 클럭은 900MHz이지만 3600MT/s(MHz)에서 데이터를 전송할 수 있으며, 이런 속도는 4870의 메모리 대역폭이 4850의 것보다 거의 2배에 이르는 것을 뜻하는 것입니다.

11 copy copy.JPG

4870과 4850 모두는 카드의 상단 가장 자리에 듀얼 CrossFire 컨넥터를 갖추고 있으며, 두 카드는 2개 ,3개, 4개가 같이 연속적으로 연결된 CrossFireX 멀티-GPU 구성를 할 수 있습니다.

 

Nvidia의 응답

Nvidia의 사람들은 싸움도 없이 달콤한 199달러 그래픽 카드 시장에서 자신들의 지배력을 포기할 것 같지는 않다. 그래서 Nvidia는 Radeon HD 4850의 출시에 응답을 위해, 그리고는 경쟁력을 유지하기 위해 여러가지 조치들을 취했습니다. 대부분의 이런 조치들은 가격 인하와 관련을 하여, GeForce 9800 GTX의 기본 클럭 버젼은 HD 4850과 싸우기 위해 199달러로 하락했습니다. 한편으로는 9800 GTX 보다 더 높은 클럭의 카드도 나왔습니다.

12 copy copy.JPG


이 카드는 기본  675(코어)/1688MHz(쉐이더)에서 상승하여 코어가 738MHz, 쉐이더가 1836MHz, 메모리가 1144MHz를 갖는 XFX의 "XXX Edition" 그래픽 카드 입니다. 그리고 XFX는 이 카드에  Call of Duty 4를 묶음 상품으로 제공하고, Newegg에서는 219달러에 이 카드를 팔고 있습니다. 게다가 10달러의 mail-in rebate 할인을 제공하여서, 만약 여러분이 이 할인 제도에 참여를 하여, 충실하게 약간의 글을 쓰면 10달러를 더 절약할 수가 있기까지 합니다.

그리고 "XXX Edition"과 비슷한 카드인  GeForce 9800 GTX+가 Radeon HD 4850에 대한 더 높은 조치 단계로써 나오게 됩니다. 이 GTX+ 카드는 G92 GPU에서 축소한 55nm 다이에 기반할 것이며, "XXX Edition"의 738MHz 코어, 1836MHz 쉐이더 클럭과 같지만, 메모리 속도는  "XXX Edition"보다 더 낮을 것입니다. 그리고 Nvidia는 GTX+ 카드가 7월 16일에 약 229달러로 적당한 물량이 갖춰질 것이라 예상하고 있습니다.

Nvidia는 의도와 목적을 위해서, 이들 카드(GTX, GTX+)는 물론 성능을 포함하여 다소 동등하며, GTX+는 9800GTX의 듀얼-슬롯 쿨러와 설계도 공유를 합니다. 이 때문에, 그리고 시간 제약 때문에, 우리는 우리의 대부분 테스트에서 GTX+ 말고 "XXX Edition" 만을 포함시켰습니다. 하지만 55nm 칩으로 인해, 큰 차이를 만들 것 같은 전력소비, 발열, 소음 부분 테스트에서는 55nm(GTX+) 칩도 테스트를 했습니다. 즉, 우리는 이런 경우에서만 9800 GTX+를 포함 시켰습니다.

Nvidia는 또 다른 조치로, GeForce 9800 GTX와 GTX 200 시리즈 카드들이 PhysX API를 통해 GPU가 물리 가속을 지원하도록 부여하는 드라이버를 우리에게 공급함으로써 그들의 제품을 약간 더 매력적있게 만들도록 결정하였습니다. 이것은 우리의 3DMark Vantage 성능 수치들에서 이 드라이버의 초기 결과들을 보게 될 것입니다.


■  Shader 처리

RV770은 자신의 코어 쉐이더 구조를 R600 계열과 공유하고 있기 때문에, 제가 예전에 R600 리뷰에서 썼던, "쉐이더 처리는 어떻게 동작할까"에 대한 글하고 상당 부분의 것들이 아직도 RV770에 적용이 될 것입니다. 그러기 때문에 자세한 부분은 건너 뛰도록 하겠습니다.

RV770의 기본 실행 유닛은 아래 그림처럼 5개의 ALU-wide superscalar 블럭를 계속 유지하고 있다. 그리고 아래 그림에서, 4개는 "일반적인" ALU들이고,  "뚱뚱한" ALU은 초월수(π·ε 따위)처럼 다른 ALU들이 할 수 없는 약간의 특별한 기능을 수행할 수가 있다.

13 copy copy.JPG
SP 유닛의 내부 블럭 도표

AMD는 RV770에서 이들 SP 블럭들의 기능성을 약간 확장시켰고, 더 놀라운 것은, AMD가 RV770 칩을 점유하고 있는 SP들의 면적을 똑같은 공정 기술로 만들어진 RV670의 것하고 비교시 간신히 줄였다는 것이다. 그리고 RV770의 최고 건축 기술자인 Scott Hartog에 따르면, SP의 square millimeter(mm²) 당 성능은 40% 상승했다고 한다. 사실, AMD는 원래 RV770 GPU에 8개 SIMD 코어를 집어 넣을려고 계획했지만, 쉐이더 팀들의 최적화가 완성되지마자, 칩에 공간이 생기게 된 것이다; 원래 최초의 크기는 제한이 있어서, I/O ring은 칩의 바같 부분에 맴돌기까지 하였다고 한다. 어쨌든, 이런 최적화로 인해, 그들은 2개의 추가적인 SIMD 코어들을 추가했으며, SP 숫자는 800개로의 향상을 가져왔고, RV770이 Teraflop 이정표에 도약이 가능하게 되었다.

RV770 쉐이더들이 가지고 있는 대부분의 새로운 능력들은 비-그래픽(GPGPU,CUDA같은) 응용프로그램에 목표를 하고 있다. 예를 들면, RV770은 RV670으로부터 2배로-정확한(double-precision) 부동소수점 계산을 처리할 수 있는 능력을 물려 받았고, SP 블럭에 있는 "뚱뚱한" ALU는 클럭마다 2배로-정확한(double-precision) 부동소수점 더하기, 곱하기 도 수행할 수 있으며, 다른 일반 4개 ALU들은 2배로-정확한(double-precision) 부동소수점 더하기 처리를 위해 결합까지 할 수 있습니다. 그래서 본질적으로 이런 능력들 때문에, 2배로-정확한(double-precision) 곱하기-더하기 연산들에서 RV770의 최대 연산 성능은 자신의 Single-precison  성능에 5분 1 또는 Radeon HD 4870 경우에서는 240 GigaFlops에 도달할 수가 있다.. 이런 수치는 GeForce GTX 280조차 보다도 훨씬 더  빠른 것이며, GTX 280의 2배로-정확한(double-precision) 연산 성능의 최대 수치는 78 GigaFlops에 불과하다.

또 다른 장점은 각 SIMD 코어에 16KB의 공유된 지역 메모리가 추가 되었다. 이것은 GPU-연산(GPGPU,CUDA) 응용프로그램의 쓰레드(thread)들 사이에다가 데이터를 분담시키기 위한 것으로 쓸모가 있다. 그리고 이것은 분명히 Nvidia가 그들 자신의 최신 GPU에서 각각의 SM 구조에 집어 넣은 16KB의 공유 메모리와 다소 비슷하지만, RV770은 스트림 프로세서마다 비교적 적은 메모리를 가지고 있으며, RV770의 량은 GT200이 가지고 있는 것에 10분 1 정도이다.

이런 지역 데이터 공유는 DirectX같은 그래픽 API들을 통해 프로그래머들이 접근할 수가 없지만, AMD는 custom AA 필터(CFAA, 또는 VSAA 같은 안티 설정) 또는 post-processing 같은 형태들을 위한 더 큰 커널들을 가능하게 위해, 지역 데이터 공유를 사용하는 것 같다. 또한 RV770은 특이하게도, SIMD들 사이에서 데이터의 통과를 위해 작은 16K 전체 데이터 공유도 가지고 있다.

더 대단한 것은, 정수 bit-shift 작업(연산)들을 수행하기 위한 처리 능력(기능)이 "뚱뚱한" ALU에서 모든 5개 ALU 모두로 이동이 되었으며, 이런 bit-shift 연산은 영상 처리, 인코딩, 디코딩에 목표를 하여 준비가 되었다.

또한 설계 팀은 최고 속도로 연산 작업들를 분산시키고 집합시키는(합치는) 것을 가능게하기 위해  메모리에 수입/수출(입/출력) 능력들을 추가했다. 그리고 마지막으로, RV770은 GPU-연산(GPGPU,CUDA) 응용프로그램들을 위한 가벼운 쓰레드들을 만드는 방법을 고안해 냈다. 자세히 얘기하자면, 그래픽 쓰레드는 그들과 연관된 많은 상태(상황) 정보를 가질려는 경향이 있지만, 이런 것들 모두가 다른 타입의 처리 작업에서는 필수적이지가 않을 것이다. 그래서 RV770은  필수적이지 않은 응용프로그램을 위해 상황(상태) 정보가 적은 쓰레드를 빠르게 생성할 수가 있다.

비록 대부분의 이런 변화들이 그래픽 성능에는 영향을 주지 않을 것이지만, 한가지는 아마도 영향을 줄 것이다.

 AMD와 Nvidia 모두는 추가적인 성능 향상들을 얻을려고, 어떻게 개발자들이 Geometry 쉐이더들을 사용하게 될 것인지, 개발자들이 어떻게 그들의 GPU를 최적화할지를 파악하기 위해 현재 연구을 하고 있을 것 같다.

GT200에서 우리는 Nvidia가 Geometry 확장을 위해, 버퍼 크기를 상당히 증가시켜서 쉐이더의 사용을 더 좋게 도모한 것을 봤다. 하지만  AMD도 자신의 GPU가 이미 그런 연산를 충분히 잘 처리한다고  주장하고 있으며, 고속의 렌더링 작업을 하면 Geometry 쉐이더는 칩의 데이터를 보유할려고 하는데, 이런 경우들을 위해 AMD는 RV770를 강화시켰다.

14.jpg

위 테이블에서 볼 수 있듯이, 싱글에서 가장 큰 성능은 RV770의 쉐이더 처리 능력에서 만들어지고 있다. 물론 RV770은 10개 SIMD들로 상승됐고, 1개 칩에 스트림 프로세서라 불려지는 것이 총 800개가 있다. 이런 변화는 그래픽 성능과 GPU-연산(CUDA,GPGPU)과 같은 응용프로그램들 성능에 영향을 줍니다. 위 테이블에서 오른쪽에 있는 수치들은 여러 GPU들의 이론적 최대 연산 성능을 보여주는 것입니다. 물론 대부분이 약간의 특성이 있기 때문에, 이 최고 수치는 정확하지는 않다. 만약 모두 것이 정확히 올바르게 행해진다면 저런 수치가 가능은 합니다. 하지만 거의 도달할 수가 없습니다. 예를 들어, GeForce가 클럭 cycle 마다 추가적인 곱하기 연산을 실행할려고 자신의 dual-issue를 사용할 수 있다면, 자신의 최대 수치에 도달할 수는 있습니다다. 이와 비슷하게, Radeon도 최대 처리량을 얻기 위해서는, 선천적으로 5개의 구성 요소들을 가지고 있지 않은 데이터의 처리작업을 연속하고 의존하는 것을 피해야 합니다.

다행스럽게도, 우리는 GPU의 처리 작업 능력을 이해할 수 있는 몇 개의 간단한 종합 쉐이더 테스트를 돌릴 수 있었습니다.

15 copy copy.JPG

16 copy copy.JPG

17 copy copy.JPG

18 copy copy.JPG

가장 강력한 카드는, Radeon HD 4870으로 RV770은 Radeon HD 3870에 비해 상당한 개선이 있는 것으로 나타냈다 -  솔직히 말하자면, 약 2배 성능 차이가 났다. 경쟁 부분에서, Radeon HD 4850은 4개 테스트 중 3개에서 GeForce 9800 GTX보다 뛰어났지만, 그 차이는 알려졌던 최대 이론적 수치만큼 크지 않았다. 그리고 더욱 인상적인 것은, Radeon HD 4870이 GT200을 기반하는 GeForce GTX 260를 4개 테스트중 2개에서 뛰어났고, 본질적으로 GPU 입자와 Perlin noise 테스트에서는 GTX 280과 필적을 이룬다. 이것은 GT200이 RV770보다 메모리 인터페이스에서 2배로 넓고, 크기에서도 2배로 큰 것에 반대되는 상황입니다.

 

■  텍스쳐 처리와  메모리 체계, render back-end들.

쉐이더처럼, RV770에 있는 텍스쳐도 대규모로 능률화(최적화)가 되었습니다.  Hartog에 따르면, 이들 텍스쳐 유닛들의 square millimeter(mm²) 마다 성능이 믿을 수 없을 정도로 70%가 향상을 했다고 합니다. 또한 이전에 제가 언급했듯이, 이 텍스쳐 유닛들은 현재 쉐이더 SIMD들과 정렬이 되어 있어서,  RV770기반 설계들(카드들)은 쉐이더 힘 대 텍스쳐 필터링의 비율을 같게 유지하면서, 처리 작업 힘의 량을 올렸다 줄였다 할 수가 있습니다. 그리고 이렇게 쉐이더와 텍스쳐의 혼합 비율을 같게 유지하는 것이 RV770 말고도, 이전의 RV670과 R600도 가지고 있다는 것은 흥미로운 것입니다. 또한 Nvidia도 최근에 출시한 GT200에서 이런 방향을 한발 짝 더 이동시켰는데, 그런데도 Radeon이 Gigatexel들을 위한 Gigaflops은 상당히 더 높습니다.

19 copy copy.jpg
RV770의 텍스쳐 유닛 내부

그리고 10개 텍스쳐 유닛들이 있게 되어, RV770은 sample 과 bilinearly를 클럭마다 40개 Texel들까지 필터링할 수가 있습니다. 이것은 RV670의 16개 Texel 처리보다 높은 것으로, 상당히 증가한 것입니다. 이렇게 AMD가 자신들의 텍스쳐 유닛들 크기를 줄일 수 있었던 이유 중에 하나는 Nvidia의 방법을 따라 했었기 때문이며, 또한 일반적인 비율(크기)의 절반정도로도 동작하는 FP16 텍스쳐 포맷 필터링을 만들었기 때문입니다. 그 결과, RV770의 최대 FP16 필터링 작업률은 RV670에서 상승을 하긴 하였지만, 약간만 상승했습니다. 그리고 Hartog는 이런 약간의 상승에 대해, 여기서 다뤄지는 숫자 게임은 실제적으로 측정되는 처리량보다 중요치 않다고 말했습니다.

최대 처리량을 보장하기 위해, 설계 팀은 RV770의 캐쉬들을 대규모로 정밀 조사했고, R600의 L1/L2 캐쉬 체계의 "distributed unified cache"를 변화 시켰습니다.

20 copy copy.jpg
RV770의 캐쉬 체계 블럭 도표

각각의 L1 텍스쳐 캐쉬는 SIMD/텍스쳐 유닛 블럭과 연결되었으며, 이들을 위해 특별한 데이터를 저장하며. 각각의 L2 캐쉬는 메모리 컨트롤러과 배치 되었습니다. 만약 여러분들이 "RV770의 확실한 경쟁자들" 기사에 관한 읽었다면, 여러분은 이런 것들의 대부분이 아마도 친숙하게 들릴 것입니다. 또한, AMD는 이 부분에서 의심할 여지없이 그들의 상대자로부터 교훈을 얻었고요.

게다가, Hartog에 따르면, RV770은 새로운 캐쉬 배당(할당) 순서(일정)를 사용한다고 말했습니다. 이 캐쉬 배당은 데이타가 충족이 되었다는 신호가 있을 때 까지, L1 캐쉬의 공간(사용) 할당을 지연시키는 것이다. 이런 구조는 RV770이 자신의 텍스쳐 캐쉬를 더욱 효율적으로 사용하게금 해주는 것입니다.. 그리고 vertex들은 자신들에게 분리된 캐쉬에 데이터를 저장을 합니다. 한편, 칩의 내부 대역폭은 이전 세대의 것보다 2배가 필수적으로 준비되야 한다고 Hartog은 말했습니다. 왜냐하면, GDDR5 메모리에서 나오는 데이터의 량에 보조를 맞추기 위해서 입니다.. 그에 따르면, L1 텍스쳐 Fetch을 위한 전송률은 최대 480GB/s이고, L1과 L2 캐쉬사이의 데이터 전송율은 최대 384GB/s입니다.

21 copy copy.JPG
RV770의 메모리 인터페이스 개요.

RV770의 다시 만든 메모리 하부체계는 캐쉬에서도 멈추질 않습니다. 그리고 크게 칭찬받았던 AMD의 Ring 버스는 완전히 사라졌으며, Crossbar에 의해 전혀 대체되지도 않았다. 대신에 RV770은 Simpler 기법을 선택 했습니다. 이 기법의 구조을 설명하자면,

GPU의 4개 메모리 컨트롤러들은 칩의 가장자리를 둘러싸면서 분산되었고, 메콘의 옆에는 메콘의 대역폭을 1차적으로 소비하는  render back-end들과 L2 캐쉬들이 있습니다. 그리고 데이터는 각각의 컨트롤러와 캐쉬들에게 좋은 "참조의 지역성"(locality of reference)를 유지하는 tiling을 통해 분배되고 있으며, Hub는 PCI Express,display controllers, UVD2 video engine, CrossFireX 내부 연결 등을 위해 오고 가는 I/O 유닛들의 낮은 대역폭 데이터를 통과 시킵니다. 그래서 AMD는 이 기법으로 인해, 효율성 획득을 가져온다고 하고 있으며, RV770은 자신의 이론적 최대 대역폭에서 95%를 도달할 수 있다고 말하고 있습니다. 참고로, RV670은 자신의 최대 대역폭에서 85% 도달.

참고: Locality of Reference 란 참조의 지역성이라고도 하는데,

캐시 메모리의 필요성을 이야기할 때, 또는 캐시 메모리에 어떤 정보를 저장할 것인지를 결정할 때 나오는 이야기 입니다.

주어진 시간동안 중앙처리장치의 기억 장치 참조는 제한된 영역에서만 이루어진다는 것으로, 짧은 시간 동안 중앙처리장치가 접근하는법위는 지역적으로 제한되는 것을 의미하다 입니다. 즉 사용가능성이 높은 정보는 지금 사용하는 정보와 연관되거나 가까이 있는 정보들이다 라고 생각하시면 됩니다.

하지만, 이런 것들로만 RV770이 자신의 최대 가능성(성능)을 실현이 되도록 한 것은 아닙니다. RV770은 단지 256비트 메모리 인터페이스를 가지고 있어서, 이 부분에 특별한 도움을 주기위해, AMD는 새로운 메모리 타입인 GDDR5를 개발하기 위해 DRAM 제조사들과 협력을 하였습니다.
GDDR5는 현재의 DRAM에서 사용되는 single-ended 신호법을 계속 사용하고 있으며, 더 높은 대역폭을 달성하기 위해 여러 기술들을 사용한다. 그 기술들은 새로운 클럭을 만드는 아키텍쳐, 와이어들을 위해 에러 검출 프로토콜, 시작에서 DRAM 장치들의 개별적인 훈련등이 있다. 그리고 JEDEC DRAM과 GDDR5 위원회의 위원장인 AMD의 Joe Macri는, DRAM 훈련(DRAM training)은 환경적 상태들에 대해 개선을 하면 응답을 할 것이기 때문에, 더 좋은 냉각은 추가적인 클럭 공간을 가능게 할 것이라고 설명했다.


GDDR5의 command 클럭은 데이처 처리 속도(메모리 전체 속도)의 4분1로 동작을 합니다. 이러기 때문에, Radeon HD 4870이 실제로 데이터 처리 속도는 3600 MT/s(3600MHz)이지만, 메모리 클럭 속도는 900MHz로 보여주는 것입니다. 그리고 계산을 해보면, 여러분은 4870의 최대 메모리 대역폭이 115.2GB/s로 동작하는 것을 찾을 수 있을 것입니다. 이런 대역폭은 512-비트를 가진 Radeon HD 2900 XT 또는 GDDR3로 448-비트를 가진 GeForce GTX 260의 최대 대역폭보다 훨씬 높은 것입니다. 그래서 이 카드는 3.6Gbps 장치이며, AMD에 따르면, 현재 5Gbps GDDR5 메모리가 이미 보여지고 있으며, 올 해 말 이전에 6Gbps를 볼 것이라고 했습니다.

22 copy copy.JPG
RV770의 render back-end 유닛 내부

RV770이 R600 아키텍쳐 중에서 상딩히 폭 넓게 다시 배관공사를 한 마지막 요소는 상당히 고쳐진 render back-end들 입니다. 혼란을 막기위해, Nvidia는 이들을 ROP라 부르고 있지만, 우리는 이 칩을 논의하는데에 있어서 AMD의 용어를 사용할 것입니다. RV770 설계 팀들의 주요 목표중에 하나는 AA(안티얼라이징) 성능을 개선하는 것이였고, render back-end들은 AA 성능을 높이기 위해서는 중요한 열쇠였습니다. 위 도표를 보면, RV770의 render back-end 유닛은 다른 유닛들과 큰 차이를 보이지 않으며, RV770은 이들을 4개만 가지고 있는데, 괜찮은 건가?

음, 우선, 개개의 render back-end 유닛들은 상당히 많이 강력해 졌습니다. 아래의 테이블은 Hartog가 공급한 것으로써, RV770 대 RV670의 총 render back 수용력(능력)을 보여주는 것입니다. 참고로 RV770과 RV670 모두는 render bacek-end 유닛을 똑같이 가지고 있습니다.

23 copy copy.jpg
RV670 대 RV770의 총 render back-end 처리량

이 테이블에 따르면, RV770의 render back-end들은 많은 부분에서 RV670의 것보다 2배만큼 더 빠른 것을 볼 수 있습니다. 여기서 빠른 부분은  multisampled AA(MSAA)의 형태이고, 64비트 컬러에서는 AA가 없어도 우세합니다. 이뿐만 아니라, RV770은 Z 또는 stencil 연산에서 클락마다 64까지 처리할 수도 있습니다. Hartog에 따르면 RV670의 안티얼라이징(AA) 성능에서 RV670의 Z 처리가 근본적인 한계 요소라서, AA 처리가 좋지 않다고 말합니다.

600계열의 AA 성능 저하문제 이야기는 여기서 끝이 아닙니다.
R600의 출시 초기에서 조차도, 우리는 AMD가 multisampled AA를 위한 해결책을 만들어 낼 수 없기 때문에, R600의 render back-end는 근본적으로 망가졌으며, 그 대신에, R600과 그 계열들은 이런 처리(AA)를 쉐이더 코어에서 처리하고 있다는 소문을 들었습니다.  이렇게 쉐이더를 기반하는 방법은 AMD가 custom-filter AA(Nvidia의 CSAA와 비슷한 CFAA)필터로 된 것들을 잘 처리하도록 해줬지만, R600 계열의 상대적으로 약한 AA 성능(일반 AA 설정, 2x,4x.. AA)은 여전히 대책이 안서는 골치아픈 문제였습니다. 만약 쉐이더 코어 방법으로도 많이 느렸다면, 왜 AA처리를 그런 방법(쉐이더 코어 기반)으로 했을까요?

쉐이더를 기반하는 방법의 결과들을 추측해 보면, 위 테이블에 있는 RV670의 수치들은 낙관적인 수치들입니다. 그래서 AA처리가 쉐이더코어에 의존한다면, RV670의 AA처리의 이론적 최대 수치는 수정이 될 것 입니다. 그리고 RV670은 그런 최대 수치를 자주 달성하지도 못할 것 같고요/

다행히도, AMD는 RV770이 MSAA 처리하기 위해 쉐이더 코어를 더 이상 사용하지 않는다고 우리를 확인시켜 줬습니다. 만약 R6xx 칩의 render back-end들에 문제가 있었다면 - AMD는 여전히 이것을 부정하고 있지만 - 어쟀든 문제는 수정이 되었습니다. RV770은 여전히 AMD의 custom-filter AA(Nvidia의 CSAA와 비슷한 CFAA) 모드들을 위해서는 쉐이더을 기반하는 방법을 사용할 것이지만, 정규적인 박스 필터들(일반적인 안티얼라이징)을 위한 작업은 다른 GPU들 처럼 render back-end들의 하드웨어로 처리가 됩니다.

 

■ RV770의 특징(기질) 테스트

모든 카드들과 함께 비교한다면, 다시 설계한 RV770의 동작 힘은 어떻게 될까요? 살펴 보자. 우선 아래의 테이블은 GPU들과 일부 관련된 이론적 최대 능력들을 빠르게 보여주고 있는 것이며, 우리는 이것을 참고로 사용할 것입니다.

24.JPG

위 테이블을 보면 이상하게도, RV770의 모든 수치들은 전혀 대단하지가 않습니다. 그래서 Radeon HD 4850은 모든 부분에서 GeForce 9800 GTX한테 뒤쳐지고 있으며, 4870도 메모리 대역폭만을 제외하고 대부분의 부분에서 훨씬 더 빠르지가 않습니다. 하지만 우리가 좋합 테스트로 실제적인 처리량을 측정한다면 어떻게 될까요?

25 copy copy.JPG

Color fill 테스트는 대부분 메모리 대역폭에 의해 제한이 생기는 테스트입니다. Radeon HD 4850은 약간 더 낮은 메모리 클럭에도 불과하고 GeForce 9800 GTX를 능가하고 있습니다. 게다가 4870은 GeForce 260과 Radeon HD 3870 X2를 이겨 버렸는데, 이것은 GDDR5 메모리가 빠르고, 상대적으로 효율적이라는 것을 설명하는 것 같습니다. 그리고 GTX 260과 3870 X2는 4870과 이론적으로 비슷한 메모리 대역폭을 가지고 있지만, 이들은 실제적으로는 더 느렸습니다.

26 copy copy.JPG

이 테스트는 32비트 정수 텍스쳐 필터링 성능 테스트이며,  다음 테스트 보다는 이번 테스트에서는 대다수의 GPU들이 빠를 것입니다. RV770은 나뻐 보이지 않으며, 성능은 필터 설정이 증가하는 숫자만큼 천천히 줄어 들었습니다. 반면에, Nvidia의 GPU들은 이론과 실제에서 분명히 많은 텍스쳐 필터링 능력을 가지고 있습니다.

27 copy copy.JPG

이번 테스트는 FP16 텍스쳐 필터링 처리량을 측정한 테스트이고, 순위가 바꼈습니다. 놀랍게도, Radeon HD 4850은 GeForce GTX 280보다 뛰어 났으며, 4870은 여전히 더 빨랐습니다. 그리고 Nvidia 카드중에 듀얼 GPU를 가진 Nvidia X2 카드만이 상위권에 있어서, Nvidia의 GPU들은 자신의 FP16 최대 처리량의 도달를 막는 내부 병목현상 같은 것을 가지고 있는 것 같습니다. 만약 그렇다면, Nvidia 카드들은 좋은 친구가 있는데, 그 친구는 Radeon HD 3870으로써, 이 카드는 FP16의 이론적 최대 량은 Radeon HD 4850의 것과 거의 동등하지만, 실제로는 4850이 훨씬 더 빠릅니다.

우연하게도, 만약 3DMark에 의해 만들어진 Gigatexel 수치들이 여러분에게 혼동이 있는 것 같다면, 음., 저 또한 그렇습니다. 그래서 전 FutureMark한테 이 문제를 물어봤고, 그들은 이 테스트의 값들이 다소 부정확하다고 확인해줬습니다. 그리고 그들은 현재 그것들을 조사하고 있으며, 그들의 여름 휴가에서 돌아온 이후에 잘 될 것이라고 말했습니다. 어쨌든, 그 수치들이 분명히 틀렸다라도, 이 비교 성능은 신뢰할 수 있다고 전 가정을 하고 있습니다. 제 생각이 맞을거라 희망을 가져요..

 

Texture filtering 품질

여러분은 아마도 아래의 테이블을 보면, 어떤 약들이 저런 효과를 만들어 낼지 궁금해 할 것입니다. 제가 의약적 충고를 제공할 위치에 있지도 않고, 지금의 주제에 대한 많은 것을 설명하길 원하지도 않지만은, 아래의 이미지들은 단지 텍스쳐 필터링 품질을 위한 테스트 패턴 일 뿐입니다. 이 이미지들을 포함하게 된 저의 주된 목적은 DX10 세대의 GPU들이 등장한 이후에는 이런 부분이 많은 변화가 없다는 것을 설명하게 위해서 입니다. 이들은 우리의 Radeon HD 2900 XT 리뷰에서에서 우리가 봤던 패턴들과 같으며, 그때의 2900 XT 리뷰에서는 DX9 부류의 GPU들이 만들어냈던 결과에 비해 DX10 카드들은 큰 개선점들이 있었습니다.

28.JPG

위 이미지들은 Snappily의 이름으로 된 D3D AF 테스터에서 나온 결과들이고, 여러분들은 체크(바둑판) 무늬 패턴이 적용되고 3D로 만들어진 관을 내려다 보고 있는 것입니다. 색이 칠해진 band(무리, 그룹)들은 서로 다른 mip-map 수준들을 가리키고 있으며, 표면 각도에 의존하고, 표면 각도를 사용하고 있는 GPU들의 다양한 level of detail(LOD)를 볼 수가 있습니다.

참고: mip-map은 동일한 그림이면서 다양한 크기를 갖는 그림.

GeForce GTX 280의 패턴의 수준은 G80 또는 G92 GPU에서 만들어진 것과 동일합니다. 그리고 Nvidia의 테스트 패턴은 원에 근접하기 때문에 조금 더 완벽하지만, 우리는 2개(G80, 92와 280) 알고리즘 사이에서 미세한 실제적 차이를 발견하기도 했습니다.

더 흥미로운 것은, Nvidia의 trilinear blending 최적화가 눈에 보였습니다. 이것은 드라이버 컨트롤 패널에서 "high quality" 옵션을 활성화 하면, mip-map들 사이에 색 변화 과정이 얼만큼 더 부드러워 졌는지를 여러분도 볼 수가 있으며, 이 옵션이 성능에 어떻게 영향을 주는지는 앞 페이지에서 보았습니다. 반면에, 비록 Radeon의 테스트 패턴은 이뻐 보이지만, 적당하다고 보이는 만큼의 적은 bleding를 적용하는 기존의 AMD trilinear 알고리즘을 이번 카드들에서도 AMD는 비슷하게 적용시켰다.

이미지 품질에서 제가 생각하는 요점은,  Nvidia와 AMD의 현 DX10 GPU들 모두가 대단히 비슷한 결과를 만들었습니다. 그리고 양쪽 회사의 GPU들 모두를 가지고 게임에 접속하여 상당히 시간동안 게임을 플레이 했는데, 어떤 제품이라도 여러분에게 좋은 성능을 제공할 만큼 만족했습니다. 하지만, 우리는 얼마 후에 이미지 품질 문제를 다시 만나게 된 거 같았습니다.. 전 이런 trilinear 최적화의 영향을 더욱 면밀히 조사하는 것을 스크린 스샷들 또는 테스트 패턴에서 하는 것보다 오히려 움직이고 있는 것에서 하는 것을 좋아합니다. 우리는 나중에 움직이는 것을 다뤄 보도록 하겠습니다.




안티얼라이징

RV770의 보강된 텍스쳐 필터링은 상당히 좋아 보이지만, 이런 새로운 render back-end들은 어떻게 안티얼라이징 성능을 도울까? 음,, 우리는 지금부터 그 대답을 할 것이다. 아래의 결과들은 증가하는  sample levels(AA 설정)이 프레임 비율에 얼마나 영향을 주는가를 보여주고 있다. 우리는 Half-Life 2 Episode Two의 모든 게임 품질 옵션을 가능한 최고로 올렸고, 1920X1200 해상도에서 테스트했다.

29 copy copy.JPG

새로운 render back-end들의 영향(효과)을 이해하기 위해, 우리는 Radeon HD 3870 X2와 Radeon HD 4870의 결과들을 비교했다. 두 카드들은 AA가 없을 때(1X 설정), 3870 X2가 약간 앞서는 비슷한 지점에서 출발했다. 하지만 우리가 곧 2X AA를 활성화 했을 때, 3870 X2의 성능은 빠르게 떨어져 버렸지만, 4870의 프레임 비율은 상당히 천천히 내려갔다. 그리고 8X AA의 4870 프레임은 2X AA의 3870 X2보다 더 높기까지 했다.

난 위 그래프에서 Nvidia의 coverage sampled AA (CSAA) 모드을 위한 성능 결과들을 올렸지만, AMD가 제공하는 다량의  custom-filter AA (CFAA) 모드들의 결과를 발표하기(올리기)가 많이 어려워서, 난 그(CFAA)들을 테이블에 기록했다. 첫번째 테이블은 Radeon HD 3870 X2이고, 뒤 따르는 것이 Radeon HD 4870이다.

30.jpg
31.JPG

이들 결과에서 날 놀라게 하는 것은 우리가 CFAA 모드로 들어갔을 때, 이들 두 제품들의 성능은 정말로 비슷하다는 것이였다. 4870은 render back-end들이 담당하는 base MSAA(일반 AA) 모드에서 상당히 더 빨랐다. 하지만 우리가 두 카드에 쉐이더 코어를 기반하는 CFAA 모드를 실행시켰을 때, 4870은 3870 X2보다 약간만 더 빨랐다. 이런 결과는, 실제적으로 말하자면, RV770 기반 카드들이 표준의 multisampled AA(일반 AA설정) 에서 CFAA(높은 수의 AA설정) 모드로 이동하면 R600 기반 카드들이 겪는 것보다 상대적으로 더 높은 감점을 지불하게 될 것이라는 것을 뜻하는 것이다.

참고: 여기서 CSAA, CFAA 모드는 일반적인 AA보다 더 높은 AA 수준 설정이라고 생각하시면 될 것 같습니다.

그래서 여러분이 HD 4870을 가지고 있다면, 다른 custom(CFAA 또는 CSAA) 설정보다 8X MSAA에서 HD4870를 돌리는 것이 몹시 현명한 것이다. 그리고 CFAA에서 상대적으로 성능이 떨어진다고 해서, RV770의 새로운 render back-end들에게 문제가 있지는 않다. 어쨋든, AMD의 CFAA가 만들어 낼 수 있는 미세한(신비스러운?) 블루어(흐릿한) 효과를 게임에서는 강요하지 않기 떄문에, 많은 사람들은 주어진 옵션에서 아마도 8X MSAA 사용을 선호할 것이다.

우연하게도, RV770의 8X MSAA 성능은 또한 GeForce들의 것보다 훨씬 더 높다. 즉 Radeon HD 4870은  8X MSAA에서 강력한 GeForce GTX 280을 앞도하기까지 하며, 4850은 실제적으로 GeForce 9800 GTX를 이기고 있다. 그리고 믿을지 모르겠지만, 난 amdguyintoronto@hotmail.com으로부터 8X AA로 된 더 많은 게임 테스트를 나에게 요청하는 바이러스성 마케팅 이메일을 이미 받았다. 젠장, 이런 넘들이 접근을 하다니....

 

우리의 테스트 방법

언제나처럼, 우리는 분명한 벤치마크 수치들을 제공하기 위해 최선을 다했다. 테스트들은 최소한 3번 실행했으며, 결과 값은  3번의 테스트 결과들을 평균화 했다.

32.JPG
33.jpg

Corsair의 덕택으로 테스트를 위한 메모리가 우리에게 공급되었으며, 그들의 품질, 서비스, 지원 등은 이름없는(싼) 메모리들 보다 많이 월등하다.

우리의 테스트 시스템은  PC Power & Cooling Silencer 750W 파워로 작동되었다. 이 Silencer 750W 파워는 우리의 11개 파워 평가에서 Editor's Choice 승리자이기 때문에, 우리의 테스트 시스템을 위해 알맞은 선택인 것 같다. 그리고 이 파워는 OCZ에서 공급해줬다.

다른 구체적인 설명이 없다면, 그래픽 카드들을 위한 이미지 품질 설정들은 control panel 기본 설정이며, vsync은 모든 테스트들에서 사용하지 않았다.

그리고 아래는 사용된 테스트 프로그램들의 버젼들이다.

- Call of Duty 4: Modern Warfare 1.5
- Crysis 1.2.1
- Half-Life 2 Episode Two
- Enemy Territory: Quake Wars 1.5
- Assassin's Creed (unpatched)
- Race Driver GRID
- 3DMark Vantage 1.0.1
- FRAPS 2.9.4

우리는 대체적으로 공공연하게 이용 가능하고 재생(복사)할 수 있는 테스트 방법들을 이용하였다. 만약 우리의 테스트 방법에 질문들이 있다면, 우리의 포럼(http://techreport.com/forums/)에서 그 질문들을 남겨주세요.


테스트 결과
아래의 플래쉬 이미지들은 가운데에 있는 "play" 버튼을 누른 다음에, 하단에 있는 숫자를 누르면 다른 이미지로 바뀝니다.

 
Call of Duty 4: Modern Warfare


 
Half-Life 2: Episode Two


 
Enemy Territory: Quake Wars



 
Crysis



 
Assassin's Creed



 
Race Driver GRID



 
3DMark Vantage



 
Power consumption


 
 Noise levels



결론
RV770 GPU는 거의 모든 면에서 분명히 성공한 것으로 보인다. 그리고 RV770의 가장 저렴한 카드인, Radeon HD 4850은 GeForce 9800 GTX보다 전체적으로 더 높은 성능을 제공했고, 항상 인기있었던 199달러 가격 대로 값이 수정되었다. 한편 나의 생각에서, RV770의 가장 강력한 형태(4870 카드)은 상당히 인상적이였다.

Radeon HD 4870에 탑재된, GPU는 다이 면적 당 성능에 관해서 아키텍쳐 효율의 새로운 표준 규격을 수립했다. 그 이유에는 2가지가 있는데, 하나는 R600 그래픽 코어를 광범위하게 다시 건축하였고, 최적화 했기 때문이고, 다른 하나는 GDDR5 메모리의 놀라운 대역폭 량은 256비트 인터페이스을 넘어서게 할 수 있었다. 그리고 이런 점들은 광고에서 뿐만아니라 모든 부분에서 제대로 먹힐 것 같다. 또한, 현실적인 견지에서,  이런 모든게 무엇을 의미하냐면 299달러 제품인 Radeon HD 4870은 2배의 칩 크기를 가지고 있는 339달러의 GeForce GTX 260와 밀접하게 경쟁를 한다는 것이다.

하지만, 난 GPU 권력 투쟁의 양면에서 나오고 있는 2개의 논쟁들에 찬성하지 않는다.(??) AMD는 R600의 참패 이후인 수 개월전에 비용-절감을 위해서 하이-엔드 GPU의 건축를 그만 뒀고, 대신에 멀티-GPU 방법으로 하이엔드 제품를 발표했다. 그리고 그들이 다이크기가 점점 커지는 시대에 대해 말을 시작한 이후에, "단일화(싱글)" GPU는 끝났다. 하지만 내 생각에, 그런 생각(멀티GPU)은 좀 틀린 것 같다. 사실, 난 수평적으로(한 카드에) 1600개 SP들과 80개 텍스쳐 유닛들를  RV770에서 파생되는(업그레이드된) 괴물 GPU에서 보길 원한다. 여러분은 상상할 수 있나요?
사실 큰(괴물) 칩은 멀티-GPU을 실행하는데에 있어서 생기는 문제들을 겪지 않는다. 왜냐하면 멀티-GPU의 실행은 새롭게 출시되는 게임들의 프로파일(특징?, 전체적인 윤곽?)들을 전혀 가지고 있지 않기 때문이다(프로파일이 필요하다). 그리고 큰 칩의 구축은 회사가 나중에 더 작은 크기로 된 칩을 만드는 것을 전혀 방해하지 않는다. 맞습니다, Nvidia는 여전히 GeForce GTX 280같은 하이엔드 GPU들을 만들고 있지만 그들은 중급 칩들도 만들고 있습니다.

이런(큰) 칩의 한 예는 G92의 55nm 버젼이 GeForce 9800 GTX+에 탑재된 경우이다. 만약 Nvidia가 예상되고 있는  7월 중순에 이들을 제공하고, 예측되는 가격에서 또 다른 30달러의 가격 인하를 한다면, 그들은 Radeon HD 4850와 크기, 성능, 전력소비에서 거의 동등하면서, 대단히 효과적인 4850의 상대자를 갖게 될 것이다.

동시에, Nvidia는 게이머들 위해, 자신들의 GPU로 가속화되는 PhysX API의 잠재적 가치를 특별하게 강조하고, 그리고 자신들의 CUDA 플랫폼에 대한 노력과 많은 마케팅 시간을 투자하는 것에 의해, GPU-연산를 정면으로 활용 할려고 노력중이다. 하지만 나는 이 물리가속을 상상으로만 생각했다. 하지만 하드웨어로 가속되는 물리 효과들은 , 조만간 나오게 된다고 하였다. 하지만 물리효과는 아직 나오지가 않았다. 아마도 Nvidia가 Ageia를 인수한 것은 성공이 일테지만, 난 나의 GPU 구입 결정을 그런 것에 기반하지 않을 것이다. 만약, PhysX-기반하는 게임들이 정말로 나온다면, 난 그들이 PhysX를 지원하는 카드들의 수명 기간에 상당한 영향을 줄 것이라고는 생각지 않는다.
(의견: 데스크탑 게이머들에게 GPU연산을 통한 물리 가속화는 크게 와닿지 않을 것이기 때문에, 이런 부분에서 Nvidia의 노력은 크게 빛을 보지 못할 것이다라는 말 같습니다)

게다가, AMD는 이질적인 연산작업의 영역에 상당한 투자를 하고 있다. 예를들어, ATI를 인수한 것도 여기에 포함되고, 약간만 생각해보면 여러분은 호기심을 돋우는 Fusion과 Torrenza 같은 코드네임도 들어 봤을 것이다. 그리고 우리는 최근에 Patti Harrell와 대화을 했고, 그 대화를 바탕으로 우리는 AMD의 계획을 업데이트 했다. 그리고 AMD의 계획은 Nvidia가 지금하고 있는 행보와 상당히 비슷하게 가고 있다. 사실 AMD가 먼저  Folding@Home을 위한 클라이언트 지원을 먼저 했었다. 그리고 Adobe는 Nvidia의 GT200 전시회에서 했던 것처럼 RV770 언론 행사에서도 똑같은 Photoshop 데모를 선보였다. 이 프로그램은 CUDA가 아닌 그래픽 API를 사용한다. 그리고 Nvidia는 CUDA를 사용하는 소프트웨어 생태계를 구축하고, 마케팅하기 위해 더 많은 투자를 하게 될 것 같다. 하지만 GPU 연산작업이 성공할려면 크로스-GPU 표준 규격들이 있어야 한다. 만약 그런게 생긴다면, AMD도 또한 확실히 그런 자리에 있게 될 것이다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.