제 번역글 사상 최초로 가장 성의 없는 글이 될 것 같네요.

 

RV770, 그리고 DX11과 중복되는 내용이 너무 많아 한페이지 번역 했습니다.


DX11에 관한 부분이 재번역이 필요 하다면 다음주 쯤 하겠습니다.

 

관련 링크 :

Radeon HD 4870과 4850 : AMD는 199달러와 299달러에서 승리하다.

DirectX 11 : 어떤 것이 다가오는지를 봐라.

 

AMD의 Radeon HD 5870 : 차세대 GPU들을 선도한다.


Cypress : What's New


재 조명은 그만 두고, Cypress에서는 어떤 것이 추가 되었는지 함 봐보자.
SPU 레벨에서 보면, AMD는 SPU에 새로운 하드웨어 명령어 몇개를 추가 하였으며 다른 명령어의 실행 속도를 높였는데, 이 둘 모두 다양한 API들에 대한 요구 사양을 충족 시키며 성능을 향상 시키기 위해서이다. 이런 변화들 중에는 이전에는 멀티 사이클로 이루어 졌던 dot products가 싱글 사이클로 줄어든 것도 있다. DirectX 11은 bit count, insert와 extract 같은 연산이 요구 되는데, 이것 또한 추가 되었다. 게다가 비정상적인 수가 나올 시에 더욱 많은 집중을 요하는데, 이것이 이제는 풀 스피드로 조작된다.

 

1.jpg


가끔 가장 흥미로운 명령어가 추가 되는데 이번에는 Sum of Absolute Differences(SAD) 가 되었다. SAD는 비디오 인코딩과 컨퓨터 비전에 가장 중요한 명령어인데 이것은 모션 측정에 쓰이며, RV770 상에서는 12개 명령어 이하로만 에뮬레이팅 되지 네이티브 명령어가 없었다. 하드웨어적으로 SAD 명령어가 추가 됨에 따라, SAD 계산 시간은 싱글 클럭으로 가능해졌으며, AMD는 이것이 비디오 인코딩에 있어 확실히 속도 향상이 될 것이라 믿고 있다.(2배 이상)


그러나 결정타는 SAD가 명령어가 아니라 이것이 DirectX 11이나 OpenCL의 부분이라는 것인데, 이것은 DirectX 프로그램이 이것을 인코딩을 위해 호출하지 못하며, OpenCL 관점에서는 이것이 확장언어라는 것이다. 그러나 이들 API들은 하드웨어로 하여금 지네들이 원하는 것을 열 수 있는 여지를 남겨 두기에, AMD의 컴파일러는 이것을 어디에 써야 되는지 아는 한은, 여전히 이 명령어를 쓸 수 있게 된다. 앞서 말한 SAD의 긴 버젼을 코드 안에 넣어 두어 이것을 인식 함으로 인해, 컴파일러는 이것을 하드웨어 SAD로 교체 할 수 있게 되고, 이 하드웨어 SAD는 직접적으로 SAD를 호출하지 않음에도 속도가 향상되는 효과를 누릴 수 있게 된다. 멋지지?


마지막으로, 한개의 Cypress SP가 싱글 클럭 사이클에 어떤 것을 할 수 있는지 세부적으로 보도록 하자.:


•4 32-bit FP MAD per clock
•2 64-bit FP MUL or ADD per clock
•1 64-bit FP MAD per clock
•4 24-bit Int MUL or ADD per clock
•SFU : 1 32-bit FP MAD per clock


계층적으로 보면, 우리가 볼 수 있는 다음 것은 SIMD이다. SP들의 향상 뒤에는, L1 텍스쳐 캐시가 속도 면에서 향상 된 것에 중점을 맞출 수 있겠다. 이제 이것은 텍스쳐 페치를 빛나는 1TB/sec. 라는 속도로 할 수 있는 능력을 가지게 되었다. L1 텍스쳐 캐시의 실제 크기는 아직 16KB에서 머물고 있기는 하다. 반면 분리된 L1 캐시는 연산 작업을 위한 SIMD에 추가 되었는데, 이것은 8KB 정도가 된다. 또한 SIMD들의 연산 성능을 향상 시키기 위해 각기 SIMD의 지역 데이터 공유 공간을 두배로 늘려서, 이것은 이제 32KB가 되었따.

 

2.jpg

고수준 레벨에서 보면, RV770과 Cypress SIMD는 아주 비슷하다.


여기 있던 텍스쳐 유닛 또한 재작업 되었다. 첫번째로 변화된 점은 이제 이것들이 압축된 AA 컬러 버퍼를 읽을 수 있는데, 이것으로 하여금 그들이 갖고 있는 대역폭을 좀 더 효율적으로 사용할 수 있게 되었다. 텍스쳐 유닛의 두번째 변화는 그들의 보간 속도가 보간을 사용하지 않음으로써 향상되었다는 것이다. 보간은 SP들로 옮겨서 작업되었는데, 이것이 텍스쳐 유닛이 이 작업을 하는 것보다 훨씬 빨라졌다. (이것은 DX11의 새로운 Pull Model이다.) 이 결과로 Cypress의 텍스쳐 유닛은 RV770 계열보다 훨씬 효율적인 엄청난 필레이트를 가지게 되었으며, 특히 종합적인 테스트에서 뛰어난 성능을 보여줄 것인데, 한번 로드 하여 잊어 버리는(load it and forget it) 테스트의 특성 상 이것이 RV770까지의 한계로 남게 되었다. AMD의 사양으로는 초당 68 billion의 이선형 필터 텍셀 호출이 가능한데, 향상된 텍스쳐 유닛과 향상된 대역폭으로 인해 나온 결과이다.


마지막으로, 만약 다른 관점으로 본다면, RV770에 대해서 Cypress 의 성능상의 이점의 주된 원인을 찾을 수 있겠다. AMD는 SIMD의 수를 두배 늘렸는데, 10개에서 20개로 늘렸다. 이것은 두배의 SP들과 두배의 텍스쳐 유닛을 의미한다. ; 사실 모든 수치가 RV770에서 Cypress로 오면서 두배가 되었는데 결과적으로 SIMD도 두배가 되었다. 개념적으로는 간단하지만, SIMD는 가장 중요한 유닛을 갖고 있기에, 성능 향상에 아주 효과적이다.

 

3.jpg


그러나 두배 많은 SIMD 들이라도, 이들 추가적인 SIMD들에 일을 주어야 하며, 그들에게서 나오는 결과에 대해 뭔가를 또 해야 한다. 이것을 만족 시키기 위해, 4개의 L2 캐시는 64에서 128KB로 두배가 되었다. 이들 큰 L2 캐시는 이제 L1 캐시에 435GB/sec.의 속도로 데이터를 전송하는데, RV770에서는 384GB/sec. 였다. 이 전역 데이터 공유 공간은 64KB로 네배가 되엇다.

 

4].jpg

RV770 vs...

 

5.jpg
Cypress

 

다음으로는, ROP들이 이들 SIMD에서 오는 모든 연산 데이터에 대한 속도를 맞추기 위해 두배가 되었다는 것을 말할 수 있겠다. 이것은 Cypress에서 32개로 늘어났다. ROP는 또한 성능 자체가 향상 되었다.; 이제 이들은 fast color clear를 수행할 수 있는데, 이것은 몇몇 게임에서 프레임 당 수백번을 할 때가 있기 때문이다. 이들은 또한 AMD의 재 소개 되는 수퍼 샘플링 AA 모드의 몇몇 외관을 조정할 수 있는데, 이것은 이후에 말하겠다.

 

6.jpg


마지막으로, 중요한 것을 말하자면, 우리는 AMD가 "그래픽 엔진" 이라고 부르는 것들에서 바뀐 것인데, 주로 DX11로의 부합이 되면서 바뀌게 된다. RV770의 아주 드럽게 안쓰였던 테셀레이터는 DX11에 완벽히 부합 하도록 바뀌었으며, Hull Shader와 Domain Shader 능력을 부여 받고, 테셀레이션 가공품을 줄이기 위한 새로운 알고리즘을 사용한다. 두번째 래스터라이져 또한 추가 되었는데, 표면상으로는 20 SIMD에게 데이터를 주기 위해서이다.

http://www.anandtech.com/video/showdoc.aspx?i=3643&p=5

 

나머지 내용은 RV770에 관한 내용이 주가 되므로, 스페셜 게시판에 올라온 글을 보시면 되시겠습니다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.