다른 분도 하시는진 아직도 모르지만, 일단 공부할겸 겸사겸사 조금씩 하고있습니다.
RV770이 출시된지 꽤 되었는데도 파면 팔수록 제법 재밌습니다?

일부분이기도 하고 혹시나 오역이 있나, 확실한 문제인가에 의견을 들어보려 여태껏 썻던 부분을 올립니다.

"테셀레이션은 현재 DX10에서 사용할 수 있다."
파트부터 추가글입니다. 제가 번역한게 영 앞뒤가 안맞는것 같기도 하고 어색합니다. 물론 그 이후에도 그럴 것 같아요.

저번글 + 이번에 살짝 추가글입니다.


RV770 그래픽 아키텍처

RV770 개발자들을 포함한 팀 멤버들과 많은 논의를 하면서 이 아키텍처의 중점은 모든면에 아울러 효율성을 중시한다는 것을 분명히 알게되었다. AMD는 여기에 대해 "R600에 기초한 아키텍처와 향산된 밸런스-그리고 효율-, 그래픽 프로세싱 유닛을 최적화 하였다." 라고 설명했다.

여기서 주의깊게 봐야할 점은, AMD가 더 이상 커다란 GPU를 만들지 않을 것이다- 라는 주장이다. 하지만 내가 생각한 것은 그 주장과 다르게 RV770은 "작은" GPU가 될 수 없을 것인데, 이는 안타깝게도 260㎟ 다이속에 10억 트랜지스터가 들어있고 이것을 TSMC 55nm 공정으로 제조했다는 것이다.

여기서 말하고 싶은 것은 다이 공간을 효율적이게 사용했다는 기업 간부들의 말은 사실이다. 최근 이것으로 인해 엔비디아의 GT200을 관광보낼 수 있었고, 이는 드디어 열렬히 원하던 두가지 소원 중 하나를 이룩한 셈이다.

완성도를 위해 GT200은 TSMC의 65nm 기술을 사용하여 500㎟~600㎟ 다이 면적안에 14억 트랜지스터를 내장하였다. 물론 우리는 500㎟ 보단 600㎟에 가깝다고 생각하면 된다. 비록 엔비디아는 막연히 외적으로 크기만 늘리지 않고 내적으로 조금쯤은 특별하게 강화시켜 만들고 싶었겠지만 희망사항처럼 되진 못하였고 결국 우리가 한창 원탁에서 논의하고 있던 5월에 이 소식(다이크기와 내장 트랜지스터 소식)을 알렸다.

제조 프런트에서 AMD가 일궈낸 RV770의 눈에 띄는 효율성 몇가지를 볼 수 있었다. 물론 AMD가 가진 프로세스 기술 이점이 노력의 산물이라는 사실은 부정할 수 없지만 그저 시각적으로 작아진 것처럼 보여질 뿐 아직 보완이 완벽한 것은 아니다. 이것은 곧 더 작게 만드는 기술의 이점(효과)에서, 즉 기술대비 실제공정의 비례이점이 조금 틀어졌다는 것으로, 장비가 세밀해졌는데도 그만큼의 큰 이득은 보지 못했다는 것이다.

이번 아키텍처는 이전 공유 쉐이더 아키텍처와 매우 유사하여 R600과 RV670을 떠올릴 수 있다. 공유 쉐이더 아키텍처 제품들을 이해하고 있다면 RV770이 어떤 녀석인지 알 수 있을 것이다. 그러나 RV770이 과거 제품과 완전히 동일하다는 뜻은 아니며, 몇 가지 중요한 부분에서 매우 세련되게 변했다는(업그레이드) 것이다.

이 아키텍처 디자인은 라데온2900XT와 함께 기술 소개했던 VLIW(Very long instruction word)에 기초하였고, 각각의 쉐이더 프로세서가 단계별 기능을 가진 다섯개의 스트림 프로세서로 구성되어있다. 불운의 2900XT가 출시되었을 때, 우리는 이 기술을 사용하여만들어진 것에 대해 제법 회의적인 생각을 했었는데, 카드의 성능에 많은 장애를 주는 VLIW 디자인이며, 시각적인 면에서는 이 문제를 더욱 심화시키어 결국 안티 얼라이어싱 성능에 큰 영향을 주는 주요 "디자인 킬러" 가 된다(안티 얼라이어싱을 구성하는 유닛을 방해하는 킬러인 셈이다).

HD4850과 4870 둘다 "매우 속이 꽉차신(full-fat)" 칩인데, 이 뜻은 둘다 160개, 5-way 슈퍼스칼라 쉐이더 프로세서, 즉 800개 스트림 프로세서인 것이다. 40개의 텍스처유닛과 16ROPs에 256bit 메모리 인터페이스가 뒷받침하고 있다. 두 모델의 다른점이라면 서로 다른 클럭스피드와 메모리 종류이다. 4850은 GDDR3 512MB이고, 4870은 더욱 높은 클럭인 슈퍼 하이 스피드 GDDR5 512MB이다.

테셀레이션은 현재 DX10에서도 사용가능하다.

다이렉트 10.1의 지원은 기대되는 부분이고 이전보다 더욱 강해졌다. 현재 4개의 DX10.1 지원 게임을 공표했는데 어쌔신크리드,배틀포지, 스톰라이즈,클라우드9 이 있다. 이 중 한개 내지 두개는 추후 패치로 DX10.1 지원이 삭제되었다.

비트테크에 있는 노련한 게이머에게 물어봤더니 그역시 두어개 정도가 그렇다고 하였는데, 이는 우리가 게임이 릴리즈 되었을 때 기다린만큼 플레이 할 가치가 있느냐는 말이다. 특정 기능을 지원하는 이 회사(거의 유일하다싶이)는 상업적으로 매우 노력하고 있다는 것을 알린다는 취지로 내 오피니언을 쓰는 것이다.

테셀레이션 유닛은 현재도 있고 R600과 RV670의 기능력과도 유사하다. 그러나 이러한 시행은 개발자들의 접근을 보다 용이하게 만든다. 이전 세대 하드웨어에서는 테셀레이터를 DX10에서 사용하지 않았는데, 물론 DX9만을 사용했다(여기에 익숙했다)는 것이고, 현재는 DX10, 10.1을 통해 사용할 수 있다.

추가적으로, 논의중에 나는 아키텍처에 대한 한가지, 테셀레이션 유닛이 들어있는 RV770은 당장 지오메리트 쉐이더로 데이터를 다른 곳으로 옮길 수(이출) 있다. 두개 카드가 서로 협력하여 큼지막하게(혹 멋지게) 산출된 트라이앵글과 디테일을 전송할 수 있다. 질문 당시 AMD는 테셀레이션 유닛 없이 지오메리트 쉐이더만을 이용하여 같은 효과를 낼 수 있을 것이라 했지만, 테셀레이터는 대교모 효율을 낳을 수 있기에ㅡ AMD가 했던 말이 중요한 것은 이번 달 개발자들에게서 얘기를 들었는데, 그들 모두 같은생각으로 말한 것이다.

이 성과에 대해 이해를 도모해 보자면, "사용할 수 없다." 와 "사용하지 않는다." 는 엄연히 다르다는 것을 쉽게 알 수 있다. 이 말은 우리가 여전히 지오메리트 쉐이더가 테셀레이터의 도움이 있고 없고에 대한 산출효과 차이를 예시로 보았지만, 이 앞 내용보단 AMD가 테셀레이션에 대한 견해ㅡMS가 다음 세대 DX를 거창하게 소개한 파장이 중요한데, 여기서 말하고자 하는건 AMD가 개발자들에게 테셀레이션을 자주 사용할 수 있도록 동기부여를 할 수 있을까? 난 아직 확실하다 말 못하겠다. 그러나 DX11이 공개될 때쯤 알 수 있을 것이다.

스트림 컴퓨팅

AMD는 일반적인 컴퓨터 환경(능력)에 대한 얘기에 많은 시간을 들이지 않으려했다. 멀티 그래픽 모드 운영은 대단한 것 같지만, 나는 아키텍처가 많은 잠재력으로 평범한 상황에서는 대단한 연산 성능을 전해주진 않을 것이라 생각한다.

AMD는 칩의 연산 능력을 보강했는데 이는 스트림 프로세서의 증가와 밀접한 관련이있다. HD4850은 최대 1테라 플롭스를 가졌고, 4870은 최대 1.2테라 플롭스이다. 이것을 종합해보자면 막대한 처리량 이란 것. 다른 어떤 엔비디아 제품보다 높은 수치다. 그리고 AMD가 언제 어떤 방식으로 non-graphic 작업에서 GPU를 써먹는 방법에 시동을 건 것은 흥미롭게 볼 일이다.

스트림 컴퓨팅 어플리케이션은 AMD하드웨어에서 네이티브로 작동하는 것은 아니다. 대신에 소프트웨어 레이어를 통해 그것으로 컴퓨팅 소프트웨어 스택을 가속한 것을 알 수 있다. 물론 컴파일타임과 런타임요소를 포함. 컴파일타임 구성은 C/C++ 를 포함하며, 툴 선택도 포괄적(다양)이다. 라이브러리와 미들웨어는 Brook+, ACML(Accelerated Computing Math Library), Cobra, Havok, Peaksteam, RapidMind로 한다.

AMD는 이 런타임 컴포넌트를 Compute Abstration Layer(CAL) 이라 부른다. 이건 개발자와 데이터 배열 병럴 프로세서를 위한 것인데, 단순하지 않음에도 불구하고 CAL은 개발자가 AMD 멀티코어 CPU와 ATI 라데온 GPU 두녀석을 사용하여 코드를 쓸 수 있도로 디자인되어있다. 이뜻은 그것이 또 다른 Hardware Abstraction Layer를 필요로 한다는 것인데, 알려진 것으로 CTM이 있다. CTM은 근본적으로 GPU와 CAL이 깔아뭉갠 어셈블러 인터페이스다.

회사는 CTM이 커다란 가치가 있다는 말을 하지 않았고 오히려 CAL이 최고의 솔루션이라 하였는데, 남은 CTM은 소프트웨어 스택에서 적당한 투명성 레이어라는 것이다. 우리는 AMD의 스트림 컴퓨팅의 발의(주도, 시작)가 소비자 어플리케이션에서 널리 보급되어 사용되는 쪽으로 가는데 바른 길이라 생각한다. 어셈블러는 위에 언급한 일에 다가가기엔 적합한 것이 아니며이는 과거나 지금이나 마찬가지다.





...역시 한 2시간쯤 공들였는데도 쓰고보니 번역 얼마 안했네요. 체감시간은 2+2+3연강크리 같았는데 말이에요.

더욱 자세한 설명은 http://www.bit-tech.net/hardware/2008/09/02/ati-radeon-4850-4870-architecture-review/6 이곳으로.
위에 내용이 맞게 옮긴 것인지 잘 모르겠습니다.ㅡ.ㅡ;