||1

ATI 라데온 HD 2000 시리즈, 특히 그중에서도 이번에 출시된 라데온 HD 2900XT의 아키텍처를 설명하고 그 성능을 알아보는 www.pcpop.com의 리뷰글입니다만, 주객이 전도되어 3D 기술에 대한 전반적인 설명을 한 부분이 훨씬 더 많은 글입니다.

따라서 좀 어렵고 전문적인 내용이긴 합니다만, 그만큼 도움이 되는 글이기에 무리를 해서 번역하게 됐습니다. 원 출처는 www.pcpop.com이고 번역/편집은 기글 하드웨어입니다.

여기서부터 4부 내용과 이어집니다. 4부를 안보신 분은 4부를 먼저 보시길 권장합니다. 4부 주소는 http://gigglehd.com/bbs/view.php?id=infoboard&no=119 이곳입니다.


라데온 HD 2900XT의 외관과 무게

이제는 워낙 많이 알려졌으니 딱히 자세히 소개할 필요도 없을것 같습니다만 그래도 빼놓을 순 없겠지요. 라데온 X1950XTX보다 약간 크고 지포스 8800GTX보다는 약간 작습니다.



512비트 메모리 버스를 사용하기 때문에 16개의 메모리 모듈이 장착되어 있습니다. 따라서 카드 뒷면에도 2개의 메모리 모듈이 붙어 있으며 그 위에는 금속판이 부착되어 메모리를 보호하고 냉각하며, 쿨러 때문에 기판이 휘는것을 막습니다.


라데온 HD 2900XT의 길이는 지포스 8800GTS와 GTX의 사이입니다. 재밌는건 전부 쿨러가 비슷하게 생겼다는 것입니다. 히트파이프+터빈 팬+방열판으로 구성되어 있으며, 그래픽카드의 열을 케이스 바깥으로 빼냅니다.


지포스 8800GTX의 무게는 740g입니다.


지포스 8800GTS의 무게는 665g입니다.


라데온 HD 2900XT의 무게는 945g입니다.


라데온 X1950XTX의 무게는 850g입니다.

ATI는 밀도가 높은 순 구리 히트파이프와 방열판을 사용하는 반면, NVIDIA는 GPU와 닿는 부분만 구리를 사용하고 나머지는 전부 알루미늄 히트파이프와 방열판을 사용합니다. 따라서 ATI 쪽의 무게가 더 무거운 것입니다.


라데온 HD 2900XT의 분해

라데온 HD 2900XT의 쿨러 구조는 상당히 복잡합니다.


라데온 HD 2900XT의 레퍼런스 쿨러는 2개의 히트파이프와 순 구리 방열판, 터빈 팬을 사용하여 제조 원가가 무려 60$라고 합니다.



구리 방열판에서 시작된 2개의 히트파이프가 코어 부분까지 닿아 있습니다.



터빈 팬입니다. 12V 1A 12W이고, 4핀 케이블을 사용하여 온도에 따라 팬의 회전 속도를 바꿀 수 있습니다.


2개의 히트파이프가 균일하게 발열을 처리하며, 이 쿨러는 카드 윗쪽의 8개 메모리와 전원부 MOSFET과도 접촉하고 있습니다.



고급형 제품인만큼 붙어있는 부품의 수가 아주 많습니다.


라데온 HD 2900XT의 스펙

R600 코어는 기판 위에 마름모꼴로 부착되어 있으며 그 주변은 보호판이 덧대어져 있습니다. 쿨러를 장착하다가 코어가 갈리거나 하는 일을 막기 위해서인 것입니다.



R600은 지금까지 유래가 없는 수준인 7억2천만개의 트랜지스터를 내장하였습니다. 하지만 TSMC 80나노 공정으로 제조되었기 때문에, 90나노 공정으로 제조되고 6억8천백만개의 트랜지스터가 내장된 G80보다는 오히려 코어 크기가 작습니다.



G80의 히트 스프레더를 따고 측정한 것입니다.

R600의 다이 사이즈는 20.33㎜ X 21.47㎜ = 428㎟ 이고, G80의 다이 사이즈는 22.42㎜ X 21.69㎜ = 486㎟입니다.

메모리를 본다면, G80의 384비트 메모리 버스는 12개의 메모리 모듈을 사용하기 때문에 그래픽카드 윗쪽에 전부 부착할 수 있는 반면, R600의 512비트 메모리 버스는 16개의 메모리 모듈을 사용하기 때문에 기판 윗쪽과 아랫쪽에 8개씩 나눠 부착하게 됩니다.



앞뒤로 8개씩 GDDR3 메모리를 부착하고, 터미네이터 저항과 필터 콘덴서를 붙이면서 사용 부품의 수가 상당히 많은 편입니다.


하이닉스 8M x 32비트 1.0ns GDDR3 메모리 모듈입니다.

라데온 HD 2900XT는 최고급형 모델은 아닙니다. 8M x 32비트 메모리 대신 16M x 32비트 메모리를 사용한다면 1GB 용량의 512비트 메모리를 장착할 수 있겠지요. 또한 ATI는 앞으로 GDDR4를 장착한 모델을 출시할 것이라고 알려져 있기도 합니다.

사실 대다수의 응용 프로그램이라면 512MB라는 용량이 성능의 병목 현상을 일으킬 정도는 아닙니다. 게다가 8M 모듈과 16M 모듈의 가격 차이는 상당한 수준입니다.


스펙입니다. 파란색 쪽이야 설명할 필요가 없겠고,
노란색 제일 위의 '코어부분'은 코드네임, 제조공정, 트랜지스터 수, 스트림 프로세서 수, 텍스처 유닛, ROPs 유닛입니다.
'메모리 부분'은 메모리 종류, 메이커, 스펙, 모듈 수량, 속도, 용량, 메모리 버스, 대역폭입니다.
'클럭'은 코어 클럭, 쉐이더 클럭, 메모리 클럭입니다.
'PCB'는 레퍼런스 PCB 이름, 보조 전원 포트, 듀얼 그래픽카드 포트의 숫자입니다.
제일 마지막은 공식 가격입니다.


라데온 HD 2900XT의 특수 기능

지금가지의 그래픽카드들은 HDMI를 출력하기 위해 외부 칩을 별도로 장착하고, 사운드 데이터는 메인보드나 사운드카드에서 끌어와야만 했습니다. 이런 방법은 호환성이 그리 높지 않았을 뿐더러 제조 원가 또한 비싼 편이었습니다. 허나 ATI는 사운드카드를 GPU에 내장, 그래픽카드에서 직접 사운드 데이터를 출력할 수 있게 되었습니다.


2개의 듀얼링크 DVI 포트가 있어 30인치 LCD 듀얼 모니터를 사용할 수 있습니다.


라데온 HD 2900XT는 HDMI 포트는 없습니다만 DVI to HDMI 젠더를 사용하면 출력이 가능합니다. 라데온 HD 2900XT의 DVI 포트 데이터에는 이미 사운드 데이터가 포함되어 있기 때문입니다.

DVI 포트의 핀은 이미 그 역할이 제각기 정해져 있는데, 어떻게 거기에 사운드 데이터를 포함하여 전송할 수 있는지 의문을 제기하는 분도 계실 것입니다. 허나 HDMI와 DVI 포트는 모두 디지털 방식이며, 딱히 특정 핀의 출력 신호가 엄격하게 정해져 있지 않습니다. 그저 어떤 핀은 클럭 신호를, 어떤 핀은 데이터 신호를, 어떤 핀은 보정 신호를 출력한다... 정도가 전부입니다.



지금까지 ATI의 고급형 그래픽카드는 전부 ATI 레이지 시어터라는 꽤나 오래된 칩을 장착, VIVO 기능을 지원했습니다. 허나 라데온 HD 2900XT에서는 비교적 신형 칩인 시어터 200을 장착하여, 비디오 입력과 접수 기능, 디지털 신호 전환, 사운드 IF 접수, 사운드 합성, 음성 디코딩 실행과 사라운드 디코딩, I2S, S/PDIF, VIP 포트를 통핸 사운드 출력 등을 모두 지원합니다.

시어터 200은 지금까지 올인원더 시리즈에 사용된 제품이었습니다. 물론 라데온 HD 2900XT는 TV 튜너가 탑재되어 있진 안ㅁㅎ지만, 시어터 200의 사운드/비디오 처리 기능은 여전히 사용할 수 있습니다.



R600은 크로스파이어를 기본적으로 지원하고 있습니다. 2개의 크로스파이어 골든 핑거가 있는데, 둘 중 하나만 사용하는게 아니라 둘 다 사용해야만 정상적으로 작동한다고 하는군요. (상행과 하행)


8800GTX와 R600의 전력 공급량 차이



지포스 8800 GTX/울트라의 전원부

지포스 8800GTX의 최대 전력 소모량은 225W입니다. 기판 뒷면을 자세히 보면 8800GTX도 8핀 보조전원을 사용할 수 있도록 만들어졌음을 알 수 있을 것입니다.(하지만 실제로는 6핀 2개를 사용했습니다) 라데온 HD 2900XT는 8핀+6핀을 사용하여 최대 300W의 전력을 공급할 수 있습니다.


라데온 HD 2900XT의 8핀+6핀 구조

이 8핀 PCI-E 그래픽카드 보조전원은 서버 CPU가 사용하는 8핀 보조전원과 핀 배열이 다릅니다. 다만 하위 호환을 지원하기 때문에 8핀+6핀이 아니라 6핀 두개를 사용해도 작동은 한다고 합니다.



다만 오버드라이브 기능을 사용하려면 꼭 8핀+6핀을 사용해야 하며, 6핀+6핀일경우 오버드라이브가 작동하지 않는다고 합니다.


라데온 HD 2900XT의 전원부

뒤어난 성능을 위해 사용되는 부품의 수가 늘어나고, 부품의 클럭이 빨라지고, 그럴수록 전기를 더 많이 먹는다는 것은 굳이 설명할 필요도 없을 것입니다. 그래픽카드에서 전원부가 중요하다는 것 역시 말입니다.



처음에 지포스 8800GTX가 나왔을때, 많은 사람들은 그 길이에 경악을 김치 못하였으며, G80의 쿨러를 뜯어보고 나서야 카드 길이의 1/3은 전원부가 차지하고 있다는 것을 볼 수 있게 되었습니다. R600 코어의 작동 전압은 1.2V에 불과하지만 피크 전류치는 G80보다도 더 큽니다.


지포스 8800GTX/울트라의 전원부

NVIDIA는 전체 기판의 제조 원가를 낮추기 위해, 전통적인 저 주파수 PWM 전원부 설계를 사용하고 있습니다. 대량의 MOS와 인덕터, 전해 콘덴서 등의 보조 부품이 필요하지만, 이들 보통 부품의 가격은 그리 비싸진 않습니다. 다만 직접도가 낮기 때문에 기판의 길이가 길어지게 되는 것입니다.

반면 ATI는 최고급형 멀티페이즈 전원부를 사용, 한 줄로 늘어선 QFP 패키징 멀티페이즈 칩/멀티 채널 릴레이 인덕터, 탄탈 캐패시터, 집단 MOS를 사용하여 그 직접도를 엄청나게 높였습니다. 결국 제조 원가는 비싸지지만 그래픽카드의 기판 길이는 짧아지게 되는 것이지요.




라데온 X1800XT, X1900XTX, X1950XTX의 전원부입니다. ATI는 X1000 시리즈부터 Volterra의 디지털 전원부를 사용하였습니다.

라데온 HD 2900XT는 집적된 트랜지스터의 수가 대폭 늘어나고 메모리 버스가 2배로 증가하였기 때문에 간단한 전원부로는 그 전력 소모량을 해겨할 수가 없습니다. 따라서 사상 최고치인 14층 기판과 Volterra의 차세대 고급형 전원부를 사용하게 됩니다.


2개의 VT1165WF 메인 컨트롤 칩, 7개의 VT1195SF 집적 MOS, 싱글/듀얼/쿼드 인덕터입니다.

라데온 HD 2900XT의 전원부는 기판에서 차지하는 면적이 아주 작을 뿐더러, 상당히 규칙적으로 배열되어 있습니다.


왼쪽의 노란색은 메모리 전원부로 전류량은 40A 입니다. 오른쪽의 연두색은 코어 전원부로 최대 전류량은 240A 입니다.


VT1195SF 멀티페이즈 칩 7개

라데온 HD 2900XT에 장착된 VT1195SF 칩은 각각 40A의 출력이 가능하며, 이는 지금까 나온 전원 출력에서 제일 높은 것이기도 합니다. 6개의 VT1195SF는 R600 코어에 최고 240A의 전류를 공급할 수 있습니다만, 코어 클럭 750Mhz인 R600의 사용 전류량은 일반적으로 120A 정도입니다. 따라서 이는 액체질소 오버클럭같은것을 대비한 것이라고밖에 볼 수 없겠지요. 기존의 라데온 X1950XTX는 4개의 VT1115SF를 사용하여 총 120A의 전류를 공급할 수 있었으니, 코어에 공급 가능한 최대 전류량이 정확히 두배 늘어난 셈입니다.

VT1195SF는 최고 출력 전류량만 늘어난 것이 아닙니다. MOS와 드라이버 회로를 내장하여 기판 점유율을 대폭 줄였습니다. 기존에 사용되던 VT1105 시리즈가 CSP53 패키징을 사용한 것과는 달리, VT1195SF는 QFN21 패키징을 사용하여 쿨링과 전기적 성질의 우수한 특성을 유지하였을 뿐더러, 테스트와 보수를 더욱 간편하게 할 수 있게 되었습니다. (CSP 패키징은 BGA와 마친가지로 핀이 칩 밑에 붙어있지만 QFN 패키징은 핀이 밖으로 나와 있기 때문에 접합 테스트가 간단합니다) 따라서 기존의 MOS 부품처럼 전류량이 클 경우 쉽게 노화하거나 정밀도가 떨어지거나 불안정해지는 등의 문제는 VT1195SF에서 존재하지 않습니다.

또한 칩의 전력 소모량이 줄어들었습니다. 온/오프 클럭이 1.5Mhz이기 때문에 내부 저항이 1mΩ 뿐이며 전체 전환률이 89.3%에 달합니다. 기존 전원부는 전환 효율이 최고 70% 정도였기 때문에 전류량에 따라 온도의 변화폭이 매우 심각했습니다만, 라데온 X1900XTX의 VT1105의 전환 효율은 80%, X1950XTX의 VT1115의 전환 효율은 85%를 기록하면서 이러한 현상을 대폭 개선하였던 것입니다. 이번에 라데온 HD 2900XT의 VT1195SF는 역시 기존 제품보다 5% 정도 전환 효율이 더 높아진 셈입니다.

R600 코어의 3D 모드 작동 전압은 1.15V로, 만약 240A 전류가 통과한다고 가정한다면(실제로 이 피크 전류는 2개의 R600 크로스파이어라고 볼 수 있겠습니다) 실제로 필요한 전력은 276W인 것이며, 전환 효율이 90%인 고급 PWM라면 306W, 70% 정도인 일반 PWM이라면 394W 정도가 됩니다. 즉 전원 모듈에 따라서 90W의 전력이 낭비되는 셈이며, 따라서 전환 효율이 좋은 전원부 모듈이 그래픽카드에서 얼마나 중요한지를 알 수 있으리라 여겨집니다. ATI가 최신 전원 모듈을 사용한 것은 기판 길이를 줄이기 위해서이기도 하지만, 전체 전력 소모량을 줄이기 위해서이기도 합니다.


Pulse 인덕터

R600에는 7개의 보통 인덕터와 맞먹는 3개의 자기 봉폐식 표면 실장형 인덕터가 부착되어 있습니다. 왼쪽의 칩은 40A 전류를 통과하며, 가운데는 듀얼, 오른쪽은 쿼드이기 때문에 각각 2개와 4개 인덕터의 역할을 하게 됩니다. 이렇게 패키징을 하나로 하면 전기 간섭을 줄이고, 출력 전류량이 많을때 고주파음이 나는 상황을 원천봉쇄할 수 있습니다.


라데온 HD 2900XT에는 앞에서 본 주요 전원 공급 모듈(코어 6개, 메모리 1개) 이외에도 1개의 별도 전원부가 따로 존재하는데, 이 전원부는 MVDDQ(메모리 입출력) 포트 전원만을 담당합니다.

지금 판매되는 대부분의 그래픽카드는 원가 절감을 위해 이 부분의 전원 공급을 생략하고, 메모리 전원부에서 전원을 공급하도록 합니다. 물론 R600의 VT1195SF 칩 한개에서 출력되는 40A의 전류라면 16개의 메모리에 전력을 공급하고도 여지가 있겠지만, ATI는 512비트 메모리 버스에 사용된 메모리 모듈 16개를 좀 더 안정적으로 작동시키기 위해 별도의 CSP 75핀 VT244 칩을 사용하는 것입니다. 이 칩은 전원과 MOSFET이 하나로 합쳐져 있으며 피크 전류가 18A이기 때문에, 기판 윗면에 장착된 VT1195SF와 합하면 R600의 메모리 전원부는 피크치 58A의 전류를 공급하는 것입니다. 다만 실제로 일반 GDDR3 모듈은 1A 정도의 전류를 필요로 합니다.(R600의 경우 장착된 메모리 모듈이 16개이니 총 16A)



앞에서 VT1195SF의 전환 효율이 높은 이유는 온/오프 클럭이 1.5MHz에 달하기 때문이라고 하였습니다. 이러한 고클럭은 일반적인 알루미늄 캔타입 캐패시터로 감당할 수 없으며, 더 고급형인 탄탈 전해 캐패시터 역시 온/오프 클럭이 1Mhz보다 높으면 전기 성능이 큰 폭으로 떨어지게 됩니다.(일반 그래픽카드의 PWM 온/오프 클럭은 300KHz)

그리하여 라데온 HD 2900XT는 값비싼 MLCC(적층 세라믹 캐패시터)를 사용합니다. MLCC는 군사용 레이더, 전자 간섭 발사장치 등의 고정밀 전자 설비에 사용되며, 최근 들어 고클럭의 CPU에 사용되기 시작했습니다.(인텔 CPU 뒤에 붙어있는게 MLCC입니다) MLCC는 아주 높은 클럭에서도 작동이 가능하며 항 간섭 능력이 매우 뛰어납니다. MLCC는 100GHz 이상의 클럭에서도 작동하지만 알루미늄/탄탈 캐패시터의 최고 작동 클럭은 1Mhz를 넘기지 못합니다.

MLCC는 매우 뛰어난 ESR 값을 가지고 있습니다. 여러분도 익히 알고 계실 산요 오스콘 캐패시터의 경우 용량이 1500uF라면 ESR값이 10밀리옴 정도이지만, 22uF 용량의 MLCC는 1밀리옴 정도입니다.(...용량 차이가 엄청나게 나지만 거기에 대해서는 말을 안하는군요. 뭐 사용 분야가 다르니까 말입니다.)

ESR은 콘덴서의 스펙에서 상당히 중요한 값입니다. 만약 1밀리옴에 100A 전류를 곱한다면 0.1V가 되는데, GPU 작동 전압의 최고치가 1.15V 수준이고 메모리가 1.8V이며, 작은 전압 변화에도 그래픽카드가 맛이 간다는걸 고려한다면 이정도 차이는 상당히 큰 것입니다. 따라서 라데온 HD 2900XT가 이러한 고급 MLCC를 여러개 사용한 것도 전부 이 ESR 값을 낮추기 위한 것입니다. 라데온 HD 2900XT에 사용된 MLCC는 전부 일본 무라타의 22uF 0805 X7RMLCC 콘덴서입니다.


라데온 HD 2900XT는 탄탈 캐패시터도 다수 사용하고 있습니다. (검은색 매직으로 그어놓은 노란색 직사각형 형태의 부품입니다.)

라데온 HD 2900XT의 뒷면과 출력부 부분을 보면 상당수의 탄탈 캐패시터가 장착되어 있음을 볼 수 있습니다. 이들 캐패시터는 GPU나 메모리와 같은 주요 전원부와는 상관이 없는 PWM 필터로, 이들 PWM은 보조 칩이나(시어터 200이라던가) 쿨러의 전원 공급을 담당합니다. 라데온 X800 시리즈나 지포스 7800/7900에서는 주요 전원부에 탄탈 캐패시터가 사용되었지만, 라데온 HD 2900XT에서는 작은 부품에 탄탈 캐패시트가 사용된 셈이니, ATI의 고급형 그래픽카드 부품이 얼마나 호화로운지 알 수 있을 것입니다.



디지털 전원부를 제외하고도 익숙한 16V 산요 오스콘 SVP 3개가 붙어있는 것을 보실 수 있는데, 이들 캐패시터는 8핀+6핀 보조전원의 12V 전류 필터링을 담당합니다.(초 대용량 MLCC의 전압은 이렇게 높지 않기 때문에 이런 용도에는 사용할 수 없습니다)


각종 제조사들의 라데온 HD 2900XT

이 글이 쓰여졌을 당시에는 여러 제조사들의 라데온 HD 2900XT를 소개할만한 가치가 있었겠습니다만, 지금은 출시된지 제법 시간이 지났기 때문에 굳이 자세히 소개할 필요는 없겠지요. 게다가 전부 레퍼런스라서 딱히 추가로 설명할 것도 없습니다. 따라서 그냥 사진만 소개하도록 하겠습니다.








벤치마크 환경

드디어, 벤치마크입니다....라고는 해도, 이미 많은 분들께서 성능을 알고 계실 것입니다. 다만 여기에서는 항목별로 자세히 나누어 테스트를 했기 때문에 한번쯤은 볼 만한다고 판단, 그대로 소개합니다.

그래픽카드의 최대 성능을 발휘하기 위해 코어 2 익스트림 X6800, 아수스 P5W64 WS 프로페셔널, 커세어 DDR2-800 2GB(5-5-5-15-1T) 등의 명실상부한 최고급 시스템을 벤치마크에 사용하였습니다. 사용한 드라이버는 포스웨어 158.19(윈도우즈 XP), 포스웨어 158.18(윈도우즈 비스타), 카탈리스트 7.4 WHQL(라데온 X1950XTX), 카탈리스트 8.37베타(라데온 HD 2900XT)입니다.



또한 델의 30인치 모니터와 벤큐의 24인치 모니터를 사용하여 고해상도에서의 게임 성능을 테스트하였습니다. 물론, 3D마크의 경우 전부 기본 해상도에서의 결과입니다.


3D마크06 이론 성능 테스트

제대로 된 벤치마크를 시작하기 전에, 먼저 다이렉트 X 9.0c의 순수 이론 성능을 테스트하여 R600의 연산 능력을 보도록 합시다.






위에서부터 순서대로 코어 클럭, 쉐이더 클럭, 메모리 클럭, 메모리 용량입니다. 결과는 이 표를 보시고, 아래에서는 각 테스트들에 대해서 설명하도록 하겠습니다.



픽셀 필 레이트/싱글 텍스처 테스트는 2x2 크기 텍스처를 64쿼드 조합 방식으로 화면에 꽉 채웁니다. 라데온 HD 2900XT의 성능은 지포스 8800GTS를 대폭 뛰어넘었으며 심지어 지포스 8800 울트라보다도 높습니다.

픽셀 필 레이트/멀티 텍스처 테스트는 2x2 크기 텍스처를 8쿼드 조합 방식으로 화면에 꽉 채우는데, 이러한 쿼드 조합들은 모두 8층 레이어가 겹쳐져 구성되어 있습니다. 2x2라는 작은 크기의 텍스처를 사용하는 목적은 메모리 대역폭이 GPU 필 레이트에 영향을 주는 것을 막기 위해서이며, 따라서 테스트 결과는 GPU의 이론 성능에 매우 근접한 결과가 나오게 됩니다. 결과는 라데온 HD 2900XT가 지포스 8800GTS보다 약간 떨어집니다.



픽셀 쉐이더 테스트는 세번째 게임 테스트에 나오는 암벽에 쉐이더 모델 3.0과 HDR을 사용, 픽셀 쉐이더에서 직접 그려냅니다. 이 과정 중에 광원이 계속 변하기 때문에 GPU 픽셀 쉐이더의 처리 성능을 테스트 할 수 있습니다. 라데온 HD 2900XT의 성능은 지포스 8800GTS보다 앞서고 있습니다만 그 차이는 그리 크지 않습니다.



버텍스 쉐이더 싱글 테스트는 세번째 게임 테스트에 나오는 4개의 괴물 모델을 사용합니다. 이 괴물들은 모두 백만개의 버텍스로 구성되어 있으며, 이 괴물들이 회전하면 GPU가 간단한 버텍스 계산과 하나의 광원 연산을 하게 됩니다. 라데온 HD 2900XT의 성능은 지포스 8800 울트라보다도 더 높게 나왔습니다.



버텍스 쉐이더 컴플렉스 테스트는 바람이 부는 풀밭을 그려냅니다. 풀의 파문만 CPU가 연산하고, 이 화면에 그려진 무수히 많은 버텍스의 T&L은 전부 버텍스 쉐이더에서 담당합니다. 라데온 HD 2900XT의 버텍스 쉐이더 성능은 지포스 8800 시리즈보다 70% 이상 뛰어납니다.



쉐이더 파티클 테스트에는 409600개의 입자(파티클)이 등장합니다. GPU는 여러 입자들이 모여 오오라를 만드는 궤적을 계산해 냅니다. 여기서도 라데온 HD 2900XT의 성능이 지포스 8800GTS보다 높게 나왔습니다.



Perlin Noise 테스트는 간단한 3D 테스트입니다. 전체 테스트 과정 중에는 48개의 텍스처 조사 명령어와 447개의 연산 명령어가 포함됩니다. 픽셀 쉐이더 3.0은 하나의 쉐이더에서 512개의 명령어만 처리할 수 있는데, Perlin Noise  쉐이더는 도합 495개를 사용하고 있으니 그 극한에 가까이 도달한 셈입니다. 48개의 텍스처 조사 명령어는 텍스처의 크기가 32비트 256x256(64kb)인지 조사합니다. 크기가 큰 텍스처를 사용하지 않는건 메모리 대역폭이 최종 결과에 미치는 영향을 최소화하기 위해서입니다. 이 테스트에서도 라데온 HD 2900XT는 지포스 8800 울트라보다도 더 좋은 성능을 보여주었습니다.


쉐이더 마크 V2.1 이론 성능 테스트



쉐이더마크는 픽셀 쉐이더를 테스트하는 프로그램이며, HLSL(High-level Shading Language)를 이용하여 프로그래밍되었습니다. 2.1 버전에서는 HDR 테스트가 추가되었습니다.


역시 코어 클럭, 쉐이더 클럭, 메모리 클럭, 메모리 용량의 순서입니다.

결과는 라데온 HD 2900XT가 16개, 지포스 8800GTS가 9개 부분에서 이겼습니다. 하지만 두 제품의 차이는 작은 편입니다.


3D마크03 - 다이렉트 X 7, 8, 9 테스트


3D마크03은 확실히 오래된 프로그램입니다만, 구형 엔진을 사용하는 게임들의 성능을 알아볼 수 있는 테스트이기도 합니다.


아주 뛰어난 성능을 보여주고 있습니다만-



고해상도에 AA AF를 켜버리니 8800GTS는 말할 것도 없고 심지어 X1950XTX 수준으로 떨어져 버립니다. 드라이버의 CFAA 자동 설정에 의한 버그라고 추측됩니다.


3D마크05 - 다이렉트 X 9.0b 테스트


3D마크05는 순수한 다이렉트 X 9 테스트입니다. 픽셀 랜더링에 치중되어 있기 때문에 픽셀 쉐이더 유닛이 많은 라데온 X1000 시리즈가 비교적 좋은 성능을 보여주었습니다.


지포스 8800 울트라마저도 뛰어넘는 점수가 나오고 있습니다.



하지만 AA만 켰다 하면 3D마크03과 마찬가지로 점수가 상당히 떨어져 버립니다. 다만 여기서는 512비트 메모리 버스 덕분에 지포스 8800GTS에 역전되진 않습니다.


3D마크06 - 다이렉트 X 9.0b/c 테스트


3D마크06은 최신 테스트 프로그램으로 2개의 쉐이더 모델 2.0 테스트와 2개의 쉐이더 모델 3.0 테스트가 포함되어 있습니다. 다이렉트 X 9.0c의 최고수준 그래픽을 보여주는 프로그램입니다.




3D마크06에서는 라데온 HD 2900XT가 지포스 8800GTS를 대폭 앞서면서 지포스 8800GTX와 비슷한 성능을 보여줍니다. 그리고 쉐이더 모델 3.0 쪽의 성능이 쉐이더 모델 2.0 쪽보다 더 높습니다. 이는 쉐이더 모델 3.0만 놓고 본다면 지포스 8800 GTX와 동급이라는 의미가 되겠습니다.






고해상도에서도 여전히 지포스 8800GTS보다 우세를 유지하고 있습니다. ...만, AA 테스트는 안하고 그냥 넘어가는군요 -_-a


프레이 - 둠3 엔진을 사용한 최신 오픈GL 게임


프레이는 나온지 오래된 게임은 아닙니다만 게임 엔진은 좀 오래된 둠3 엔진을 사용합니다.


게임 옵션은 전부 최고로 설정하였습니다.



오픈GL은 전통적으로 NVIDIA 강세인 영역입니다만, 고해상도 AA의 경우 ATI가 좋은 성능을 보여주고 있습니다.


파크라이 - 다이렉트 X 9.0c를 지원하는 고전 게임


파크라이는 나온지도 꽤 오랜 시간이 지난 게임입니다만, 각종 패치를 통해 고해상도에서 HDR과 AA를 사용하면 고급형 그래픽카드에서도 높은 fps를 내기가 힘든 게임이며, 때문에 아직까지도 각종 벤치마크에서 자주 애용되는 게임이기도 합니다.


설정은 최고로 하였습니다. HDR과 8x AF를 사용하며 AA는 쓰지 않습니다.



라데온 HD 2900XT가 지포스 8800GTS보다 약간 더 좋은 성능을 보여줍니다.


하프 라이프 2 : 에피소드 1


하프 라이프 2 : 에피소드 1은 여전히 소스 엔진을 사용합니다만, Int16 HD을 지원, 다이렉트 X 9 그래픽카드에서도 HDR+AA를 사용할 수 있습니다. 물론 그 효과는 FP16 HDR보다는 떨어지지요.


설정은 전부 최고입니다. HDR, 4AA, 16AF.



성능은 보시는 대로 지포스 8800GTS와 비슷합니다. 지포스 8800GTS는 운영체제에 따라서 점수 차이가 제법 나는군요.


피어


그림자와 연기, 폭발 효과가 매우 뛰어난 엔진을 사용하는 피어입니다.


설정은 전부 최고입니다. 소프트 쉐도우에 4AA, 16AF



피어는 하이프라이프2와 마찬가지로 비슷한 성능이 나옵니다.


에이지 오브 엠파이어 3 : 워치프





최고 설정에 HDR과 4AA를 사용한 결과입니다.


컴패니 오브 히어로즈


4AA에 물리 효과까지 설정하였습니다.



라데온 HD 2900XT가 좋은 성능을 보여주긴 하지만, X1950XTX보다 크게 뛰어나진 않습니다.


니드 포 스피드 : 카본


카본의 경우 지포스 7 시리즈가 라데온 X1000 시리즈에게 압도적으로 뒤지는 게임이었습니다. 그렇다면 지포스 8과 라데온 HD 2000은 어떨까요?


카본에서는 라데온 HD 2900XT나, 지포스 8800GTS나, 라데온 X1950XTX나 성능이 똑같습니다. 라데온 HD 2900XT는 드라이버 문제라고 생각되는군요.


커맨드 앤 컨쿼 3 : 타이베리움 워



AA만 빼고 모든 옵션을 다 켰습니다. AA를 쓰면 30fps을 유지하기가 힘들기 때문이라고 하는군요 -_-a



게임 성능은 비슷한 수준입니다.


콜 오브 듀티 2



AA와 AF를 포함한 모든 그래픽 옵션을 켜 놓았습니다.



이번에도 역시 AA를 쓰면 불안한 모습을 보여주는 라데온 HD 2900XT입니다.


테스트 드라이브 언리미티드



4xAA와 HDR을 사용합니다.



테스트 드라이브 언리미티드에서는 라데온 HD 2900XT가 확실히 지포스 8800GTS를 압도하고 있습니다.


스토커



HDR과 4AA, 16AF를 비롯, 모든 효과를 켰습니다.



이 정도면 둘이 똑같다고 할 수 있겠군요.


라데온 HD 2900XT의 크로스파이어 테스트


크로스파이어가 뭔지 모르실 분은 안계실테니 바로 본론으로 넘어가겠습니다.


975X 메인보드와 윈도우즈 XP 운영체제입니다.


3D마크03은 6만점을 돌파, 지포스 8800울트라 SLI 수준의 점수를 기록했습니다.


3D마크05는 지포스 8800 울트라 SLI의 점수를 넘어섰습니다.


위쪽 메뉴는 왼쪽에서부터 해상도, 설정, 싱글카드, 크로스파이어, 성능 향상폭입니다.


지포스 8800 울트라도 같이 보도록 합시다. 순서는 똑같습니다.

물론 라데온 HD 2900XT 크로스파이어의 성능은 지포스 8800 울트라보다 대부분 떨어지는 편입니다만, 지포스 8800 울트라를 살 돈이면 라데온 HD 2900XT를 두장 살 수 있지 말입니다.


전력 소모량 테스트


시소닉의 파워 모니터를 사용, 전체 시스템의 전력 소모를 측정하였습니다. 여기에는 코어2익스트림 X6800, 엔포스 680i SLI, 2GB 메모리, 하드디스크 3개, ODD 1개, 그리고 그래픽카드의 전력 사용량이 포함됩니다. 다만 크로스파이어 테스트의 경우 메인보드를 975X로 바꿨다고 하는군요.


윈도우즈 화면에서 아무것도 안하고 있는 상태, 즉 아이들 상태입니다.


3D마크06을 돌린 풀로드 상태입니다.


다이렉트 X 10 테스트

아직까지는 다이렉트 X 10을 사용하는 테스트 프로그램이 할만한 것이 Call of Juarez의 데모 밖에 없습니다. 하지만 딸랑 한개의 프로그램만으로 전체 성능을 알아본다는것은 말이 안되겠지요. 그래서 여기서는 Call of Juarez 데모 외에도 마이크로소프트의 다이렉트 X 10 SDK(Software Development Kit)를 통해 다이렉트 X 10의 이론적인 성능을 테스트합니다.


다이렉트 X SDK는 마이크로소프트 다운로드 센터에서 받을 수 있습니다.


다이렉트 X SDK는 많은 소스 코드와 프로그램, 데모를 포함하고 있습니다.



이들 데모 프로그램들은 전부 마이크로소프트에서 다이렉트 X 10에 맞춰 개발한 프로그램입니다. 하지만 실제 게임이라기보다는 일종의 기능 데모이기 때문에 앞으로 나올 다이렉트 X 10 게임의 성능과는 일치하지 않을 가능성이 있습니다.


Call of Juarez 데모 - 다이렉트 X 10 벤치마크






현존 유일의 다이렉트 X 10 게임입니다만(적어도 이 글이 나올때까지는 그랬습니다) 아직까진 데모 버전만 존재합니다.(기존에 출시된 게임은 다이렉트 X 9 버전입니다) 따라서 테스트 역시 데모 버전으로 진행합니다.


일단 Call of Juarez만 놓고 보면 라데온 HD 2900XT가 앞섭니다....만, 이것이 'AMD에서 추천한' 게임이라는걸 잊어서는 안되겠습니다. NVIDIA와 캡콤이 같이 다이렉트 X 10용으로 컨버전한 로스트 플래닛의 경우, 라데온 HD 2900XT의 성능이 지포스 8800보다 뒤떨어집니다.


다이렉트 X SDK 테스트 (마이크로소프트 2007년 4월 공식 버전)

Basic HLSL
HLSL(High Level Shader Language)를 사용한 기본적인 쉐이더 테스트입니다.






CubeMapGS
동시에 6개의 랜더링 오브젝트를 랜더링하면서 지오메트리 쉐이더 기능을 사용합니다.








Displacement Mapping
이 개념은 앞에서 설명하였으니 다시 소개하지 않습니다.



노말 맵핑



디스플레이스먼트 맵핑


Draw Predicated
이 프로그램은 정밀한 폴리곤 모델을 만들기 전에, 먼저 폴리곤 모델을 대충 만들어 Z버퍼 중에서 깊이 값 픽셀을 비교함으로서, 해당 모델이 다른 물체에 의해 가리는지를 판단, 만약 가려진다면 정밀한 폴리곤 모델을 만들지 않는 원리로 작동합니다.



Draw predicted를 사용하지 않았을때



Draw predicted를 사용했을때


FixedFuncEMU
이 프로그램은 버텍스 쉐이더, 지오메트리 쉐이더, 픽셀 쉐이더를 이용하여 기존의 D3D 스트림 파이프라인 구조를 실현하는 것입니다. 다만 그 효과가 그리 화려하진 않으며 사용되지 않는 효과도 많습니다.






Instancing
이 개념 역시 앞에서 설명하였기 때문에 다시 소개하진 않습니다.






Motion Blur 10
3차원 모델의 움직임을 모호하게 표현하는 기술입니다. 버텍스쉐이더와 지오메트리 쉐이더를 주로 사용합니다. 지오메트리 쉐이더가 모델의 삼각형 변두리의 움직임에 따라 3D 조형을 만들고, 이를 투명하게 그려내어 흐릿하게 보이는 효과를 만들어내는 것입니다. 이 과정을 여러번 반복하기 때문에 지오메트리 쉐이더의 연산량이 비교적 많습니다.

이러한 3D 모션 블러는 2D 모션 블러보다 그 효과가 안정적이며 fps에 미치는 영향이 작다는 장점이 있습니다.






ParticleGS
이 데모는 상당히 현란한 효과를 보여주지만 실제로는 그리 복잡하지 않습니다. 지오메트리 쉐이더로 폭죽 입자(파티클)이 터지는 효과를 그려내는 것입니다. 이러한 파티클 시스템은 원래 CPU에서 그려내던 것이지만 이제는 GPU의 지오메트리 쉐이더가 만들어 내게 됐습니다.






PipeGS
이것 역시 지오메트리를 주로 사용하는 프로그램입니다. 식물이 자라나는 과정을 지오메트리 쉐이더로 그려냅니다.






Skining 10
지오메트리 쉐이더가 여러개의 모델을 복제해내는 과정을 처리하는 프로그램입니다. 이 프로그램에서는 500개의 모델이 등장합니다.






Soft Particle
부드러운 입자 효과와 스모크 효과를 보여줍니다. 3가지 스모크 표현 방식 중 하나를 선택할 수 있습니다.






다이렉트 X SDK를 사용한 테스트는 이걸로 끝입니다. 게임이 아닌 단순한 이론적인 계산 성능을 테스트한 것이기 때문에, 실제 사용과는 차이가 날 수 있습니다. 그리고 결과들은 보시면 아시겠지만 완전히 제각각입니다 -_-a


이걸로 장장 5부에 걸쳐 소개된 "라데온 HD 2K의 아키텍처, 3D기술" 시리즈를 전부 마칩니다. 원래는 결론 부분도 제법 분량이 있습니다만 라데온 HD 2900XT가 나온지도 보름 정도 지난 지금, 그 결론과 의미는 이미 여러분들께서 잘 알고 계시리라 생각되기 때문에 따로 소개하진 않습니다.


이걸 쓰면서 스스로도 공부를 많이 하게 됐습니다만, 앞으로는 이런걸 쓰고 싶은 생각이 전혀 들지 않는군요. 여기까지 제대로 보신 분들이 과연 얼마나 되실지 모르겠지만, 보시느라 정말 고생하셨습니다 -_-a

마지막까지 봐주신 분들을 위한 선물입니다. 라데온 HD 2000 시리즈의 2560x1600 해상도 사진들입니다.
http://gigglehd.com/bbs/view.php?id=memonly&no=8


기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.