2014년 9월 18일. NVIDIA는 지포스의 최신 모델인 지포스 GTX 980과 지포스 GTX 970을 발표했습니다. 이는 맥스웰 아키텍처를 바탕으로 한 새로운 시리즈로, 맥스웰 아키텍처는 GM107을 쓴 지포스 GTX 750이 올해 2월에 첫 선을 보였지만, 이번의 GTX 980과 GTX 970은 2세대 맥스웰인 GM204 코어 기반입니다.

 

1.jpg

 

지포스 GTX 980

 

2.jpg

 

지포스 GTX 970

 

지포스 GTX 880과 GTX 870이 아닌 건 이미 노트북용 GPU로 케플러 기반 800 시리즈가 나왔기에 그것과 혼동을 피하기 위해서라고 합니다.

 

3.jpg

 

GM204의 아키텍처를 해설한 NVIDIA의 jonah Alben(SYP, GPU HW Engineering, NVIDIA)

 

4.jpg

 

미국 몬타레이에서 개최된 기술 설명회장

 

 

지포스 GTX 900의 스펙

 

5.jpg

 

지포스 GTX 980의 GPU. 다이에는 GM204-400-A1이라 각인돼 있습니다.

 

GM204는 TSMC의 28nm HP(하이 퍼포먼스) 프로세스 기술을 이용해 제조하는 프로세서로 총 트랜지스터 수는 52억개, 다이 크기는 398제곱mm입니다.

 

지포스 GTX 680과 지포스 GTX 770에 쓰인 케플러 GK104 코어는 28nm HP 프로세스에 35.4억개의 트랜지스터를 넣었고 다이 크기는 294제곱mm입니다. 지포스 GTX 780 Ti와 지포스 GTX 타이탄에 쓰인 GK110은 28nm HP 프로세스에 71억개의 트랜지스터를 집적하며 다이 크기는 약 550제곱mm입니다. GPU 코어의 이름만 보면 GM204는 GK104의 후속작이 되지만 프로세서 규모는 GK104보다 약 35% 크며 GK110의 70% 정도입니다.

 

6.jpg

 

지포스 GTX 980의 레퍼런스 카드를 들고 있는 NVIDIA의 Jeff Fisher(SVP, GeForce Business Unit, NVIDIA)

 

TSMC가 20nm 공정 기술을 이용해 아이폰 6 시리즈의 A8 프로세서를 만든다는 건 이미 잘 알려져 있습니다. 그러다보니 20nm 공정 기술이 아니라 28nm 공정 기술을 이용해 GM204가 제조된다는 점을 의외로 생각하는 사람도 있겠지만, 사실 NVIDIA는 최근 몇년 동안 하이엔드 GPU의 제조에 쓸 공정 기술은 보수적인 방침을 고수했습니다. 따라서 당연하다고도 볼 수 있을듯.

 

7.jpg

 

GPU의 다이

 

CUDA 코어의 수는 지포스 GTX 980이 2048개, GTX 970이 1664개입니다. GK104의 풀 스펙은 1536개니까 104 시리즈의 GPU 치고는 33% 늘어난 셈이지만 GK110의 풀 스펙은 2880개니 역대 쉐이더 프로세서 수의 갱신은 아닌 셈입니다. 이것은 GK110의 후속작이 될 GM210이나 GM310에서 기대해야 할 듯.

 

8.jpg

 

9.jpg

 

10.jpg

 

지포스 GTX 980의 레퍼런스 카드

 

GPU 코어의 기본 클럭과 부스트 클럭은 GTX 980이 1126~1216MHz, GTX 970이 1050~1178MHz입니다. 1006~1058MHz의 GTX 680과 비교하면 동작 클럭은 제법 올랐습니다. 또 부동소수점 연산 성능은 GTX 980이 5TFLOPS, GTX 970이 4TFLOPS입니다.

 

11.jpg

 

GM204 코어 기반 그래픽카드의 스펙

 

이렇게 보면 GTX 980은 GK110 기반 지포스 GTX 780 시리즈와 지포스 GTX 타이탄 시리즈에 비해 압도적인 성능 차이를 보여주는 제품은 아니라고 짐작할 수 있습니다.

 

12.jpg

 

밸브의 스팀에서 집계된 데이터. 스팀 사용자가 사용하는 지포스 그래픽카드는 6 시리즈와 그 이전이 훨씬 많습니다. 바로 이 사람들을 공략하는 제품.

 

사실 GTX 980과 GTX 970은 맥스웰 아키텍처의 장점을 살려 성능 대비 소비 전력의 향상을 목표로 한 제품으로 GK110 기반 지포스 GTX 700&타이탄 시리즈가 아닌, GK104 기반의 지포스 GTX 600 시리즈나 그 이전의 제품을 사용하는 사람을 위한 GPU입니다.

 

13.jpg

 

GTX 980과 GTX 680의 성능 비교. 최근 3D 게임의 평균 프레임, 해상도, 안티 엘리어싱 설정에서 나온 결과인데 대체로 1.5배의 성능 향상이 나오고 있습니다. 쉐이더 프로세서 수와 동작 클럭 수의 차이를 감안하면 알맞는 결과일듯.

 

PCI-E 보조 전원 포트가 6핀 2개이며 TDP가 165W로 제한됐다는 점도 그 증거라 할 수 있겠습니다. 그리고 이 165W는 지포스 GTX 760이나 지포스 GTX 670의 170W와 가까운 스펙입니다. 165W라는 TDP에서 GK110 기반의 지포스 GTX 700 시리즈보다 높은 성능을 낼 수 있다는 게 GTX 980의 큰 특징.

 

14.jpg

 

역대 NVIDIA GPU의 성능 비교

 

15.jpg

 

지포스 GTX 980과 GTX 680의 소비 전력 효율. 평균 2배가 올랐습니다. 

 

그래픽 메모리는 GTX 980, GTX 970 모두 4GB GDDR5입니다. 클럭은 7GHz(실제 클럭은 1750MHz)이니 데이터 전송율은 GTX 780 Ti와 같습니다.

 

허나 메모리 인터페이스는 256비트로 GTX 680에서 변하지 않았습니다. 지포스 GTX 780&타이탄 시리즈의 384비트와 비교해서 떨어진다고 생각할 수 있겠으나 이 부분에 대해 NVIDIA는 나름대로의 대책을 마련한 바 있습니다. 여기에 대해선 나중에 설명하도록 하겠습니다.

 

 

강화된 지오메트리 엔진

 

그럼 GM240 아키텍처럴 살펴봅시다. 먼저 풀스펙 GM204(GTX 980)의 블럭 다이어그램입니다.

 

16.jpg

 

GM204의 블럭 다이어그램

 

다수의 쉐이더 프로세서에 스케줄러, 로드/스토어 유닛, 슈퍼 팩션 유닛(SFU), L1 캐시, 텍스처 유닛, 지오메트레 엔진인 플리모프 엔진을 조합해 스트리밍 프로세서(SM)을 구성. 그리고 이 SM을 몇개 모아 라스터라이저인 라스터 엔진을 합해 1개의 미니 GPU 코어인 그래픽 프로세싱 클러스터(GPC)로 구성하는 아키텍처 그 자체는 NVIDIA가 CUDA(Compute Unified Device Architecture)을 추진하게 된 테슬라 세대에서 계승한 것입니다.

 

허나 GPC와 SM의 구성은 테슬라, 페르미, 케플러로 세대가 바뀌면서 마이너 체인지가 이루어집니다. 예를 들어 1개의 SM에 들어가는 쉐이더 프로세서의 수는 케플러의 SM eXtreme(SMX)이 192개, 맥스웰의 맥스웰 SM(SMM)이 32개의 쉐이더 프로세서를 로드/스토어 유닛, SFU가 세트를 이룬 파티션을 만들어 그걸 4 덩어리 넣은 구성이 됩니다.

 

SM의 텍스처 유닛 수가 케플러 세대의 절반인 8개로 줄었다는 것도 눈길을 끄는데 이것은 맥스웰 아키텍처 기반의 GM107과 GM204의 공통점입니다.

 

17.jpg

 

GK104의 블럭 다이어그램

 

18.jpg

 

GM107의 블럭 다이어그램

 

미니 GPU인 GPC를 구성하는 SM의 수는 GK104가 2개였지만 GM204가 4개로 늘었습니다. 그래서 GK104와 비교했을 경우 GM204에서 SM 1개 당 쉐이더 프로세서 수는 약 67%였으나 GPC당 쉐이더 프로세서 수는 약 133%가 되는 셈입니다.

 

그 의도를 한마디로 요약하면 지오메트리 성능의 향상에 있습니다. NVIDIA의 GPU가 CUDA를 기준으로 하면서 SM에 지오메트리 엔진인 폴리모프 엔진을 통합하게 됐다는 이야기는 위에서 했으나, GPC당 쉐이더 프로세서 수가 늘어난 것은 지오메트리 엔진의 수가 늘었다는 것과 같습니다. 실제 그 수는 GK104가 8개인데 GM204는 16개로 2배가 됩니다.

 

지오메트리 엔진이 강화된 이유에 대해 NVIDIA는 새로운 세대의 게임 그래픽에서 폴리곤 수가 늘어나고 테셀레이션 스테이지를 적극적으로 활용하는 상황에 맞추기 위해서라고 말합니다.

 

19.jpg

 

GM204의 SMM 블럭 다이어그램

 

NVIDIA가 공개한 GM204의 SMM 블럭 다이어그램을 보면 2가지 변화를 볼 수 있습니다. 하나는 케플러 세대의 GPU와 GM107에선 폴리모프 엔진 2.0이었던 지오메트리 엔진이 GM204에선 폴리모프 엔진 3.0이 됐다는 것. 다른 하나는 케플러 세대의 GPU와 GM107에서 64KB였던 공유 메모리 용량이 96KB로 늘어났다는 것입니다.

 

사실 폴리모프 엔진 3.0 그 자체는 폴리모프 엔진 2.0에 비해 크게 바뀐 부분이 없습니다. 반면 공유 메모리의 용량이 늘어난 건 테셀레이션 스테이지를 활용할 때 폴리곤 분할에 따라 늘어나는 버텍스의 임시 저장 장소 역시 늘어나는 것을 의미하기에 보다 테셀레이션의 분할 수가 보다 많을 경우 높은 성능을 기대할 수 있게 됩니다.

 

 

맥스웰은 왜 SM 구성이 바뀌었는가


이어서 Warp의 실행 효율에 대해 살펴봅시다. NVIDIA의 GPU는 처리 스레드 실행 단위의 개념으로 Warp가 존재합니다. 간단히 말하면 1 Warp는 하나의 32스레드지요.


GPU는 다수의 데이터를 대상으로 1개의 프로그램을 동시에 실행하는 것이 기본입니다. 그래픽 렌더링의 픽셀 쉐이딩 스테이지에 비유해 설명한다면 1 Warp는 픽셀 32개를 의미하며 픽셀 쉐이더 프로그램 명령 1개는 이 픽셀 32개를 대상으로 병령 실행되는 식입니다.

 

그리고 케플러 세대의 SMX에는 Warp에 대해 실제로 명령을 발행하는 Instruction Dispatch Unit(명령 발행 유닛)이 8개, 그 발행을 관리하는 Warp Scheduler"(Warp 스케줄러)가 4개 있습니다. 4개의 Warp에 개별 명령 실행을 2개씩 설정하는 것입니다.

 

그럼 맥스웰은 어떨까요. 맥스웰 세대의 SMM도 명령 발행 유닛과 Warp 스케줄러의 총 수는 변함 없으며 4개의 Warp에 대해 개별 명령 실행을 2개씩 넣는 구성은 마찬가지입니다. 허나 1개의 명령을 실행하는 데 동원할 수 있는 쉐이더 프로세서의 수가 변했다는 점에 주목합시다.

 

케플러 세대에선 192개의 쉐이더 프로세서에 대해 8명령 실행을 배정받아 1개의 명령에 할당되는 쉐이더 프로세서 수는 단위 시간당 24개(192÷8)였지만 맥스웰 세대에선 32개의 쉐이더 프로세서가 2명령 실행에 배정되니 1개의 명령이 할당되는 쉐이더 프로세서는 단위 시간당 16개(=32÷2)입니다.

 

사실 1개의 명령에 할당되는 쉐이더 프로세서 수가 단위 시간당 16개라는 건 페르미 세대와 마찬가지입니다. 그래서 어찌보면 맥스웰이 케플러보다 성능이 퇴보한 것처럼 보이지만 실제로는 그렇게 단순하지가 않습니다.

 

SM 내부에는 다수의 Warp 실행을 동시에 하다가 메모리 액세스가 끝나기 전까지 기다리는 시간이 아깝기 때문에 다른 Warp의 처리로 바꾸게 됩니다. 이를 메모리 액세스 딜레이를 감추는 방법이지요.

 

그래서 SM 내부에서 처리하는 Warp가 메모리 액세스를 할 때마다 처리하던 Warp를 바꾸면 메모리 액세스에 걸리는 시간을 줄일 수 있지만, 각각의 Warp를 실행할 땐 데이터의 임시 저장 등에 레지스터 파일을 소비합니다. 물론 이 레지스터 파일 수는 한정돼 있으며 메모리 액세스 시간을 차례대로 줄여나가다 보면 레지스터 파일이 부족해지고 해당 SM에서 전환되는 Warp의 수를 더 이상 늘릴 수 없게 됩니다.

 

케플러 코어는 65536개의 레지스터 파일을 192개의 쉐이더 프로세서가 공유하기에 이론적으로는 쉐이더 프로세서당 341개(≒ 65536÷192)의 레지스터 파일을 쓸 수 있습니다. 허나 맥스웰은 쉐이더 프로세서당 512개(=16384÷32)의 레지스터 파일이 할당되니 쉐이더 프로세서가 전환할 수 있는 Warp의 수는 케플러 코어보다 늘어납니다.

 

전환할 수 있는 Warp의 수가 늘어나면 메모리 액세스 딜레이를 감추는 효율이 더욱 좋아지니 성능은 높아진다는 것입니다. 1세대 맥스웰 기반 지포스 GTX 750이 나왔을 때 NVIDIA가 강조하진 않았으나 맥스웰 코어에는 이러한 설계 의도가 숨어 있었던 것입니다.

 

 

이론적인 성능값의 비교. 달라진 계산 방법

 

이론적인 성능 값을 계산해 봅시다. CUDA 기반 NVIDIA GPU에서 쉐이더 프로세서 1개는 2개의 (2 OPs)의 단일 곱셈이나 덧셈을 할 수 있습니다. 또 SFU 1개는 4개의 부동 소수점 곱셈(4 OPs)을 할 수 있습니다. 그래서 GPU의 기본 클륵 1126MHz로 계산하면 GTX 980의 부동소수점 연산 성능은 다음과 같이 나옵니다. 계산식 중 SP는 쉐이더 프로세서를 의미합니다.

 

1126MHz×(2048SP× 2 OPs+512SFU× 4 OPs)≒ 6918GFLOPS


앞에서 GTX 980의 공식 스펙은 5TFLOPS라 했는데 그것보다 꽤 높은 값이 나왔습니다. 참고로 NVIDIA는 위 계산식에서 나온 약 4TFLOPS를 GTX 680의 공식 성능 값이라 했지만 GTX 980의 발표에 즈음해서 약 3TFLOPS로 하향 수정했습니다.

 

그럼 5TFLOPS이라는 값은 어떻게 나온 것일까요? 새로운 계산 방법에선 SFU의 연산 성능을 포함하지 않습니다. 따라서 그대로 계산해 보면

 

1126MHz×(2048 SP×2 OP)≒ 4612 GFLOPS

 

이니 이번에는 공식 값인 5TFLOPS보다 낮아졌습니다. 그럼 기본 클럭이 아니라 베이스 클럭인 1216MHz를 적용해 보면

1216MHz×(2048 SP×2 OP)≒ 4980 GFLOPS
 
이니 공식 값이 나옵니다.
 
GPU 제조사는 신제품의 우위를 부각하기 위해서 성능 값을 계산하는 방법을 바꾸곤 합니다. 공식 값을 그대로 받아들이면 혼동이 있을 수 있으니 주의하시길.
 
 
텍스처 유닛과 메모리 서브 시스템
 
GM204의 SMM 텍스쳐 유닛 수는 앞서 말한대로 8개. GK104는 16개니 절반으로 줄었다고 앞서 말했습니다. 다만 GM204는 GPC당 SMM 수가 4개, GK104는 GPC당 SMX 수가 2개니까 GPC당 텍스처 유닛 수는 32개로 변하지 않았습니다. GPC 수는 4개니 총 128개가 됩니다.
 
반면 크게 강화된 것이 메모리 서브 시스템입니다. 우선 렌더링 결과를 메모리에 기록하고 불러오는 ROP(Rendering Output Pipeline)는 GPC 주변 유닛 수가 GK104의 2배인 16개로 강화됐습니다. GM240는 4 GPC 구성으로 총 64개인데 이는 GK110의 48개를 뛰어넘는 값입니다. 또 L2캐시 용량도 GK104보다 4배가 된 2048KB입니다. GK110은 1536KB이니 여기서도 GM204의 스펙은 돋보입니다.
 
GM204는 렌더링 결과를 메모리에 쓰기 위한 무손실 데이터 압축 성능도 강화됐습니다. NVIDIA는 페르미 세대에서 렌더링 결과를 무손실 압축해 메모리에 저장했는데 GM240는 그것이 더 진화했습니다. NVIDIA의 픽셀 데이터 압축은 8x8 픽셀을 1단위로 붂은 블럭 단위로 압축을 하는데 이 알고리즘은 압축 대상인 8x8 픽셀 블럭을 해석하는 맞춤형입니다.
 
20.jpg

 

페르미 세대 이후 NVIDIA GPU에 채용된 압축 기법. 왼쪽 아래는 2x4 픽셀 단위로 1/8로 압축하는 방법. 중앙의 위는 델타 컬러 압축을 하는 경우, 오른쪽 아래가 압축을 하지 않는 최악의 상황.
 
2×4 픽셀 단위로 컬러 값이 같으면 1/8로 압축하고 2×2 픽셀 단위로 컬러 값이 같으면 1/4로 압축합니다. 8×8 픽셀에서 전체 픽셀의 색이 다르다면 방법을 바꿔 Delta Color Compression을 하게 됩니다.
 
이 방법은 인접 픽셀의 델타값을 계산해 보다 적은 비트 수로 델타 값을 압축한다는 것입니다. 예를 들어 특정 픽셀 값이 200이고 인접 픽셀 값이 198이라면 그 뻴셈 값은 2입니다. 200은 2진수로 11001000이니까 기록에 8비트가 기록하지만 2(10)을 기록하면 2비트만으로도 충분합니다(이 경우 압축률은 1/4지만 실제로는 다른 데이터도 들어가기에 1/2의 압축률이 나옴).
 
GM204는 이 델터 컬러 압축법을 개량해 뻴셈을 할 때 인접 픽셀을 선택하는 알고리즘을 확장했습니다. 자세한 사항은 기밀이라고 하는데 세로 방향이나 가로 방향, 대각선 방향 등 다양한 인접 픽셀을 적절하게 고르고, 그라데이션 표현 등의 압축 효율을 향상시킨게 아닌가 생각됩니다.
 
21.jpg

 

그리드 2를 예로 들어봅시다.
 
22.jpg

 

픽셀 데이터 압축의 적용 범위가 됩니다.
 
23.jpg

 

하드웨어 기반의 픽셀 압추력으로 메모리 버스의 소비가 평균 25% 줄었다고 합니다
 
이렇게 L2 캐시 용량을 늘리고 진화된 픽셀 압축법을 통해 GM204는 GK104보다 메모리 버스의 소비량이 25% 줄었다고 합니다. 앞서 말한대로 GM104에서 작동하는 그래픽 메모리는 클럭 7GHz지만 25% 절감된 걸 고려하면 7GHz÷ 0.75로 9.3GHz에 해당된다고 NVIDIA는 주장합니다.
 
256비트 메모리 인터페이스에서 7GHz로 작동하면 메모리 버스폭이 224.0GB/s지만 9.3GHz면 297.6GB/s니까 지포스 GTX 780 Ti의 38비트 7GHz인 336.0GB/s에 육박한다는 것이 NVIDIA의 설명입니다.
 
 
4K에 대한 본격 대응에 나선 NVIDIA. HDMI 2.0 완벽 지원

그 밖에 GM204는 디스플레이 출력과 비디오 엔진도 업데이트했습니다. 가장 큰 건 HDMI 2.0의 완벽 지원. 이제 4K 60Hz 출력을 컬러 해상도를 줄이지 않고 HDMI에서 전송할 수 있게 됐습니다.
 
NVIDIA는 케플러 세대의 지포스에서 지포스 드라이버의 기능으로 컬러 해상도를 줄인 YCbCr=4:2:0 포맷으로 4K/60Hz 출력을 가능하게 하는 방법을 내놓은 바 있으나, 밝기 차이가 적은 점 단위의 표현에선 해상력이 줄어들기에 글자를 표시하는데 알맞지 않았습니다.
 
그런 의미에서 풀컬러 60fps의 4K 화면을 HDMI로 출력할 수 있게 됐다는 점은 눈여겨 볼만한 부분입니다. NVIDIA는 이 HDMI 2.0 완벽 지원이 업계 최초라고 설명하네요. ...근데 이거 지원하는 모니터가 지금 나온게 있던가...
 
디스플레이포트는 VESA가 최근 책정한 1.3이 아닌 1.2 그대로지만 MST(Multi Stream Transport)에 의한 타일 표시 모드를 구사하면서 5120×3200의 60Hz 출력을 지원합니다. 델이 최근 발표한 4K 디스플레이인 울트라샤프 27 울트라 HD 5K 모니터의 5120×2880도 이걸 쓰는 게 아닐까요?
 
또한 동시 화면 출력 수는 케플러 그대로 4개(3+1)입니다.
 
비디오 엔진은 실시간 비디오 인코더 NVENC가 개량돼 업계 최초로 H.265(HEVC:High Efficiency Video Coding) 대응 인코더가 됐습니다. 케플러 GPU에 통합된 NVENC는 블루레이에 쓰인 H.264(MPEG4-AVC) 인코더를 통합했지만 GM204는 다음 세대의 인코더를 넣은 셈입니다.

H.265는 원래 4K 영상이나 8K 영상을 위해 개발된 인코딩 방식으로 H.264와 같은 화질이지만 비트 레이트는 절반에 달하는 성능을 갖고 있습니다. 그런 H.265을 지원하는 NVENC에 의해 NVIDIA 자체의 실시간 녹화 시스템인 쉐도우 플레이가 마침내 4K/60fps를 지원하게 된 것입니다.

또한 GM204의 NVENC는 H.264 인코딩 성능도 강화돼 케플러 세대에 비해 2.5배의 산출 성능을 지녔다고 합니다. 이렇게 성능이 높아진 H.264의 인코딩 성능을 어떻게 활용할 것인지 NVIDIA는 밝히지 않았으나 여러 비디오 스트림을 동시에 실시간 압축하고 게임 스트리밍 플레이 기능인 게임 스트림을 동시에 여러 시점에서 플레이하는 것이 가능해지지 않을까요.
 
 
2세대 맥스웰의 또 다른 기능
 
이것 외에도 GM204는 새로운 요소가 몇가지 있습니다.
 
24.jpg

 

게임 개발자 전용 프레임워크인 게임웍스에 포함되는 실시간 글로벌 일루미네이션 라이브러리인 GI 웍스의 고속화 기능이 그 중 하나입니다. GI 웍스가 일부 국가에서 안좋은 뜻이 있다고 하니 지포스 GTX 900 시리즈의 발표와 함게 VoXel 글로벌 일루미네이션으로 이름을 바꿨는데요.
 
25.jpg

 

그 고속화 기능인 Multi-Projection Acceleration, Conservative Raster가 GM204에 들어갔습니다. 위 이미지는 VXGI의 데모.
 
26.jpg

 

Conservative Raster는 보수적인 라스터라이즈 방법에 해당되며 복셀 처리에서 필수적인데 이것을 가속화할 수 있게 됐습니다.
 
27.jpg

 

Multi-Projection Acceleration. 6방향 프로젝션을 한꺼번에 수행합니다.
 
28.jpg

 

최근의 그림자 생성 기법 중 널리 쓰이는 Cascaded Shadow Maps 기법의 가속에도 응용할 수 있습니다. 다수의 쉐도우 맵을 가상 타일 텍스처 리소스에서 확보해 쉐도우 맵을 생성. 
 
29.jpg

 

또 그동안 NVIDIA가 공을 들였던 AA기법인 TXAA보다 가벼운 기법인 MFAA(Multi Frame Anti-Aliasing)의 채용도 발표했습니다. 지금 바로 지원하는 건 앞으로 나올 지포스 드라이버에서 지원할 것.
 
30.jpg

 

GM204에 탑재된 Multi-Pixel Programmable Sampling 기법을 이용해 시간의 흐름에 따라 샘플 포인트를 설계/정의할 수 있습니다.

 

31.jpg

 

픽셀 쉐이더의 확장 기능인 Raster Ordered View(ROV)도 GM204의 새로운 요소입니다. ROV는 화면 좌표의 같은 X, Y점에 다수의 픽셀 렌더링이 그려졌을 때 그 순서를 정하는 것입니다. 반투명 오브젝트의 렌더링이나 고도의 프로그래머블 혼합에 쓰입니다. Order Independent Transparency(OIT)의 현실적인 구현 방법이 될 것.

 

32.jpg

 

마이크로소프트에서 다이렉트 3D의 실질적인 개발 리더를 맡은 Max McMullen(Direct3D, Develpment Lead, Microsoft)이 나와 다이렉트 X 11.3의 등장을 예고했습니다. 앞서 말한 GM204의 Conserveative Raster와 Raster Ordered View가 다이렉트 X 11.3에 쓰일 것이라고 하네요.

 

33.jpg

 

또 당분간은 GM204의 독자 기능이 될 Dynamic Super Resolution(DSR )입니다. 일단 고해상도로 렌더링하고 이후 낮은 해상도로 슈퍼샘플링하는 방법으로 10년 전에 3Dfx가 FSAA에서 어필했던 고화질 렌더링 기법과 비슷한 개념입니다.

 

 

벤치마크

 

34.jpg

 

아키텍처를 봤으니 이번에는 벤치마크를 봅시다.

 

35.jpg

 

여기선 레퍼런스 GTX 980과

 

36.jpg

 

MSI의 GTX 970 GAMING 4G를 가지고 테스트했습니다.

 

37.gif

 

GPU 스펙 비교

 

 

지포스 GTX 980 레퍼런스

 

38.jpg

 

우선 GTX 980의 레퍼런스입니다. 길이는 268mm. GTX 780 Ti가 267mm니까 거의 같네요.

 

39.jpg

 

GTX 타이탄 이후 계속 사용한 디자인을 유지하기에 GTX 980이라는 글자가 없으면 구별하기가 힘듭니다.

 

40.jpg

 

허나 카드 뒷면에 백플레이트가 들어갔다는 건 GTX 980 레퍼런스만의 특징입니다.

 

41.jpg

 

보조전원은 6핀 2개. 총 225W의 전력 공급이 가능하나 카드 자체의 TDP는 165W입니다.

 

42.jpg

 

입출력 포트는 디스플레이포트 1.2 x3, HDMI 2.0 x1, 듀얼링크 DVI-D x1. 이 중 4개를 사용해 3+1 화면 출력이 가능합니다. 이쪽에 배기구가 많네요.

 

43.jpg

 

SLI는 3웨이까지.

 

44.jpg

 

나사를 하나 풀어내면.

 

45.jpg

 

이걸 뺄 수 있습니다. SLI 구성 시 쿨링을 개선하기 위해서라고.

 

46.jpg

 

백플레이트 제거.

 

47.jpg

 

쿨러 제거.

 

48.jpg

 

NVIDIA가 제공하는 공식 이지미. GPU 쿨러의 내부 구조입니다.

 

49.jpg

 

GPU와 닿는 구리 플레이트 내부에 2개의 히트파이프가 있습니다. 히트파이프 내부엔 가스가 아니라 액체를 넣어 열 전도 효율을 높였다네요. 나름 수냉이라 우길 수 있을듯.

 

50.jpg

 

기판입니다.

 

51.jpg

 

4+1 페이즈. 작진 않으나 하이엔드 그래픽카드 치고는 크지 않습니다. 전력 효율이 높은 2세대 맥스웰 아키텍처라서 가능할듯.

 

52.jpg

 

GPU 코어에는 GM204-400-A1이라고 표기돼 있습니다.

 

53.jpg

 

삼성전자의 4Gbit GDDR5 메모리인K4G41325FC-HC28. 속도는 7000Mbps.

 

 

MSI GTX 970 GAMING 4G

 

54.jpg

 

이번에는 MSI의 트윈 프로져 V 쿨러를 장착한 MSI GTX 970 GAMING 4G입니다. 길이는 252mm.

 

55.jpg

 

쿨러가 기판보다 16mm 정도 더 길기에 카드 길이 자체는 GTX 980 레퍼런스와 비슷합니다.

 

56.jpg

 

듀얼 슬롯을 차지하지만 브라켓보다 33mm 정도 낮습니다. 얇지만 큰 쿨러.

 

57.jpg

 

백플레이트는 없습니다.

 

58.jpg

 

출력 포트는 디스플레이포트 1.2 x1, HDMI 2.0 x1, 듀얼링크 DVI-D x1, 듀얼링크 DVI-I x1, 3+1 화면 출력이 가능합니다.

 

59.jpg

 

PCI-E 보조전원은 6+8핀이니 300W 공급이 가능합니다. GTX 970의 TDP가 145W니까 남아도는 셈. 히트파이프와 간섭을 막기 위해 보조전원 포트의 고정 장치는 아래쪽.

 

60.jpg

 

트윈프로저의 쿨링팬은 구경 100mm입니다. 팬 날개의 모양에 저마다 다르네요. 이것을 Torx Fan Technology라 부릅니다. 공기 흐름을 늘리기 위한 방법입니다.

 

61.jpg

 

기존의 트윈프로저 IV에 들어간 프로펠러 블레이드와 비교하면 풍량이 19% 늘어났으나 100% 회전 시 소음은 5% 줄어들었습니다. GPU 온도가 60% 이하면 팬이 멈추는 제로 프로제 테크놀러지를 채용.

 

62.jpg

 

또 2개의 쿨링팬은 회전 속도를 개별 제어할 수 있다고 합니다. GTX 970에는 이 기능이 들어가진 않지만요. 위 이미지는 기존의 쿨링팬과 비교.

 

63.jpg

 

쿨러를 분해했습니다.

 

64.jpg

 

4개의 히트파이프가 S자나 U자형으로 구리 베이스에 고정됩니다. 그래서 슈퍼 SU라고 부른다네요.

 

65.jpg

 

메모리 칩의 방열판과 전원부 방열판을 떼어냈습니다.

 

66.jpg

 

6+2 페이즈로 보입니다.

 

67.jpg

 

GPU는 GM204-200-A1.

 

68.jpg

 

메모리는 GTX 980 레퍼런스와 같은 삼성전자 K4G41325FC-HC28.

 

 

벤치마크

 

69.jpg

 

애프터버너에서 본 GTX 980

 

70.jpg

 

GTX 970도 레퍼런스 클럭으로 낮췄습니다. 실제 성능은 이보다 더 높겠지만 여기선 레퍼런스의 성능을 보는 게 목적이니까요.

 

71.gif

 

테스트 환경.

 

72.gif

 

3D마크입니다. GTX 980은 GTX 780 Ti보다 12~14%, R9 290X보다 10~13% 정도 높은 결과가 나왔습니다. GTX 970은 GTX 770과 비교하면 30% 이상, GTX 780은 12~13%, R9 290은 1~4% 정도 앞었습니다. GTX 980과 GTX 970의 점수 차이는 16~18% 정도.

 

73.gif

 

배틀필드 4 표준 설정. R9 290X와 R9 290은 맨틀 유무를 따로 표기했습니다. GTX 780 Ti와 비교하면 최대 16%, R9 290X보다 최대 14%의 성능을 내는 것이 GTX 980의 특징.

 

74.gif

 

배틀필드 4 고화질 설정. 여기에선 2560x1600 해상도에서 GTX 980과 GTX 780 Ti의 점수 차이가 7%, R9 290X 맨틀과 차이가 4% 줄었습니다. 메모리 소비량을 줄여 메모리 이용 효율을 크레 향상시켰지만 일정 수준의 부하를 넘으면 256비트의 한계가 보이는 듯. GTX 970은 GTX 780 Ti의 90~97% 수중, R9 290X 맨틀의 87~97% 정도 수준.

 

75.gif

 

크라이시스 3 표준 설정. GTX 980은 GTX 780 Ti의 18~21%, R9 290X의 10~22%의 성능 향상을 보입니다.

 

76.gif

 

크라이시스 3 고화질 설정. 여기서도 해상도가 높아지면 차이가 줄어드네요. GTX 970은 GTX 780 대비 102~107%, R9 290와 비교하면 97~105%.

 

77.gif

 

바이오쇼크 인피니트 하이 옵션. 이번에는 GTX 980과 GTX 780 ti의 점수 차이가 거의 나타나지 않습니다. GTX 970도 마찬가지.

 

78.gif

 

바이요소크 인피니트 울트라 다이렉트 X 11. 여기선 또 차이가 납니다. 따라서 CPU 병목 현상이라기보다는 드라이버 최적화의 문제일듯.

 

79.gif

 

엘더 스크롤 5: 스카이림 표준 설정. 게임 자체의 부하가 낮다보니 공식 고해상도 텍스처 팩을 써도 메모리 부하의 영향을 잴 수 없었습니다.

 

80.gif

 

엘더 스크롤 5: 스카이림 울트라 설정. 2560x1600 해상도에서 GTX 980은 GTX 780 Ti에 비해 117%, R9 280X의 124%의 성능이 나왔지만 GTX 970은 의외로 부진했습니다.

 

81.gif

 

파이널 판타지 XIV 벤치마크 표준 품질. 여기서도 GTX 980의 성능이 높긴 하지만 CPU 병목현상의 영향이 보이네요.

 

82.gif

 

파이널 판타지 XIV 벤치마크 최고 품질. 여기서는 고해상도에서 점수가 좁혀지니 메모리 인터페이스의 영향을 받았다고 할 수 있습니다.

 

83.gif

 

파이널 판타지 XIV 벤치마크 표준 품질의 평균 프레임.

 

84.gif

 

파이널 판타지 XIV 벤치마크 최고 품질의 평균 프레임.

 

85.gif

 

그리드 2 표준 설정. GTX 970과 GTX 980이 잘 나왔군요.

 

86.gif

 

그리드 2 울트라 설정. 표준설정 저해상도에선 차이가 작지만 울트라에선 제법 높았습니다.

 

87.gif

 

맥스웰의 가장 큰 특징인 소비 전력입니다. 제일 위는 아이들, 아래는 각종 게임/벤치마크를 돌렸을 때. 아이들 시엔 다들 비슷하지만 게임을 돌리면 이야기가 달라집니다.

 

GTX 980은 GTX 770보다 소비 전력이 낮습니다. GTX 780 Ti보다 79~90W, R9 290X보다 96~106W가 낮습니다. GTX 970은 거기서 9~20W가 더 낮습니다.

 

88.gif

 

온도를 봅시다. GTX 970의 온도가 좀 높은데 그건 트우니 프로저 V 쿨러가 아이들 시 쿨링팬을 멈추기 때문. 허나 풀로드에선 오히려 가장 낮은 온도를 보였습니다. 쿨러 성능이 레퍼런스보다 훨씬 좋다고 할 수 있겠네요.

 

89.jpg

 

정리하면 지포스 GTX 980의 성능은 GTX 780 Ti에서 10% 정도 증가. GTX 970의 성능은 지포스 GTX 780과 GTX 780 Ti 사이에 위치하며 R9 290X와 비슷합니다. GTX 980은 싱글 GPU 중 최고 성능을 뽑아내지만 GK110의 3D 성능도 괜찮은지라 순수하게 3D 성능만 놓고 보면 건너갈 필요는 없습니다. 허나 소비 전력을 염두에 두면 압도적입니다. 또 256비트 메모리 버스도 의외로 괜찮은 결과가 나왔네요.

 

90.jpg

 

가격은 GTX 980이 549달러, GTX 970이 329달러. 소비 전력 절감과 HDMI 2.0이 추가됐음을 감안하면 나쁘지 않을듯. GK110 기반 지포스 GTX 700이나 타이탄을 쓰는 사람들은 굳이 교체할 필요가 없을 듯 하지만 소비 전력을 늘리지 않고도 높은 성능을 낸다는 점에서 의미가 있는 GPU입니다.

 

91.jpg

 

이건 MSI 초회한정판 번들 마우스 패드.

 

아키텍처 부분: http://www.4gamer.net/games/274/G027467/20140917078/

벤치마크 부분: http://www.4gamer.net/games/274/G027467/20140918001/

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.