011.jpg

 

NVIDIA의 맥스웰 아키텍처를 사용한 첫번째 그래픽카드, 지포스 GTX 750 Ti, GTX 750의 설명과 벤치마크입니다.

 

먼저 아키텍처 설명부터 보시죠.

http://www.4gamer.net/games/216/G021677/20140215011/

 

018.jpg

 

이번에 나온 지포스 GTX 750 시리즈는 기존의 지포스 GTX 650 Ti를 대체하는 제품입니다. 지포스 GTX 650 Ti는 2013년에 이미 단종됐기 때문에 저 위의 라인업에서는 빠졌네요.

 

019.jpg

 

신제품이 GTX 660과 GTX 650 사이에 들어간 것도 의아하지만, 새 아키텍처가 지포스 GTX 700 시리즈란 이름이 붙은 것도 의문이 듭니다. 여기에 대해 Justin Walker씨(Senior GeForce Product Manager, NVIDIA)는 '1세대 맥스웰 제품이 GTX 750에 딱 알맞는다고 생각했기 때문'이라고 밝혔습니다. 최상위 GPU가 리뉴얼되지 않았으니 새 제품 번호를 도입-8시리즈라던가-해도 별 임팩트가 없을 거라고 판단했을듯.

 

지포스 GTX 750은 GM107 코어를 씁니다. GM은 지포스 맥스웰의 줄임말이고. 케플러와 같은 28nm HP 공정을 씁니다. 트랜지스터 수는 18억 7천만개. 다이 크기는 148제곱mm

 

020.jpg

 

GTX 750 Ti GPU. GM107-400-A2

 

021.jpg

 

GTX 750 GPU. GM107-300-A2

 

022.jpg

 

이건 1세대 케플러인 GK106을 사용한 지포스 GTX 650 Ti GPU. 다이 크기가 GTX 750보다 더 큽니다.

 

맥스웰 아키텍처의 특징은 작은 크기입니다. GTX 750 Ti가 쿠다 코어의 수가 640개, GTX 750가 512개입니다. GK106 기반 지포스 GTX 650 Ti와 GTX 650 Ti 부스트가 785개였으니 코어 수가 상당히 줄어든 것이지요. 다만 GM107이라는 이름을 보면 GK107의 후속작에 더 가깝지 싶은데, GK107은 풀 스펙에서 384개의 쿠다 코어가 있었으니 오히려 늘어났다고 할 수 있겠으나.

 

023.jpg

 

지포스 GTX 750 Ti의 스펙

 

024.jpg

 

지포스 GTX 750의 스펙

 

025.jpg

 

GTX 750 Ti의 TDP는 60W, GTX 750의 TDP는 55W입니다. 따라서 보조 전원 포트가 필요하지 않습니다. 지포스 GTX 650 Ti 부스트가 134W, GTX 650 Ti가 110W였으니까 기존 제품의 절반 이하로 줄어든 셈.

 

026.jpg

 

지포스 GTX 750 Ti는 지포스 GTX 550 Ti의 두배 성능을 냅니다.

 

027.jpg

 

하지만 소비 전력은 절반이 됐습니다.

 

028.jpg

 

지포스 GTX 750은 지포스 GTS 450과 비교해 3배의 성능을 내지만.

 

029.jpg

 

소비 전력은 역시 반입니다.

 

030.jpg

 

비디오 메모리는 GDDR5, 메모리 인터페이스는 128비트, GTX 750 Ti는 1GB와 2GB, GTX 750은 1GB가 있습니다.

 

가격은 지포스 GTX 750 Ti 2GB가 149달러, 1GB가 139달러, GTX 750이 119달러.

 

031.jpg

 

지포스 GTX 750 시리즈의 GPU에는 GM107이라는 이름이 붙었습니다. 여기서 볼 때 보급형 시장을 노린다는 것을 알 수 있지요. 보다 작은 GPU 코어로, 소비 전력을 줄였지만 새 아키텍처로 높은 성능을 실현했는 것입니다.

 

이런 맥스웰 아키텍처에 대해 NVIDIA는 'GPU의 자원을 효율적으로 사용하는 것을 염두에 두고, 제어 로직을 대상으로 케플러 아키텍처를 변경 및 개량해 전력 효율을 대폭 향상시킨 것이 1세대 맥스웰'이라고 말합니다.

 

032.jpg

 

먼저 케플러부터 복습해 봅시다. 케플러는 SMX, Streaming Multiprocessor eXtreme라고 부르는 연산 유닛을 기본 단위로 삼습니다. SMX는 192개의 쿠다 코어와 32개의 로드/스토어 유닛, 그리고 Special Function Unit(SFU) 32개가 모인 지오메트리 엔진인 폴리모프 엔진 2.0과 16개의 텍스처 유닛, L1 캐시 등으로 조합되어 있습니다.

 

3D 그래픽 처리는 '수많은 버텍스의 좌표를 변환하는 작업'처럼 많은 데이터를 대상으로 동일 연산을 반복 실시하는 식입니다. 그래서 대다수 GPU는 데이터의 수만큼 같은 스레드를 만들어 대량의 데이터에 대해 같은 처리를 수행하는 방법을 씁니다. 3D 그래픽에서 처리해야 하는 버텍스의 수만큼 스레드를 만들어 한꺼번에 처리하는 식입니다.

 

NVIDIA의 GPU는 전통적으로 32개의 스레드로 구성된 Warp라는 단위에서 스레드를 실행하는 식입니다. 그리고 Warp의 실행은 워프 스케줄러에 의해 제어됩니다. 케플러 세대에서는 워프 스케줄 1개당 최대 64워프를 동시에 관리할 수 있습니다. 스레드 수로 말하면 워프 스케줄 1개에서 최대 2048 스레드의 실행을 관장하는 것입니다.

 

워프 스케줄러는 명령 발행을 실시하는 디스패치 유닛을 구동해, 실행하려는 워프 중 그 자리에서 실행 가능한 워프 명령을 이 연산 클러스터에 실행시킵니다. 케플러는 1개의 워프 스케줄러당 2개의 처리 유닛을 갖추고 있으니 최대 2명령을 동시 발행 가능합니다. 워프 스케줄러가 실행하는 명령 중 덧셈이나 곱셈처럼 간단한 거라면 SMX에 있는 쿠다 코어 32개를 구동해 32스레드 데이터 연산을 하게 됩니다.

 

워프 스케줄러가 192개의 쿠다 코어 중 무엇을 어떻게 골라 구동하는지는 자세히 알려지지 않았지만 아까 나온 SMX의 블럭 다이어그램을 보면 6개의 쿠다 코어가 로드/스토어 유닛과 SFU와 한세트로 된 것처럼 보이니, 처리 유닛은 이 세트를 1개의 미니 프로세서로 간주해 최대 2 명령을 발행하는게 아닌가 추측합니다. 미니 프로세서는 SMX당 32개니 워프의 균형이 맞겠지요. 어쨌건 SMX당 4개 있는 워프 스케줄러가 현재 작동하지 않는 쿠다 코어와 로드/스튜어 유닛, SFU를 구동시켜 64워프를 실행한다고 보는 게 케플러입니다.

 

033.jpg

 

그러던 것이 1세대 맥스웰 아키텍처에서 어떻게 변했냐 하면, 먼저 연산 유닛이 바뀌었습니다. 맥스웰에선 SMX 대신 맥스웰 SM, 줄여서 SMM이라는 연산 유닛을 씁니다. 얼핏 보면 SMX와 비슷해 보이지만, SMM은 그 내부에 연산 클러스터를 중심으로 하는 부분이 4개 구획으로 나뉘어져 있습니다. NVIDIA는 그 구획을 파티션이라 부릅니다.

 

034.jpg

 

보시는대로 케플러는 SMX에 192개의 쿠다 코어가 모두 모여 있었지만 맥스웰은 SMM이 4개의 파티션으로 나뉘어져 있습니다. 이 1개의 파티션을 구성하는 건 명령 버퍼와 워프 스케줄러가 각각 1개, 처리 유닛 2개, 쿠다 코어 32개, 로드/스토어 유닛 8개, SFU 8개가 있습니다. SMM은 4파티션부터 시작하니까 SMM당 쿠다 코어의 수는 128개, 로드/스토어 유닛과 SFU는 각 32개. 즉 SMX와 비교하면 쿠다 코어의 규모가 2/3으로 줄어든 것.

 

035.jpg

 

SMM의 연산기나 워프 스케줄러등을 4개의 파티션으로 분할한 이유에 대해 NVIDIA는 '스케줄링 로직을 간소화하고 전력 효율을 향상시키기 위해서'라고 설명합니다. 동시에 '불필요한 로직의 전원을 일시적으로 줄여 파워 게이팅의 정확도를 향상시킨다'고도 하네요. 따라서 SMM은 파티션 단위로 파워 게이팅이 가능하지 않을가 싶네요. 부하가 낮을 때 파티션의 전력 공급을 줄이는 것이 가능하다면, 1개의 큰 연산 클러스터를 썼던 SMX에 비해 소비 전력을 줄이기 위워졌다는 이야기가 됩니다.

 

다만 워프 스케줄 1개에서 구동할 수 있는 연산기가 쿠다 코어 32개, 로드 스토어 유닛 8개, SFU 8개가 되니까 SMX에 비해 워프의 실행 효율이 떨어지지 않느냐는 우려도 나오고 있습니다. 예를 들어 '2개의 처리 유닛이 동시에 발행할 수 있는 명령의 조합 제한'이 어려워진게 아니냐는 것이지요. 거기에 대해 NVIDIA는 직접적인 응답을 하지 않았지만 'SMM에선 처리 유닛의 시간당 명령 실행 수가 향상'됐다고 말했습니다. NVIDIA가 쿠다 코어의 구동 방법에 대한 상세 정보를 공개하지 않았지만 SMX의 효율이 의외로 낮았을지도 모릅니다.

 

그래서 NVIDIA는 SMM에서 연산기 클러스터를 분할하고 워프 스케줄러를 간소화함과 동시에 스케줄링 알고리즘도 재검토해 코다 코어를 비롯한 연산기의 이용율을 향상시켰을 가능성은 있습니다. NVIDIA도 'SMM에서 새로 설계한 워프 스케줄러는 보다 효율이 높아졌다'고 설명합니다. 덧붙여서 레지스터 파일은 4파티션을 합쳐 총 65536개가 되어 총 수는 SMX와 다르지 않습니다. 레지스터 수는 SMM과 SMX가 차이나지 않으니 레지스터 때문에 성능이 차이나진 않을듯.

 

SMM의 또 한가지 특징은 2개의 파티션이 L1 캐시와 4개의 텍스처 유닛을 공유한다는 것입니다. L1 캐시는 텍스처 캐시도 겸하고 있습니다. L1 캐시나 텍스처 유닛을 연산기와 가까운 곳에 위치시켜 버텍스나 지오메트리 데이터의 로드/스토어에서 생기는 패널티를 줄이겠다는 이야기입니다.

 

GPU는 일반적으로 메모리 액세스의 패널티가 매우 큽니다. 메모리의 데이터에 액세스하려면 수십~수백 클럭의 큰 손실이 생기게 됩니다. 그래서 GPU는 메모리 액세스의 패널티를 줄이기 위해 여러 계층의 캐시나 메모리 버퍼를 갖추지만, 1세대 맥스웰은 파티션이라는 새로운 계층에 캐시를 배치하고 수정해 효율을 높이려는 것입니다. 또한 2개의 파티션마다 L1 캐시를 갖추기 때문에 L1 캐시가 2개로 나뉘어지는데, L1 캐시에서 분리된 64KB의 공유 메모리를 통하기 때문에 2블럭 L1 캐시는 4개의 파티션이 다루게 됩니다.

 

SMM은 이상과 같은 개량에 의해 SMX에 비해 다이 크기가 90%로 줄었습니다. 쿠다 코어의 수는 SMX가 192개지만 SMM에선 128개로 약 33% 줄어든 것입니다. 다이 크기가 10% 줄었지만 쿠다 코어의 수가 33% 줄었으니 쿠다 코어 이외의 부분이 확장된 것이라고 봐야 겠네요. 2블럭으로 나뉜 L1 캐시나 제어 로직 등의 규모가 커지지 않았을까 추측됩니다.

 

036.jpg

 

NVIDIA는 2세대 테슬라 아키텍처인 페르미에서 미니 GPU라는 개념으로서 Graphics Processing Clusters(GPC)를 도입했습니다. 케플러는 1~3개의 SMX에 1개의 GPC를 구성한 구조인데, GM107 맥스웰은 최대 5개의 SMM을 정리해 1개의 GPC가 됩니다.

 

그리고 여기서 가장 특징적인 건 2MB라는 거대한 L2 캐시입니다. 케플러 세대인 GK106에서 384KB, 최상위인 GK110에서도 1536KB인데, GM107의 2MB는 확실히 큰 것입니다. NVIDIA는 이 거대한 L2 캐시 역시 전력 절감을 위한 것이라고 설명합니다. 그래픽 메모리의 액세스를 줄여 전체 카드 소비 전력을 낮추기 위해서라고 하네요.

 

8개의 ROP 유닛으로 구성된 ROP 파티션을 사용한다는 건 케플러 세대와 변하지 않았고, 그 규모도 16개로 케플러 세대의 보급형 GPU와 같습니다. 다만 ROP 유닛과 메모리 컨트롤러, GPC에 스레드 실행을 할당하는 기가스레드엔진, 라스터라이저(와이어 프레임 표시를 비트배 표시하기 위한 프로세서 엔진)라는 구성 요소를 연결하는 크로스바 구조가 1세대 맥스웰에서 다시 설계돼, 데이터 플로우의 효율과 전력 효율이 향상됐습니다.

 

037.jpg

 

그 결과일지는 모르겠지만 GM107은 높은 전력 효율과 동시에 상대적으로 높은 성능도 갖추고 있습니다. 쉐이더 성능에서 한계점에 이르는 워크로드를 예로 들면 케플러 GPU에 비해 쿠다 코어의 성능이 35% 향상됐습니다. 다만 여기서 한가지 알아둘 건 SMM의 쿠다 코어 수는 SMX보다 약 33% 줄었습니다. 그러니까 효율 개선으로 성능이 향상된 만큼 쿠다 코어의 수를 줄였다는 이야기가 되겠네요.

 

GM107은 SMM이 5개 들어간 GPU 코어이며, 5개라는 건 케플러 GK106의 풀스펙과 같습니다. NVIDIA 이야기대로라면 GM107이 GK106보다 약간 높은 성능을 낼 수 있겠으며, 지포스 GTX 750이라는 이름이 붙은 것도 이상하지 않습니다.

 

038.jpg

 

또 쿠다 코어도 개선됐습니다. '맥스웰은 케플러와 달리 쿠다 최적화가 필요하다'라고 설명했던 점에서 알 수 있겠지만, 지포스 GTX 750 Ti와 지포스 GTX 750의 Compute Capability를 확인해 보면 5.0으로 올라 있습니다. 아직 쿠다 SDK가 구버전이라서 쿠다 코어를 제대로 측정하지 못했지만.

 

Compute Capability는 쿠다의 최적화 방법 차이와 기능 차이를 나타내는 버전 번호입니다. 케플러 세대에서는 가장 큰 숫자가 3.5였는데 GM107에서는 5.0으로 크게 올랐습니다. 따라서 어떤 신기능이 추가됐다고 봐야 할 것입니다. 아직 NVIDIA가 쿠다의 자세한 정보를 공개하진 않았지만요.

 

040.jpg

 

NVIDIA는 예전부터 맥스웰에서 케플러보다 2배의 전력 효율 향상을 실현하겠다고 예고한 바 있습니다. '맥스웰 아키텍처는 실제로 이전 세대인 케플러에 비해 2배의 전력 효율을 실현했으며, 페르미 세대와 비교하면 케플러가 2배의 전력 효율을 실현했으니, 4년만에 4배의 전력 효율 향상을 달성'했다고 설명합니다.

 

042.jpg

 

또 지포스 GTX 750 Ti는 지포스 GTX 480에 맞먹는 성능을 낸다고 합니다. 지포스 GTX 480은 역대 GPU 중에서도 TDP가 상당히 높은 편인 250W였으나, 이제는 그것과 같은 성능을 불과 60W로 구현할 수 있게 된 셈입니다.

 

041.jpg

 

이걸로 NVIDIA는 소형 시스템의 300W 파워에서도 뒤어난 그래픽 성능을 낼 수 있다고 설명합니다. 미니 ITX 시스템이 지포스 GTX 750 Ti를 달아라 뭐 그런 소리.

 

043.jpg

 

실제로 NVIDIA의 데모 기기도 이런 소형 시스템이었습니다. 그리고 이게 마음에 들지 않는 분들도 있겠지요. 모처럼 새 아키텍처가 나왔는데 하이엔드 시장을 공략하는 제품이 아니라 보급형 제품이니까요.

 

여기에 대해 NVIDIA는 '보급형 기종이야말로 가장 많은 사용자기 쓰기 때문'이라고 설명하지만, 사실 그보다는 TSMC의 차세대 공정 기술인 20nm의 양산이 시작되지 않아, 맥스웰 아키텍처를 먼저 도입해 경험을 쌓고, 아키텍처의 개발 비용을 회수하기 위해 보급기부터 내놓았을 가능성이 높습니다.

 

NVIDIA는 맥스웰 아키텍처를 이용해 더 높은 성능의 GPU를 계획하고 있으며, 2세대 맥스웰 아키텍처도 개발 중임을 분명히 밝혔습니다. 케플러 세대에서도 우선 3D 게임 애플리케이션을 위핸 GK104를 출시하고, 이후에 연산 프로세서에도 쓸 수 있는 하이엔드 코어 GK110을 내놓았으니, 2세대 맥스웰은 1세대 맥스웰보다 내부 구조가 달라질 것이고 TSMC의 20nm 공정을 이용해 제조하게 될 것입니다.

 

 

 

다음은 벤치마크입니다.

http://www.4gamer.net/games/216/G021677/20140218026/

 

045.gif

 

스펙 비교.

 

046.jpg

 

지포스 GTX 750 Ti의 레퍼런스

 

047.jpg

 

보조 전원은 없음.

 

048.jpg

 

뒷면

 

049.jpg

 

쿨러는 작지만 높이는 괘 높습니다.

 

050.jpg

 

듀얼링크 DVI-D, 듀얼링크 DVI-I, HDMI 미니 타입C.

 

051.jpg

 

쿨러는 쉽게 분리됩니다.

 

052.jpg

 

기판은 지포스 GTX 650 Ti와 비슷한 디자인.

 

053.jpg

 

메모리 칩은 4Gbit 4개로 총 2GB

 

054.gif

 

테스트 환경

 

055.gif

 

3D 마크입니다. NVIDIA는 지포스 GTX 750 Ti의 경쟁 상대를 라데온 R7 260X, 지포스 GTX 750의 경쟁 상대를 R7 260으로 잡았는데, GCN 아키텍처인 라데온이 높은 점수가 나오는 3D마크에서 지포스 GTX 750의 점수가 높게 나오는 건 주목할만 합니다. 또 지포스 GTX 750이 익스트림 프리셋에서 점수가 급격히 줄어드는 건 1GB라는 메모리 용량의 한계 때문일듯요. 지포스끼리 비교하면 GTX 750 Ti는 GTX 650 ti 부스트와 거의 비슷할 듯.

 

056.gif

 

057.gif

 

이번엔 배틀필드 4입니다. 라데온 시리즈 최적화로 유명하지만 GTX 750 Ti는 R7 260X와 호각세를 이루고 있습니다. 지포스 GTX 650 Ti 부스트와 비교에선 하이 옵션에서 결과가 뒤집혀지는데, 이건 128비트 5400Mhz와 192비트 6008Mhz라는 메모리 스펙 차이에서 비롯된 것이지 싶습니다. GTX 750은 R7 260과 거의 비슷한 수준.

 

058.gif

 

059.gif

 

크라이시스 3는 배틀필드 4의 하이 옵션을 더욱 강조한 결과가 나왔습니다. 지포스 GTX 750 Ti는 GTX 650 Ti의 85% 수준에 그쳤습니다. GPU의 효율을 높였어도 메모리 대역은 어떻게 하지 못하는 거겠지요. 뭐 그래도 크라이시스 3가 NVIDIA 최적화 타이틀이라 같은 128비트 메모리 버스를 쓰는 R7 260X보다 높은 성능을 보였지만.

 

060.gif

 

061.gif

 

바이오쇼크 인피니트에서 GTX 750 Ti는 GTX 650 Ti 부스트에 살짝 미치지 못하는 성능을 보였으나 R7 260과 비교하면 14~31%의 큰 성능 차이가 나왔습니다. 특히 지포스가 전체적으로 우세를 보이는 UltraDX11_DDOF이고, R7 260X의 상위 모델인 R7 265보다 성능이 높다는 건 놓치지 말아야 할 듯. 지포스 GTX 750도 UltraDX11_DDOF에선 R7 260X 대비 14~17%의 차이를 보입니다.

 

062.gif

 

063.gif

 

고해상도 텍스처 팩 때문에 그래픽 메모리 부하가 늘어난 엘더 스크롤 5: 스카이림입니다. 표준 설정에선 지포스 GTX 750 Ti가 지포스 GTX 650 Ti 부스트를 앞서지만 울트라 옵션에선 오히려 성능이 떨어지고, 100GB/s를 넘기는 메모리 버스 대역폭을 지닌 R7 260X과 비교되는 등 한 눈에 보이는 결과가 나왔습니다. 다만 같은 128비트 인터페이스 제품과 비교하면 나쁘지 않은 편. 그러니까 GPU 효율은 확실히 좋네요.

 

064.gif

 

065.gif

 

파이널 판타지 XIV의 벤치마크입니다. 여기서도 메무리 성능을 제외하면 상위 모델과 견줄 정도의 성능을 보여줍니다.

 

066.gif

 

067.gif

 

참고로 이건 파이널 판타지 벤치마크의 평균 프레임.

 

068.gif

 

069.gif

 

그리드 2의 벤치마크입니다. GTX 750 Ti는 GTX 650 Ti 부스트나 HD 7850, R7 260X와 동급입니다. GTX 750은 R7 260과 호각세.

 

070.gif

 

그래서 소비 전력. 아이들 상태에선 다들 비슷비슷하게 먹지만 일단 부하가 걸리기 시작하자 차이가 확실하게 납니다.

 

071.gif

 

그리고 이건 온도. 전기를 덜 먹으니 온도도 낮은 편이라 할 수 있을듯요. 몇몇 오버클럭 제품은 제외하고.

 

072.jpg

 

결론은 저전력 고성능 소형 시스템에 알맞는 물건. 좀 더 길게 말하면 300W급 파워를 장착한 미니 ITX 기반 시스템에서 쓰기에 좋습니다.

 

문제는 경쟁 제품이 많다는 것. 해당 가격대에 선택할만한 제품이 꽤 많습니다. 소비 전력만 포기한다면 GTX 750 Ti보다 성능이 더 높은 GTX 660이나 R9 270을 비슷한 가격에 살 수 있기 때문.                   

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.