최고 성능의 그래픽용 GPU
NVIDIA가 최상위 그래픽용 GPU인 지포스 GTX 1080 Ti (GP102)를 발표했습니다. 단정밀도 (FP32) 부동 소수점 연산 성능은 11.3TFLOPS (부스트 클럭)으로 높습니다.
기존의 하이엔드 카드인 NVIDIA 타이탄 X를 웃도는 성능의 GPU를 699달러에 출시하며, 기존의 지포스 GTX 1080은 499달러로 인하합니다.
NVIDIA의 젠슨황(Co-founder, President and CEO, NVIDIA)이 들고 있는 지포스 GTX 1080 Ti. 다음주에 파운드리 에디션이 먼저 나옵니다.
지포스 GTX 1080 (GP104)보다 성능이 35% 높다고 하네요.
실제 게임에서는 40% 이상의 성능 향상 효과도 있습니다.
오버 클럭은 2GHz를 달성했음을 시연했습니다.
지포스 GTX 1080 Ti의 GPU 다이는 GP102는 2016년에 나온 타이탄 X와 같은 다이지만 그 구성은 다릅니다. GP102의 다이는 프로세서 클러스터인 SM (Streaming Multiprocessor)이 30개로 구성됩니다. 메모리 DRAM 인터페이스는 x32이 12개로 384비트 메모리 버스를 지닙니다. 지포스 GTX 1080 Ti는 GP102의 다이에 이러한 기능 중 일부를 무효화했습니다. SM은 30개 중 2개를 비활성화해 28개를 씁니다. 메모리 인터페이스는 1유닛을 비활성화해 11개로 352비트 인터페이스입니다.
30개의 SM 중 2개를 막은 건 수율을 높이기 위해서입니다. 최근 GPU를 비롯한 매니코어 프로세서는 실제 탑재된 물리 코어 수보다 더 적은 수를 쓰도록 상품화하는 게 일반적입니다.
동작 클럭을 높게 설정한 지포스 GTX 1080 Ti
GP102의 SM의 구성은 그래픽용 GP10X 시리즈에서 공통적으로 볼 수 있는 것입니다. 파스칼 세대에 속하며 맥스웰 아키텍처의 확장이기도 하지요. SM 내부에는 32레인 벡터 유닛이 4개 있으며, 총 128개의 단정밀도 연산 병렬 실행이 가능합니다. NVIDIA는 1개의 SM에 128개의 CUDA 유닛을 탑재합니다. 또한 32개의 CUDA 코어, 8웨이 Special Function Unit (SFU), 로드/스토어 유닛이 포함됩니다. SM 전체에 4웨이 텍스처 유닛이 2개 장착됩니다.
지포스 GTX 1080 Ti의 SM은 28개로 각 SM이 128개의 CUDA 코어를 가집니다. GPU 전체에선 3,584 개의 CUDA 코어를 가집니다. 텍스처 유닛은 224개입니다. GP102의 다이 트랜지스터 수는 120억개며. 각 SM마다 지오메트리 유닛을 가지고 있어 지오메트리 유닛 수는 28개가 됩니다. 라스터라이저 등을 공유하는 GPC (Graphics Processing Cluster)는 6 클러스터며, 각 클러스터 당 최대 5개의 SM을 갖춥니다. 기본 구성은 하위 모델인 GP104과 같고, 이를 확대한 구성입니다.
지포스 GTX 1080 Ti의 28 SM에 3584 CUDA 코어의 구성은 마찬가지로 GP102를 쓴 타이탄 X와 같습니다. 그러나 지포스 GTX 1080 Ti는 동작 클럭이 높습니다. 동작 클럭은 기본 1.480GHz, 부스트 1.582GHz며 2GHz까지의 오버클럭도 입증한 바 있습니다. 타이탄 X(1.417GHz / 1.531GHz)와 비교하면 3~4% 빠릅니다. 따라서 부스트 11.3TFLOPS, 베이스 클럭에서 10.6TFLOPS의 성능을 냅니다.
메모리는 2세대 GDDR5X. 속도는 11Gtps
메모리 인터페이스는 x32가 12개로 DRAM 컨트롤러 중 하나가 비활성화됐습니다. 그래서 11개의 x32 유닛으로 352비트 인터페이스를 갖춥니다.
지포스 GTX 1080 Ti의 기술을 설명한 Jonah Alben(Senior Vice President, GPU Engineering, NVIDIA)는 11이라는 숫자가 좋은 것이라며 농담처럼 이야기했습니다.
DRAM 인터페이스는 수율을 높이는 의미가 없으니, 이건 단지 제품 차별화를 위해 일부를 막은 것으로 보입니다.
지포스 GTX 1080 Ti의 메모리 인터페이스는 352비트로 줄었으나 메모리 대역폭은 484GB/s. 타이탄 X가 480GB/s니 오히려 더 높습니다. 이것은 메모리 자체의 속도가 높아졌기 때문입니다. 지포스 GTX 1080 Ti의 메모리 종류는 타이탄 X와 마찬가지로 GDDR5X.지만, 타이탄 X에선 속도가 1,000Mtps (1Gtps)였는데 지포스 GTX 1080 Ti는 1,100Mtps (1.1Gtps)로 높아졌습니다. 이것은 GPU의 설계 변경에 의한 것이 아니라 새로운 DRAM 칩을 쓴 덕분입니다.
NVIDIA에서 GPU 개발을 지휘하는 Jonah Alben(Senior Vice President, GPU Engineering, NVIDIA)는 초기 GDDR5X에서는 11Gbps의 속도로 전송 시 유효한 데이터 윈도우가 좁소 신호 품질이 불안했다고 말합니다. 그러나 새로운 버전의 GDDR5X에서는 지터와 노이즈 감소 덕분에 11Gbps에서도 넓은 데이터 창에 안정적인 품질로 전송이 가능하다고 말합니다.
GDDR5X는 마이크론이 개발/생산하고 있습니다. 마이크론은 2세대 GDDR5X 칩을 올해 (2017 년) 2월의 반도체 학회 ISSCC (IEEE International Solid-State Circuits Conference)에서 발표했습니다. 새로운 GDDR5X의 개선 사항은 대부분이 데이터 전송 신호 품질의 향상입니다. 덧붙여서 GDDR5X은 8Gbit 제품이니 352bit 인터페이스라면 DRAM 칩 11개에 11GB가 최대 용량이 됩니다.
타일 기반 렌더링 캐시 실현
지포스 GTX 1080 Ti의 새로운 기능으론 타일 기반 렌더링을 지원한다는 것입니다. 이것은 PowerVR 및 Mali 같은 모바일 GPU에서 지원하는 타일 렌더링의 장점을 도입한 기능입니다.
모바일 GPU의 타일 기반 렌더링은 화면 전체의 지오메트리 프로세싱을 수행해 버텍스를 메모리에 저장하고 타일마다 라스터라이징을 수행합니다. 반면 PC 그래픽의 임미디에이트 렌더링에선 버텍스와 픽셀 처리를 병행 처리합니다.
지포스 GTX 1080 Ti는 지오메트리를 처리하면서 픽셀을 타일로 처리하는 하이브리드 기법을 사용합니다.
지오메트리 프로세스된 버텍스는 L2 캐시에 저장합니다. 타일마다 L2에서 버텍스를 읽어 라스터라이징합니다. NVIDIA는 이것을 타일 캐싱이라고 부릅니다.
이 방법은 중복되는 픽셀 처리를 피하고 메모리 대역폭과 프로세싱을 절감하는 타일 기반 렌더링의 장점을 살릴 수 있습니다. 더욱이 버텍스를 메모리에서 자주 읽어오는 기존의 타일 기반 렌더링의 단점도 커버할 수 있습니다. 타일의 크기는 가변적이며 타일링 자체는 하드웨어 제어, 타일 기반 렌더링을 수행할지 여부를 제어하고, 타일 크기의 제어 등은 드라이버 소프트웨어와 함께 제공합니다. 이 기능은 사실 맥스웰 세대에서 구현됐으나 지금까지 공개하지 않았습니다.
NVIDIA는 일반 소비자용 그래픽카드의 GPU에서도 메모리 대역폭을 높이는 데 주력하고 있습니다. NVIDIA의 젠슨황은 게임에서 화면 해상도와 텍스처가 늘어나면서 넓은 메모리 대역폭을 필요로 한다고 강조합니다.
전력 공급도 강화한 지포스 GTX 1080 Ti
지포스 GTX 1080 Ti는 전력 공급도 강화했습니다. 7 페이즈의 듀얼 FET를 2개 갖춘 공급 라인으로, 250A 전원 공급을 안정적으로, 그리고 높은 효율로 실현합니다. 쿨러도 강화해 소음을 줄인 고효율 쿨링을 실현합니다. 소음이 같은 경우 지포스 GTX 1080보다 5 ℃ 정도 온도를 낮추는 것이 가능합니다.
또한 NVIDIA는 기존의 지포스 GTX 1080과 지포스 GTX 1060에서 오버클럭 버전에 고속 메모리 버전을 추가합니다. 지포스 GTX 1080 (GP104)는 11Gtps의 GDDR5X 버전이, 지포스 GTX 1060 (GP106)는 9Gtps의 GDDR5 버전을 제공합니다.