이스포츠 대회인 DreamHack에서 가장 빠른 GPU를 발표


NVIDIA는 차세대 GPU 아키텍처 파스칼(Pascal) 기반의 그래픽카드인 지포스 GTX 1080/1070를 발표했습니다. GPU Technology Conference(GTC)에서 발표한 테슬라 P100(GP100)는 하이엔드 GPU 컴퓨팅용으로, HBM2 메모리에 NVLink 인터페이스 카드를 넣은 제품이었습니다. 반면에 지포스 GTX 1080/1070은 GDDR5X 기반으로 PCI-E 인터페이스를 쓰는 그래픽 전용입니다. 또 NVIDIA는 GP104 발표에 맞춰 파스칼 아키텍처 그래픽의 새로운 형상을 일부 공개했으며, 회로 설계의 최적화와 새로운 라이브러리 등도 공개했습니다.

 

1.jpg

 

지포스 GTX 1080을 발표하는 젠슨황(Jen-Hsun Huang. Co-founder, President and CEO, NVIDIA)


NVIDIA는 미국 텍사스 주 오스틴에서 개최된 게임 대회인 DreamHack'에 맞춰서 지포스 GTX 1080 (GP104) 발표회를 열었습니다. DreamHack은 이스포츠 이벤트 중에서 세계 최대의 규모를 자랑하는 곳으로, 전세계 게이머들이 모이는 DreamHack에서 NVIDIA가 게임 시장을 목표로 한 퍼포먼스 GPU를 출시한 것입니다. NVIDIA는 새로운 GPU를 4K/HDR 시대의 플래그쉽 그래픽카드로 추진합니다.

 

2.jpg

 

지포스 GTX 1080은 5월 27일에 599달러로 출시하며.

 

3.jpg

 

저가형인 지포스 GTX 1070은 6월 10일에 379달러로 출시합니다.

 

지포스 GTX 1080의 핵심은 GP100과 마찬가지로 TSMC의 16nm FinFET 3D 트랜지스터 공정에 의한 저전력과 고클럭을 달성하고, HBM2보다 저렴하지만 10Gbps의 높은 전송율을 지닌 GDDR5X 8GB 메모리를 탑재했으며, 9TFLOPS(FP32) 연산 성능, 최신 파스칼 마이크로 아키텍처를 그래픽 최적화, 멀티 프로젝션에 대응한 확장 등입니다. 또 라스터라이저, 파워 딜리버리, 네트워크 등 회로 설계의 개량까지 GPU 마이크로 아키텍처와 프로세스 기술, 메모리, 회로 설계, 그래픽 전용 기능까지 모든면에서 큰 폭의 확장이 더해졌습니다.

 

4.jpg

 

NVIDIA를 이끄는 젠슨황은 "지포스 GTX 1080은 기존의 지포스 GTX 980(GM204)의 SLI보다 빠르고,

 

5.jpg

 

지포스 GTX 타이탄 X(GM200 )보다도 빠르다"고 선언했습니다. 연산 성능이 9TFLOPS니 NVIDIA 그래픽 제품 중 최고의 성능입니다.

 

6.jpg

 

NVIDIA GPU에서 이를 넘어서는 건 GPU 컴퓨팅을 위한 테슬라 P100의 10.6TFLOPS 뿐입니다.

 

7.jpg

 

또한 전력 당 성능은 맥스웰 세대 타이탄 X의 3배에 달한다네요.

 

 

CUDA 코어 수는 2,560개, 1.7GHz의 클럭으로 동작

 

8.jpg

 
지포스 GTX 1080의 CUDA 코어(FP32 연산 유닛) 수는 2560 개. 파스칼 아키텍처의 SM(Streaming Multiprocessor)은 64 유닛이므로 지포스 GTX 1080에 탑재되는 SM은 40개가 됩니다.

 

9.jpg

 

GP100은 2개의 SM이 텍스처/프로세서 클러스터(TPC)를 구성하며, 10개의 SM이 GPC(Graphics Processing Cluster)를 만듭니다. 같은 구성으로 지포스 GTX 1080의 TPC는 20개, GPC는 4개가 됩니다.

 

10.jpg

 

그래픽 기능, 지포스 GTX 1080의 라스터라이즈는 4유닛, 지오메트리 파이프라인/테셀레이터는 20유닛으로 추측됩니다.

 

11.jpg

 

지포스 GTX 1080의 연산 성능은 9TFLOPS입니다. 이것은 부스트 클럭  1.73GHz일 때이지요. 또 GPU를 2.114GHz로 오버클럭한 것도 시연했는데, 이는 전례 없을 수준으로 오버클럭이 잘 되는 것이라고 합니다.

 

12.jpg

 

파스칼 아키텍처의 SM은 맥스웰의 SM을 절반으로 자른 것입니다. GP100은 GPU 컴퓨팅이 주 목적이지만 그래픽을 위한 지포스 GTX 1080은 그래픽에 맞춰 최적화한 것으로 보입니다. 배정밀도 연산은 GP100보다 크게 줄었을 것으로 추측됩니다. GP100은 FP64 배정밀도 연산 성능은 FP32 단정밀도 연산 성능의 절반이었는데요. GP104은 FP32의 1/3​​2 정도로 FP64 성능이 억제되리라 예상됩니다. 그만큼 SM이 작아지니 FP32의  다이 당 성능은 높아지게 됩니다. 파스칼에서 도입된 FP16의 2-way SIMD(Single Instruction, Multiple Data) 스펙은 GP104에도 이어집니다.

 


최신 메모리인 GDDR5X을 채용해 광대역을 실현


지포스 GTX 1080은 GDDR5X 메모리를 사용합니다. GDDR5X는 GDDR5의 후속 메모리로 서둘러 규격화된 메모리입니다. 메모리 업계는 당초체 GDDR5에서 HBM 계열 메모리로의 전환을 생각하고 있었습니다. 그러나 HBM 계열의 ​​제조와 조립 비용이 예상보다 비싸지면서, 중급형 이하의 GPU 메모리는 GDDR 계열을 유지할 것으로 예상됩니다. 그래서 GDDR5의 연장선상에 위치한 GDDR5X를 JEDEC(반도체의 표준화 단체)에서 규격화했습니다.

 

GDDR5X는 베이스 클럭의 4배로 작동하는 Quad Data Rate(QDR) 모드(기존의 DDR 모드도 있음)를 갖고 있습니다. 전송 속도의 대상은 GDDR5의 2배입니다. 현재는 마이크론이 생산을 시작했으며 NVIDIA도 마이크론의 GDDR5X를 사용합니다. 컨퍼런스에서는 QDR에서 10Gbps의 전송 속도를 냅니다. 지포스 GTX 1080은 "04"시리즈 NVIDIA GPU의 전통대로 256-bit의 메모리 인터페이스를 갖춥니다. 메모리 대역폭은 10Gbps에 320GB/sec에 달합니다. 이것은 384-bit 인터페이스로 7Gbps의 TITAN X의 336.5GB / sec에 육박하는 수치입니다.


13.jpg

 

GDDR5X의 장점은 HBM2와 달리 Through Silicon Via(TSV) 기술과 실리콘 인터포저가 필요하지 않아 제조 비용을 줄일 수 있다는 것입니다. 또한 GPU의 메모리 인터페이스는 GDDR5와 GDDR5X 호환되기도 합니다. 실제로 이번에 발표된 지포스 GTX 1080은 GDDR5X이지만 저가형인 지포스 GTX 1070은 GDDR5 메모리입니다.

 

GDDR5X는 장점이 많아 보이지만 단점도 있습니다. GDDR5X 기술은 GDDR5와 비슷하며 x32/x16 인터페이스 뱅크 그룹핑으로 액세스 단위를 줄일 수 있습니다. 그러나 뱅크 그룹의 수는 GDDR5와 같은 4그룹이라, 프리페치 아키텍처는 GDDR5의 8n에서 GDDR5X의 GDR 모드에서 16n으로 두배 늘어납니다. 쉽게 말하면 한번에 액세스하는 메모리의 단위가 높아진 것이지요. GDDR5는 256-bit(32-byte) 단위로 액세스 할 수 있었으나 GDDR5X의 QDR 모드에서는 512-bit(64-byte) 단위로 액세스합니다. 그 때문에 GPU는 QDR의 대역을 확보하기 위해 메모리 액세스 단위를 높이고, DRAM 컨트롤러를 개량할 필요가 있습니다.

 

 

라스터 파이프를 확장?

 

14.jpg

 

지포스 GTX 1080 그래픽 아키텍처는 라스터가 크게 확장됐습니다. 현재의 3D 그래픽은 하나의 평면 디스플레이에 표시하는 걸 전제로 만들어졌지요. 3D 공간이 맵핑된 3D 오브젝트를 하나의 2D 평면상에 표시하는 픽셀로 변환하는 방식입니다. 그러나 지금은 멀티 디스플레이와 VR 등, 지금까지의 고정 관념과 맞지 않는 디스플레이 디바이스가 늘었습니다.

 

15.jpg

 

지포스 GTX 1080에선 이러한 흐름에 맞춰 라스터 기능이 확장됩니다. NVIDIA가 Simultaneous Multi-Projection이라 부르는 기능으로, 여러 뷰포트를 변환하거나 픽셀을 만들 수 있습니다. 지금까지의 GPU는 하나의 시점으로 3D 공간을 2D 좌표로 매핑했으나, GTX 1080에선 여러 시점에서 공간 좌표를 생성할 수 있습니다. 최대 16개의 뷰포트 생성이 가능하다네요.

 

16.jpg

 

17.jpg

 

3개의 멀티 디스플레이는 지금까지 가로로 렌더링한 화면을 좌우의 디스플레이에 맞춰 표시한 게 고작이었습니다. 그러나 동시 멀티 프로젝션은 좌우로 틸트시긴 화면의 각도에 맞춰 렌더링을 할 수 있습니다.

 

18.jpg

 

19.jpg

 

또한 VR(Virtual Reality)은 좌우의 눈에 맞춰 뷰포트를 생성해야 합니다. 기존에는 이거를 다양한 경로에서 수행하고, 또 눈에 가깝게 표시하다보니 시야 주변 왜곡 보정까지 했습니다. 그러나 동시 멀티 프로젝션을 사용하면 좌우의 눈에 맞춰 4개의 뷰포트에서 각각의 프로젝션을 생성합니다. 이로 인해 왜곡 보정이 필요없는 이미지를 좌우 눈에 맞춰 만들 수 있게 됩니다.

 
20.jpg

 

21.jpg

 

동시 멀티 프로젝션에선 이걸 성능 패널티 없이 단일 경로로 진행하기에, VR에선 큰 폭의 성능 향상이 이루어질 것이라고 합니다. 결과적으로 기존에 70fps 정도로만 표현한 VR 이미지를 90fps 이상의 프레임 레이트로 렌더링이 가능해집니다. 현재 VR은 VR 멀미를 방지하기 위해 90fps 이상이 필요한데요. 이여기에서 고화질 렌더링을 할 수 있는 것이지요.

 

다만 구체적인 구현 방식을 오늘 발표하진 않았습니다. 이게 프로세싱 코어를 사용한 소프트웨어 솔루션인지 실제로 라스터 파이프 라인을 확장한 구현인지가 명확하지 않습니다. 하지만 NVIDIA가 성능 타협이 없다고 했으니 하드웨어 구현일 가능성이 높습니다.

 

22.jpg

 

이 외에 이번 지포스 GTX 1080은 파워 딜리버리 네트워크의 설계를 크게 향상시켰습니다. 구현 방식은 아직 밝혀지지 않았지만, 맥스웰 세대의 지포스 GTX 980과 비교하면 특정 전력 대역에서 파스칼 세대의 지포스 GTX 1080 쪽이 전력 전달 효율은 더 높아질 것입니다. 이것이 전력 효율의 향상과 동작 클럭의 향상에 큰 영향을 준 것이지요. 회로 설계는 프로세서의 성능과 전력을 좌우하는 중요한 요소입니다. 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.