NVIDIA가 파스칼 아키텍처의 화이트 페이버를 공개해 GP100 코어의 풀 스펙을 설명했습니다.

 

GP100은 파스칼의 하이엔드 코어로 지포스 GTX 1080 Ti나 GTX 타이탄의 신제품이 이걸 쓰지 않을까 기대됩니다. 테슬라 100에도 들어갔지만요.

 

제조 공정은 TSMC 16nm FinFET, 153억개의 트랜지스터가 있어 맥스웰 GM200보다 90% 많습니다. 코어 크기 610제곱mm니 28nm 공정의 GM200보다 9제곱mm 정도 크네요.

 

풀스펙 GP100 코어는 60개의 SM 유닛이 있습니다. 테슬라 P100은 56개만 활성화했지요. 각각의 SM 유닛엔 64개의 FP32 단정밀도 CUDA 코어가 있습니다(맥스웰은 128개, 케플러 192개). 그래서 총 3840개의 스트림 프로세서가 있는 셈.

 

각각의 SM 유닛은 두 부분으로 나뉘는데 저마다 32개의 FP32 CUDA 코어와 명령어 버퍼, Warp 스케줄러 등을 갖춥니다.

 

GP100 코어의 CUDA 코어 수량은 맥스웰의 절반이지만 레지스터 파일 크기는 같고 비슷한 Warp와 스레드 모듈도 지원합니다.

 

GP100 코어의 각각 SM 유닛은 32개의 FP64 배정밀도 CUDA 코어를 내장해 총 1920개입니다. 단정밀도의 절반이지요. 덕분에 더 높은 효율로 배정밀도 처리가 가능합니다.

 

GP100은 4096KB의 통합 L2 캐시를 내장합니다. 케플러 GK110의 1536KB, 맥스웰 GM200의 3702KB를 넘어섭니다. 그래서 GPU DRAM 수요를 줄이고 소비 전력, 메모리 대역, 성능을 향상시킵니다.

 

전체 코어의 텍스처 유닛은 240개.

 

테슬라 P100은 3584개의 FP32 단정밀도, 1794개의 FP64 배정밀도 CUDA 코어가 있습니다. 기본 클럭 1328Mhz, 부스트 클럭 1480Mhz로 최고 단정밀도 성능은 10600GFlops로 기존보다 55% 향상, 배정밀도는 5300GFlops로 케플러의 3.2배, 맥스웰의 25.2배입니다.

 

또 4096비트 HBM2 메모리는 용량 16GB. TDP는 300W입니다.

 

1.jpg

 

테슬라 P100

 

2.jpg

 

3세대 아키텍처의 하이엔드 칩 비교

 

3.jpg

 

GP100

 

4.jpg

 

GP100 SM 유닛 

5.jpg

 

GP100과 HBM2의 스택 구성.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.