NVIDIA가 테슬라 V100을 정식으로 발표했습니다. 지난 5월의 GTC 2017에서 간을 봤다가, 슈퍼컴퓨터 컨퍼런스에 맞춰 테슬라 V100의 PCI-E 버전을 공식적으로 선보였네요.
GV100 칩, 5120개 CUDA 코어, 16GB HBM2 메모리라는 건 같은데, SXM2 버전과 비교하면 FP32가 15TFLOPS에서 14TFLOPS, TDP는 300W에서 250W로 줄었습니다.
NVIDIA Tesla 제품군 사양 비교 | ||||||
Tesla V100 (SXM2) |
Tesla V100 (PCIe) |
테슬라 P100 (SXM2) |
Tesla P100 (PCIe) |
|||
쿠다 코어 | 5120 | 5120 | 3584 | 3584 | ||
텐서 코어 | 640 | 640 | N / A | N / A | ||
코어 클럭 | ? | ? | 1328MHz | ? | ||
부스트 클럭 | 1455MHz | ~ 1370MHz | 1480MHz | 1300MHz | ||
메모리 클럭 | 1.75Gbps HBM2 | 1.75Gbps HBM2 | 1.4Gbps HBM2 | 1.4Gbps HBM2 | ||
메모리 버스 너비 | 4096 비트 | 4096 비트 | 4096 비트 | 4096 비트 | ||
메모리 대역폭 | 900GB / 초 | 900GB / 초 | 720GB / 초 | 720GB / 초 | ||
VRAM | 16 기가 바이트 | 16 기가 바이트 | 16 기가 바이트 | 16 기가 바이트 | ||
L2 캐시 | 6MB | 6MB | 4MB | 4MB | ||
반정밀도 | 30 TFLOPS | 28 트롤프 | 21.2 TFLOPS | 18.7 TFLOPS | ||
단정밀도 | 15 트롤프 | 14 트롤프 | 10.6 TFLOPS | 9.3 TFLOPS | ||
배정밀도 | 7.5 TFLOPS (1/2 속도) |
7 TFLOPS (1/2 속도) |
5.3 TFLOPS (1/2 속도) |
4.7 TFLOPS (1/32 속도) |
||
텐서 성능 (딥 러닝) |
120 TFLOPS | 112 TFLOPS | N / A | N / A | ||
GPU | GV100 (815mm2) | GV100 (815mm2) | GP100 (610mm2) | GP100 (610mm2) | ||
트랜지스터 수 | 21B | 21B | 15.3B | 15.3B | ||
TDP | 300W | 250W | 300W | 250W | ||
폼팩터 | SXM2 | PCIe | SXM2 | PCIe | ||
쿨러 | 패시브 | 패시브 | 패시브 | 패시브 | ||
제조 공정 | TSMC 12nm FFN | TSMC 12nm FFN | TSMC 16nm FinFET | TSMC 16nm FinFET | ||
아키텍처 | 볼타 | 볼타 | 파스칼 | 파스칼 |