이 글은 튜링 아키텍처 백서의 매우 짧은 요약문입니다. (14일 공개됨)
튜링의 핵심 기능
INT32 코어 (부동소수점과 정수 명령어의 동시 실행)
튜링 아키텍처에는 새로운 실행 유닛이 추가되었습니다(INT32).
이 유닛은 튜링 GPU가 부동소수점과 부동소수점이 아닌 것들을 병렬로 실행할 수 있도록 해줍니다.
엔비디아는 이것이 이론적으로 부동소수점 성능이 36% 증가한다고 주장합니다.
공유 L1 메모리와 텍스쳐 캐싱을 위한 새로운 통합 아키텍처 덕분에 병령 실행이 가능합니다.
엔비디아는 INT32/FP32 코어의 디자인과 스트리밍프로세서(SM)의 변화로 "쿠다 코어 당 50% 향상된 성능"을 제공한다고 말합니다.
새로운 쉐이딩 발전
메쉬 쉐이딩 - 버텍스, 테셀레이션, 지오메트리 쉐이딩을 위한 새로운 쉐이더 모델 (씬당 더 많은 오브젝트)
가변 속도 쉐이딩(VRS, Variable Rate Shading) - 쉐이딩 속도에 대한 개발자의 컨트롤 (시각적 이점을 제공하지 않는 쉐이딩 제한)
텍스쳐-스페이스 쉐어링 - 쉐이딩 결과를 메모리에 저장 (프로세스를 위해 쉐이딩 작업을 복제할 필요 없음)
멀티 뷰 렌더링(MVR, Multi-View Rendering) - 파스칼의 싱글 패스 스테레오를 싱글 패스 멀티 뷰로 확장합니다.
튜링 메모리 압축
튜링 아키텍처는 새로운 무손실 압축을 지원합니다.
엔비디아는 파스칼의 '최첨단' 알고리즘(엔비디아의 말입니다)을 향상시켜 튜링의 유효 대역폭을 50% 향상시켰습니다.
비디오, 디스플레이 엔진
새로운 비디오 엔진은 DP 1.4a (8K 60Hz)를 지원합니다.
튜링 그래픽카드는 두개의 8K 60Hz 디스플레이에서 동작할 수 있습니다(DP나 USB-C를 사용해서).
새로운 엔진은 향상된 NVENC 인코더를 가졌습니다. 이것은 H.265 스트림을 8K/30fps 로 인코딩할 수 있습니다)
또한 새로운 NVDEC 디코더는 HEV YUV444 10/12b HDR, H.264 8K, VP9 10/12 HDR을 지원합니다
NVLINK (2웨이만)
TU102 GPU는 두개의 x8 2세대 NVLINK를 가지고 있습니다.
반면 TU104는 1개의 x8 LINK만을 가집니다.
TU106은 NVLINK를 지원하지 않습니다.
불행히도, 엔비디아는 3웨이, 4웨이 SLI의 지원을 튜링에서 끝내기로 했습니다.
엔비디아 TU102 vs TU104 vs TU106
엔비디아 지포스 RTX 2070은 새로운 시리즈에서 모든 실리콘을 사용하는 유일한 그래픽카드입니다.
이전 추측처럼 TU104를 기반한 것이 아닙니다. 엔비디아는 그들의 새로운 xx70 모델이 TU106 GPU 라고 말했습니다.
스펙에 맞춰, 튜링 TU102는 근본적으로 TU106의 2배 스펙입니다.
TU104는 튜링 칩 중 유일하게 클러스터당 4 TPC를 특징으로 하고 있습니다(TU102, TU106은 GPC당 6개)
TU106은 중급 칩인가?
엔비디아의 네이밍 규칙에 의하면 TU106은 중급의 칩입니다.
하지만 주목할만한 것은 TU106을 GP104(파스칼)과 비교할 때, 131mm^2 더 크다는 것입니다.
이걸로 볼 때, 엔비디아는 TU100을 TU102로, TU102를 TU104로 변경한 것으로 보입니다.
또한 다이 사이즈를 고려할 때, TU106은 하이엔드 칩이 될 수 있었습니다.
튜링 GPU의 블록 다이어그램
아래는 엔비디아의 튜링 TPU 블록 다이어그램을 단순화 한 것입니다.
(99%가 동일하지만, 내게 더 섹시합니다)
전문용어는 어려워요.
그런고로 오역이 있을 수 있습니다.
중간에 '클러스터당 4 TPC를 특징' 이 부분은 TPC가 아니라 GPC의 오타인거 같기는 한데 일단은 원문 그대로 가져왔습니다.
지적하신 부분은 TPC가 맞는 것 같습니다. #TPC / #GPC 해 보시면 각각 6, 4, 6이 나오니까요.
그리고 state-of-the-art는 '가장 최신 기술(을 사용한)', '최첨단(의)'이라는 의미로 해석하시면 됩니다. :)