Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다. 2016년 7월 이전의 글은 다음 링크를 참조하세요. 구 하드웨어 뉴스 / 구 디지털 뉴스 / 구 하드웨어 포럼 / 구 뉴스 리포트 / 구 특집과 정보 / 구 스페셜 게시판 바로가기

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...#table-0-0

1.png

 

NVIDIA는 하이브리드 렌더링을 시작하는 새로운 GPU 아키텍처, 튜링을 출시합니다. 

 

튜링은 레이 트레이싱을 가속하는 RT 코어와 딥러닝을 맡은 텐서 코어를 탑재합니다. 제조 공정은 12nm, 메모리는 GDDR6.

 

 

하이브리드 렌더링을 위한 아키텍처

 

튜링 기반의 지포스 라인업은 3가지로, 각각 다이와 코드네임이 다릅니다. 하이엔드인 지포스 RTX 2080 Ti가 TU102, 그 아래인 지포스 RTX 2080이 TU104, 미드레인지인 지포스 RTX 2070이 TU106입니다. 이전에는 2개의 다이로 구성했던 라인업이 이제는 3개의 다이를 사용해 구성합니다. 

 

2.png

 

TU102는 186억개의 트랜지스터에 754제곱mm, TU104는 136억개의 트랜지스터에 545제곱mm, TU106은 106억개 트랜지스터에 445제곱mm로, 가장 작은 TU106도 라데온 RX 베가 64(베가 10)의 125억개 트랜지스터, 486제곱mm에 육박합니다.

 

지포스 RTX 라인업

 

GPU 기능 지포스 GTX 1080Ti 지포스 RTX 2080 Ti 쿼드로 6000 쿼드로 RTX 6000 지포스 GTX 1080 지포스 RTX 2080 쿼드로 P5000 쿼드로 RTX 5000 지포스 GTX 1070 지포스 RTX 2070
코드네임 GP102 TU102 GP102 TU102 GP104 TU104 GP104 TU104 GP104 TU106
아키텍처 파스칼 튜링 파스칼 튜링 파스칼 튜링 파스칼 튜링 파스칼 튜링
GPCs 6 4 6 4 6 3
TPCs 28 34 30 36 20 23 20 24 15 18
SMs 28 68 30 72 20 46 20 48 15 36
CUDA 코어 / SM 128 64 128 64 128 64 128 64 128 64
CUDA 코어 / GPU 3,584 4,352 3,840 4,608 2,560 2,944 2,560 3,072 1,920 2,304
텐서 코어 / SM NA 8 NA 8 NA 8 NA 8 NA 8
텐서 코어 / GPU NA 544 NA 576 NA 368 NA 384 NA 288
RT 코어 NA 68 NA 72 NA 46 NA 48 NA 36
GPU 기본 클럭 MHz (레퍼런스 / 파운더스 에디션) 1,480 / 1,480 1,350 / 1,350 1,506 1,455 1,607 / 1,607 1,515 / 1,515 1,607 1,620 1,506 / 1,506 1,410 / 1,410
GPU 부스트 클럭 MHz(레퍼런스 / 파운더스 에디션) 1,582 / 1,582 1,545 / 1,635 1,645 1,770 1,733 / 1,733 1,710 / 1,800 1,733 1,815 1,683 / 1,683 1,620 / 1,710
RTX-OPS (Tera-OPS) (레퍼런스 / 파운더스 에디션) 11.3 / 11.3 76 / 78 NA 84 8.9 / 8.9 57 / 60 NA 62 6.5 / 6.5 42 / 45
Rays Cast (Giga Rays / sec) (레퍼런스 / 파운더스 에디션) 1.1 / 1.1 10 / 10 NA 10 0.89 8 / 8 NA 8 .065 / .065 6 / 6
최고 FP32 TFLOPS (레퍼런스 / 파운더스 에디션) 11.3 / 11.3 13.4 / 14.2 12.6 16.3 8.9 10 / 10.6 8.9 11.2 6.5 / 6.5 7.5 / 7.9
최고 INT32 TIPS (레퍼런스 / 파운더스 에디션) NA 13.4 / 14.2 NA 16.3 NA 10 / 10.6 NA 11.2 NA 7.5 / 7.9
최고 FP16 TFLOPS(레퍼런스 / 파운더스 에디션) NA 26.9 / 28.5 NA 32.6 NA 20.1 / 21.2 NA 22.3 NA 14.9 / 15.8
최고 FP16 텐서 TFLOPS with FP16 (레퍼런스 / 파운더스 에디션) NA 107.6 / 113.8 NA 130.5 NA 80.5 / 84.8 NA 89.2 NA 59.7 / 63
최고 FP16 텐서 TFLOPS with FP32 (레퍼런스 / 파운더스 에디션) NA 53.8 / 56.9 NA 130.5 NA 40.3 / 42.4 NA 89.2 NA 29.9 / 31.5
최고 INT8 텐서 TOPS (레퍼런스 / 파운더스 에디션) NA 215.2 / 227.7 NA 261 NA 161.1 / 169.6 NA 178.4 NA 119.4 / 126
최고 INT4 텐서 TOPS (레퍼런스 / 파운더스 에디션) NA 430.3 / 455.4 NA 522 NA 322.2 / 339.1 NA 356.8 NA 238.9 / 252.1
비디오 메모리 용량 11,264 MB 24,576 MB 8,192 MB 16,384 MB 8,192 MB
비디오 메모리 종류 GDDR5X GDDR6 GDDR5X GDDR6 GDDR5X GDDR6 GDDR5X GDDR6 GDDR5X GDDR6
메모리 인터페이스 352-bit 384-bit 256-bit 256-bit 256-bit
메모리 클럭 11 Gbps 14 Gbps 9 Gbps 14 Gbps 10 Gbps 14 Gbps 9 Gbps 14 Gbps 8 Gbps 14 Gbps
메모리 대역폭 (GB / sec) 484 616 432 672 320 448 288 448 256 448
ROPs 88 88 96 96 64 64 64 64 64 64
텍스처 유닛 224 272 240 288 160 184 160 192 120 144
텍스처 필레이트(기가텍셀/초) 354.4 / 354.4 420.2 / 444.7 395 510 277.3 / 277.3 314.6 / 331.2 277 348 202 / 202 233.3 / 246.2
L2 캐시 크기 2,816 KB f 3,072 KB 6,144 KB 2,048 KB 4,096 KB 2,048 KB 4,096 KB 2048 KB 4096 KB
레지스터 파일 크기 / SM 256 KB 256 KB 256 KB 256 KB 256 KB 256 KB 256 KB 256 KB 256 KB 256 KB
레지스터 파일 크기 / GPU 7,168 KB 17,408 KB 7,680 KB 18,432 KB 5,120 KB 11,776 KB 5,120 KB 12,288 KB 3840 KB 9216 KB
NVLink NA 2x8 NA 2x8 NA 1x8 NA 1x8 NA NA
NVLink 대역폭 NA 100GB / sec NA 100GB / sec NA 50GB / sec NA 50GB / sec NA NA
TDP (레퍼런스 / 파운더스 에디션) 250 / 250 W 250 / 260 W 250 W 260 W 180 / 180 W 215 / 225 W 180 W 230 W 150 / 150 W 175 / 185 W
트랜지스터 수 120억 186억 120억 186억 72억 136억 72억 136억 72억 108억
다이 크기 471제곱mm 754제곱 mm 471제곱 mm 754제곱mm 314제곱mm 545제곱mm 314제곱mm 545제곱mm 314제곱mm 445제곱mm
제조 공정 16nm 12nm FFN 16nm 12nm FFN 16nm 12nm FFN 16nm 12nm FFN 16nm 12nm FFN

 

원래 NVIDIA는 코드네임이 6으로 끝나는 GPU는 200제곱mm 크기의 다이로 맞췄으나 튜링에선 2배로 늘었습니다. 즉 기능이 늘어난만큼 다이도 커지고 트랜지스터 수가 늘어난 GPU가 튜링입니다. 

 

TU102는 NVIDIA의 그래픽용 GPU 중에선 가장 큽니다. 또 아직까지는 튜링 아키텍처로 200제곱mm 이하의 메인스트림급 다이가 나오지 않았습니다. 

 

3.png

 

NVIDIA는 튜링을 12nm 공정으로 만들었습니다. TSMC 12nm 공정은 16nm에서 파생됐습니다. 같은 높이의 표준 셀을 사용하는 한 트랜지스터 밀도는 그대로입니다.

 

NVIDIA는 7.5T의 표준 셀을 유지하는 것으로 보이며, 트랜지스터 밀도에 변화가 없기에 트랜지스터가 늘어난 만큼 다이가 커집니다. 그 결과 서버용 CPU 급의 거대한 GPU가 탄생했습니다. 

 

NVIDIA는 원래 여기서 삼성의 10nm 공정을 쓸 계획이었다고 합니다. 하지만 기존의 12nm를 선택해 다이 크기를 키우는 대신, 안정된 공정으로 수율을 높이는 선택을 한 것으로 보입니다. 

 

 

레이 트레이싱 처리를 가속하는 RT 코어

 

튜링 아키텍처의 핵심은 레이 트레이싱 가속기인 RT 코어입니다. NVIDIA GPU에서 처음으로 구현된 코어입니다. 

 

4.png

 

레이트레이싱은 가상의 관점에서 광선을 역으로 추적, 화면의 픽셀을 통과하는 광선을 만들어(Ray Generation) 3D 공간 안쪽으로 보내 탐색시키고(Traversal), 광선이 3D 공간의 오브젝트와 교차하는지를 판정(Intersection Test)합니다. 교차가 되면 거기에서 반사나 굴절 광선을 만들거나 쉐이더를 실행합니다. 여러 광선을 만들고 다수의 반사를 거칠 수도 있습니다. 

 

6.png

 

RT 코어는 광선의 탐색부터 판정까지를 하드웨어적으로 처리합니다. 이런 작업은 복잡하기에 소프트웨어 실행 시 1000명령 이상이 필요하지만, 이를 RT 코어에 넘겨 부담을 줄입니다.

 

7.png

 

레이트레이싱의 파이프라인

 

8.png

 

레이트레이싱의 탐색은 그 단계가 많고, 판정에선 많은 오브젝트와 교차 판정을 수행하기에 계산량이 늘어납니다. RT 코어는 이를 하드웨어적으로 실행해 부담을 줄입니다.

 

판정을 줄이는 구체적인 방법으론 바운딩 볼륨과 공간 분할이 있습니다. NVIDIA는 Bounding Volume Hierarchy를 사용해 탐색의 부담을 줄입니다. 이 기술은 NVIDIA의 소프트웨어 구현 레이트레이싱 API인 OptiX에서도 씁니다.

 

 

RT 코어의 핵심 기술. 바운딩 볼륨

 

9.png

 

바운딩 볼륨(BVH)는 3D 공간의 오브젝트를 큰 상자로 가둬버립니다. 게임의 히트 박스와도 같죠. 차이점이라면 총알이나 공격의 경로를 판정하는 게 아니라 광선 궤적이 교차하는지를 판단합니다. 

 

10.png

 

BVH는 트리 구조의 계층을 이뤄, 큰 상자 안에 더 작은 상자가 있습니다.

 

11.png

 

상자 크기가 줄어들수록 오브젝트와 더 가까워집니다.

 

12.png

 

BVH는 광선과 교차될 가능성이 있는 모든 트라이앵글을 테스트하는 게 아니라, 특정 계층 박스에 속한 작은 박스, 다시 거기에 속한 트라이앵글의 테스트를 하는 식으로 범위를 줄이기에 연산의 부담이 줄어듭니다. 

 

 

바운딩 볼륨을 하드웨어 지원

 

RT 코어는 바운딩 볼륨 데이터 구조를 지원해 각각의 박스마다 판정 테스트를 실행합니다. 지금까지의 라스터라이저 렌더링에서 데이터를 라스터 픽셀로 바꾼 후에는 원시 데이터를 폐기해도 됐지만, 레이트레이싱을 함께 쓰는 하이브리드 렌더링에선 라스터라이징이 끝난 후에도 데이터를 유지해야 합니다.

 

13.png

 

지금까지는 BVH 판정과 테스트를 소프트웨어로 구현했으며, 그 실행에는 몇천개의 단계가 필요했습니다.

 

14.png

 

튜링의 RT 코어는 몇천 명령에 해당하는 BVH 탐색과 검출을 하드웨어 처리합니다.

 

15.png

 

파스칼 세대와 비교하면 레이 트레이싱 성능은 10배 가까이 향상되며, 레이 트레이싱이 쉐이더 프로세싱 처리에 필요한 성능을 뺏지 않습니다. 

 

RT 코어는 지오메트리 데이터의 바운딩 볼륨을 메모리의 BVH 데이터베이스에 저장합니다. RT 코어는 BVH 데이터 구조에 따라 상위 상자부터 트라이앵글까지 트리 구조로 읽어와 충돌 테스트를 실행합니다. 

 

바운딩 볼륨의 단점은 BVH 박스를 미리 정의해야 한다는 점입니다. 현재 RT 코어는 자동으로 생성하는 기능이 없어, 게임 개발자가 3D 오브젝트를 만들 때 RT 코어의 레이 트레이싱을 효과적으로 쓰기 위해선 BVH 데이터도 만들어야 합니다.

 

복잡한 오브젝트와 움직이는 형상이 변화한다면 매우 복잡한 작업입니다. 그러나 공간을 복셀로 분할해 교차 확인하는 방법보다 BVH가 효율이 훨씬 높기에 NVIDIA가 BVH를 채용한 것으로 보입니다. 

 

이런 구조적인 특성상, RT 코어의 레이 트레이싱은 어떻게 RT 코어를 쓰느냐에 따라 난이도가 달라집니다. 점광원이라면 간단하나 복잡한 레이 트레이싱이라면 BVH 데이터를 준비하는데 시간이 걸립니다. 오브젝트가 동적으로 변한다면 더 성가십니다. 물론 BVH 소프트웨어 툴에서 이를 지원하면 진입 장벽은 줄어듭니다. 

 

현재 그래픽은 삼각형 폴리곤을 기반으로 한 형태를 라스터라이저하고, 그 표면을 폴리곤으로 분할합니다. 그러나 레이트레이싱을 사용하면 폴리곤으로 분할하지 않고 표면을 그대로 쓰는 것이 가능합니다. 이론적으로는.

 

16.png

 

17.png

 

다만 NVIDIA RT 코어는 하이브리드 렌더링, 즉 라스터라이저와 함께 사용합니다. 따라서 현재의 RT 코어는 폴리곤을 전제로 한 설계라고 봐야 합니다. 

 

 

SM의 마이크로 아키텍처를 대폭 변경

 

18.png

 

NVIDIA는 하이브리드 렌더링을 위한 기능을 넣기 위해, GPU 연산 클러스터인 SM(Streaming Multiprocessor)의 마이크로 아키텍처를 튜링에서 대폭 바꿨습니다. 

 

튜링의 SM은 컴퓨팅용 아키텍처인 볼타를 기반으로 합니다. 게임용인 파스칼의 GP102와는 SM이 많이 다릅니다. GP102의 SM은 그 이전 세대인 맥스웰을 기초로 만들었으나, 볼타의 SM은 새로운 설계를 사용하며 튜링의 SM은 볼타를 더욱 발전시킨 구조입니다.

 

19.png

 

튜링 아키텍처의 SM은 4개의 서브 블럭과 공유 블럭으로 나뉩니다. 서브 블럭인 프로세싱 블럭은 주기마다 명령 이슈를 처리하는 프로세서 코어입니다.

 

NVIDIA GPU는 warp라는 32스레드 단위로 명령을 실행합니다. 프로세싱 블럭에 1개의 명령 유닛이 있고, warp 스케줄러가 각 사이클마다 1개의 warp에서 1개의 명령을 인출해 실행 파이프라인에 전달하는 간단한 구조입니다. 프로세싱 블럭은 CPU의 코어에 해당됩니다. 바꿔 말하면 SM은 쿼드코어 클러스터가 됩니다. 

 

 

부동소수점 연산과 정수 연산을 병렬 실행

 

프로세싱 블럭의 warp 스케줄러에서 명령 이슈는 3계통으로 나뉩니다. 연산 유닛, 텐서 코어, 메모리 액세스 유닛입니다. 

 

보통의 연산 유닛에 대한 명령은 Math Dispatch Unit에서 파견합니다. 연산 유닛은 16웨이 FP32 CUDA 코어, 16웨이 32비트 정수 연산 유닛, 4웨이 SFU(Special Function Unit) 등이 있습니다. 

 

명령 이슈는 각 사이클마다 1 warp, 1명령으로 제한되지만, 연산 유닛은 여러 사이클의 warp를 실행합니다. FP32의 CUDA 코어와 정수 연산 유닛은 각각 16웨이이며, 32스레드 warp를 실행하려면 2사이클이 됩니다. 즉 FP32와 정수 유닛은 2사이클마다 1번씩만 명령 발행이 가능합니다.

 

20.png

 

따라서 명령 디스패처는 FP32 CUDA 코어와 정수 연산 유닛에 교대로 명령을 발행, 이론적으로는 두 유닛을 병렬로 100% 가동 가능합니다. FP32 부동소수점 연산과 정수 연산을 동시 수행 가능하다는 것입니다. 

 

각 사이클에 발행되는 명령은 서로 다른 warp에서 예측 가능합니다. 특정 명령 수행 후 발행되는 명령은 다른 스레드의 명령입니다. 스레드에서 명령여 레벨의 병렬성을 따져서 만들 필요가 없습니다. 하나의 warp 명령어 스트림에 부동소수점/정수 명령을 교대로 넣을 필요가 없기에 비교적 높은 확률로 병렬 실행 가능합니다.

 

GPU 컴퓨팅을 위한 볼타는 프로세싱 블럭에 8웨이 FP64 장치도 탑재합니다. 그래픽용 튜링의 FP64 성능은 FP32의 1/32입니다. 각 사이클마다 SM이 2명령씩 처리합니다. 프로세싱 블럭 단위로는 2사이클당 1개의 명령어를 처리합니다. FP64는 어디까지나 명령 호환성을 위한 구현입니다. 

 

 

텐서 코어는 추론 단계를 위한 확장

 

튜링은 그래픽용 GPU 처음으로 딥 러닝 유닛인 텐서 코어를 탑재했습니다. 텐서 코어는 지금까지 GPU 컴퓨팅을 위한 볼타, 자동차에 탑재되는 Xavier에만 들어갔습니다. 

 

21.png

 

텐서 코어는 4x4 연산 유닛입니다. 기본적으로 FP16에서 4x4 곱셈을 4열 병렬 실행 가능합니다. 따라서 64유닛 곱셈과 16유닛 덧셈 유닛을 1개의 텐서 코어에 넣어 1사이클마다 64개의 연산 수행이 가능합니다.

 

22.png

 

n개의 뉴런에서 입력받는 신경망의 구조에 맞춘 텐서 코어

 

23.png

 

벡터 유닛을 1줄식 처리하는 파스칼에 비해, 텐서 코어의 매트릭스 연산은 상당히 빠르게 연산을 마칩니다.

 

GPU 컴퓨팅용 볼타 GV100도 텐서 코어를 탑재하지만, 튜링의 텐서 코어와는 그 구현이 약간 다릅니다. GV100은 FP16 반정밀도 부동소수점 연산의 학습용으로 FP16 곱셈 결과를 4개 더해 FP32로 출력합니다. 추론은 FP16의 곱셈을 4개 더해 FP16으로 출력합니다. FP32 출력은 처리량이 절반으로 떨어집니다. 

 

24.png

 

튜링의 텐서 코어는 볼타와 똑같이 FP16 정밀도를 지원하며 8비트 정수인 Int8, 4비트 정수 Inf4도 지원합니다. 연산 성능은 Int8에서 FP16의 2배, Int4의 4배입니다. 서버용이 주 목적인 GV100에 비해 튜링 GPU는 클라이언트가 주 목적입니다. 그래서 추론에서 많이 쓰는 낮은 정밀도를 향상시켰습니다.

 

 

딥 러닝을 안티 앨리어싱에

 

25.png

 

왜 딥 러닝을 위한 텐서 코어를 그래픽용 GPU에 넣은 걸까요? 텐서 코어로 그래픽 처리믜 품질을 높일 수 있어서입니다. NVIDIA가 강조하는 대표적인 사례가 DLSS(Deep Learning Super Sampling)입니다. MSAA x64보다 더 뛰어난 AA를 더 낮은 성능으로 실현 가능합니다. 

 

26.png

 

튜링이 파스칼보다 2배의 성능을 낸다는 슬라이드의 근거도 여기에 있습니다. 같은 품질의 안티 앨리어싱을 실현하는데 필요한 성능을 비교하면, MSAA보다 DLSS의 성능이 훨신 높습니다. 

 

볼타와 튜링은 1개의 프로세싱 블럭 안에 2개의 텐서 코어를 넣고, SM 전체를 따지면 8개의 텐서 코어가 있습니다. 1사이클에 2개의 텐서 코어에 동시 명령 발행이 가능합니다. 텐서 코어는 명령 발행 구조가 다른 연산 유닛과 다르기에 명령 디스패치 유닛도 분리됐습니다. 

 

프로세싱 블럭에는 64KB의 대용량 레지스터 파일이 배치됩니다. SM 전체는 256KB입니다. GPU에서 실행하는 스레드 수가 많아 레지스터 파일의 크기가 큽니다. 각각의 프로세싱 블럭에 32비트 레지스터가 총 16384개, 32스레드의 warp 단위 액세스입니다. 

 

27.png

 

SM 아키텍처 개선과 레지스터 파일의 강화, 그리고 나중에 설명할 메모리 계층 개선을 통해 튜링 아키텍처는 파스칼보다 SM의 효율이 높아졌습니다. 따라서 NVIDIA는 쉐이더 성능을 향상시킬 수 있다고 설명합니다.

 

 

RT 코어의 10Giga Ray/s 성능

 

SM은 프로세싱 블럭 사이에 공유하는 장치가 있습니다. 기존에는 텍스처 유닛, L1 데이터 캐시, 메모리를 공유했습니다. 그리고 RT 코어도 공유합니다. 볼타 SM은 공유 장치에 명령을 보내는 큐인 MIO queue에 일단 명령을 저장하고, MO 큐에서 4개의 서브 코어 명령을 통합한 MIO 스케줄러에 전달해 발행합니다. 

 

28.png

 

NVIDIA는 케플러 세대부터 명령 스케줄링 방법을 바꿔, 레이턴시가 고정된 연산과 레이턴시가 제각기 다른 메모리 액세스 시스템의 명령 스케줄링을 나눠 수행합니다. 케플러에선 연산 코어에서 레이턴시에 따라 컴파일러에 예약하고, 메모리 액세스 명령은 스코어 보드에서 예약합니다. 볼타도 그 흐름에 맞춰 연산과 메모리 시스템의 스케줄링이 분리됐습니다.

 

이런 구조가 튜링에서도 계속된다면 스케줄러가 분리된 이유도 잘 드러납니다. MIO 스케줄러는 동적으로 명령을 스케줄링하고, 거기에 따라 레이턴시 폭에 맞춰 명령을 제어합니다. RT 코어도 BVH 데이터터베이스를 참조하기에 메모리 액세스가 많은 편입니다. 

 

TU102의 레이 트레이싱 성능은 10 GRay/s입니다. RT 코어 GPU 전체에서 68유닛, 부스트 클럭 1.545GHz. 따라서 1개의 RT 코어 처리량은 0.095ray/cycle이 됩니다. 물론 RT 코어의 대기 시간은 처리하는 레이에 따라 달라지며, 딱 정해진 건 아닙니다. 10 GigaRay/s라는 것도 평균 처리량의 예측일 뿐입니다. 복잡한 광선 처리라면 이보다 더 떨어질 가능성이 있습니다.

 

RT 코어는 앞서 말한대로 BVH의 탐지와 충돌 판정을 하드웨어 지원합니다. RT 코어에 전달된 광선이 트라이앵글에 충돌하면 RT 코어에서 쉐이더 처리를 취소합니다. RT 코어에서 맡는 연산은 한정적이며, 레이트레이싱의 모든 처리를 RT 코어에서 수행하진 않습니다. 하지만 무거운 부분은 하드웨어 가속되기에 레이트레이싱 성능을 대폭 높일 수 있습니다.

 

 

볼타를 이어받은 메모리 계층

 

29.png

 

튜링의 메모리는 볼타와 마찬가지로 캐시를 통합한 구조입니다. SM 내부에 96KB의 컴피규러블 메모리가 있습니다. 이는 4개의 프로세싱 블럭 사이에서 공유하며, 저마다 다른 용도로 분할해 쓸 수도 있습니다. 

 

30.png

 

전통적인 그래픽 워크로드에선 64KB의 쉐이더 메모리와 32KB의 텍스처 캐시 겸 레지스터 파일을 어퍼 영역에 설정할 수 있습니다. 컴퓨팅에선 32KB 공유 메모리와 64KB L1 데이터 캐시, 또는 64KB 공유 메모리와 32KB L1 데이터 캐시로 설정 가능합니다. RT 코어도 컨피규러블 메모리를 참조하는 것으로 추측됩니다.

 

SM의 캐시는 이 밖에도 명령 캐시가 있습니다. L1 명령 캐시는 SM에서 공유하며, 각각의 프로세싱 블럭에는 소용량 L0 명령 캐시가 있습니다. NVIDIA GPU의 L2 캐시는 SM이 아닌 DRAM 컨트롤러에 있습니다. SM과 DRAM 컨트롤러는 크로스바에 연결됩니다. DRAM 인터페이스는 32비트 1채널입니다. 

 

TU102는 총 12개의 x32 DRAM 인터페이스를 갖춰, 384비트 GDDR6 인터페이스를 구성합니다. 그러나 지포스 RTX 2080 Ti*TU102)는 그 중 하나를 비활성화해 352비트 메모리 인터페이스를 씁니다. L2 캐시는 512KB씩 DRAM 컨트롤러에 넣고, 12유닛이니 총 6MB가 됩니다. 1개의 DRAM 컨트롤러가 비활성화된 지포스 RTX 2080 Ti의 L2 캐시 용량은 5632KB입니다. 

 

 

메모리 액세스 효율이 높은 GDDR6

 

31.png

 

사용하는 메모리는 GDDR5X에서 GDDR6가 됐습니다. 전송 속도는 11Gbps에서 14Gbps로 빨라졌습니다. 352비트 인터페이스의 지포스 RTX 2080 Ti(TU102)에서 대역폭은 616GB/s입니다. NVIDIA 레퍼런스는 8Gbit DRAM 칩을 11GB 탑재합니다. 메모리 전송 속도는 모든 튜링 제품군이 14Gbps입니다. 

 

지포스 RTX 2080(TU104)는 256비트 인터페이스에 448GB/s의 대역폭이고 용량은 8GB. 지포스 RTX 2070(TU102)도 256비트 인터페이스에 대역폭과 용량은 똑같은 448GB/s, 8GB입니다. 그리고 이번 지포스에 들어가는 GDDR6는 마이크론 제조입니다. 

 

32.png

 

GDDR6는 메모리 전송 속도 향상 외에도 장점이 있습니다. GDDR6는 완전히 새로운 인터페이스를 사용, x32 인터페이스를 내부에서 x16으로 분할합니다. 1개의 DRAM 칩이 2개의 x16 채널로 구성, 각각의 채널마다 따로 메모리 액세스가 가능합니다. 따라서 메모리 액세스 크기가 작아 효율적인 사용이 가능합니다. 

 

 

TU102는 4608개의 CUDA 코어를 탑재

 

33.png

 

NVIDIA GPU 구조는 계층을 이룹니다. SM을 최소 단위로 하고, 이를 여럿 묶은 GPC (Graphics Processing Cluster)가 있습니다. GPC는 렌더 백 엔드 외에 그래픽 코어의 기능을 정리한 클러스터로, 작은 GPU라 부를 수도 있습니다. GPC는 오브젝트에서 픽셀로 변환하는 라스터라이저를 SM끼리 공유합니다. 지오메트리 파이프의 고정 기능 유닛도 2개의 SM마다 공유합니다. 

 

34.png

 

TU102 다이는 6개의 GPC가 있고, 1개의 GPC는 12개의 SM과 라스터라이저가 있습니다. 정리하면 총 72개의 SM이 나옵니다. 

 

35.png

 

TU102 풀스펙의 쿼드로 RTX 6000/8000은 72개의 SM이 활성화되며 총 4608개의 CUDA 코어가 포함됩니다. 게임용 지포스 RTX 2080 Ti는 SM중 68개가 기본적으로 비활성화돼 CUDA 코어는 4352개입니다. 4개의 SM을 비활성화한 이유는 수율 향상 때문입니다.

 

 

고속 인터커넥트 NVLink의 구현

 

36.png

 

 

I/O는 크로스바의 허브에 연결됩니다. 튜링의 상위 다이는 NVIDIA의 인터커넥트인 NVLink를 사용합니다. 볼타 GV100은 6개의 NVLink를 구현했으나 튜링은 TU102가 2링크, TU104가 1링크입니다. NVLink의 차동 신호(Differential Signaling) 방식의 좁은 인터페이스가 각 링크마다 단방향 8개, 양방향 16개로 구성됩니다. 

 

현 세대의 NVLink는 단방향 25Gbps, 8개로 구성된 1링크의 단방향 전송은 25GB/s, 양방향은 50GB/s가 됩니다.

 

지포스 RTX는 NVLink를 멀티 GPU 구성에 사용합니다. NVIDIA의 레퍼런스 그래픽카드는 NVLink로 두장의 카드를 연결하며 NVLink 브릿지도 제공합니다. 기존의 PCI-E를 쓰는 SLI보다 대역폭이 늘어나고 메모리 공유도 가능합니다. 현재는 2장 연결만 가능하나 TU102는 2링크의 NVLink가 있으니 실제로는 3개까지도 가능합니다. NVSwitch를 쓰면 4장 이상도 될 겁니다.

 

37.png

 

튜링 아키텍처의 지포스 RTX는 하이브리드 렌더링을 위해 설계됐습니다. 크게 늘어난 다이와 트랜지스터의 대부분은 레이 트레이싱과 딥러닝에 할당됐습니다. 이는 단순히 쉐이더 성능을 높여서 승부를 보는 시대는 끝나고, 하이브리드 렌더링의 시대에 들어섰다는 NVIDIA의 인식이 담겨져 있습니다. 



  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI 서브: Intel Xeon E5-1620v2@3.7GHz, DDR3 1600MHz 32GB, AMD FirePro D300 2018.09.15 11:25
    잘 봤습니다!

    Inf4 -> Int4로 수정하셔야 할것 같아요.
  • ?
    로리링 2018.09.16 14:51
    확실히 하드웨어로 따로지원하고 AI를 접목한것은 굉장하네요..
    그런데 묘하게 암드가 조용한거보니 암드는 뭐준비한거없나?? 일해라 암드!! 살면서 엔당물건 사고싶단생각이 첨들엇네..


  1. CPU의 국내, 해외가 정보를 실시간으로 받아볼 수 있는 방법

    훌륭한 자료가 있어서 소개합니다.        안녕하세요. 국내, 해외가 비교 자료를 올렸던 회원입니다. 요 근래 급변하는 CPU가격 때문에 저를 포함한 여러 회원분들께서 계획에 많은 차질이 생겼으리라 예상합니다. 회원 분들께 도움이 되...
    Date2018.09.16 소식, 참고 Bytitle: RGB호무라 Reply1 Views785 file
    Read More
  2. No Image

    개선 의지가 없으면 답이 없네요.

    지인 A가 있습니다.   이 친구는 스트림으로 꽤 잘나가는 친구죠.   그런데 이 친구가 어느날 연락이 옵니다.   B라는 게임을 스트리밍하는데 랙이 걸린다고요.   근데 이 게임. 2013년 출시된 주제에 발적화로 지포스 1060에서도 괴랄한 ...
    Date2018.09.16 일반, 잡담 By타미타키 Reply21 Views1927
    Read More
  3. No Image

    CPU핀 휜것 때문에 질문좀 드립니다.

    일단 CPU를 장착해보았습니다. 화면이 들어오고 바이오스 화면까진 들어오더군요 근데... 바이오스 설정 중에 갑자기 PC 파워 LED가 나가면서 화면이 먹통이 되더군요 그런데... 본체 파워와 메인보드는 작동 중인 상태가 됩니다;;;   그...
    Date2018.09.16 질문, 토론 ByA11 Reply10 Views492
    Read More
  4. 부팅이 안돼양..

          아예 파워가 안들어오거나 그건 아닌데양   사진과 같이 화면에 99가 뜨고 끝이에양.   해결방법이 없을까양.   램은 갈아끼워봤어양.   Cpu는 a10-5700, 보드는 msi A78M-E35인 거에양.
    Date2018.09.15 질문, 토론 By그레이색이야 Reply10 Views859 file
    Read More
  5. 지포스 RTX 2080(Ti)의 '공식' 성능공개

    당신을 위한게 있다고 했죠? 여기 있습니다.   엔비디아 지포스 RTX 2080 Ti, RTX 2080의 성능   공유되는 자료는 공식 리뷰어 가이드입니다. 이 가이드의 수치들은 추가 벤치마킹을 위한 참고일 뿐입니다. 이 수치에 대하여 매우 심각하...
    Date2018.09.15 소식, 참고 By루니오스 Reply21 Views3283 updatefile
    Read More
  6. 차세대 그래픽을 위한 GPU, 지포스 RTX 패밀리

    NVIDIA는 하이브리드 렌더링을 시작하는 새로운 GPU 아키텍처, 튜링을 출시합니다. 튜링은 레이 트레이싱을 가속하는 RT 코어와 딥러닝을 맡은 텐서 코어를 탑재합니다. 제조 공정은 12nm, 메모리는 GDDR6. 하이브리드 렌더링을 위한 아...
    Date2018.09.15 분석, 팁 By낄낄 Reply2 Views2083 file
    Read More
  7. NVIDIA, 지포스 RTX 20 시리즈의 상세 내용을 공개

    9월 20일에 출시되는 지포스 RTX 20 시리즈 아키텍처의 세부 내용입니다. 지포스 RTX 2080 Ti(TU102)의 기본 구조입니다. 지포스 RTX 20 시리즈는 부동소수점 연산과 정수 연산 실행 유닛으로 구성되며, 기존 세대에 비해 L1 캐시 용량이 ...
    Date2018.09.14 소식, 참고 By낄낄 Reply7 Views1731 file
    Read More
  8. 코어 i9-9900K의 시네벤치 R15 성능

    코어 i9-9900K의 시네벤치 R15 테스트 결과입니다. 커피레이크 리프레시 아키텍처에 8코어 16스레드 구성으로, 동일한 코어/스레드의 라이젠 7 2700X보다 점수는 더 잘나왔습니다.
    Date2018.09.14 소식, 참고 By낄낄 Reply7 Views907 file
    Read More
  9. 지포스 RTX 2080의 3D마크 점수

    지포스 RTX 2080의 3D마크 점수가 유출됐습니다. 아직 정식 발표하지 않은 지포스 411.51 드라이버에서 실행한 듯 합니다. 기가바이트의 팩토리 오버된 모델이니 레퍼런스보다 점수가 높을 수 있습니다. 지포스 RTX 2080 타임 스파이 지포...
    Date2018.09.14 소식, 참고 By낄낄 Reply2 Views616 file
    Read More
  10. No Image

    AMD 그래픽 드라이버, 이달 말에 32비트 업데이트 중단

    올해 4월에 NVIDIA는 32비트 드라이버의 업데이트를 중단한다고 발표했습니다. 윈도우 7, 8.1, 10, 리눅스, 프리 BSD 포함입니다. AMD는 라데온 RX 400 이전의 제품인 퓨리, R300/200, 심지어 HD 시리즈까지도 32비트 드라이버를 제공해 ...
    Date2018.09.14 소식, 참고 By낄낄 Reply2 Views527
    Read More
  11. i9-9900K의 시네벤치 R15 점수가 유출

    HKEPC의 Lau Kin Lam 씨는 다음달에 출시할 인텔의 새로운 LGA1151 프로세서를 테스트할 기회를 얻었습니다.   인텔 코어 i9-9900K는 시네벤치에서 2166점을 달성   i9-9900K는 커피레이크 리프레쉬 아키텍처에 기반한 출시예정의 8코어 1...
    Date2018.09.14 소식, 참고 By루니오스 Reply0 Views301 file
    Read More
  12. AMD의 새로운 APU 2개. 12nm 공정에 35W

    8월의 Hot Chips에서 AMD는 레이븐 릿지 2018이 연말에 나온다고 밝힌 바 있습니다. 그리고 AMDGPU 오픈소스 프로젝트에서 발표한 리눅스 드라이버를 보면, 레이븐 릿지 2018과 피카소의 지원이라는 내용이 있습니다. 레이븐 릿지 2018에...
    Date2018.09.14 소식, 참고 By낄낄 Reply3 Views987 file
    Read More
  13. 허브를 샀습니다.

    여느날처럼 중고장터를 폰으로 보다가 허브가 싸게 나와서 구매했습니다.     사무실 100메가 허브대신 놓아볼까 했는데 인입이 100메가 급이더군요. 혹시나 해서 며칠 쓰다가 소용없다는걸 깨닫고 집에 가져와 8포트 허브 대신 바꿔넣었...
    Date2018.09.14 일반, 잡담 Bytitle: 저사양아라 Reply6 Views506 file
    Read More
  14. No Image

    과거 AMD 그래픽 카드가 FLOPS 성능이 더 높은 이유?

    AMD와 NVIDIA 그래픽 카드 성능 비교 관점에서 궁금한점이 있어서 질문드려요 ㅎㅎ;   과거 ~2015년 H/E 급 카드들의 경우 AMD 카드들의 flops 성능이 비교적 높은 편인 것 같은데 특별한 이유가 있나요? 가령 nVIDIA의 경우 Texture unit...
    Date2018.09.14 질문, 토론 By밍구밍구 Reply3 Views1080
    Read More
  15. 인텔 Z390 칩셋은 10월 8일 정식 공개

    인텔 Z390 칩셋은 원래 6월 초에 나올 예정이었으나 14nm 생산의 곤경과 맞물려 정식 데뷔가 늦춰졌습니다. 그리고 10월 8일에야 정식으로 공개된다는 이야기가 있네요. Z390은 B360, H370 등과 마찬가지로 캐논레이크 PCH-H 칩셋입니다. ...
    Date2018.09.14 소식, 참고 By낄낄 Reply1 Views469 file
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 553 Next
/ 553

MSI 코리아
와사비망고
쓰리알시스템

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소