컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2018.09.15 03:31

차세대 그래픽을 위한 GPU, 지포스 RTX 패밀리

조회 수 6393 댓글 2

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...#table-0-0

NVIDIA는 하이브리드 렌더링을 시작하는 새로운 GPU 아키텍처, 튜링을 출시합니다.

튜링은 레이 트레이싱을 가속하는 RT 코어와 딥러닝을 맡은 텐서 코어를 탑재합니다. 제조 공정은 12nm, 메모리는 GDDR6.

하이브리드 렌더링을 위한 아키텍처

튜링 기반의 지포스 라인업은 3가지로, 각각 다이와 코드네임이 다릅니다. 하이엔드인 지포스 RTX 2080 Ti가 TU102, 그 아래인 지포스 RTX 2080이 TU104, 미드레인지인 지포스 RTX 2070이 TU106입니다. 이전에는 2개의 다이로 구성했던 라인업이 이제는 3개의 다이를 사용해 구성합니다.

TU102는 186억개의 트랜지스터에 754제곱mm, TU104는 136억개의 트랜지스터에 545제곱mm, TU106은 106억개 트랜지스터에 445제곱mm로, 가장 작은 TU106도 라데온 RX 베가 64(베가 10)의 125억개 트랜지스터, 486제곱mm에 육박합니다.

지포스 RTX 라인업
GPU 기능	지포스 GTX 1080Ti	지포스 RTX 2080 Ti	쿼드로 6000	쿼드로 RTX 6000	지포스 GTX 1080	지포스 RTX 2080	쿼드로 P5000	쿼드로 RTX 5000	지포스 GTX 1070	지포스 RTX 2070
코드네임	GP102	TU102	GP102	TU102	GP104	TU104	GP104	TU104	GP104	TU106
아키텍처	파스칼	튜링	파스칼	튜링	파스칼	튜링	파스칼	튜링	파스칼	튜링
GPCs	6				4	6	4	6	3
TPCs	28	34	30	36	20	23	20	24	15	18
SMs	28	68	30	72	20	46	20	48	15	36
CUDA 코어 / SM	128	64	128	64	128	64	128	64	128	64
CUDA 코어 / GPU	3,584	4,352	3,840	4,608	2,560	2,944	2,560	3,072	1,920	2,304
텐서 코어 / SM	NA	8	NA	8	NA	8	NA	8	NA	8
텐서 코어 / GPU	NA	544	NA	576	NA	368	NA	384	NA	288
RT 코어	NA	68	NA	72	NA	46	NA	48	NA	36
GPU 기본 클럭 MHz (레퍼런스 / 파운더스 에디션)	1,480 / 1,480	1,350 / 1,350	1,506	1,455	1,607 / 1,607	1,515 / 1,515	1,607	1,620	1,506 / 1,506	1,410 / 1,410
GPU 부스트 클럭 MHz(레퍼런스 / 파운더스 에디션)	1,582 / 1,582	1,545 / 1,635	1,645	1,770	1,733 / 1,733	1,710 / 1,800	1,733	1,815	1,683 / 1,683	1,620 / 1,710
RTX-OPS (Tera-OPS) (레퍼런스 / 파운더스 에디션)	11.3 / 11.3	76 / 78	NA	84	8.9 / 8.9	57 / 60	NA	62	6.5 / 6.5	42 / 45
Rays Cast (Giga Rays / sec) (레퍼런스 / 파운더스 에디션)	1.1 / 1.1	10 / 10	NA	10	0.89	8 / 8	NA	8	.065 / .065	6 / 6
최고 FP32 TFLOPS (레퍼런스 / 파운더스 에디션)	11.3 / 11.3	13.4 / 14.2	12.6	16.3	8.9	10 / 10.6	8.9	11.2	6.5 / 6.5	7.5 / 7.9
최고 INT32 TIPS (레퍼런스 / 파운더스 에디션)	NA	13.4 / 14.2	NA	16.3	NA	10 / 10.6	NA	11.2	NA	7.5 / 7.9
최고 FP16 TFLOPS(레퍼런스 / 파운더스 에디션)	NA	26.9 / 28.5	NA	32.6	NA	20.1 / 21.2	NA	22.3	NA	14.9 / 15.8
최고 FP16 텐서 TFLOPS with FP16 (레퍼런스 / 파운더스 에디션)	NA	107.6 / 113.8	NA	130.5	NA	80.5 / 84.8	NA	89.2	NA	59.7 / 63
최고 FP16 텐서 TFLOPS with FP32 (레퍼런스 / 파운더스 에디션)	NA	53.8 / 56.9	NA	130.5	NA	40.3 / 42.4	NA	89.2	NA	29.9 / 31.5
최고 INT8 텐서 TOPS (레퍼런스 / 파운더스 에디션)	NA	215.2 / 227.7	NA	261	NA	161.1 / 169.6	NA	178.4	NA	119.4 / 126
최고 INT4 텐서 TOPS (레퍼런스 / 파운더스 에디션)	NA	430.3 / 455.4	NA	522	NA	322.2 / 339.1	NA	356.8	NA	238.9 / 252.1
비디오 메모리 용량	11,264 MB		24,576 MB		8,192 MB		16,384 MB		8,192 MB
비디오 메모리 종류	GDDR5X	GDDR6	GDDR5X	GDDR6	GDDR5X	GDDR6	GDDR5X	GDDR6	GDDR5X	GDDR6
메모리 인터페이스	352-bit		384-bit		256-bit		256-bit		256-bit
메모리 클럭	11 Gbps	14 Gbps	9 Gbps	14 Gbps	10 Gbps	14 Gbps	9 Gbps	14 Gbps	8 Gbps	14 Gbps
메모리 대역폭 (GB / sec)	484	616	432	672	320	448	288	448	256	448
ROPs	88	88	96	96	64	64	64	64	64	64
텍스처 유닛	224	272	240	288	160	184	160	192	120	144
텍스처 필레이트(기가텍셀/초)	354.4 / 354.4	420.2 / 444.7	395	510	277.3 / 277.3	314.6 / 331.2	277	348	202 / 202	233.3 / 246.2
L2 캐시 크기	2,816 KB	f	3,072 KB	6,144 KB	2,048 KB	4,096 KB	2,048 KB	4,096 KB	2048 KB	4096 KB
레지스터 파일 크기 / SM	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB
레지스터 파일 크기 / GPU	7,168 KB	17,408 KB	7,680 KB	18,432 KB	5,120 KB	11,776 KB	5,120 KB	12,288 KB	3840 KB	9216 KB
NVLink	NA	2x8	NA	2x8	NA	1x8	NA	1x8	NA	NA
NVLink 대역폭	NA	100GB / sec	NA	100GB / sec	NA	50GB / sec	NA	50GB / sec	NA	NA
TDP (레퍼런스 / 파운더스 에디션)	250 / 250 W	250 / 260 W	250 W	260 W	180 / 180 W	215 / 225 W	180 W	230 W	150 / 150 W	175 / 185 W
트랜지스터 수	120억	186억	120억	186억	72억	136억	72억	136억	72억	108억
다이 크기	471제곱mm	754제곱 mm	471제곱 mm	754제곱mm	314제곱mm	545제곱mm	314제곱mm	545제곱mm	314제곱mm	445제곱mm
제조 공정	16nm	12nm FFN	16nm	12nm FFN	16nm	12nm FFN	16nm	12nm FFN	16nm	12nm FFN

원래 NVIDIA는 코드네임이 6으로 끝나는 GPU는 200제곱mm 크기의 다이로 맞췄으나 튜링에선 2배로 늘었습니다. 즉 기능이 늘어난만큼 다이도 커지고 트랜지스터 수가 늘어난 GPU가 튜링입니다.

TU102는 NVIDIA의 그래픽용 GPU 중에선 가장 큽니다. 또 아직까지는 튜링 아키텍처로 200제곱mm 이하의 메인스트림급 다이가 나오지 않았습니다.

NVIDIA는 튜링을 12nm 공정으로 만들었습니다. TSMC 12nm 공정은 16nm에서 파생됐습니다. 같은 높이의 표준 셀을 사용하는 한 트랜지스터 밀도는 그대로입니다.

NVIDIA는 7.5T의 표준 셀을 유지하는 것으로 보이며, 트랜지스터 밀도에 변화가 없기에 트랜지스터가 늘어난 만큼 다이가 커집니다. 그 결과 서버용 CPU 급의 거대한 GPU가 탄생했습니다.

NVIDIA는 원래 여기서 삼성의 10nm 공정을 쓸 계획이었다고 합니다. 하지만 기존의 12nm를 선택해 다이 크기를 키우는 대신, 안정된 공정으로 수율을 높이는 선택을 한 것으로 보입니다.

레이 트레이싱 처리를 가속하는 RT 코어

튜링 아키텍처의 핵심은 레이 트레이싱 가속기인 RT 코어입니다. NVIDIA GPU에서 처음으로 구현된 코어입니다.

레이트레이싱은 가상의 관점에서 광선을 역으로 추적, 화면의 픽셀을 통과하는 광선을 만들어(Ray Generation) 3D 공간 안쪽으로 보내 탐색시키고(Traversal), 광선이 3D 공간의 오브젝트와 교차하는지를 판정(Intersection Test)합니다. 교차가 되면 거기에서 반사나 굴절 광선을 만들거나 쉐이더를 실행합니다. 여러 광선을 만들고 다수의 반사를 거칠 수도 있습니다.

RT 코어는 광선의 탐색부터 판정까지를 하드웨어적으로 처리합니다. 이런 작업은 복잡하기에 소프트웨어 실행 시 1000명령 이상이 필요하지만, 이를 RT 코어에 넘겨 부담을 줄입니다.

레이트레이싱의 파이프라인

레이트레이싱의 탐색은 그 단계가 많고, 판정에선 많은 오브젝트와 교차 판정을 수행하기에 계산량이 늘어납니다. RT 코어는 이를 하드웨어적으로 실행해 부담을 줄입니다.

판정을 줄이는 구체적인 방법으론 바운딩 볼륨과 공간 분할이 있습니다. NVIDIA는 Bounding Volume Hierarchy를 사용해 탐색의 부담을 줄입니다. 이 기술은 NVIDIA의 소프트웨어 구현 레이트레이싱 API인 OptiX에서도 씁니다.

RT 코어의 핵심 기술. 바운딩 볼륨

바운딩 볼륨(BVH)는 3D 공간의 오브젝트를 큰 상자로 가둬버립니다. 게임의 히트 박스와도 같죠. 차이점이라면 총알이나 공격의 경로를 판정하는 게 아니라 광선 궤적이 교차하는지를 판단합니다.

BVH는 트리 구조의 계층을 이뤄, 큰 상자 안에 더 작은 상자가 있습니다.

상자 크기가 줄어들수록 오브젝트와 더 가까워집니다.

BVH는 광선과 교차될 가능성이 있는 모든 트라이앵글을 테스트하는 게 아니라, 특정 계층 박스에 속한 작은 박스, 다시 거기에 속한 트라이앵글의 테스트를 하는 식으로 범위를 줄이기에 연산의 부담이 줄어듭니다.

바운딩 볼륨을 하드웨어 지원

RT 코어는 바운딩 볼륨 데이터 구조를 지원해 각각의 박스마다 판정 테스트를 실행합니다. 지금까지의 라스터라이저 렌더링에서 데이터를 라스터 픽셀로 바꾼 후에는 원시 데이터를 폐기해도 됐지만, 레이트레이싱을 함께 쓰는 하이브리드 렌더링에선 라스터라이징이 끝난 후에도 데이터를 유지해야 합니다.

지금까지는 BVH 판정과 테스트를 소프트웨어로 구현했으며, 그 실행에는 몇천개의 단계가 필요했습니다.

튜링의 RT 코어는 몇천 명령에 해당하는 BVH 탐색과 검출을 하드웨어 처리합니다.

파스칼 세대와 비교하면 레이 트레이싱 성능은 10배 가까이 향상되며, 레이 트레이싱이 쉐이더 프로세싱 처리에 필요한 성능을 뺏지 않습니다.

RT 코어는 지오메트리 데이터의 바운딩 볼륨을 메모리의 BVH 데이터베이스에 저장합니다. RT 코어는 BVH 데이터 구조에 따라 상위 상자부터 트라이앵글까지 트리 구조로 읽어와 충돌 테스트를 실행합니다.

바운딩 볼륨의 단점은 BVH 박스를 미리 정의해야 한다는 점입니다. 현재 RT 코어는 자동으로 생성하는 기능이 없어, 게임 개발자가 3D 오브젝트를 만들 때 RT 코어의 레이 트레이싱을 효과적으로 쓰기 위해선 BVH 데이터도 만들어야 합니다.

복잡한 오브젝트와 움직이는 형상이 변화한다면 매우 복잡한 작업입니다. 그러나 공간을 복셀로 분할해 교차 확인하는 방법보다 BVH가 효율이 훨씬 높기에 NVIDIA가 BVH를 채용한 것으로 보입니다.

이런 구조적인 특성상, RT 코어의 레이 트레이싱은 어떻게 RT 코어를 쓰느냐에 따라 난이도가 달라집니다. 점광원이라면 간단하나 복잡한 레이 트레이싱이라면 BVH 데이터를 준비하는데 시간이 걸립니다. 오브젝트가 동적으로 변한다면 더 성가십니다. 물론 BVH 소프트웨어 툴에서 이를 지원하면 진입 장벽은 줄어듭니다.

현재 그래픽은 삼각형 폴리곤을 기반으로 한 형태를 라스터라이저하고, 그 표면을 폴리곤으로 분할합니다. 그러나 레이트레이싱을 사용하면 폴리곤으로 분할하지 않고 표면을 그대로 쓰는 것이 가능합니다. 이론적으로는.

다만 NVIDIA RT 코어는 하이브리드 렌더링, 즉 라스터라이저와 함께 사용합니다. 따라서 현재의 RT 코어는 폴리곤을 전제로 한 설계라고 봐야 합니다.

SM의 마이크로 아키텍처를 대폭 변경

NVIDIA는 하이브리드 렌더링을 위한 기능을 넣기 위해, GPU 연산 클러스터인 SM(Streaming Multiprocessor)의 마이크로 아키텍처를 튜링에서 대폭 바꿨습니다.

튜링의 SM은 컴퓨팅용 아키텍처인 볼타를 기반으로 합니다. 게임용인 파스칼의 GP102와는 SM이 많이 다릅니다. GP102의 SM은 그 이전 세대인 맥스웰을 기초로 만들었으나, 볼타의 SM은 새로운 설계를 사용하며 튜링의 SM은 볼타를 더욱 발전시킨 구조입니다.

튜링 아키텍처의 SM은 4개의 서브 블럭과 공유 블럭으로 나뉩니다. 서브 블럭인 프로세싱 블럭은 주기마다 명령 이슈를 처리하는 프로세서 코어입니다.

NVIDIA GPU는 warp라는 32스레드 단위로 명령을 실행합니다. 프로세싱 블럭에 1개의 명령 유닛이 있고, warp 스케줄러가 각 사이클마다 1개의 warp에서 1개의 명령을 인출해 실행 파이프라인에 전달하는 간단한 구조입니다. 프로세싱 블럭은 CPU의 코어에 해당됩니다. 바꿔 말하면 SM은 쿼드코어 클러스터가 됩니다.

부동소수점 연산과 정수 연산을 병렬 실행

프로세싱 블럭의 warp 스케줄러에서 명령 이슈는 3계통으로 나뉩니다. 연산 유닛, 텐서 코어, 메모리 액세스 유닛입니다.

보통의 연산 유닛에 대한 명령은 Math Dispatch Unit에서 파견합니다. 연산 유닛은 16웨이 FP32 CUDA 코어, 16웨이 32비트 정수 연산 유닛, 4웨이 SFU(Special Function Unit) 등이 있습니다.

명령 이슈는 각 사이클마다 1 warp, 1명령으로 제한되지만, 연산 유닛은 여러 사이클의 warp를 실행합니다. FP32의 CUDA 코어와 정수 연산 유닛은 각각 16웨이이며, 32스레드 warp를 실행하려면 2사이클이 됩니다. 즉 FP32와 정수 유닛은 2사이클마다 1번씩만 명령 발행이 가능합니다.

따라서 명령 디스패처는 FP32 CUDA 코어와 정수 연산 유닛에 교대로 명령을 발행, 이론적으로는 두 유닛을 병렬로 100% 가동 가능합니다. FP32 부동소수점 연산과 정수 연산을 동시 수행 가능하다는 것입니다.

각 사이클에 발행되는 명령은 서로 다른 warp에서 예측 가능합니다. 특정 명령 수행 후 발행되는 명령은 다른 스레드의 명령입니다. 스레드에서 명령여 레벨의 병렬성을 따져서 만들 필요가 없습니다. 하나의 warp 명령어 스트림에 부동소수점/정수 명령을 교대로 넣을 필요가 없기에 비교적 높은 확률로 병렬 실행 가능합니다.

GPU 컴퓨팅을 위한 볼타는 프로세싱 블럭에 8웨이 FP64 장치도 탑재합니다. 그래픽용 튜링의 FP64 성능은 FP32의 1/32입니다. 각 사이클마다 SM이 2명령씩 처리합니다. 프로세싱 블럭 단위로는 2사이클당 1개의 명령어를 처리합니다. FP64는 어디까지나 명령 호환성을 위한 구현입니다.

텐서 코어는 추론 단계를 위한 확장

튜링은 그래픽용 GPU 처음으로 딥 러닝 유닛인 텐서 코어를 탑재했습니다. 텐서 코어는 지금까지 GPU 컴퓨팅을 위한 볼타, 자동차에 탑재되는 Xavier에만 들어갔습니다.

텐서 코어는 4x4 연산 유닛입니다. 기본적으로 FP16에서 4x4 곱셈을 4열 병렬 실행 가능합니다. 따라서 64유닛 곱셈과 16유닛 덧셈 유닛을 1개의 텐서 코어에 넣어 1사이클마다 64개의 연산 수행이 가능합니다.

n개의 뉴런에서 입력받는 신경망의 구조에 맞춘 텐서 코어

벡터 유닛을 1줄식 처리하는 파스칼에 비해, 텐서 코어의 매트릭스 연산은 상당히 빠르게 연산을 마칩니다.

GPU 컴퓨팅용 볼타 GV100도 텐서 코어를 탑재하지만, 튜링의 텐서 코어와는 그 구현이 약간 다릅니다. GV100은 FP16 반정밀도 부동소수점 연산의 학습용으로 FP16 곱셈 결과를 4개 더해 FP32로 출력합니다. 추론은 FP16의 곱셈을 4개 더해 FP16으로 출력합니다. FP32 출력은 처리량이 절반으로 떨어집니다.

튜링의 텐서 코어는 볼타와 똑같이 FP16 정밀도를 지원하며 8비트 정수인 Int8, 4비트 정수 Inf4도 지원합니다. 연산 성능은 Int8에서 FP16의 2배, Int4의 4배입니다. 서버용이 주 목적인 GV100에 비해 튜링 GPU는 클라이언트가 주 목적입니다. 그래서 추론에서 많이 쓰는 낮은 정밀도를 향상시켰습니다.

딥 러닝을 안티 앨리어싱에

왜 딥 러닝을 위한 텐서 코어를 그래픽용 GPU에 넣은 걸까요? 텐서 코어로 그래픽 처리믜 품질을 높일 수 있어서입니다. NVIDIA가 강조하는 대표적인 사례가 DLSS(Deep Learning Super Sampling)입니다. MSAA x64보다 더 뛰어난 AA를 더 낮은 성능으로 실현 가능합니다.

튜링이 파스칼보다 2배의 성능을 낸다는 슬라이드의 근거도 여기에 있습니다. 같은 품질의 안티 앨리어싱을 실현하는데 필요한 성능을 비교하면, MSAA보다 DLSS의 성능이 훨신 높습니다.

볼타와 튜링은 1개의 프로세싱 블럭 안에 2개의 텐서 코어를 넣고, SM 전체를 따지면 8개의 텐서 코어가 있습니다. 1사이클에 2개의 텐서 코어에 동시 명령 발행이 가능합니다. 텐서 코어는 명령 발행 구조가 다른 연산 유닛과 다르기에 명령 디스패치 유닛도 분리됐습니다.

프로세싱 블럭에는 64KB의 대용량 레지스터 파일이 배치됩니다. SM 전체는 256KB입니다. GPU에서 실행하는 스레드 수가 많아 레지스터 파일의 크기가 큽니다. 각각의 프로세싱 블럭에 32비트 레지스터가 총 16384개, 32스레드의 warp 단위 액세스입니다.

SM 아키텍처 개선과 레지스터 파일의 강화, 그리고 나중에 설명할 메모리 계층 개선을 통해 튜링 아키텍처는 파스칼보다 SM의 효율이 높아졌습니다. 따라서 NVIDIA는 쉐이더 성능을 향상시킬 수 있다고 설명합니다.

RT 코어의 10Giga Ray/s 성능

SM은 프로세싱 블럭 사이에 공유하는 장치가 있습니다. 기존에는 텍스처 유닛, L1 데이터 캐시, 메모리를 공유했습니다. 그리고 RT 코어도 공유합니다. 볼타 SM은 공유 장치에 명령을 보내는 큐인 MIO queue에 일단 명령을 저장하고, MO 큐에서 4개의 서브 코어 명령을 통합한 MIO 스케줄러에 전달해 발행합니다.

NVIDIA는 케플러 세대부터 명령 스케줄링 방법을 바꿔, 레이턴시가 고정된 연산과 레이턴시가 제각기 다른 메모리 액세스 시스템의 명령 스케줄링을 나눠 수행합니다. 케플러에선 연산 코어에서 레이턴시에 따라 컴파일러에 예약하고, 메모리 액세스 명령은 스코어 보드에서 예약합니다. 볼타도 그 흐름에 맞춰 연산과 메모리 시스템의 스케줄링이 분리됐습니다.

이런 구조가 튜링에서도 계속된다면 스케줄러가 분리된 이유도 잘 드러납니다. MIO 스케줄러는 동적으로 명령을 스케줄링하고, 거기에 따라 레이턴시 폭에 맞춰 명령을 제어합니다. RT 코어도 BVH 데이터터베이스를 참조하기에 메모리 액세스가 많은 편입니다.

TU102의 레이 트레이싱 성능은 10 GRay/s입니다. RT 코어 GPU 전체에서 68유닛, 부스트 클럭 1.545GHz. 따라서 1개의 RT 코어 처리량은 0.095ray/cycle이 됩니다. 물론 RT 코어의 대기 시간은 처리하는 레이에 따라 달라지며, 딱 정해진 건 아닙니다. 10 GigaRay/s라는 것도 평균 처리량의 예측일 뿐입니다. 복잡한 광선 처리라면 이보다 더 떨어질 가능성이 있습니다.

RT 코어는 앞서 말한대로 BVH의 탐지와 충돌 판정을 하드웨어 지원합니다. RT 코어에 전달된 광선이 트라이앵글에 충돌하면 RT 코어에서 쉐이더 처리를 취소합니다. RT 코어에서 맡는 연산은 한정적이며, 레이트레이싱의 모든 처리를 RT 코어에서 수행하진 않습니다. 하지만 무거운 부분은 하드웨어 가속되기에 레이트레이싱 성능을 대폭 높일 수 있습니다.

볼타를 이어받은 메모리 계층

튜링의 메모리는 볼타와 마찬가지로 캐시를 통합한 구조입니다. SM 내부에 96KB의 컴피규러블 메모리가 있습니다. 이는 4개의 프로세싱 블럭 사이에서 공유하며, 저마다 다른 용도로 분할해 쓸 수도 있습니다.

전통적인 그래픽 워크로드에선 64KB의 쉐이더 메모리와 32KB의 텍스처 캐시 겸 레지스터 파일을 어퍼 영역에 설정할 수 있습니다. 컴퓨팅에선 32KB 공유 메모리와 64KB L1 데이터 캐시, 또는 64KB 공유 메모리와 32KB L1 데이터 캐시로 설정 가능합니다. RT 코어도 컨피규러블 메모리를 참조하는 것으로 추측됩니다.

SM의 캐시는 이 밖에도 명령 캐시가 있습니다. L1 명령 캐시는 SM에서 공유하며, 각각의 프로세싱 블럭에는 소용량 L0 명령 캐시가 있습니다. NVIDIA GPU의 L2 캐시는 SM이 아닌 DRAM 컨트롤러에 있습니다. SM과 DRAM 컨트롤러는 크로스바에 연결됩니다. DRAM 인터페이스는 32비트 1채널입니다.

TU102는 총 12개의 x32 DRAM 인터페이스를 갖춰, 384비트 GDDR6 인터페이스를 구성합니다. 그러나 지포스 RTX 2080 Ti*TU102)는 그 중 하나를 비활성화해 352비트 메모리 인터페이스를 씁니다. L2 캐시는 512KB씩 DRAM 컨트롤러에 넣고, 12유닛이니 총 6MB가 됩니다. 1개의 DRAM 컨트롤러가 비활성화된 지포스 RTX 2080 Ti의 L2 캐시 용량은 5632KB입니다.

메모리 액세스 효율이 높은 GDDR6

사용하는 메모리는 GDDR5X에서 GDDR6가 됐습니다. 전송 속도는 11Gbps에서 14Gbps로 빨라졌습니다. 352비트 인터페이스의 지포스 RTX 2080 Ti(TU102)에서 대역폭은 616GB/s입니다. NVIDIA 레퍼런스는 8Gbit DRAM 칩을 11GB 탑재합니다. 메모리 전송 속도는 모든 튜링 제품군이 14Gbps입니다.

지포스 RTX 2080(TU104)는 256비트 인터페이스에 448GB/s의 대역폭이고 용량은 8GB. 지포스 RTX 2070(TU102)도 256비트 인터페이스에 대역폭과 용량은 똑같은 448GB/s, 8GB입니다. 그리고 이번 지포스에 들어가는 GDDR6는 마이크론 제조입니다.

GDDR6는 메모리 전송 속도 향상 외에도 장점이 있습니다. GDDR6는 완전히 새로운 인터페이스를 사용, x32 인터페이스를 내부에서 x16으로 분할합니다. 1개의 DRAM 칩이 2개의 x16 채널로 구성, 각각의 채널마다 따로 메모리 액세스가 가능합니다. 따라서 메모리 액세스 크기가 작아 효율적인 사용이 가능합니다.

TU102는 4608개의 CUDA 코어를 탑재

NVIDIA GPU 구조는 계층을 이룹니다. SM을 최소 단위로 하고, 이를 여럿 묶은 GPC (Graphics Processing Cluster)가 있습니다. GPC는 렌더 백 엔드 외에 그래픽 코어의 기능을 정리한 클러스터로, 작은 GPU라 부를 수도 있습니다. GPC는 오브젝트에서 픽셀로 변환하는 라스터라이저를 SM끼리 공유합니다. 지오메트리 파이프의 고정 기능 유닛도 2개의 SM마다 공유합니다.

TU102 다이는 6개의 GPC가 있고, 1개의 GPC는 12개의 SM과 라스터라이저가 있습니다. 정리하면 총 72개의 SM이 나옵니다.

TU102 풀스펙의 쿼드로 RTX 6000/8000은 72개의 SM이 활성화되며 총 4608개의 CUDA 코어가 포함됩니다. 게임용 지포스 RTX 2080 Ti는 SM중 68개가 기본적으로 비활성화돼 CUDA 코어는 4352개입니다. 4개의 SM을 비활성화한 이유는 수율 향상 때문입니다.

고속 인터커넥트 NVLink의 구현

I/O는 크로스바의 허브에 연결됩니다. 튜링의 상위 다이는 NVIDIA의 인터커넥트인 NVLink를 사용합니다. 볼타 GV100은 6개의 NVLink를 구현했으나 튜링은 TU102가 2링크, TU104가 1링크입니다. NVLink의 차동 신호(Differential Signaling) 방식의 좁은 인터페이스가 각 링크마다 단방향 8개, 양방향 16개로 구성됩니다.

현 세대의 NVLink는 단방향 25Gbps, 8개로 구성된 1링크의 단방향 전송은 25GB/s, 양방향은 50GB/s가 됩니다.

지포스 RTX는 NVLink를 멀티 GPU 구성에 사용합니다. NVIDIA의 레퍼런스 그래픽카드는 NVLink로 두장의 카드를 연결하며 NVLink 브릿지도 제공합니다. 기존의 PCI-E를 쓰는 SLI보다 대역폭이 늘어나고 메모리 공유도 가능합니다. 현재는 2장 연결만 가능하나 TU102는 2링크의 NVLink가 있으니 실제로는 3개까지도 가능합니다. NVSwitch를 쓰면 4장 이상도 될 겁니다.

튜링 아키텍처의 지포스 RTX는 하이브리드 렌더링을 위해 설계됐습니다. 크게 늘어난 다이와 트랜지스터의 대부분은 레이 트레이싱과 딥러닝에 할당됐습니다. 이는 단순히 쉐이더 성능을 높여서 승부를 보는 시대는 끝나고, 하이브리드 렌더링의 시대에 들어섰다는 NVIDIA의 인식이 담겨져 있습니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '2'

int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2018.09.15 11:25

잘 봤습니다!

Inf4 -> Int4로 수정하셔야 할것 같아요.
?
로리링 2018.09.16 14:51

확실히 하드웨어로 따로지원하고 AI를 접목한것은 굉장하네요..
그런데 묘하게 암드가 조용한거보니 암드는 뭐준비한거없나?? 일해라 암드!! 살면서 엔당물건 사고싶단생각이 첨들엇네..

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

마이크로소프트 클래식 인텔리마우스 분해 사진

마이크로소프트 클래식 인텔리마우스(Classic IntelliMouse)의 분해 사진입니다. 바닥의 서퍼를 벗겨내면 별나사가 보입니다. 총 4개. 스크롤 휠을 커버에 감싸 상단 케이스에 고정했습니다. 메인보드의 크기는 크지 않은 편. 스크롤 휠 ...

Date2018.02.28 분석 By낄낄 Reply16 Views4272

Read More
현재 주로 쓰이는 SSD 컨트롤러 정리

적당한 SSD를 하나 사려는데 컨트롤러에 대한 자세한 정보가 없더군요. 다나와에서도 보면 컨트롤러 이름이 아예 없거나, 혹은 있어도 이름만 있는 경우가 있어서 DRAM 캐시 여부를 알아보려면 하나하나 검색해봐야 하는 번거로움이 있었...

Date2018.02.19 분석 ByMoria Reply22 Views32009

Read More
재미로 알아보는 커피레이크 ES

오랜만에 타오바오를 둘러보던 도중, 역시나 커피레이크 ES(엔지니어링 샘플) CPU가 나왔더군요. 사실 ES를 파는건 불법이지만 중국답게 그냥 팔고 있습니다. 종류가 많진 않으니까 재미로 보시라고 스펙을 정리해봤습니다. - 올코어 터...

Date2018.01.20 분석 ByMoria Reply7 Views4432

Read More
노트북에 리퀴드 프로를 바르면

노트북 코어에 리퀴드 프로를 발라준지 1년하고 몇개월이 지났습니다. 그동안 만족스럽게 잘 썼으나 얼마전부터 부하가 걸리면 팬속이 이상할 정도로 높아지더군요. 그래서 HWmonitor로 확인해보니 급격한 온도변화가 관찰되어 결국 뜯었...

Date2018.01.18 분석 ByMoria Reply7 Views9017

Read More
애플 아이맥 프로 분해 사진

애플 아이맥 프로의 분해 사진입니다. 제온 W 프로세서, 8코어, 3.2~4.2GHz DDR4 ECC 2666MHz 8GB x4 라데온 프로 베가 56, 8GB HBM2 27인치 5120x2880 해상도 스크린, P3 색영역, 10억 비트 컬러 1TB SSD 13,000달러 이상을 쓰면 18코어...

Date2018.01.04 분석 By낄낄 Reply12 Views10297

Read More
한성컴퓨터 XH57 CPU 업그레이드 + 최적화 팁

안녕하세요. 이제 수험생이 되어버린 blrain입니다. 2018년 새해 첫 글은 보람찬 글을 써보자! 해서 노트북 관련 글을 작성하게 되었습니다. 1. XH57 제 노트북은 한성컴퓨터 XH57 Bossmonster Hero Ti456GT입니다. 이녀석의 특징은 ...

Date2018.01.02 분석 Byblrain Reply25 Views41351

Read More
잘 가라. 5.25인치 베이야

요즘 케이스들의 경향을 보면 케이스 내의 5.25인치 베이들이 줄어들고/없어지고 있다는 점을 알고 계신 분들이 많을겁니다. 미들타워나 그보다 작은 케이스 시장에선 이제 5.25인치 베이가 없는 케이스들이 많고 있으면 하나 내지 두개가...

Date2017.12.28 분석 By청염 Reply29 Views10082

Read More
생사불명인 무어의 법칙

직역으로는 매끄럽게 이야기가 진행되지 않는 부분이 많아서, 문장을 재구성한 부분이 많습니다. 원 저자 : 후쿠다 아키라 Thanks to : 우냥이 ▲무어의 법칙 (좌측 상단)과 무어의 법칙의 실현 수단 (좌측 하단). 2017년 3월 28일 미...

Date2017.11.14 분석 By라임베어 Reply6 Views2942

Read More
비휘발성 DIMM 기술의 본진. NVDIMM-P의 미래

서버/고성능 PC의 메인 메모리를 변화시키는 NVDIMM 기술 https://gigglehd.com/gg/1856174 에서 이어지는 글입니다. PC와 서버의 메인 메모리는 앞으로도 DRAM DIMM이 계속 쓰이겠지만, 5년 후-2020년대 초반에는 DRAM DIMM의 모습이 상...

Date2017.10.21 분석 By낄낄 Reply18 Views5089

Read More
일본 하드디스크 데이터 복구 회사의 이야기

PC넷은 일본 구마모토에 위치한 데이터 복구 회사입니다. 일본에서 상당한 인지도가 있다고 소개하고 있는데요. 여기에서 하드디스크 데이터 복구에 대해서 인터뷰를 나누었습니다. 디지털 포렌식 툴인 Simple SEIZURE TOOL for Forensic...

Date2017.10.21 분석 By낄낄 Reply14 Views6152

Read More
제조사별 램값 상승 분석

최근 램값이 지속적으로 상승함에 따라 램값은 큰 이슈가 되고 있습니다. 따라서 어떤 제조사의 램을 구입하는것이 좋은가?에 대한 고민도 끊임없이 이어지고 있습니다. 그래서 *나와의 가격변동 데이터를 참고하여 제조사별로 램값이 ...

Date2017.10.16 분석 By우냥이 Reply12 Views2362

Read More
서버/고성능 PC의 메인 메모리를 변화시키는 NVDIMM 기술

서버나 PC, 스마 폰 등의 메인 메모리는 보통 DRAM을 씁니다. 탑재되는 DRAM의 수는 용도에 따라 다릅니다. 탑재된 양이 많은, 즉 메인 메모리의 저장 용량이 큰 경우엔 다수의 DRAM을 DIMM(Dual-Inline Memory Module)이라 부르는 모듈...

Date2017.10.13 분석 By낄낄 Reply4 Views5200

Read More
Z370 메인보드 감상

커피레이크 라인업과 함께 Z370메인보드도 줄기차게 출시가 되고 있습니다. 원래는 한번 쭉 살펴보고 말 생각이었는데, 암만 생각해도 흥미로운점이 있단말이죠. 그래서 사견을 좀 남겨봅니다. 1. 전체적인 트랜드 : PC튜닝 PC부품...

Date2017.10.12 분석 ByMoria Reply35 Views3620

Read More
커피레이크 i5-8400 성능 분석과 벤치마크

커피레이크때문에 요즘 하드웨어 커뮤니티가 시끌시끌합니다. 직접 진행한 벤치마크도 있고 번역해서 올라오는 기사들도 흥미롭게 잘 읽던 와중에 i5-8400에 대해 자세히 다룬 글이 거의 없는것 같아 한번 옮겨보게 되었습니다. 1. 개...

Date2017.10.08 분석 ByMoria Reply30 Views33121

Read More
디지털 통신은 오류가 (왜) 없는가?

그냥 생각나서 좀 적어봅니다. 사람들은 디지털 신호를 생각할 때 이런 걸 생각합니다: 하지만 모든 전기 신호는 (원자나 그 밑 단위까지 따지면 좀 다를 수도 있습니다만 상식적인 선에서는) 결국 아날로그입니다. 순식간에 0에서 ...

Date2017.10.05 분석 ByPHYloteer Reply24 Views3698

Read More
차세대 서버/하이엔드 PC 용 DRAM 모듈. DDR5 DIMM

반도체 표준 규격을 책정하는 미국의 JEDEC는 차세대 서버/하이엔드 PC를 위한 DRAM 모듈, DDR5 DIMM(Dual In-line Memory Module) 기술의 스펙을 책정 중입니다. https://gigglehd.com/gg/1616456 여기에서 소개했었지만, DDR5 DIMM은DDR...

Date2017.09.14 분석 By낄낄 Reply6 Views15595

Read More
최근 코인판 상황과 부품동향

소프트와 하드웨어중 어느포럼이 어울릴까 하다가 노예는 하드웨어였구나! 하고 여기다 씁니다. 최근 이더리움 채굴 난이도 증가와 가격하락으로 인해 광산노예 해방의 날이 돌아오는 듯 했으나 이더리움 가격이 다시 수익성이 있...

Date2017.09.08 분석 ByMoria Reply20 Views3056

Read More
차세대 서버/하이엔드 PC용 DRAM. DDR5 메모리

DRAM의 각 세대별 최대 전송 속도 변화. 최근에는 최대 데이터 전송 속도가 2배로 높아졌습니다. 인텔의 Christpher Cox가 2017년 6월에 JEDEC의 Server Forum에서 강연한 슬라이드에서 발췌 반도체 표준 규격 책정하는 미국 JEDEC는 차...

Date2017.08.24 분석 By낄낄 Reply12 Views9177

Read More
3D XPoint 메모리의 정체. 다이 내부를 원자 수준에서 분석

3D XPoint 메모리의 메모리 셀 어레이와 특징. 인텔과 마이크론이 2015년 7월 28일에 공동으로 발표한 자료에서 3D XPoint 메모리의 정체가 드디어 밝혀졌습니다. 기억 소자 기술은 상변화 메모리, 셀 선택 스위치(셀렉터) 기술은 오보닉...

Date2017.08.16 분석 By낄낄 Reply4 Views9919

Read More
라이젠 스레드리퍼의 아키텍처

스레드리퍼의 패키지 하나의 다이에서 제품을 파생시키는 AMD 　 AMD는 16코어/32스레드의 데스크탑 CPU인 라이젠 스레드리퍼(Ryzen Threadripper) 아키텍처의 정보를 발표했습니다. 스레드리퍼는 AMD의 세번째 젠 아키텍처 제품입니다. ...

Date2017.08.12 분석 By낄낄 Reply7 Views3158

Read More