컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2018.09.15 03:31

차세대 그래픽을 위한 GPU, 지포스 RTX 패밀리

조회 수 6393 댓글 2

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...#table-0-0

NVIDIA는 하이브리드 렌더링을 시작하는 새로운 GPU 아키텍처, 튜링을 출시합니다.

튜링은 레이 트레이싱을 가속하는 RT 코어와 딥러닝을 맡은 텐서 코어를 탑재합니다. 제조 공정은 12nm, 메모리는 GDDR6.

하이브리드 렌더링을 위한 아키텍처

튜링 기반의 지포스 라인업은 3가지로, 각각 다이와 코드네임이 다릅니다. 하이엔드인 지포스 RTX 2080 Ti가 TU102, 그 아래인 지포스 RTX 2080이 TU104, 미드레인지인 지포스 RTX 2070이 TU106입니다. 이전에는 2개의 다이로 구성했던 라인업이 이제는 3개의 다이를 사용해 구성합니다.

TU102는 186억개의 트랜지스터에 754제곱mm, TU104는 136억개의 트랜지스터에 545제곱mm, TU106은 106억개 트랜지스터에 445제곱mm로, 가장 작은 TU106도 라데온 RX 베가 64(베가 10)의 125억개 트랜지스터, 486제곱mm에 육박합니다.

지포스 RTX 라인업
GPU 기능	지포스 GTX 1080Ti	지포스 RTX 2080 Ti	쿼드로 6000	쿼드로 RTX 6000	지포스 GTX 1080	지포스 RTX 2080	쿼드로 P5000	쿼드로 RTX 5000	지포스 GTX 1070	지포스 RTX 2070
코드네임	GP102	TU102	GP102	TU102	GP104	TU104	GP104	TU104	GP104	TU106
아키텍처	파스칼	튜링	파스칼	튜링	파스칼	튜링	파스칼	튜링	파스칼	튜링
GPCs	6				4	6	4	6	3
TPCs	28	34	30	36	20	23	20	24	15	18
SMs	28	68	30	72	20	46	20	48	15	36
CUDA 코어 / SM	128	64	128	64	128	64	128	64	128	64
CUDA 코어 / GPU	3,584	4,352	3,840	4,608	2,560	2,944	2,560	3,072	1,920	2,304
텐서 코어 / SM	NA	8	NA	8	NA	8	NA	8	NA	8
텐서 코어 / GPU	NA	544	NA	576	NA	368	NA	384	NA	288
RT 코어	NA	68	NA	72	NA	46	NA	48	NA	36
GPU 기본 클럭 MHz (레퍼런스 / 파운더스 에디션)	1,480 / 1,480	1,350 / 1,350	1,506	1,455	1,607 / 1,607	1,515 / 1,515	1,607	1,620	1,506 / 1,506	1,410 / 1,410
GPU 부스트 클럭 MHz(레퍼런스 / 파운더스 에디션)	1,582 / 1,582	1,545 / 1,635	1,645	1,770	1,733 / 1,733	1,710 / 1,800	1,733	1,815	1,683 / 1,683	1,620 / 1,710
RTX-OPS (Tera-OPS) (레퍼런스 / 파운더스 에디션)	11.3 / 11.3	76 / 78	NA	84	8.9 / 8.9	57 / 60	NA	62	6.5 / 6.5	42 / 45
Rays Cast (Giga Rays / sec) (레퍼런스 / 파운더스 에디션)	1.1 / 1.1	10 / 10	NA	10	0.89	8 / 8	NA	8	.065 / .065	6 / 6
최고 FP32 TFLOPS (레퍼런스 / 파운더스 에디션)	11.3 / 11.3	13.4 / 14.2	12.6	16.3	8.9	10 / 10.6	8.9	11.2	6.5 / 6.5	7.5 / 7.9
최고 INT32 TIPS (레퍼런스 / 파운더스 에디션)	NA	13.4 / 14.2	NA	16.3	NA	10 / 10.6	NA	11.2	NA	7.5 / 7.9
최고 FP16 TFLOPS(레퍼런스 / 파운더스 에디션)	NA	26.9 / 28.5	NA	32.6	NA	20.1 / 21.2	NA	22.3	NA	14.9 / 15.8
최고 FP16 텐서 TFLOPS with FP16 (레퍼런스 / 파운더스 에디션)	NA	107.6 / 113.8	NA	130.5	NA	80.5 / 84.8	NA	89.2	NA	59.7 / 63
최고 FP16 텐서 TFLOPS with FP32 (레퍼런스 / 파운더스 에디션)	NA	53.8 / 56.9	NA	130.5	NA	40.3 / 42.4	NA	89.2	NA	29.9 / 31.5
최고 INT8 텐서 TOPS (레퍼런스 / 파운더스 에디션)	NA	215.2 / 227.7	NA	261	NA	161.1 / 169.6	NA	178.4	NA	119.4 / 126
최고 INT4 텐서 TOPS (레퍼런스 / 파운더스 에디션)	NA	430.3 / 455.4	NA	522	NA	322.2 / 339.1	NA	356.8	NA	238.9 / 252.1
비디오 메모리 용량	11,264 MB		24,576 MB		8,192 MB		16,384 MB		8,192 MB
비디오 메모리 종류	GDDR5X	GDDR6	GDDR5X	GDDR6	GDDR5X	GDDR6	GDDR5X	GDDR6	GDDR5X	GDDR6
메모리 인터페이스	352-bit		384-bit		256-bit		256-bit		256-bit
메모리 클럭	11 Gbps	14 Gbps	9 Gbps	14 Gbps	10 Gbps	14 Gbps	9 Gbps	14 Gbps	8 Gbps	14 Gbps
메모리 대역폭 (GB / sec)	484	616	432	672	320	448	288	448	256	448
ROPs	88	88	96	96	64	64	64	64	64	64
텍스처 유닛	224	272	240	288	160	184	160	192	120	144
텍스처 필레이트(기가텍셀/초)	354.4 / 354.4	420.2 / 444.7	395	510	277.3 / 277.3	314.6 / 331.2	277	348	202 / 202	233.3 / 246.2
L2 캐시 크기	2,816 KB	f	3,072 KB	6,144 KB	2,048 KB	4,096 KB	2,048 KB	4,096 KB	2048 KB	4096 KB
레지스터 파일 크기 / SM	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB	256 KB
레지스터 파일 크기 / GPU	7,168 KB	17,408 KB	7,680 KB	18,432 KB	5,120 KB	11,776 KB	5,120 KB	12,288 KB	3840 KB	9216 KB
NVLink	NA	2x8	NA	2x8	NA	1x8	NA	1x8	NA	NA
NVLink 대역폭	NA	100GB / sec	NA	100GB / sec	NA	50GB / sec	NA	50GB / sec	NA	NA
TDP (레퍼런스 / 파운더스 에디션)	250 / 250 W	250 / 260 W	250 W	260 W	180 / 180 W	215 / 225 W	180 W	230 W	150 / 150 W	175 / 185 W
트랜지스터 수	120억	186억	120억	186억	72억	136억	72억	136억	72억	108억
다이 크기	471제곱mm	754제곱 mm	471제곱 mm	754제곱mm	314제곱mm	545제곱mm	314제곱mm	545제곱mm	314제곱mm	445제곱mm
제조 공정	16nm	12nm FFN	16nm	12nm FFN	16nm	12nm FFN	16nm	12nm FFN	16nm	12nm FFN

원래 NVIDIA는 코드네임이 6으로 끝나는 GPU는 200제곱mm 크기의 다이로 맞췄으나 튜링에선 2배로 늘었습니다. 즉 기능이 늘어난만큼 다이도 커지고 트랜지스터 수가 늘어난 GPU가 튜링입니다.

TU102는 NVIDIA의 그래픽용 GPU 중에선 가장 큽니다. 또 아직까지는 튜링 아키텍처로 200제곱mm 이하의 메인스트림급 다이가 나오지 않았습니다.

NVIDIA는 튜링을 12nm 공정으로 만들었습니다. TSMC 12nm 공정은 16nm에서 파생됐습니다. 같은 높이의 표준 셀을 사용하는 한 트랜지스터 밀도는 그대로입니다.

NVIDIA는 7.5T의 표준 셀을 유지하는 것으로 보이며, 트랜지스터 밀도에 변화가 없기에 트랜지스터가 늘어난 만큼 다이가 커집니다. 그 결과 서버용 CPU 급의 거대한 GPU가 탄생했습니다.

NVIDIA는 원래 여기서 삼성의 10nm 공정을 쓸 계획이었다고 합니다. 하지만 기존의 12nm를 선택해 다이 크기를 키우는 대신, 안정된 공정으로 수율을 높이는 선택을 한 것으로 보입니다.

레이 트레이싱 처리를 가속하는 RT 코어

튜링 아키텍처의 핵심은 레이 트레이싱 가속기인 RT 코어입니다. NVIDIA GPU에서 처음으로 구현된 코어입니다.

레이트레이싱은 가상의 관점에서 광선을 역으로 추적, 화면의 픽셀을 통과하는 광선을 만들어(Ray Generation) 3D 공간 안쪽으로 보내 탐색시키고(Traversal), 광선이 3D 공간의 오브젝트와 교차하는지를 판정(Intersection Test)합니다. 교차가 되면 거기에서 반사나 굴절 광선을 만들거나 쉐이더를 실행합니다. 여러 광선을 만들고 다수의 반사를 거칠 수도 있습니다.

RT 코어는 광선의 탐색부터 판정까지를 하드웨어적으로 처리합니다. 이런 작업은 복잡하기에 소프트웨어 실행 시 1000명령 이상이 필요하지만, 이를 RT 코어에 넘겨 부담을 줄입니다.

레이트레이싱의 파이프라인

레이트레이싱의 탐색은 그 단계가 많고, 판정에선 많은 오브젝트와 교차 판정을 수행하기에 계산량이 늘어납니다. RT 코어는 이를 하드웨어적으로 실행해 부담을 줄입니다.

판정을 줄이는 구체적인 방법으론 바운딩 볼륨과 공간 분할이 있습니다. NVIDIA는 Bounding Volume Hierarchy를 사용해 탐색의 부담을 줄입니다. 이 기술은 NVIDIA의 소프트웨어 구현 레이트레이싱 API인 OptiX에서도 씁니다.

RT 코어의 핵심 기술. 바운딩 볼륨

바운딩 볼륨(BVH)는 3D 공간의 오브젝트를 큰 상자로 가둬버립니다. 게임의 히트 박스와도 같죠. 차이점이라면 총알이나 공격의 경로를 판정하는 게 아니라 광선 궤적이 교차하는지를 판단합니다.

BVH는 트리 구조의 계층을 이뤄, 큰 상자 안에 더 작은 상자가 있습니다.

상자 크기가 줄어들수록 오브젝트와 더 가까워집니다.

BVH는 광선과 교차될 가능성이 있는 모든 트라이앵글을 테스트하는 게 아니라, 특정 계층 박스에 속한 작은 박스, 다시 거기에 속한 트라이앵글의 테스트를 하는 식으로 범위를 줄이기에 연산의 부담이 줄어듭니다.

바운딩 볼륨을 하드웨어 지원

RT 코어는 바운딩 볼륨 데이터 구조를 지원해 각각의 박스마다 판정 테스트를 실행합니다. 지금까지의 라스터라이저 렌더링에서 데이터를 라스터 픽셀로 바꾼 후에는 원시 데이터를 폐기해도 됐지만, 레이트레이싱을 함께 쓰는 하이브리드 렌더링에선 라스터라이징이 끝난 후에도 데이터를 유지해야 합니다.

지금까지는 BVH 판정과 테스트를 소프트웨어로 구현했으며, 그 실행에는 몇천개의 단계가 필요했습니다.

튜링의 RT 코어는 몇천 명령에 해당하는 BVH 탐색과 검출을 하드웨어 처리합니다.

파스칼 세대와 비교하면 레이 트레이싱 성능은 10배 가까이 향상되며, 레이 트레이싱이 쉐이더 프로세싱 처리에 필요한 성능을 뺏지 않습니다.

RT 코어는 지오메트리 데이터의 바운딩 볼륨을 메모리의 BVH 데이터베이스에 저장합니다. RT 코어는 BVH 데이터 구조에 따라 상위 상자부터 트라이앵글까지 트리 구조로 읽어와 충돌 테스트를 실행합니다.

바운딩 볼륨의 단점은 BVH 박스를 미리 정의해야 한다는 점입니다. 현재 RT 코어는 자동으로 생성하는 기능이 없어, 게임 개발자가 3D 오브젝트를 만들 때 RT 코어의 레이 트레이싱을 효과적으로 쓰기 위해선 BVH 데이터도 만들어야 합니다.

복잡한 오브젝트와 움직이는 형상이 변화한다면 매우 복잡한 작업입니다. 그러나 공간을 복셀로 분할해 교차 확인하는 방법보다 BVH가 효율이 훨씬 높기에 NVIDIA가 BVH를 채용한 것으로 보입니다.

이런 구조적인 특성상, RT 코어의 레이 트레이싱은 어떻게 RT 코어를 쓰느냐에 따라 난이도가 달라집니다. 점광원이라면 간단하나 복잡한 레이 트레이싱이라면 BVH 데이터를 준비하는데 시간이 걸립니다. 오브젝트가 동적으로 변한다면 더 성가십니다. 물론 BVH 소프트웨어 툴에서 이를 지원하면 진입 장벽은 줄어듭니다.

현재 그래픽은 삼각형 폴리곤을 기반으로 한 형태를 라스터라이저하고, 그 표면을 폴리곤으로 분할합니다. 그러나 레이트레이싱을 사용하면 폴리곤으로 분할하지 않고 표면을 그대로 쓰는 것이 가능합니다. 이론적으로는.

다만 NVIDIA RT 코어는 하이브리드 렌더링, 즉 라스터라이저와 함께 사용합니다. 따라서 현재의 RT 코어는 폴리곤을 전제로 한 설계라고 봐야 합니다.

SM의 마이크로 아키텍처를 대폭 변경

NVIDIA는 하이브리드 렌더링을 위한 기능을 넣기 위해, GPU 연산 클러스터인 SM(Streaming Multiprocessor)의 마이크로 아키텍처를 튜링에서 대폭 바꿨습니다.

튜링의 SM은 컴퓨팅용 아키텍처인 볼타를 기반으로 합니다. 게임용인 파스칼의 GP102와는 SM이 많이 다릅니다. GP102의 SM은 그 이전 세대인 맥스웰을 기초로 만들었으나, 볼타의 SM은 새로운 설계를 사용하며 튜링의 SM은 볼타를 더욱 발전시킨 구조입니다.

튜링 아키텍처의 SM은 4개의 서브 블럭과 공유 블럭으로 나뉩니다. 서브 블럭인 프로세싱 블럭은 주기마다 명령 이슈를 처리하는 프로세서 코어입니다.

NVIDIA GPU는 warp라는 32스레드 단위로 명령을 실행합니다. 프로세싱 블럭에 1개의 명령 유닛이 있고, warp 스케줄러가 각 사이클마다 1개의 warp에서 1개의 명령을 인출해 실행 파이프라인에 전달하는 간단한 구조입니다. 프로세싱 블럭은 CPU의 코어에 해당됩니다. 바꿔 말하면 SM은 쿼드코어 클러스터가 됩니다.

부동소수점 연산과 정수 연산을 병렬 실행

프로세싱 블럭의 warp 스케줄러에서 명령 이슈는 3계통으로 나뉩니다. 연산 유닛, 텐서 코어, 메모리 액세스 유닛입니다.

보통의 연산 유닛에 대한 명령은 Math Dispatch Unit에서 파견합니다. 연산 유닛은 16웨이 FP32 CUDA 코어, 16웨이 32비트 정수 연산 유닛, 4웨이 SFU(Special Function Unit) 등이 있습니다.

명령 이슈는 각 사이클마다 1 warp, 1명령으로 제한되지만, 연산 유닛은 여러 사이클의 warp를 실행합니다. FP32의 CUDA 코어와 정수 연산 유닛은 각각 16웨이이며, 32스레드 warp를 실행하려면 2사이클이 됩니다. 즉 FP32와 정수 유닛은 2사이클마다 1번씩만 명령 발행이 가능합니다.

따라서 명령 디스패처는 FP32 CUDA 코어와 정수 연산 유닛에 교대로 명령을 발행, 이론적으로는 두 유닛을 병렬로 100% 가동 가능합니다. FP32 부동소수점 연산과 정수 연산을 동시 수행 가능하다는 것입니다.

각 사이클에 발행되는 명령은 서로 다른 warp에서 예측 가능합니다. 특정 명령 수행 후 발행되는 명령은 다른 스레드의 명령입니다. 스레드에서 명령여 레벨의 병렬성을 따져서 만들 필요가 없습니다. 하나의 warp 명령어 스트림에 부동소수점/정수 명령을 교대로 넣을 필요가 없기에 비교적 높은 확률로 병렬 실행 가능합니다.

GPU 컴퓨팅을 위한 볼타는 프로세싱 블럭에 8웨이 FP64 장치도 탑재합니다. 그래픽용 튜링의 FP64 성능은 FP32의 1/32입니다. 각 사이클마다 SM이 2명령씩 처리합니다. 프로세싱 블럭 단위로는 2사이클당 1개의 명령어를 처리합니다. FP64는 어디까지나 명령 호환성을 위한 구현입니다.

텐서 코어는 추론 단계를 위한 확장

튜링은 그래픽용 GPU 처음으로 딥 러닝 유닛인 텐서 코어를 탑재했습니다. 텐서 코어는 지금까지 GPU 컴퓨팅을 위한 볼타, 자동차에 탑재되는 Xavier에만 들어갔습니다.

텐서 코어는 4x4 연산 유닛입니다. 기본적으로 FP16에서 4x4 곱셈을 4열 병렬 실행 가능합니다. 따라서 64유닛 곱셈과 16유닛 덧셈 유닛을 1개의 텐서 코어에 넣어 1사이클마다 64개의 연산 수행이 가능합니다.

n개의 뉴런에서 입력받는 신경망의 구조에 맞춘 텐서 코어

벡터 유닛을 1줄식 처리하는 파스칼에 비해, 텐서 코어의 매트릭스 연산은 상당히 빠르게 연산을 마칩니다.

GPU 컴퓨팅용 볼타 GV100도 텐서 코어를 탑재하지만, 튜링의 텐서 코어와는 그 구현이 약간 다릅니다. GV100은 FP16 반정밀도 부동소수점 연산의 학습용으로 FP16 곱셈 결과를 4개 더해 FP32로 출력합니다. 추론은 FP16의 곱셈을 4개 더해 FP16으로 출력합니다. FP32 출력은 처리량이 절반으로 떨어집니다.

튜링의 텐서 코어는 볼타와 똑같이 FP16 정밀도를 지원하며 8비트 정수인 Int8, 4비트 정수 Inf4도 지원합니다. 연산 성능은 Int8에서 FP16의 2배, Int4의 4배입니다. 서버용이 주 목적인 GV100에 비해 튜링 GPU는 클라이언트가 주 목적입니다. 그래서 추론에서 많이 쓰는 낮은 정밀도를 향상시켰습니다.

딥 러닝을 안티 앨리어싱에

왜 딥 러닝을 위한 텐서 코어를 그래픽용 GPU에 넣은 걸까요? 텐서 코어로 그래픽 처리믜 품질을 높일 수 있어서입니다. NVIDIA가 강조하는 대표적인 사례가 DLSS(Deep Learning Super Sampling)입니다. MSAA x64보다 더 뛰어난 AA를 더 낮은 성능으로 실현 가능합니다.

튜링이 파스칼보다 2배의 성능을 낸다는 슬라이드의 근거도 여기에 있습니다. 같은 품질의 안티 앨리어싱을 실현하는데 필요한 성능을 비교하면, MSAA보다 DLSS의 성능이 훨신 높습니다.

볼타와 튜링은 1개의 프로세싱 블럭 안에 2개의 텐서 코어를 넣고, SM 전체를 따지면 8개의 텐서 코어가 있습니다. 1사이클에 2개의 텐서 코어에 동시 명령 발행이 가능합니다. 텐서 코어는 명령 발행 구조가 다른 연산 유닛과 다르기에 명령 디스패치 유닛도 분리됐습니다.

프로세싱 블럭에는 64KB의 대용량 레지스터 파일이 배치됩니다. SM 전체는 256KB입니다. GPU에서 실행하는 스레드 수가 많아 레지스터 파일의 크기가 큽니다. 각각의 프로세싱 블럭에 32비트 레지스터가 총 16384개, 32스레드의 warp 단위 액세스입니다.

SM 아키텍처 개선과 레지스터 파일의 강화, 그리고 나중에 설명할 메모리 계층 개선을 통해 튜링 아키텍처는 파스칼보다 SM의 효율이 높아졌습니다. 따라서 NVIDIA는 쉐이더 성능을 향상시킬 수 있다고 설명합니다.

RT 코어의 10Giga Ray/s 성능

SM은 프로세싱 블럭 사이에 공유하는 장치가 있습니다. 기존에는 텍스처 유닛, L1 데이터 캐시, 메모리를 공유했습니다. 그리고 RT 코어도 공유합니다. 볼타 SM은 공유 장치에 명령을 보내는 큐인 MIO queue에 일단 명령을 저장하고, MO 큐에서 4개의 서브 코어 명령을 통합한 MIO 스케줄러에 전달해 발행합니다.

NVIDIA는 케플러 세대부터 명령 스케줄링 방법을 바꿔, 레이턴시가 고정된 연산과 레이턴시가 제각기 다른 메모리 액세스 시스템의 명령 스케줄링을 나눠 수행합니다. 케플러에선 연산 코어에서 레이턴시에 따라 컴파일러에 예약하고, 메모리 액세스 명령은 스코어 보드에서 예약합니다. 볼타도 그 흐름에 맞춰 연산과 메모리 시스템의 스케줄링이 분리됐습니다.

이런 구조가 튜링에서도 계속된다면 스케줄러가 분리된 이유도 잘 드러납니다. MIO 스케줄러는 동적으로 명령을 스케줄링하고, 거기에 따라 레이턴시 폭에 맞춰 명령을 제어합니다. RT 코어도 BVH 데이터터베이스를 참조하기에 메모리 액세스가 많은 편입니다.

TU102의 레이 트레이싱 성능은 10 GRay/s입니다. RT 코어 GPU 전체에서 68유닛, 부스트 클럭 1.545GHz. 따라서 1개의 RT 코어 처리량은 0.095ray/cycle이 됩니다. 물론 RT 코어의 대기 시간은 처리하는 레이에 따라 달라지며, 딱 정해진 건 아닙니다. 10 GigaRay/s라는 것도 평균 처리량의 예측일 뿐입니다. 복잡한 광선 처리라면 이보다 더 떨어질 가능성이 있습니다.

RT 코어는 앞서 말한대로 BVH의 탐지와 충돌 판정을 하드웨어 지원합니다. RT 코어에 전달된 광선이 트라이앵글에 충돌하면 RT 코어에서 쉐이더 처리를 취소합니다. RT 코어에서 맡는 연산은 한정적이며, 레이트레이싱의 모든 처리를 RT 코어에서 수행하진 않습니다. 하지만 무거운 부분은 하드웨어 가속되기에 레이트레이싱 성능을 대폭 높일 수 있습니다.

볼타를 이어받은 메모리 계층

튜링의 메모리는 볼타와 마찬가지로 캐시를 통합한 구조입니다. SM 내부에 96KB의 컴피규러블 메모리가 있습니다. 이는 4개의 프로세싱 블럭 사이에서 공유하며, 저마다 다른 용도로 분할해 쓸 수도 있습니다.

전통적인 그래픽 워크로드에선 64KB의 쉐이더 메모리와 32KB의 텍스처 캐시 겸 레지스터 파일을 어퍼 영역에 설정할 수 있습니다. 컴퓨팅에선 32KB 공유 메모리와 64KB L1 데이터 캐시, 또는 64KB 공유 메모리와 32KB L1 데이터 캐시로 설정 가능합니다. RT 코어도 컨피규러블 메모리를 참조하는 것으로 추측됩니다.

SM의 캐시는 이 밖에도 명령 캐시가 있습니다. L1 명령 캐시는 SM에서 공유하며, 각각의 프로세싱 블럭에는 소용량 L0 명령 캐시가 있습니다. NVIDIA GPU의 L2 캐시는 SM이 아닌 DRAM 컨트롤러에 있습니다. SM과 DRAM 컨트롤러는 크로스바에 연결됩니다. DRAM 인터페이스는 32비트 1채널입니다.

TU102는 총 12개의 x32 DRAM 인터페이스를 갖춰, 384비트 GDDR6 인터페이스를 구성합니다. 그러나 지포스 RTX 2080 Ti*TU102)는 그 중 하나를 비활성화해 352비트 메모리 인터페이스를 씁니다. L2 캐시는 512KB씩 DRAM 컨트롤러에 넣고, 12유닛이니 총 6MB가 됩니다. 1개의 DRAM 컨트롤러가 비활성화된 지포스 RTX 2080 Ti의 L2 캐시 용량은 5632KB입니다.

메모리 액세스 효율이 높은 GDDR6

사용하는 메모리는 GDDR5X에서 GDDR6가 됐습니다. 전송 속도는 11Gbps에서 14Gbps로 빨라졌습니다. 352비트 인터페이스의 지포스 RTX 2080 Ti(TU102)에서 대역폭은 616GB/s입니다. NVIDIA 레퍼런스는 8Gbit DRAM 칩을 11GB 탑재합니다. 메모리 전송 속도는 모든 튜링 제품군이 14Gbps입니다.

지포스 RTX 2080(TU104)는 256비트 인터페이스에 448GB/s의 대역폭이고 용량은 8GB. 지포스 RTX 2070(TU102)도 256비트 인터페이스에 대역폭과 용량은 똑같은 448GB/s, 8GB입니다. 그리고 이번 지포스에 들어가는 GDDR6는 마이크론 제조입니다.

GDDR6는 메모리 전송 속도 향상 외에도 장점이 있습니다. GDDR6는 완전히 새로운 인터페이스를 사용, x32 인터페이스를 내부에서 x16으로 분할합니다. 1개의 DRAM 칩이 2개의 x16 채널로 구성, 각각의 채널마다 따로 메모리 액세스가 가능합니다. 따라서 메모리 액세스 크기가 작아 효율적인 사용이 가능합니다.

TU102는 4608개의 CUDA 코어를 탑재

NVIDIA GPU 구조는 계층을 이룹니다. SM을 최소 단위로 하고, 이를 여럿 묶은 GPC (Graphics Processing Cluster)가 있습니다. GPC는 렌더 백 엔드 외에 그래픽 코어의 기능을 정리한 클러스터로, 작은 GPU라 부를 수도 있습니다. GPC는 오브젝트에서 픽셀로 변환하는 라스터라이저를 SM끼리 공유합니다. 지오메트리 파이프의 고정 기능 유닛도 2개의 SM마다 공유합니다.

TU102 다이는 6개의 GPC가 있고, 1개의 GPC는 12개의 SM과 라스터라이저가 있습니다. 정리하면 총 72개의 SM이 나옵니다.

TU102 풀스펙의 쿼드로 RTX 6000/8000은 72개의 SM이 활성화되며 총 4608개의 CUDA 코어가 포함됩니다. 게임용 지포스 RTX 2080 Ti는 SM중 68개가 기본적으로 비활성화돼 CUDA 코어는 4352개입니다. 4개의 SM을 비활성화한 이유는 수율 향상 때문입니다.

고속 인터커넥트 NVLink의 구현

I/O는 크로스바의 허브에 연결됩니다. 튜링의 상위 다이는 NVIDIA의 인터커넥트인 NVLink를 사용합니다. 볼타 GV100은 6개의 NVLink를 구현했으나 튜링은 TU102가 2링크, TU104가 1링크입니다. NVLink의 차동 신호(Differential Signaling) 방식의 좁은 인터페이스가 각 링크마다 단방향 8개, 양방향 16개로 구성됩니다.

현 세대의 NVLink는 단방향 25Gbps, 8개로 구성된 1링크의 단방향 전송은 25GB/s, 양방향은 50GB/s가 됩니다.

지포스 RTX는 NVLink를 멀티 GPU 구성에 사용합니다. NVIDIA의 레퍼런스 그래픽카드는 NVLink로 두장의 카드를 연결하며 NVLink 브릿지도 제공합니다. 기존의 PCI-E를 쓰는 SLI보다 대역폭이 늘어나고 메모리 공유도 가능합니다. 현재는 2장 연결만 가능하나 TU102는 2링크의 NVLink가 있으니 실제로는 3개까지도 가능합니다. NVSwitch를 쓰면 4장 이상도 될 겁니다.

튜링 아키텍처의 지포스 RTX는 하이브리드 렌더링을 위해 설계됐습니다. 크게 늘어난 다이와 트랜지스터의 대부분은 레이 트레이싱과 딥러닝에 할당됐습니다. 이는 단순히 쉐이더 성능을 높여서 승부를 보는 시대는 끝나고, 하이브리드 렌더링의 시대에 들어섰다는 NVIDIA의 인식이 담겨져 있습니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '2'

int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2018.09.15 11:25

잘 봤습니다!

Inf4 -> Int4로 수정하셔야 할것 같아요.
?
로리링 2018.09.16 14:51

확실히 하드웨어로 따로지원하고 AI를 접목한것은 굉장하네요..
그런데 묘하게 암드가 조용한거보니 암드는 뭐준비한거없나?? 일해라 암드!! 살면서 엔당물건 사고싶단생각이 첨들엇네..

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

인텔 ARC-Battlemage(아크-배틀메이지) GPU, 2024년 11월에 출시 예정?

▶ 인텔 2세대 ARC-Battlemage(아크-배틀메이지) GPU, 2024년 11월에 출시 예정 - 독일(인텔 임베디드 월드 2024) : 인텔 ARC-Alchemist(아크-알케미스트) GPU의 엣지 디바이스 & 임베디드 시스템 전용 설계 출시(6개) - 인텔 GPU 마...

Date2024.04.09 소식 By블레이더영혼 Reply3 Views629

Read More
인텔은 메테오레이크 SP와 랩터레이크 SP를 발표함(수정)

인텔은 기존까지 랩탑에만 들어가든 iGPU 특화형 실리콘 2종을 데스크탑 소켓으로 신규 출시했습니다. 메테오레이크PS는 LGA 1851이라는 신규 소켓으로, 랩터레이크PS는 기존 LGA 1700 소켓으로 나옵니다. 둘 다 랩탑 전용으로만 ...

Date2024.04.09 소식 By류오동 Reply7 Views856

Read More
No Image

젠5 APU, 3가지 다이가 있다?

젠5 APU는 3가지 다이가 있다는 소문입니다. 원문은 살짝 애매하게 썼지만 지금까지 유출된 대로라면 이런 구성일듯 합니다. 스트릭스 포인트: 젠5 4코어, 젠5c 8코어, 총 12코어 24스레드 크라켄 포인트: 젠5 4코어, 젠5c 4코어, 총 8코...

Date2024.04.09 소식 By낄낄 Reply12 Views1422

Read More
엔비디아의 지포스 RTX 5090 & 5080(블랙웰) GPU, 2024년 4분기에 출시될 예정?

▶ 엔비디아의 지포스 RTX 5090 & 5080 GPU(블랙웰), 2024년 4분기에 출시 예정이라는 루머 ① Money UDN - GPU 보드 파트너 : '2024년 4분기'에 '고급형 RTX 5000 GPU' 모델 출시를 기대하고 있고, RTX 5090 & 5080 GPU에 주목함 ...

Date2024.04.09 소식 By블레이더영혼 Reply12 Views1806

Read More
Arena-AI, AMD와 협력하여 AI 기반 '차세대 라데온 RX GPU' 테스트 솔루션 배포 확대

▶ Arena-AI(아레나-인공지능), AMD와 협력하여 '차세대 라데온 RX GPU'의 성능 최적화를 위하여 협력 발표 - Arena-AI : '전문 AI(인공지능) 모델' 개발사 - 세계 최초의 AI(인공지능) 테스트 & 최적화 제품 : Arena-Atlas(아레나-아...

Date2024.04.09 소식 By블레이더영혼 Reply0 Views649

Read More
No Image

인텔 13/14세대 CPU로 특정 게임 실행 시 오류 발생

[언론 보도]//hard_3 관련 글 - "철권8 == CPU 불량 테스터?" https://gigglehd.com/gg/bbs/15703222 이외 관련 글 다수 제목 및 링크 첨부 생략 지디넷코리아 기사입니다. 커뮤니티 게시판에서 다루어진 적 있는 사안입니다. 철권 8뿐 ...

Date2024.04.08 소식 By임시닉네임 Reply19 Views1490

Read More
No Image

최근에 용산 북간도 가보신 분 계신가요?

레거시한 부품을 빠르게 살 방법이 없나 생각하다가 용산 북간도가 떠올랐는데요. 마지막으로 용산역 말고 전자상가에 가본게 몇 년 전인지 기억도 안 나고, 북간도는 더더욱 가본지도 오래됐고요. 요새 용산 재개발 한다고 분위기가 예전...

Date2024.04.08 질문 By낄낄 Reply17 Views1286

Read More
No Image

인텔, 일부 직원 해고, 셔틀 비행편은 재개

인텔에 오래곤주 힐스보로 공항에서 캘리포니아주 산호세 사이를 연결하는 셔틀 비행기를 다시 운영합니다. https://www.oregonlive.com/silicon-forest/2024/04/intel-resumes-employee-air-shuttle-at-hillsboro-airport.html 힐스보로...

Date2024.04.08 소식 By낄낄 Reply0 Views1207

Read More
패러럴 포트에 클립을 끼워 노트북 암호를 초기화

아주 오래된 도시바 새틀라이트 A15-S129 노트북을 구입했는데 바이오스에 암호가 걸려 있었다고 합니다. 그래서 패러럴 포트에 클립을 이리저리 구부려 끼워서 바이오스 비밀번호를 재설정하는데 성공했습니다. 이상한 말이 아니라, 패러...

Date2024.04.08 소식 By낄낄 Reply7 Views2874

Read More
No Image

미국: ASML이 중국에 설치한 장비의 서비스를 차단하길 원함

중국에 설치된 ASML의 반도체 생산 장비의 서비스를 제공하지 못하도록, 미국 정부가 네덜란드 정부를 압박할 거라고 합니다. EUV 장비는 이미 수출 자체가 불가능하지만 중국에는 이미 납품되어 가둥 중인 여러 DUV 장비가 있습니다. 이...

Date2024.04.08 소식 By낄낄 Reply7 Views1537

Read More
128코어 알테라와 RTX 2장 조합의 일체형 워크스테이션

Alafia AI의 Alafia Aiva 슈퍼워크스테이션입니다. 암페어의 128코어 알테라 프로세서와 2개의 NVIDIA RTX 4000/RTX A3000이 탑재됩니다. 또 DDR4 2TB 메모리와 최대 8TB SSD가 있습니다. 여기에 4K 회전 디스플레이까지 달려 있어 모니터...

Date2024.04.08 소식 By낄낄 Reply1 Views1031

Read More
삼성전자, 일체형 PC ‘삼성 올인원 Pro’ 출시

‘삼성 올인원 Pro’는 울트라 슬림 디자인에 6.5mm 두께의 얇은 스탠드를 적용해, 공간을 더욱 넓고 자유롭게 활용할 수 있게 해준다. 메탈 소재를 활용한 고급스러운 그레이 색상은 본체, 무선 키보드, 마우스에 모두 적용돼 ...

Date2024.04.08 소식 By낄낄 Reply27 Views2469

Read More
RGB LED가 그래픽카드 백플레이트를 변색시킴

메모리에 달린 RGB LED가 그래픽카드의 백플레이트를 변색시켰다고 합니다. ASUS, 기가바이트, MSI 그래픽카드가 다 있네요. https://www.reddit.com/r/pcmasterrace/comments/1bx2y9y/ram_light_burned_onto_gpu/ https://www.reddit.com...

Date2024.04.08 소식 By낄낄 Reply16 Views1829

Read More
No Image

키오시아, 2031년까지 1000단 3D 낸드 양산을 목표함

키오시아의 CTO는 2031년까지 1000단 레이어를 갖춘 3D 낸드 플래시 메모리를 양산할 계획이라고 밝혔습니다. 현재 키오시아의 3D 낸드 중에 가장 기술 수준이 높은 건 218단 레이어와 3.2GT/s의 인터페이스를 갖춘 8세대 BiCS 3D 낸드 플...

Date2024.04.08 소식 By낄낄 Reply2 Views512

Read More
MSI 트라이던트 AS 14NUE7-680 게이밍 데스크탑 출시

MSI 트라이던트 AS 14NUE7-680 게이밍 데스크탑입니다. 코어 i7-14700F, 지포스 RTX 4070 슈퍼, DDR5 16GB SO-DIMM, 1TB NVMe SSD, 80+ 골드 500W 파워, 2.5기가비트 랜, WiFi6, 크기 137.06x396x57x410.39mm, 무게 5.53kg. 이건 MAG 코덱...

Date2024.04.07 소식 By낄낄 Reply2 Views306

Read More