컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2018.08.26 02:57

지포스 RTX 20, 그는 도대체...

조회 수 3833 댓글 5

Extra Form
참고/링크	https://www.4gamer.net/games/421/G042134/20180822135/

실시간 레이 트레이싱 전용 RT 코어를 탑재한 세계 최초의 GPU 아키텍처 튜닝, 이를 채택한 차세대 GPU인 지포스 RTX 20 시리즈가 발표됐습니다. 여기에서 사람들이 궁금할 것이라 생각되는 부분만 정리한 글입니다.

하이브리드 렌더링

젠슨 황은 지포스 RTX 20의 발표에서 하이브리드 렌더링이란 표현을 많이 썼습니다. 이걸 이해하려면 기존의 실시간 그래픽 렌더링이 모두 라스터라이징(Rasterizing)이라는 렌더링 기법을 쓴다는 점을 알아야 합니다.

라스터라이징은 '디스플레이 화면을 구성하는 각각의 화소에 맞춰 평면 다각형을 그리고, 특정 시점에서 해당 화소를 그려내 빛과 그림자를 그려내는' 것입니다. 그려내야 하는 3D 장면 중 화면에 들어가는 영역과 그려지지 않는 영역(시야에서 벗어나는 영역)을 구분, 불필요한 부분은 대담하게 쳐내서 빠르게 렌더링하는 게 특징입니다.

반면 레이 트레이싱은 특정 시야에서 화면의 각 화소를 통과하는 시선의 연장선상에 그려내야 하는 오브젝트가 있으면 거기에서 레이(광선)을 사출합니다. 시야 밖이건 화면 안이건 해당 3D 장면에서 레이가 다른 오브젝트에 도달하면 빛의 정보를 수집해 렌더링에 반영합니다. 물론 계산에 한계가 있으니 몇 개의 레이를 쬐는지는 프로세서의 성능에 따라 달라집니다.

NVIDIA는 RTX 하이브리드 렌더링이라는 표현을 흐지만, 사실 하이브리드 렌더링은 이미지네이션 테크놀러지가 먼저 쓴 단어입니다.

그럼 레이 트레이싱과 라스터라이징을 어떻게 잘 나눠서 쓰느냐가 문제인데, 일반적인 오브젝트의 라이팅과 쉐이딩은 라스터라이징, 그림자나 환경 조명, 앰비언트 오큘루전, 리플렉션, 리플렉션에 의한 투명/굴절, 글로벌 일루미네이션(전역 조명에 의한 간접 조명 재현)은 레이 트레이싱을 쓰는 게 당연해 보입니다.

위에서 레이 트레이싱에 할당된 요소는 모두 라스터라이징에서 완벽히 구련하긴 어렵습니다. 물론 하이브리드 렌더링에서 레 트레이싱에 할당하는 요소가 늘어날수록, 레이 트레이싱에서 정보를 수집하는 광선의 수가 늘어나고 광선이 쬐어지는 시간도 늘어나니 부하가 늘어납니다. 그래도 튜링이 나오지 않았던 GDC 2018에선 레이 트레이싱을 쓰는 오브젝트가 한개 정도였다면 지포스 RTX가 나온 게임스컴 2018에는 1개보다는 더 많은 오브젝트에 쓸 수 있을 것이라고 기대됩니다.

RTX

2018년 3월에 열린 GDC 2018에서 NVIDIA는 자사의 RTX 테크놀러지가, 마이크로소프트의 레이 트레이싱 파이프라인을 다이렉트 X에 통합한 다이렉트 X 레이 트레이싱(DXR) 런타임 프로그램을 작동하는데 필요한 요소라고 소개했습니다.

이 설명 자체는 틀리지 않지만 이번 발표에선 '기존의 라스터라이징에 의한 렌더링, 레이 트레이싱에 의한 렌더링, CUDA의 GPGPU 처리, 그리고 텐서 코어의 추론 가속까지 포함하는 통합 렌더링이다'고 새로 정의했습니다.

다만 RTX는 GPU 드라이버와 상당히 가까운 층에 위치하기에 레이 트레이싱 렌더러 개발자는 Optix, 게임 개발자는 DXR과 벌칸까지만 알면 됩니다. 그래서 이 런타임 구조를 신경 쓸 필요는 없습니다. 위 이미지에서 아래로 갈수록 하드웨어에 가까워지지요.

RTX 최상층에는 MDL (Material Definition Language)이 있습니다. 물리적 재질의 반사 특성과 광원의 발광 특성을 절차적으로 설명하는 언어입니다. MDL은 게임보다는 영상 제작의 오프라인 렌더링에 주로 씁니다. 게임 그래픽은 물리 기반 렌더링이 많이 쓰인다지만, 물리 반사 특성의 메커니즘이 매우 간단하고 원시적이며 단순하기 때문입니다. 또 그래픽 엔진에서 지원하는 반사 특성의 변수가 다양해, MDL 라이브러리에서 정의한 내용을 재현하는 수준까지는 도달하지 못합니다.

정리하면 NVIDIA는 실시간 레이 트레이싱 처리하는 RT 코어를 작동시키고, 여기에 GPGPU 추론 가속기인 텐서 코어를 그래픽에 넣는 상호 호환성 interoperability을 실현하도록 드라이버 구조를 다시 설계할 필요가 생겨났습니다. 이는 NVIDIA만의 플랫폼이니 나름대로 이름인 RTX를 붙인 겁니다.

튜링 프레임

지포스 RTX 20 시리즈의 발표에서 그 정체를 모르는 단어가 여럿 나왔는데, 그 중 하나가 1 튜링 프레임(1 Turing Frame)입니다. 1 튜링 프레임은 "1 프레임을 렌더링할 때 튜링 세대의 GPU 코어는 어떤 단계를 거쳐 작동하는가를 묘사'한 것이나, 위 그림은 어디까지나 예시일 뿐이며 반드시 저런 구조대로 처리된다는 건 아닙니다. 그냥 예시입니다.

일단 그림을 보면 녹색이 레이 트레이싱, 레이를 만들어 발광하고 충돌 판정을 실시합니다. RT 코어가 맡은 역할이죠.

그 다음 FP32 쉐이딩은 버텍스 파이프라인에서 버텍스 쉐이더와 지오메트리 쉐이더, 헐 쉐이더, 도메인 쉐이더 등의 다양한 쉐이더와 픽셀 파이프라인, 픽셀 쉐이더가 일을 맡은 부분입니다. 부동소수점 처리니까 FP, 32비트니까 32겠지요? 라스터라이저건 레이 트레이싱이건 버텍스 파이프라인과 픽셀 파이프라인의 작업 내역, 사용하는 기능은 변하지 않습니다.

INT32 쉐이딩은 정수 연산의 처리를 나타내는 부분으로 이미지의 질감, 마스크 텍스처를 다룬 픽셀 쉐이더 처리가 여기에 해당됩니다.

DNN 프로세싱은 텐서 코어에 가속된 추론 엔진으로 렌더링 결과에서 노이즈 저감 처리(denozing)과 안티 앨리어싱 같은 각종 후처리를 실시하는 부분입니다.

RTX-OPS

지포스 RTX 20의 발표에서 나온 단어 중 가장 신비로운 것이 RTX-OPS라는 독특한 단위입니다. 젠슨황의 말을 그대로 소개하면 RTX-OPS는 튜링 세대의 GPU 코어를 탑재힌 지포스 RTX, 쿼드로 RTX 시리즈가 1초에 수행하는 처리량을 나타낸 성능 값입니다. GPU 코어의 부동소수점 연산, 정수 연산, RT 코어, 텐서 코어의 이론적인 성능 값을 모두 다 더한 결과입니다.

NVIDIA는 튜링 세대의 코어를 비교할 때는 RTX-OPS를 써달라고 말합니다. RTX 2080 Ti는 78, RTX 2080은 60, RTX 2070은 45입니다.

그래요. 다 좋습니다. 문제는 이 78, 60, 45가 어떻게 나온건지 그 이유를 모른다는 겁니다. 앞서 나온 1 튜링 프레임에서 각종 성능 지표가 있으나 이걸 어떻게 더해도 78 RTX-OPS가 나오진 않습니다.

그러니 RTX-OPS가 뭐냐고 물어보면 그 대답은 '아직 모른다'가 되겠습니다.

튜링은 파스칼보다 얼마나 빠른가?

NVIDIA가 RTX-OPS를 만든 이유는 다른 데 있을지도 모릅니다. 오랫동안 성능의 기준으로 사용한 'CUDA 코어 수와 부스트 클럭을 토대로 계산한 FLOPS를 써서 튜링 GPU를 기존 제품과 비교하면 별 차이가 나지 않아서 그럴수도 있겠죠. 반대로 말하면 지포스 GTX 10 시리즈에서 크게 성능 향상을 이룬 부분은 RT 코어와 텐서 코어빨을 많이 받기에 이걸 어필하지 않으면 지포스 RTX의 매력이 떨어집니다.

지포스 RTX 20 시리즈와 지포스 GTX 10 시리즈의 성능을 CUDA 코어를 가지고 비교하면 이렇습니다.

RTX 2080 Ti : 13.45 TFLOPS
GTX 1080 Ti : 11.34 TFLOPS
(점수 차이 약 19 %)

RTX 2080 : 10.07 TFLOPS
GTX 1080 : 8.87 TFLOPS
(점수 차이 약 14 %)

RTX 2070 : 7.46 TFLOPS
GTX 1070 : 6.46 TFLOPS
(점수 차이 약 15 %)

물론 성능은 올랐습니다. 하지만 지포스 GTX 11이 아닌 지포스 RTX 20임을 감안하면 FLOPS가 그리 획기적으로 변하진 않은 것처럼 보입니다. 이것이 '튜링은 파스칼보다 얼마나 빠른가?'에 대한 답변입니다.

지포스 GTX 10 시리즈는 TSMC 16nm 공정으로 제조하지만 지포스 RTX 20은 TSMC의 12nm(12nm FFN)을 씁니다. 1세대 개선된 것처럼 보이나 12nm는 16nm를 손본 공정이기에 동작 클럭이나 트랜지스터 수가 그리 많이 변하지 않습니다. 이를 감안하면 CUDA 코어 기준 성능 향상은 오히려 괜찮다고 해야 할 겁니다.

그래서 FLOPS 대신 RTX-OPS로 성능을 비교하면 RT 코어와 텐서 코어에서 나온 성능을 더해야 하니까, RTX 아키텍처가 아닌 지포스 GTX 10 시리즈의 점수는 떨어지고 지포스 RTX 20 시리즈가 높아집니다. 그래서 NVIDIA가 RTX-OPS를 도입한 겁니다.

쿼드로 RTX는 DLAA, 지포스 RTX는 DLSS

튜링 아키텍처는 딥 러닝의 데이터를 가지고 추론을 수행하는 가속기인 텐서 코어를 탑재합니다. 볼타 아키텍처의 GPU는 AI 연구 개발 및 런타임 가속용으로 텐서 코어를 썼는데, 이걸 그래픽 처리 결과를 확장하거나 포스트 이펙트 후처리에 쓸 수 있다고 판단해 튜링에도 텐서 코어를 넣었습니다.

이 포스트 이펙트 처리에 대해서 쿼드로 RTX를 발표할 땐 DLAA(Deep Learning Anti-Alising)라고 소개했습니다. DLAA는 노이즈나 계단 현상이 보이는 레이 트레이싱 결과물을 가지고 노이즈가 없는 렌더링 결과와의 관계를 학습시켜, 입력된 영상에서 노이즈와 계단 현상을 줄여나가는 후처리입니다. 실제로 노이즈 감소와 계단 현상 감소(안티 엘리어싱)은 딥 러닝 학습 모델과 학습 데이터에서 모두 분리되지만, DLAA의 소개 이미지에선 안티 앨리어싱과 노이즈 감소 기능을 모두 포함한 것처럼 모호하게 표현했습니다.

그런데 이번에는 그 애매모호함이 줄었습니다. DLSS(Deep Learning Super Sampling), 딥 러닝을 활용한 슈퍼 샘플링입니다. 이거라면 '딥 러닝 기반 안티 앨리어싱'보다는 좀 더 받아들이기 쉽겠죠.

NVIDIA는 NGX라는 딥 러닝 기반 영상 고품질 처리 학습 모델을 만들어내는 프레임워크에 대해 설명했습니다.

렌더링 결과를 가지고 텐서 코어를 활용한 후처리 효과를 더해 고화질로 바꿀 수 있다며 데모 시연도 했습니다.

렌더링 결과물의 수준을 높이는 작업을 AI가 맡는다면 좀 믿기 어렵지만, 실제로 요새 나오는 고급형 TV는 이미 딥 러닝 기반 초고해상 엔진을 탖배하며, 디지털 방송 영상의 품질을 높이는 데에도 씁니다. 그런 의미에서 DLSS는 TV가 하드웨어적으로 수행하는 고화질 처리를 텐서 코어를 써서 실시간으로 게임 그래픽에 적용한다고 봐도 됩니다.

지포스 RTX와 쿼드로 RTX의 관계

지포스 RTX 20 시리즈는 쿼드로 RTX와 동일한 아키텍처를 씁니다. 실리콘 다이까지 같은지는 아직 알지 못합니다. 일단 NVLink를 쓰는 지포스 RTX 2080 Ti와 RTX 2080은 쿼드로 RTX의 최상위 다이인 쿼드로 RTX 8000과 같은 다이를 쓸 가능성이 있긴 합니다. 그러나 쿼드로 RTX 8000의 CUDA 코어 수는 4608개, RTX 2080은 2944개. 64%만 쓴다면 대단한 낭비입니다. 실리콘 수율이 그렇게 형편없다고 보기도 어렵습니다. 따라서 RTX 2080이 RTX 8000과 같은 다이, RTX 2080과 RTX 2070이 같은 다이를 쓴다고 여겨집니다.

다만 70 시리즈면 그래도 고급형에 속하는데 여기서 SLI를 지원하지 않는 것도 이상합니다. 어찌보면 NVLink를 지원하지 않는 다른 다이를 만들어 RTX 2070으로 판매한다고 해석할 가능성도 있습니다.

어쨌건 RTX 2070은 세금 별도 499달러로 나름 파격적인 편입니다. 전략적인 가격 설정이던가, 그만큼 다이 크기가 작다는 의미일수도 있겠습니다. 하여간 RTX 2080 Ti와 RTX 2070은 다른 다이를 사용할 겁니다.

지포스 RTX 20의 내부 구조

여기에 대해 알려진 정보는 없지만 계산해 봅시다. 쿼드로 RTX 8000의 CUDA 코어 수는 4608개니까-

6 (GPC) × 12 (SM) × 64 (CUDA Core) = 4608 CUDA Core

라고 공식이 나옵니다. GPC(Graphics Processing Cluster)는 GPU 안의 미니 GPU, SM은 GPC 안의 연산 유닛(Streaming Multiprocessor)입니다. 물론 이 계산이 맞는지는 아직 모릅니다. 이게 맞다고 가정하고 봅시다.

RTX 2080 Ti의 메모리 인터페이스는 352비트, 쿼드로 RTX 8000의 384비트보다 32비트 작습니다. 이는 지포스 GTX 1080 Ti와 NVIDIA 타이탄 X에서 있었던 일이니 32비트 메모리 컨트롤러 1개가 무효화됐다고 보면 됩니다.

RTX 2080 Ti의 기본 스펙을 쿼드로 RTX 8000의 계산식에 맞춰보면 CUDA 4352개, SM 12개, GPC 5개, 8개의 SM이 한 묷음이라고 보면 됩니다.

5 (GPC) × 12 (SM) × 64 (CUDA Core) +1 (GPC) × 8 (SM) × 64 (CUDA Core) = 4352 CUDA Core

마찬가지로 RTX 2080은 CUDA 코어 2944개니까 12개의 SM을 넣은 GPC가 3개, 10개의 SM을 넣은 GPC가 1개 된다고 보여집니다.

3 (GPC) × 12 (SM) × 64 (CUDA Core) +1 (GPC) × 10 (SM) × 64 (CUDA Core) = 2944 CUDA Core

RTX 2070도 마찬가지입니다. CUDA 코어 수가 2304개니까 9개의 SM을 포함한 GPC 4개라고 가정하면 계산이 맞습니다.

4 (GPC) × 9 (SM) × 64 (CUDA Core) = 2304 CUDA Core

RTX 2070이 상위 2개 모델과 다른 다이를 쓴다면 GPC의 SM 수를 줄인 지포스 RTX 2060을 만들기란 어렵지 않습니다. 반대로 RTX 2070과 RTX 2080의 다이가 똑같다면 NVLink SLI를 지원하는 지포스 RTX 2070 Ti가 사이에 나올 가능성이 있습니다.

RTX 2080 Ti의 메모리가 11GB인 이유

앞서 언급한대로 RTX 2080 Ti의 그래픽 메모리 인터페이스는 352비트, 이걸 32비트로 나누면 11입니다. 즉 RTX 2080 Ti에 연결된 GDDR6 비디오 메모리는 8Gbit 11개입니다.

352비트 비디오 메모리 인터페이스, 비디오 메모리 용량 11GB의 구성은 지포스 GTX 1080 Ti와 같으니 별로 신기할 건 없습니다.

지포스 RTX 2080 Ti와 쿼드로 RTX 8000의 CUDA 코어는 다른데 왜 RT 코어 성능은 같은가?

지포스 RTX 2080 Ti의 CUDA 코어 수는 4352개, 쿼드로 RTX 8000과 그 하위 모델인 쿼드로 RTX 6000의 CUDA 코어 수는 4608개입니다. 그런데 레이 트레이싱 가속 장치인 RT 코어의 성능은 10G Rays/s(1초에 10억 레이)로 똑같습니다. 그 이유는 지금까지 NVIDIA GPU는 다양한 연산 장치와 실행 유닛을 별도의 연산 유닛으로 취급해 SM에 넣었기 때문입니다. CUDA를 도입한 이후 NVIDIA GPU는 SM 수의 많고 적음이 성능의 높고 낮음을 결정하는 스펙이 됐습니다.

이는 볼타와 튜링 GPU에 탑재한 텐서 코어도 마찬가지입니다. RTX 2080 Ti의 쉐이더와 연산 성능은 14 TFLOPS + 14 TIPS, AI 추론 성능이 FP16 110 TFLOPS입니다. 쿼드로 RTX 8000과 6000의 14 TFLOPS + 14 TIPS, FP16 125 TFLOPS보다 낮은데 이건 오로지 SM 수의 차이에서 비롯된 것입니다.

그럼 RTX 2080 Ti의 CUDA 코어 수가 적은데 어떻게 쿼드로 RTX 8000/6000과 같은 10G Rays/s의 성능을 내는 걸까요? NVIDIA GPU 중에선 지극히 이례적으로, RT 코어가 SM 안에 포함되지 않았다고밖에 생각되지 않습니다.

튜링 세대의 GPU가 지닌 레이 트레이싱 성능은 이렇습니다.

쿼드로 RTX 8000 & 6000 : 10G Rays/s
지포스 RTX 2080 Ti : 10G Rays/s
지포스 RTX 2080 : 8G Rays/s
쿼드로 RTX 5000 : 6G Rays/s
지포스 RTX 2070 : 6G Rays/s

쿼드로 RTX 8000의 클럭은 1.7GHz가 될 거라고 추측되는데, 그렇다면 쿼드로 RTX 8000과 지포스 RTX 2080 Ti는 CUDA 코어 수는 물론이고 GPU 코어 클럭도 달라야 합니다. 따라서 레이 트레이싱 성능이 같다면 RT 코어가 SM이나 GPC 유닛 안이 아니라 GPU 안에 따로 탑재된 구현이라고 보는 게 자연스럽습니다.

그 경우 RT 코어는 GPU의 렌더링 파이프란과 완전히 독립해 비동기적으로 병렬 동작해야 합니다. RT 코어의 기본 역할인 레이의 생성, 추진, 충돌 판정Generation, Traverse, Intersection)은 각 레이의 사용 주기(레이를 만들어서 사라질 때까지의 처리 시간)가 제각각입니다. 그래서 일정 주기에 맞춰 파이프라인에서 결과를 출력하는 SM의 동작과는 상반됩니다.

레지스터와 메모리 같은 자원을 공유하면서 동작은 완전히 비동기, 병렬 수행한다고 봐도 이상하진 않지만, 이건 NVIDIA의 자세한 설명을 기다려야 합니다.

지포스 RTX의 RT 코어 성능

10G Rays/s의 성능은 1920x1080을 60fps로 그려낼 때, 1프레임의 픽셀 당 80개의 광선을 투사하는 수준입니다. 이를 다른 튜링 GPU 그래픽카드에 대입하면 이렇습니다.

쿼드로 RTX 8000 & 6000 : 80 레이
지포스 RTX 2080 Ti : 80 레이
지포스 RTX 2080 : 약 64 레이
쿼드로 RTX 5000 : 48 레이
지포스 RTX 2070 : 48 레이

앞서 말한대로 레이 트레이싱을 사용하는 그림자 생성, 글로벌 일루미네이션, 환경 조명에 의한 그림자, 반사 재질, 반투명 재질 등의 렌더링은 반복되어 돌아오는 레이가 없다고 해도 최소 1레이씩 필요합니다. 따라서 지포스 RTX 2070과 쿼드로 RTX 5000의 레이 트레이싱 가속 성능은 비슷한 수준이라 보입니다. 다만 반사 표면의 재질이나 광원의 크기 등에 따라 광범위하게 레이를 사출하면 GPU마다 RT 코어 성능 차이가 나고 렌더링과 레이 트레이싱 결과가 달라질 가능성은 있습니다.

Variable Rate Shading

쿼드로 RTX 발표에서 NVIDIA는 Variable Rate Shading라는 단어를 사용했습니다. 이는 일종의 LoD(Level of Detail)입니다.

게임 그래픽에서 LoD는 시점에서 가까운 곳의 3D 모델은 세밀한 폴리곤으로, 먼 곳의 3D 모델은 단순한 폴리곤으로 그려내는 것을 의미합니다. 그럼 Variable Rate Shading은? 라이팅과 쉐이딩에도 LoD, 즉 묘사의 차등화를 두겠다는 이야기입니다.

이것은 '시간'과 '공간'에 모두 해당됩니다. 공간을 봅시다. 그림자 묘사에서 일반적인 Foveated Rendering은 시선이 향한 곳을 세밀하게, 거기서 먼 곳은 품질과 해상도를 낮추는 기법입니다. 시간 차례입니다. 캐릭터나 시점의 이동 속도에 따라 렌더링의 품질과 해상도에 차등화를 둡니다. 시점이 빠르게 움직이면 전체 화면에 모션 블러 처리를 하는데, 그러면 낮은품질로 렌더링해도 크게 티가 나지 않습니다.

게임 엔진 중에는 이런 구조를 도입한 경우가 있으나 NVIDIA는 이를 하드웨어 차원으로 지원합니다. 아직 자세한 매커니즘은 밝혀지지 않았으나 튜링 세대의 GPU Variable Rate Shading은 레이 트레이싱과 결합됐다고 추측됩니다. 고품질 렌더링이 필요하면 픽셀 당 레이 사출량을 늘리고, 그렇지 않다면 레이 숫자를 줄이거나 아예 여러 픽셀마다 1개의 레이를 쓰도록 하면 됩니다. 여러 픽셀의 라이팅과 쉐이딩 결과를 공유한다는 건 MSAA(Multi-Sampled Anti-Aliasing)에서 나온 발상이기도 합니다.

실시간 레이 트레이싱은 게임의 표준이 될 것인가

NVIDIA는 지포스 RTX 20 시리즈에 맞춰 DXR, 혹은 RTX를 지원하는 게임 타이틀을 소개했습니다. 그런데 이렇게 최적화를 거친 게임 말고, 게임 전반에서 실시간 레이 트레이싱이 표준으로 자리잡느냐가 중요하지요. 일단은 그렇다고 보기 어렵습니다.

겉으로는 마이크로소프트가 DXR을 내놓고 NVIDIA가 거기에 맞춰 RTX를 내놓은 것처럼 보이지만, 실제로는 NVIDIA가 RTX를 쓰자고 마이크로소프트를 설득해 다이렉트 X에서 RTX를 쓸 수 있도록 DXR이 발표됐습니다. 따라서 GPU에서 레이 트레이싱 가속기를 쓰자고 주장하는 건 NVIDIA밖에 없습니다.

아직 개발 중이지만 레이 트레이싱을 지원한다고 소개한 Asseto Corsa Competizione. 분명 지포스 RTX를 장착한 컴퓨터에서 실행했으나 실시간 레이 트레이싱을 쓰진 않았습니다.

설령 지원한다 해도 그림자 생성과 환경 조명, 그림자 등의 작업에 머무를 것입니다. 그리고 이들 작업은 현재 게임 그래픽 엔진에서 비교적 쉽게 구현할 수 있습니다.

실시간 레이 트레이싱 지원 타이틀 중 하나인 메트로 엑소더스는 그나마 RT 코어를 잘 활용하는 편입니다. 기존에 레이 트레이싱을 쓰지 않는 환경 조명의 간접 재현 매커니즘을 구현하는데 RT 코어를 사용하는 것으로 보입니다.

배틀필드 V도 RT 코어를 지원합니다. BVH(Bounding Volume Hierarchy) 처리에 본격적인 레이 트레이싱을 씁니다. 현재 시점에서 보이지 않는 영역의 이미지를 재현할 수 있어, 웅덩이나 거울에 반사된 이미지로 접근하는 적의 움직임을 파악할 수 있습니다.

다만 이렇게 잘 지원하는 게임은 많지 않을 겁니다. 왜냐면 지포스 RTX 20 시리즈에만 한정된 기능이거든요. 현재 대작 게임은 PC, 콘솔, 스마트폰/태블릿까지 다양한 하드웨어로 출시됩니다. PC는 주요 플랫폼이지만 독점이나 표준 플랫폼으로 작용하는 경우가 드뭅니다. 최근 PS4와 Xbox One용 대작 게임이 PC로 동시 출시되는 건 윈도우 10 환경 덕을 본 것도 있으나, PS4와 Xbox One의 아키텍처와 PC와 흡사해 이식하는데 많은 노력이 필요하지 않아서입니다.

바꿔 말하면 지포스 RTX 20 시리즈의 RT 코어는 어디까지나 추가 개발 과정을 거쳐야 합니다. 따라서 배틀필드 V만큼 RT 코어를 잘 활용한 게임이 더 나오길 기대하기란 힘듭니다. 대부분은 그림자, 환경 조명 등의 사용에 머무를 것입니다.

AMD가 DXR을 지원하는 GPU를 내놔 NVIDIA와 경쟁한다면 상황이 바뀔 수도 있습니다. 그렴 PC와 콘솔이 실시간 레이 트레이싱을 활용한 하이브리드 렌더링으로 발전해 나갈 것입니다. 하지만 그럴 가능성은 낮습니다. AMD는 컴퓨텍스 타이페이에서 'CPU와 GPU를 조합해 레이 트레이싱한다'는 기존의 자세를 유지하고, DXR 지원에 대해선 확실히 밝히지 않았거든요.

AMD 차세대 GPU인 Navi가 DXR을 지원한다고 가정해도 나오기까지 2년이 걸립니다. 즉 2019~2020년에 나올 차세대 PS와 Xbox가 AMD의 커스텀 APU를 쓴다면, 그때 콘솔 게임기에서 레이 트레이싱 가속은 어느 정도 가망이 있습니다. 다이렉트 X가 DXR을 지원하는 이상 중장기적으로는 PC와 Xbox 게임이 레이 트레이싱을 지원해 나갈 거라고 봐야 될지만, 그 속도가 얼마나 빠를지는 NVIDIA가 아닌 다른 GPU 회사에 달려 있다고 해야 됩니다.

삭제 요청

TAG •

Prev 윈도우즈 노트북 블루투스가 이상 할땐 드라이버를 업데이트... 윈도우즈 노트북 블루투스가 이상 할땐 드라이버를 업데이트... 2018.09.05by 필립 독자적인 CPU 명령어 세트, RISC-V란 무엇인가 Next

독자적인 CPU 명령어 세트, RISC-V란 무엇인가 2018.07.22by 낄낄

목록 스크랩

위로 아래로 댓글로 가기

Comments '5'

?
에이징마스터 2018.08.26 03:09

전 DLSS가 제일 끌려요
RT는 흠... 이놈 때문에 가격이 너무 올라갔는데...
TundraMC 자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2018.08.26 11:36

배필에다가 저런걸 박아놓으면 배경과 오브젝트가 한눈에 구별이 안되지 않을까 싶습...
안그래도 좀 지나면 오브젝트 대부분이 파괴되는 배필 특성상...
?
신림동 2018.08.26 14:23

RT 코어가 SM 밖에 있을 수 있다는 추측이 굉장히 흥미롭네요.
NVIDIA에서 튜링 관련 자료 좀 배포해줬으면 좋겠는데, 아직도 깜깜무소식이라 궁금증만 커지네요.
?
마라톤 2018.08.27 08:04

좋은 정보 감사합니다. ^_^
부녀자 2018.08.28 13:34

DX9 DX10 게임은 성능향상이 별로 없을것 같네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

AMD 25X20 목표에 대한 개인적인 분석

다들 아실는지 모르겠지만 AMD는 2020년에 APU 전성비 25배 달성을 목표로 한다고 합니다. 이 계획은 2014년 카베리부터 시작해서 현재 레이븐릿지까지 와 있는 상태입니다. 코어 수 클럭 TDP F.S. 풀 로드시 소비전력 ...

Date2018.09.17 분석 ByKAYNE Reply0 Views792

Read More
차세대 그래픽을 위한 GPU, 지포스 RTX 패밀리

NVIDIA는 하이브리드 렌더링을 시작하는 새로운 GPU 아키텍처, 튜링을 출시합니다. 튜링은 레이 트레이싱을 가속하는 RT 코어와 딥러닝을 맡은 텐서 코어를 탑재합니다. 제조 공정은 12nm, 메모리는 GDDR6. 하이브리드 렌더링을 위한 아...

Date2018.09.15 분석 By낄낄 Reply2 Views6393

Read More
로지텍 프로 와이어리스 마우스의 분해 사진

로지텍 프로 와이어리스 마우스의 분해 사진입니다. 성능은 유선 연결 시 문제가 없는데 라이트스피드 무선 연결 시 상태가 별로라네요. 기술 자체의 문제인지 테스트에 쓴 마우스 2개가 우연히 불량인지. 커버를 제거. 메인보드에 바로 ...

Date2018.09.06 분석 By낄낄 Reply2 Views3307

Read More
No Image

윈도우즈 노트북 블루투스가 이상 할땐 드라이버를 업데이트 해보세요.

Acer switch 모델명 sw5-012을 쓰고 있습니다. 유난히 윈도우즈 10은 블루투스 관련 문제가 많습니다. 저 모델도 마찬가지구요. 유선이어폰을 더이상 쓰지 않는 관계로 블루투스를 써야만 해서 혹시나 하고 드라이버를 찾아서 따...

Date2018.09.05 분석 By필립 Reply0 Views1968

Read More
지포스 RTX 20, 그는 도대체...

실시간 레이 트레이싱 전용 RT 코어를 탑재한 세계 최초의 GPU 아키텍처 튜닝, 이를 채택한 차세대 GPU인 지포스 RTX 20 시리즈가 발표됐습니다. 여기에서 사람들이 궁금할 것이라 생각되는 부분만 정리한 글입니다. 하이브리드 렌더링 ...

Date2018.08.26 분석 By낄낄 Reply5 Views3833

Read More
독자적인 CPU 명령어 세트, RISC-V란 무엇인가

2018년 6월 21일에 웨스턴 디지털은 일본 도쿄에서 기자 설명회를 개최하고, CTO인 Martin Fink가 회사 차원에서 RISC-V를 추진 중임을 설명했습니다. 그럼 RISC-V는 도대체 무엇일까요? 연구 목적으로 만들어진 고유 명령어 세트 RISV-V...

Date2018.07.22 분석 By낄낄 Reply10 Views4919

Read More
샤오미 게이밍 마우스 분해 사진

샤오미가 게이밍 마우스를 조용히 발표했었습니다. https://gigglehd.com/gg/3009115 겉모습이 어떻게 생겼는지는 그리 어렵지 않게 알 수 있지요. 그 안이 어떻게 생겼는지 봅시다. https://v.youku.com/v_show/id_XMzY3NTYyODkzMg==.ht...

Date2018.07.12 분석 By낄낄 Reply8 Views4190

Read More
AMD의 CPU/GPU를 가속하는 글로벌 파운드리의 7nm 공정

글로벌 파운드리의 7nm 공정이 AMD를 가속 AMD가 세계 최초의 7nm 공정 GPU로 베가 아키텍처를 출시하려 합니다. 이미 실제 칩은 완성돼 샘플링 중이며 올해 안에 정식으로 등장합니다. 경쟁사인 NVIDIA보다 먼저 7nm GPU를 출시하는 것입...

Date2018.07.05 분석 By낄낄 Reply3 Views4272

Read More
AMD가 CPU 혁신에서 인텔을 이겼던 10번

50여년에 달하는 인텔과 AMD의 경쟁사에서, AMD가 CPU 혁신으로 인텔을 이겼던 10번의 기록입니다. 2000년의 1GHz 경쟁: 대다수 CPU가 500~850Mhz로 작동할 때, AMD 애슬론 1000은 처음으로 1GHz를 찍은 데스크탑 프로세서였습니다. 코드...

Date2018.07.03 분석 By낄낄 Reply29 Views6479

Read More
애플 제품 문제의 근원 - 디자인팀 입김이 세다

애플은 위대한 기업 입니다. 이건 맞는 말이죠. 구글이 검색에서 보여준 혁신 만큼, 아마존 같은 기업의 행보 만큼 , 삼성의 반도체 만큼, 애플은 위대한 기업 인데, 이상하게 가끔 너무 말도 안되는 결함들 보여 주곤 합니다. 이번의...

Date2018.06.29 분석 By필립 Reply78 Views9717

Read More
라데온 소프트웨어 AMD 링크 문제점

라데온 소프트웨어에는 CPU, GPU의 상태를 스마트폰으로 모니터링 할 수 AMD Link 라는 좋은 기능을 제공하죠. 스마트폰과 PC가 같은 네트워크에 있어야 한다는 제약 좋건이 있긴 하지만 유용합니다. 하지만 사용하면 2가지 문제점을 발...

Date2018.06.27 분석 By부녀자 Reply2 Views2160

Read More
No Image

라이젠 모바일 랩탑이 애매할수밖에 없는 이유

사실 모바일 플렛폼에 있어서 CPU+GPU가 결합된 원칩은 분리된 형태에 비해 가진 장점이 큽니다. 들고다녀야 하는 만큼 무게나 크기에 제약이 있을 수 밖에 없는데, 무게와 크기 둘 다 비교우위를 가지기 때문이죠. 당장 쓰는 스마트폰의 ...

Date2018.05.23 분석 ByMoria Reply37 Views7565

Read More
넷기어 XR500 나이트호크 프로 게이밍 라우터 분해 사진

넷기어 XR500 나이트호크 프로 게이밍 라우터의 분해 사진입니다. 퀄컴 IPQ8065 2코어 프로세서, 512MB 램, 256MB 플래시, 2.4/5GHz 듀얼밴드 4x4 MU-MIMO, 800+1733Mbps 무선, 802.11ac Wave2. R7800 나이트호크 X4S와 스펙이 거의 같지...

Date2018.05.16 분석 By낄낄 Reply5 Views946

Read More
피나클릿지와 라이젠의 미래

어제 피나클릿지가 정식으로 출시되었습니다. 출시와 함께 벤치마크 및 대략적인 성능도 공개가 되었는데요. 이에 대해서 예상된 성능대로 나왔다는 의견과 그럼에도 불구하고 아쉽다는 의견이 대다수인것 같습니다. 저는 예상된 성능대...

Date2018.04.20 분석 ByMoria Reply12 Views4691

Read More
인텔을 비롯한 프로세서 회사가 견인하는 HBM3 규격

광대역 고용량으로 바뀐 2세대 HBM2 HBM2에 들어가는 DRAM의 가격 자체가 비싸며, 베이스 로직 다이가 필요하고, 구현 과정에선 CPU나 GPU 사이에서 배선을 연결하는 인터커넥트가 필요합니다. 그래서 비쌀 수밖에 없고, 현재 이를 채택한...

Date2018.03.21 분석 By낄낄 Reply4 Views4040

Read More
광대역, 대용량에 초점을 맞춘 2세대 HBM2 메모리

HBM2 규격의 진정한 성능을 제공. 2세대 HBM2 메모리와 스토리지 계층에서 작업 메모리는 프로세서 가까이에 위치(함께 패키지)한 Near Memory와, 확장 메모리 슬롯에 장착한 Far Memory로 나뉩니다. 니어 메모리는 더 넓은 대역, 더 많은...

Date2018.03.21 분석 By낄낄 Reply1 Views2471

Read More
32GB, 1.36TB/s의 GPU 메모리를 제공. 2세대 HBM2

전송 속도를 더 높인 새로운 버전의 HBM2 가까운 미래의 하이엔드 컴퓨팅 GPU나 매니코어 프로세서의 메모리는 최대 대역폭이 1TB/sec 이상에 도달하며, 용량은 32GB가 당연해지고, 소비 전력은 더욱 줄어듭니다. 스택 구조의 DRAM인 HBM ...

Date2018.03.06 분석 By낄낄 Reply4 Views4549

Read More
3D 낸드 기술 개발 경쟁: 도시바/WD 연합과 삼성의 격돌

일본인이 쓴 글이다보니 아무래도 일본 기업인 도시바를 좀 높게 평가하는 뉘앙스가 있습니다. 하지만 일단은 그대로 옮겨 봅니다. 기술의 도시바, 사업의 삼성이라는 질긴 인연 낸드 플래시 메모리를 발명한 기업은 도시바입니다. 낸드 ...

Date2018.03.02 분석 By낄낄 Reply8 Views2125

Read More
AMD가 목표하는 멀티 다이 통합의 첫 걸음. ZEN의 MCM

무어의 법칙 이후 시대의 컴퓨팅 칩 개발 공정 기술의 진보를 통한 성능 향상과 비용 절감의 속도가 느려지고 있습니다. 이는 프로세서 업계의 공통된 인식이기도 합니다. 따라서 프로세서 회사들은 다양한 방법으로 무어의 법칙 이후 시...

Date2018.03.01 분석 By낄낄 Reply12 Views3649

Read More
AMD 멀티 다이 전략의 선구자, 제플린 아키텍처

MCM (Multi-Chip Module)에 최적화된 레이아웃 AMD는 앞으로 컴퓨팅 칩에서 여러 다이를 하나의 패키지에 통합한 멀티 다이를 목표로 하고 있습니다. 앞으로 공정 기술의 발전에 비춰볼 때, 멀티 다이를 도입해야 제조 비용 상승을 억제하...

Date2018.02.28 분석 By낄낄 Reply3 Views2686

Read More