컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2018.08.26 02:57

지포스 RTX 20, 그는 도대체...

조회 수 3838 댓글 5

Extra Form
참고/링크	https://www.4gamer.net/games/421/G042134/20180822135/

실시간 레이 트레이싱 전용 RT 코어를 탑재한 세계 최초의 GPU 아키텍처 튜닝, 이를 채택한 차세대 GPU인 지포스 RTX 20 시리즈가 발표됐습니다. 여기에서 사람들이 궁금할 것이라 생각되는 부분만 정리한 글입니다.

하이브리드 렌더링

젠슨 황은 지포스 RTX 20의 발표에서 하이브리드 렌더링이란 표현을 많이 썼습니다. 이걸 이해하려면 기존의 실시간 그래픽 렌더링이 모두 라스터라이징(Rasterizing)이라는 렌더링 기법을 쓴다는 점을 알아야 합니다.

라스터라이징은 '디스플레이 화면을 구성하는 각각의 화소에 맞춰 평면 다각형을 그리고, 특정 시점에서 해당 화소를 그려내 빛과 그림자를 그려내는' 것입니다. 그려내야 하는 3D 장면 중 화면에 들어가는 영역과 그려지지 않는 영역(시야에서 벗어나는 영역)을 구분, 불필요한 부분은 대담하게 쳐내서 빠르게 렌더링하는 게 특징입니다.

반면 레이 트레이싱은 특정 시야에서 화면의 각 화소를 통과하는 시선의 연장선상에 그려내야 하는 오브젝트가 있으면 거기에서 레이(광선)을 사출합니다. 시야 밖이건 화면 안이건 해당 3D 장면에서 레이가 다른 오브젝트에 도달하면 빛의 정보를 수집해 렌더링에 반영합니다. 물론 계산에 한계가 있으니 몇 개의 레이를 쬐는지는 프로세서의 성능에 따라 달라집니다.

NVIDIA는 RTX 하이브리드 렌더링이라는 표현을 흐지만, 사실 하이브리드 렌더링은 이미지네이션 테크놀러지가 먼저 쓴 단어입니다.

그럼 레이 트레이싱과 라스터라이징을 어떻게 잘 나눠서 쓰느냐가 문제인데, 일반적인 오브젝트의 라이팅과 쉐이딩은 라스터라이징, 그림자나 환경 조명, 앰비언트 오큘루전, 리플렉션, 리플렉션에 의한 투명/굴절, 글로벌 일루미네이션(전역 조명에 의한 간접 조명 재현)은 레이 트레이싱을 쓰는 게 당연해 보입니다.

위에서 레이 트레이싱에 할당된 요소는 모두 라스터라이징에서 완벽히 구련하긴 어렵습니다. 물론 하이브리드 렌더링에서 레 트레이싱에 할당하는 요소가 늘어날수록, 레이 트레이싱에서 정보를 수집하는 광선의 수가 늘어나고 광선이 쬐어지는 시간도 늘어나니 부하가 늘어납니다. 그래도 튜링이 나오지 않았던 GDC 2018에선 레이 트레이싱을 쓰는 오브젝트가 한개 정도였다면 지포스 RTX가 나온 게임스컴 2018에는 1개보다는 더 많은 오브젝트에 쓸 수 있을 것이라고 기대됩니다.

RTX

2018년 3월에 열린 GDC 2018에서 NVIDIA는 자사의 RTX 테크놀러지가, 마이크로소프트의 레이 트레이싱 파이프라인을 다이렉트 X에 통합한 다이렉트 X 레이 트레이싱(DXR) 런타임 프로그램을 작동하는데 필요한 요소라고 소개했습니다.

이 설명 자체는 틀리지 않지만 이번 발표에선 '기존의 라스터라이징에 의한 렌더링, 레이 트레이싱에 의한 렌더링, CUDA의 GPGPU 처리, 그리고 텐서 코어의 추론 가속까지 포함하는 통합 렌더링이다'고 새로 정의했습니다.

다만 RTX는 GPU 드라이버와 상당히 가까운 층에 위치하기에 레이 트레이싱 렌더러 개발자는 Optix, 게임 개발자는 DXR과 벌칸까지만 알면 됩니다. 그래서 이 런타임 구조를 신경 쓸 필요는 없습니다. 위 이미지에서 아래로 갈수록 하드웨어에 가까워지지요.

RTX 최상층에는 MDL (Material Definition Language)이 있습니다. 물리적 재질의 반사 특성과 광원의 발광 특성을 절차적으로 설명하는 언어입니다. MDL은 게임보다는 영상 제작의 오프라인 렌더링에 주로 씁니다. 게임 그래픽은 물리 기반 렌더링이 많이 쓰인다지만, 물리 반사 특성의 메커니즘이 매우 간단하고 원시적이며 단순하기 때문입니다. 또 그래픽 엔진에서 지원하는 반사 특성의 변수가 다양해, MDL 라이브러리에서 정의한 내용을 재현하는 수준까지는 도달하지 못합니다.

정리하면 NVIDIA는 실시간 레이 트레이싱 처리하는 RT 코어를 작동시키고, 여기에 GPGPU 추론 가속기인 텐서 코어를 그래픽에 넣는 상호 호환성 interoperability을 실현하도록 드라이버 구조를 다시 설계할 필요가 생겨났습니다. 이는 NVIDIA만의 플랫폼이니 나름대로 이름인 RTX를 붙인 겁니다.

튜링 프레임

지포스 RTX 20 시리즈의 발표에서 그 정체를 모르는 단어가 여럿 나왔는데, 그 중 하나가 1 튜링 프레임(1 Turing Frame)입니다. 1 튜링 프레임은 "1 프레임을 렌더링할 때 튜링 세대의 GPU 코어는 어떤 단계를 거쳐 작동하는가를 묘사'한 것이나, 위 그림은 어디까지나 예시일 뿐이며 반드시 저런 구조대로 처리된다는 건 아닙니다. 그냥 예시입니다.

일단 그림을 보면 녹색이 레이 트레이싱, 레이를 만들어 발광하고 충돌 판정을 실시합니다. RT 코어가 맡은 역할이죠.

그 다음 FP32 쉐이딩은 버텍스 파이프라인에서 버텍스 쉐이더와 지오메트리 쉐이더, 헐 쉐이더, 도메인 쉐이더 등의 다양한 쉐이더와 픽셀 파이프라인, 픽셀 쉐이더가 일을 맡은 부분입니다. 부동소수점 처리니까 FP, 32비트니까 32겠지요? 라스터라이저건 레이 트레이싱이건 버텍스 파이프라인과 픽셀 파이프라인의 작업 내역, 사용하는 기능은 변하지 않습니다.

INT32 쉐이딩은 정수 연산의 처리를 나타내는 부분으로 이미지의 질감, 마스크 텍스처를 다룬 픽셀 쉐이더 처리가 여기에 해당됩니다.

DNN 프로세싱은 텐서 코어에 가속된 추론 엔진으로 렌더링 결과에서 노이즈 저감 처리(denozing)과 안티 앨리어싱 같은 각종 후처리를 실시하는 부분입니다.

RTX-OPS

지포스 RTX 20의 발표에서 나온 단어 중 가장 신비로운 것이 RTX-OPS라는 독특한 단위입니다. 젠슨황의 말을 그대로 소개하면 RTX-OPS는 튜링 세대의 GPU 코어를 탑재힌 지포스 RTX, 쿼드로 RTX 시리즈가 1초에 수행하는 처리량을 나타낸 성능 값입니다. GPU 코어의 부동소수점 연산, 정수 연산, RT 코어, 텐서 코어의 이론적인 성능 값을 모두 다 더한 결과입니다.

NVIDIA는 튜링 세대의 코어를 비교할 때는 RTX-OPS를 써달라고 말합니다. RTX 2080 Ti는 78, RTX 2080은 60, RTX 2070은 45입니다.

그래요. 다 좋습니다. 문제는 이 78, 60, 45가 어떻게 나온건지 그 이유를 모른다는 겁니다. 앞서 나온 1 튜링 프레임에서 각종 성능 지표가 있으나 이걸 어떻게 더해도 78 RTX-OPS가 나오진 않습니다.

그러니 RTX-OPS가 뭐냐고 물어보면 그 대답은 '아직 모른다'가 되겠습니다.

튜링은 파스칼보다 얼마나 빠른가?

NVIDIA가 RTX-OPS를 만든 이유는 다른 데 있을지도 모릅니다. 오랫동안 성능의 기준으로 사용한 'CUDA 코어 수와 부스트 클럭을 토대로 계산한 FLOPS를 써서 튜링 GPU를 기존 제품과 비교하면 별 차이가 나지 않아서 그럴수도 있겠죠. 반대로 말하면 지포스 GTX 10 시리즈에서 크게 성능 향상을 이룬 부분은 RT 코어와 텐서 코어빨을 많이 받기에 이걸 어필하지 않으면 지포스 RTX의 매력이 떨어집니다.

지포스 RTX 20 시리즈와 지포스 GTX 10 시리즈의 성능을 CUDA 코어를 가지고 비교하면 이렇습니다.

RTX 2080 Ti : 13.45 TFLOPS
GTX 1080 Ti : 11.34 TFLOPS
(점수 차이 약 19 %)

RTX 2080 : 10.07 TFLOPS
GTX 1080 : 8.87 TFLOPS
(점수 차이 약 14 %)

RTX 2070 : 7.46 TFLOPS
GTX 1070 : 6.46 TFLOPS
(점수 차이 약 15 %)

물론 성능은 올랐습니다. 하지만 지포스 GTX 11이 아닌 지포스 RTX 20임을 감안하면 FLOPS가 그리 획기적으로 변하진 않은 것처럼 보입니다. 이것이 '튜링은 파스칼보다 얼마나 빠른가?'에 대한 답변입니다.

지포스 GTX 10 시리즈는 TSMC 16nm 공정으로 제조하지만 지포스 RTX 20은 TSMC의 12nm(12nm FFN)을 씁니다. 1세대 개선된 것처럼 보이나 12nm는 16nm를 손본 공정이기에 동작 클럭이나 트랜지스터 수가 그리 많이 변하지 않습니다. 이를 감안하면 CUDA 코어 기준 성능 향상은 오히려 괜찮다고 해야 할 겁니다.

그래서 FLOPS 대신 RTX-OPS로 성능을 비교하면 RT 코어와 텐서 코어에서 나온 성능을 더해야 하니까, RTX 아키텍처가 아닌 지포스 GTX 10 시리즈의 점수는 떨어지고 지포스 RTX 20 시리즈가 높아집니다. 그래서 NVIDIA가 RTX-OPS를 도입한 겁니다.

쿼드로 RTX는 DLAA, 지포스 RTX는 DLSS

튜링 아키텍처는 딥 러닝의 데이터를 가지고 추론을 수행하는 가속기인 텐서 코어를 탑재합니다. 볼타 아키텍처의 GPU는 AI 연구 개발 및 런타임 가속용으로 텐서 코어를 썼는데, 이걸 그래픽 처리 결과를 확장하거나 포스트 이펙트 후처리에 쓸 수 있다고 판단해 튜링에도 텐서 코어를 넣었습니다.

이 포스트 이펙트 처리에 대해서 쿼드로 RTX를 발표할 땐 DLAA(Deep Learning Anti-Alising)라고 소개했습니다. DLAA는 노이즈나 계단 현상이 보이는 레이 트레이싱 결과물을 가지고 노이즈가 없는 렌더링 결과와의 관계를 학습시켜, 입력된 영상에서 노이즈와 계단 현상을 줄여나가는 후처리입니다. 실제로 노이즈 감소와 계단 현상 감소(안티 엘리어싱)은 딥 러닝 학습 모델과 학습 데이터에서 모두 분리되지만, DLAA의 소개 이미지에선 안티 앨리어싱과 노이즈 감소 기능을 모두 포함한 것처럼 모호하게 표현했습니다.

그런데 이번에는 그 애매모호함이 줄었습니다. DLSS(Deep Learning Super Sampling), 딥 러닝을 활용한 슈퍼 샘플링입니다. 이거라면 '딥 러닝 기반 안티 앨리어싱'보다는 좀 더 받아들이기 쉽겠죠.

NVIDIA는 NGX라는 딥 러닝 기반 영상 고품질 처리 학습 모델을 만들어내는 프레임워크에 대해 설명했습니다.

렌더링 결과를 가지고 텐서 코어를 활용한 후처리 효과를 더해 고화질로 바꿀 수 있다며 데모 시연도 했습니다.

렌더링 결과물의 수준을 높이는 작업을 AI가 맡는다면 좀 믿기 어렵지만, 실제로 요새 나오는 고급형 TV는 이미 딥 러닝 기반 초고해상 엔진을 탖배하며, 디지털 방송 영상의 품질을 높이는 데에도 씁니다. 그런 의미에서 DLSS는 TV가 하드웨어적으로 수행하는 고화질 처리를 텐서 코어를 써서 실시간으로 게임 그래픽에 적용한다고 봐도 됩니다.

지포스 RTX와 쿼드로 RTX의 관계

지포스 RTX 20 시리즈는 쿼드로 RTX와 동일한 아키텍처를 씁니다. 실리콘 다이까지 같은지는 아직 알지 못합니다. 일단 NVLink를 쓰는 지포스 RTX 2080 Ti와 RTX 2080은 쿼드로 RTX의 최상위 다이인 쿼드로 RTX 8000과 같은 다이를 쓸 가능성이 있긴 합니다. 그러나 쿼드로 RTX 8000의 CUDA 코어 수는 4608개, RTX 2080은 2944개. 64%만 쓴다면 대단한 낭비입니다. 실리콘 수율이 그렇게 형편없다고 보기도 어렵습니다. 따라서 RTX 2080이 RTX 8000과 같은 다이, RTX 2080과 RTX 2070이 같은 다이를 쓴다고 여겨집니다.

다만 70 시리즈면 그래도 고급형에 속하는데 여기서 SLI를 지원하지 않는 것도 이상합니다. 어찌보면 NVLink를 지원하지 않는 다른 다이를 만들어 RTX 2070으로 판매한다고 해석할 가능성도 있습니다.

어쨌건 RTX 2070은 세금 별도 499달러로 나름 파격적인 편입니다. 전략적인 가격 설정이던가, 그만큼 다이 크기가 작다는 의미일수도 있겠습니다. 하여간 RTX 2080 Ti와 RTX 2070은 다른 다이를 사용할 겁니다.

지포스 RTX 20의 내부 구조

여기에 대해 알려진 정보는 없지만 계산해 봅시다. 쿼드로 RTX 8000의 CUDA 코어 수는 4608개니까-

6 (GPC) × 12 (SM) × 64 (CUDA Core) = 4608 CUDA Core

라고 공식이 나옵니다. GPC(Graphics Processing Cluster)는 GPU 안의 미니 GPU, SM은 GPC 안의 연산 유닛(Streaming Multiprocessor)입니다. 물론 이 계산이 맞는지는 아직 모릅니다. 이게 맞다고 가정하고 봅시다.

RTX 2080 Ti의 메모리 인터페이스는 352비트, 쿼드로 RTX 8000의 384비트보다 32비트 작습니다. 이는 지포스 GTX 1080 Ti와 NVIDIA 타이탄 X에서 있었던 일이니 32비트 메모리 컨트롤러 1개가 무효화됐다고 보면 됩니다.

RTX 2080 Ti의 기본 스펙을 쿼드로 RTX 8000의 계산식에 맞춰보면 CUDA 4352개, SM 12개, GPC 5개, 8개의 SM이 한 묷음이라고 보면 됩니다.

5 (GPC) × 12 (SM) × 64 (CUDA Core) +1 (GPC) × 8 (SM) × 64 (CUDA Core) = 4352 CUDA Core

마찬가지로 RTX 2080은 CUDA 코어 2944개니까 12개의 SM을 넣은 GPC가 3개, 10개의 SM을 넣은 GPC가 1개 된다고 보여집니다.

3 (GPC) × 12 (SM) × 64 (CUDA Core) +1 (GPC) × 10 (SM) × 64 (CUDA Core) = 2944 CUDA Core

RTX 2070도 마찬가지입니다. CUDA 코어 수가 2304개니까 9개의 SM을 포함한 GPC 4개라고 가정하면 계산이 맞습니다.

4 (GPC) × 9 (SM) × 64 (CUDA Core) = 2304 CUDA Core

RTX 2070이 상위 2개 모델과 다른 다이를 쓴다면 GPC의 SM 수를 줄인 지포스 RTX 2060을 만들기란 어렵지 않습니다. 반대로 RTX 2070과 RTX 2080의 다이가 똑같다면 NVLink SLI를 지원하는 지포스 RTX 2070 Ti가 사이에 나올 가능성이 있습니다.

RTX 2080 Ti의 메모리가 11GB인 이유

앞서 언급한대로 RTX 2080 Ti의 그래픽 메모리 인터페이스는 352비트, 이걸 32비트로 나누면 11입니다. 즉 RTX 2080 Ti에 연결된 GDDR6 비디오 메모리는 8Gbit 11개입니다.

352비트 비디오 메모리 인터페이스, 비디오 메모리 용량 11GB의 구성은 지포스 GTX 1080 Ti와 같으니 별로 신기할 건 없습니다.

지포스 RTX 2080 Ti와 쿼드로 RTX 8000의 CUDA 코어는 다른데 왜 RT 코어 성능은 같은가?

지포스 RTX 2080 Ti의 CUDA 코어 수는 4352개, 쿼드로 RTX 8000과 그 하위 모델인 쿼드로 RTX 6000의 CUDA 코어 수는 4608개입니다. 그런데 레이 트레이싱 가속 장치인 RT 코어의 성능은 10G Rays/s(1초에 10억 레이)로 똑같습니다. 그 이유는 지금까지 NVIDIA GPU는 다양한 연산 장치와 실행 유닛을 별도의 연산 유닛으로 취급해 SM에 넣었기 때문입니다. CUDA를 도입한 이후 NVIDIA GPU는 SM 수의 많고 적음이 성능의 높고 낮음을 결정하는 스펙이 됐습니다.

이는 볼타와 튜링 GPU에 탑재한 텐서 코어도 마찬가지입니다. RTX 2080 Ti의 쉐이더와 연산 성능은 14 TFLOPS + 14 TIPS, AI 추론 성능이 FP16 110 TFLOPS입니다. 쿼드로 RTX 8000과 6000의 14 TFLOPS + 14 TIPS, FP16 125 TFLOPS보다 낮은데 이건 오로지 SM 수의 차이에서 비롯된 것입니다.

그럼 RTX 2080 Ti의 CUDA 코어 수가 적은데 어떻게 쿼드로 RTX 8000/6000과 같은 10G Rays/s의 성능을 내는 걸까요? NVIDIA GPU 중에선 지극히 이례적으로, RT 코어가 SM 안에 포함되지 않았다고밖에 생각되지 않습니다.

튜링 세대의 GPU가 지닌 레이 트레이싱 성능은 이렇습니다.

쿼드로 RTX 8000 & 6000 : 10G Rays/s
지포스 RTX 2080 Ti : 10G Rays/s
지포스 RTX 2080 : 8G Rays/s
쿼드로 RTX 5000 : 6G Rays/s
지포스 RTX 2070 : 6G Rays/s

쿼드로 RTX 8000의 클럭은 1.7GHz가 될 거라고 추측되는데, 그렇다면 쿼드로 RTX 8000과 지포스 RTX 2080 Ti는 CUDA 코어 수는 물론이고 GPU 코어 클럭도 달라야 합니다. 따라서 레이 트레이싱 성능이 같다면 RT 코어가 SM이나 GPC 유닛 안이 아니라 GPU 안에 따로 탑재된 구현이라고 보는 게 자연스럽습니다.

그 경우 RT 코어는 GPU의 렌더링 파이프란과 완전히 독립해 비동기적으로 병렬 동작해야 합니다. RT 코어의 기본 역할인 레이의 생성, 추진, 충돌 판정Generation, Traverse, Intersection)은 각 레이의 사용 주기(레이를 만들어서 사라질 때까지의 처리 시간)가 제각각입니다. 그래서 일정 주기에 맞춰 파이프라인에서 결과를 출력하는 SM의 동작과는 상반됩니다.

레지스터와 메모리 같은 자원을 공유하면서 동작은 완전히 비동기, 병렬 수행한다고 봐도 이상하진 않지만, 이건 NVIDIA의 자세한 설명을 기다려야 합니다.

지포스 RTX의 RT 코어 성능

10G Rays/s의 성능은 1920x1080을 60fps로 그려낼 때, 1프레임의 픽셀 당 80개의 광선을 투사하는 수준입니다. 이를 다른 튜링 GPU 그래픽카드에 대입하면 이렇습니다.

쿼드로 RTX 8000 & 6000 : 80 레이
지포스 RTX 2080 Ti : 80 레이
지포스 RTX 2080 : 약 64 레이
쿼드로 RTX 5000 : 48 레이
지포스 RTX 2070 : 48 레이

앞서 말한대로 레이 트레이싱을 사용하는 그림자 생성, 글로벌 일루미네이션, 환경 조명에 의한 그림자, 반사 재질, 반투명 재질 등의 렌더링은 반복되어 돌아오는 레이가 없다고 해도 최소 1레이씩 필요합니다. 따라서 지포스 RTX 2070과 쿼드로 RTX 5000의 레이 트레이싱 가속 성능은 비슷한 수준이라 보입니다. 다만 반사 표면의 재질이나 광원의 크기 등에 따라 광범위하게 레이를 사출하면 GPU마다 RT 코어 성능 차이가 나고 렌더링과 레이 트레이싱 결과가 달라질 가능성은 있습니다.

Variable Rate Shading

쿼드로 RTX 발표에서 NVIDIA는 Variable Rate Shading라는 단어를 사용했습니다. 이는 일종의 LoD(Level of Detail)입니다.

게임 그래픽에서 LoD는 시점에서 가까운 곳의 3D 모델은 세밀한 폴리곤으로, 먼 곳의 3D 모델은 단순한 폴리곤으로 그려내는 것을 의미합니다. 그럼 Variable Rate Shading은? 라이팅과 쉐이딩에도 LoD, 즉 묘사의 차등화를 두겠다는 이야기입니다.

이것은 '시간'과 '공간'에 모두 해당됩니다. 공간을 봅시다. 그림자 묘사에서 일반적인 Foveated Rendering은 시선이 향한 곳을 세밀하게, 거기서 먼 곳은 품질과 해상도를 낮추는 기법입니다. 시간 차례입니다. 캐릭터나 시점의 이동 속도에 따라 렌더링의 품질과 해상도에 차등화를 둡니다. 시점이 빠르게 움직이면 전체 화면에 모션 블러 처리를 하는데, 그러면 낮은품질로 렌더링해도 크게 티가 나지 않습니다.

게임 엔진 중에는 이런 구조를 도입한 경우가 있으나 NVIDIA는 이를 하드웨어 차원으로 지원합니다. 아직 자세한 매커니즘은 밝혀지지 않았으나 튜링 세대의 GPU Variable Rate Shading은 레이 트레이싱과 결합됐다고 추측됩니다. 고품질 렌더링이 필요하면 픽셀 당 레이 사출량을 늘리고, 그렇지 않다면 레이 숫자를 줄이거나 아예 여러 픽셀마다 1개의 레이를 쓰도록 하면 됩니다. 여러 픽셀의 라이팅과 쉐이딩 결과를 공유한다는 건 MSAA(Multi-Sampled Anti-Aliasing)에서 나온 발상이기도 합니다.

실시간 레이 트레이싱은 게임의 표준이 될 것인가

NVIDIA는 지포스 RTX 20 시리즈에 맞춰 DXR, 혹은 RTX를 지원하는 게임 타이틀을 소개했습니다. 그런데 이렇게 최적화를 거친 게임 말고, 게임 전반에서 실시간 레이 트레이싱이 표준으로 자리잡느냐가 중요하지요. 일단은 그렇다고 보기 어렵습니다.

겉으로는 마이크로소프트가 DXR을 내놓고 NVIDIA가 거기에 맞춰 RTX를 내놓은 것처럼 보이지만, 실제로는 NVIDIA가 RTX를 쓰자고 마이크로소프트를 설득해 다이렉트 X에서 RTX를 쓸 수 있도록 DXR이 발표됐습니다. 따라서 GPU에서 레이 트레이싱 가속기를 쓰자고 주장하는 건 NVIDIA밖에 없습니다.

아직 개발 중이지만 레이 트레이싱을 지원한다고 소개한 Asseto Corsa Competizione. 분명 지포스 RTX를 장착한 컴퓨터에서 실행했으나 실시간 레이 트레이싱을 쓰진 않았습니다.

설령 지원한다 해도 그림자 생성과 환경 조명, 그림자 등의 작업에 머무를 것입니다. 그리고 이들 작업은 현재 게임 그래픽 엔진에서 비교적 쉽게 구현할 수 있습니다.

실시간 레이 트레이싱 지원 타이틀 중 하나인 메트로 엑소더스는 그나마 RT 코어를 잘 활용하는 편입니다. 기존에 레이 트레이싱을 쓰지 않는 환경 조명의 간접 재현 매커니즘을 구현하는데 RT 코어를 사용하는 것으로 보입니다.

배틀필드 V도 RT 코어를 지원합니다. BVH(Bounding Volume Hierarchy) 처리에 본격적인 레이 트레이싱을 씁니다. 현재 시점에서 보이지 않는 영역의 이미지를 재현할 수 있어, 웅덩이나 거울에 반사된 이미지로 접근하는 적의 움직임을 파악할 수 있습니다.

다만 이렇게 잘 지원하는 게임은 많지 않을 겁니다. 왜냐면 지포스 RTX 20 시리즈에만 한정된 기능이거든요. 현재 대작 게임은 PC, 콘솔, 스마트폰/태블릿까지 다양한 하드웨어로 출시됩니다. PC는 주요 플랫폼이지만 독점이나 표준 플랫폼으로 작용하는 경우가 드뭅니다. 최근 PS4와 Xbox One용 대작 게임이 PC로 동시 출시되는 건 윈도우 10 환경 덕을 본 것도 있으나, PS4와 Xbox One의 아키텍처와 PC와 흡사해 이식하는데 많은 노력이 필요하지 않아서입니다.

바꿔 말하면 지포스 RTX 20 시리즈의 RT 코어는 어디까지나 추가 개발 과정을 거쳐야 합니다. 따라서 배틀필드 V만큼 RT 코어를 잘 활용한 게임이 더 나오길 기대하기란 힘듭니다. 대부분은 그림자, 환경 조명 등의 사용에 머무를 것입니다.

AMD가 DXR을 지원하는 GPU를 내놔 NVIDIA와 경쟁한다면 상황이 바뀔 수도 있습니다. 그렴 PC와 콘솔이 실시간 레이 트레이싱을 활용한 하이브리드 렌더링으로 발전해 나갈 것입니다. 하지만 그럴 가능성은 낮습니다. AMD는 컴퓨텍스 타이페이에서 'CPU와 GPU를 조합해 레이 트레이싱한다'는 기존의 자세를 유지하고, DXR 지원에 대해선 확실히 밝히지 않았거든요.

AMD 차세대 GPU인 Navi가 DXR을 지원한다고 가정해도 나오기까지 2년이 걸립니다. 즉 2019~2020년에 나올 차세대 PS와 Xbox가 AMD의 커스텀 APU를 쓴다면, 그때 콘솔 게임기에서 레이 트레이싱 가속은 어느 정도 가망이 있습니다. 다이렉트 X가 DXR을 지원하는 이상 중장기적으로는 PC와 Xbox 게임이 레이 트레이싱을 지원해 나갈 거라고 봐야 될지만, 그 속도가 얼마나 빠를지는 NVIDIA가 아닌 다른 GPU 회사에 달려 있다고 해야 됩니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '5'

?
에이징마스터 2018.08.26 03:09

전 DLSS가 제일 끌려요
RT는 흠... 이놈 때문에 가격이 너무 올라갔는데...
TundraMC 자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2018.08.26 11:36

배필에다가 저런걸 박아놓으면 배경과 오브젝트가 한눈에 구별이 안되지 않을까 싶습...
안그래도 좀 지나면 오브젝트 대부분이 파괴되는 배필 특성상...
?
신림동 2018.08.26 14:23

RT 코어가 SM 밖에 있을 수 있다는 추측이 굉장히 흥미롭네요.
NVIDIA에서 튜링 관련 자료 좀 배포해줬으면 좋겠는데, 아직도 깜깜무소식이라 궁금증만 커지네요.
?
마라톤 2018.08.27 08:04

좋은 정보 감사합니다. ^_^
부녀자 2018.08.28 13:34

DX9 DX10 게임은 성능향상이 별로 없을것 같네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

와사비망고 DP 케이블 분해기

에일리언웨어 모니터 사용기 3편을 쓰던 중, DP 케이블의 고질병인 화면 깜빡임 문제가 발생하여 교체용 케이블을 몇 개 주문했습니다. 이 문제의 주요 원인 중 하나로 지목받는것은 20번 핀이 살아있어서 생기는 역전류 문제인데요. 현...

Date2020.03.20 분석 ByAstro Reply9 Views2070

Read More
샤오미 USB 3.0 허브 XMFXQ01QM 분해

샤오미 USB 3.0 허브 XMFXQ01QM의 분해 사진입니다. USB 3.0 포트 4개, USB-C 전원 공급 가능, 케이블 길이 0.24m, 크기 89x23.6x18.5mm, 무게 33g. 4가지 기능을 표시. 개봉 허브와 설명서 USB-A 케이블이 달린 허브입니다. 케이스 재질...

Date2020.03.07 분석 By낄낄 Reply7 Views2520

Read More
AMD 젠 2 CPU 코어의 실제 모습이 공개

AMD는 국제 반도체 학회 ISSCC(IEEE International Solid-State Circuits Conference) 2020에서 젠 2 코어의 구현에 대해 강연했습니다. Zen 2 : The AMD 7nm Energy-Efficient High-Performance x86-64 Microprocessor Core(T. Singh, e...

Date2020.03.03 분석 By낄낄 Reply1 Views3647

Read More
ISSCC 2020: AMD 젠 2 프로세서의 CPU 코어와 칩렛 기술

ISSCC 2020에서 AMD가 시연한 젠 2 프로세서의 액체 질소 쿨링 벤치마크. AMD는 차세대 마이크로 프로세서인 젠2 CPU 코어 기술과 칩렛 기술을 반도체 회로 기술의 국제학회인 ISSCC 2020에서 발표했습니다. 2020년 2월 17일의 발표는 2...

Date2020.02.21 분석 By낄낄 Reply2 Views3177

Read More
현대 PC에서 DOS 부팅 USB를 통해 MS-DOS 사용하기

제가 쓰는 노트북은 Vaio P로, 뛰어난 디자인과 완성도 but 그지같은 성능으로 인해 용도가 지나치게 한정된 제품이죠. 일반적으로 '컴퓨터의 성능' 을 일상생활 속에서 평가한다면, 평가에 대한 기준은 컴퓨터 프로세서의 절대적인 연...

Date2020.02.03 분석 By우즈 Reply21 Views2167

Read More
UGREEN USB-C 멀티포트 어댑터 CM260 분해

UGREEN USB-C 멀티포트 어댑터 CM260의 분해 사진입니다. UGREEN의 멀티포트 어댑터를 한국에서 쓰는 분들이 은근히 많아서 하나 소개해 봅니다. 뒷면의 제품 정보. 포장. 보증서와 설명서. 샌딩 처리된 케이스로 지문이 잘 묻지 않습니...

Date2020.01.31 분석 By낄낄 Reply11 Views2232

Read More
No Image

메모리의 발전과 컴퓨팅의 미래

요 아래 나온 인텔의 MRAM 기술개발 소식( https://gigglehd.com/gg/6517977 )과 같이, 현재 대부분의 반도체 회사들은 계속해서 PRAM, MRAM등의 차세대 매모리를 개발하고 있습니다. 하지만 일반 소비자 입장에서는 지금 당장 사용하질 ...

Date2020.01.27 분석 ByMoria Reply26 Views3333

Read More
No Image

EVGA의 RTX 2060 KO, RTX 2070 SUPER과 비슷한 성능?

유튜버인 Gamers Nexus에 따르면 EVGA RTX 2060에 들어간 칩셋이 TU104라서 RTX 2070 Super과 비슷한 성능을 낸다고 하는군요

Date2020.01.24 분석 By라데온HD6950 Reply4 Views1235

Read More
Ryzen 7 4800U의 내장 그래픽, MX250보다 강력?

(단순 중국어 번역문입니다) 차세대 Ryzen 4000U 시리즈 프로세서가 Zen2 아키텍처의 CPU 코어를 예상대로 사용했지만 GPU는 여전히 Vega 아키텍처에 다소 실망했습니다. 또한 Vega 10에서 Vega 8로 축소되어 2 세트의 컴퓨팅 장치를 거...

Date2020.01.15 분석 By라데온HD6950 Reply19 Views9056

Read More
다들 아시겠지만 축교환 기계식 키보드 주의점

요즘 축교환 키보드가 흔합니다. 3년 전에는 드물었는데 지금은 개나소나 달고 나오죠. 보통은 이렇게 소캣이 ㅇ형태입니다. 이 경우 오테뮤 말고는 호환이 거의 안 됩니다. 오테뮤 축이 유난히 핀이 굵더군요. 반면 -형태의 소캣은 호...

Date2020.01.11 분석 By호무라 Reply17 Views7189

Read More
2019년 SSD 성능 순위

(단순 중국어 번역문입니다) 1 월 9 일 뉴스, Master Lu는 2019 년 하드 드라이브 성능 순위를 발표했으며, 삼성 PM981은 "가장 강력한 하드 드라이브"를, Kingston SA400S37 240GB는 "가장 인기있는 하드 드라이브"를 획득했습니다. 성...

Date2020.01.10 분석 By라데온HD6950 Reply19 Views6046

Read More
2019년 RAM 성능 순위

(단순 중국어 번역문입니다) Master Lu는 연간 PC 프로세서 목록 외에도 2019 년 PC 메모리 순위를 오늘 발표했습니다. 목록에서 8GB는 여전히 PC 플레이어의 첫 번째 선택입니다. 그중 Zhiqi DDR4 4266MHz 8GB는 올해 가장 강력한 메모...

Date2020.01.10 분석 By라데온HD6950 Reply9 Views3155

Read More
2019년 CPU 성능 순위

(단순 중국어 번역문입니다) 1 월 8 일, 마스터 루는 2019 년 PC 프로세서 순위를 발표했습니다. 이 목록은 2018 년 연례 성능 챔피언십에 이어 32 개의 코어와 64 개의 스레드를 갖춘 AMD Ryzen Threadripper 2990WX가 다시 한 번 PC ...

Date2020.01.10 분석 By라데온HD6950 Reply3 Views8222

Read More
2019년 그래픽 카드 성능 순위

(단순 중국어 번역문입니다) 이 목록은 NVIDIA TITAN RTX가 성공적으로 우승했으며 상위 5 개는 모두 N 카드이며 A 카드는 상위 5 개가 아닙니다. 마스터 Lu는 RTX 2080 Ti의 고급 버전으로서 NVIDIA TITAN RTX는 동일한 TU102 코어...

Date2020.01.10 분석 By라데온HD6950 Reply8 Views2734

Read More
스팀에서의 AMD 그래픽 카드 vs 엔비디아 그래픽 카드 점유율 비교 +a

(단순 중국어 번역문입니다) Steam은 사용자의 하드웨어 및 소프트웨어 데이터에 대한 월간 설문 조사를 실시하지만 설문 조사는 사용자의 의지를 기반으로하지만 Steam 플레이어의 전체 하드웨어 및 소프트웨어 상황을 반영 할 수는 없...

Date2020.01.07 분석 By라데온HD6950 Reply22 Views3824

Read More
애플 맥 프로 2019 분해 사진

애플 맥 프로 2019의 분해 사진입니다. 인텔 8코어 제온 프로세서, 부스트 클럭 4GHz, 24.5MB L3 캐시 8GB DDR4-2666MHz ECC 메모리 4개 라데온 프로 580X 8GB GDDR5 256GB PCIe 플래시 스토리지 802.11ac WiFi, 블루투스 5.0 미국 텍사...

Date2019.12.17 분석 By낄낄 Reply27 Views5907

Read More
VLSI: 무어의 법칙 3단계. 멀티 다이로 구성된 모듈화

작은 칩을 모아 큰 칩을 만든다 무어의 법칙은 3단계가 있습니다. 여러 다이로 구성된 칩을 만드는 모듈화, 칩 설계의 완전 자동화까지 앞으로 반도체 칩이 나아갈 방향은 이 3단계에서 이루어진다고 예측합니다. 지금까지는 반도체 칩의 ...

Date2019.10.07 분석 By낄낄 Reply10 Views2555

Read More
No Image

SSD 데이터 복구의 어려움. 스마트폰은 복구가 거의 불가능

일본 데이터 복구 협회가 진행한 데이터 복구 활동 발표회의 내용을 간추렸습니다. 현재 SSD의 출하량은 크게 늘어나고 있습니다. 2015년에는 전세계 8천만대도 팔리지 않았으나 2018년에는 1억 6715만대로 늘어났습니다. 하드디스크는 4...

Date2019.09.22 분석 By낄낄 Reply18 Views5234

Read More
타오바오 NAS는 왜 저렴하게 판매되는가?

아무리 생각해도 이렇게 저렴할 이유가 없는데, 가진 스펙에 비해 타오바오 NAS는 너무 저렴하게 판매되고 있었습니다. 중고라고 쳐도, 이 많은 물량은 어디에서 온 것일까요? 그래서 조금 더 파보니 가상화폐 채굴에 사용되었다가 나온 ...

Date2019.08.31 분석 ByMoria Reply41 Views35559

Read More
부동 소수점 연산. 단정밀도와 배정밀도의 차이

계산식의 자리수를 억제. 부동 소수점 컴퓨터는 숫자를 연산할 때 정수 연산과 소수 연산의 2가지로 나눠 구현합니다. 이건 '처리해야 하는 숫자의 자리수'가 매번 다르기 때문입니다. 정수는 보통 10자리 정도면 충분합니다. 대...

Date2019.08.12 분석 By낄낄 Reply15 Views13322

Read More