[H/W]
☞ 엔비디아 에이다 러브에이스 RTX GPU
- 신경망 렌더링 알고리즘 : 프로그래밍화 쉐이더, RT 코어 및 텐서 코어에서 실행됨.
- 총 이미지 처리량 : 암페어 RTX GPU 세대보다 엄청난 도약이고, 실제 성능이 이를 뒷받침함.
- 래스터화 게임 : 최대 2배 / 레이 트레이싱 게임 : 4배 더 빠름.
- 전력 효율성 : 암페어 RTX GPU 세대 대비 2배 이상 효율성 자랑.(동작 클럭을 실험실에서 3Ghz 이상으로 한계까지 오버클럭함)
☞ 에이다 러브에이스 기반 지포스 RTX 4000 GPU의 비약적 도약
- 전체 레이 트레이싱(신규 RT 코어, 쉐이더 코어, 신규 텐서 코어)
- 신규 SER 기능
- DLSS 3.0 지원
☞에이다 러브에이스 기반, 엔비디아 RTX 4000 라인업 공개!!!!!
① 엔비디아 지포스 RTX 4090 GPU
- 메모리 : 24GB GDDR6X
- 성능 비교 : 3090 Ti GPU보다 2배 ~ 4배 빠름
- 가격 : 1,599달러
- 출시일 : 2022년 10월 12일
- 신규 SER 기능이 포함된 SM
- 불투명도 마이크로맵 및 마이크로 메쉬 엔진 기반 신규 RT 코어
- FP8 트랜스포머 엔진을 탑재한 신규 텐서 코어
- DLSS 3.0 지원 픽셀 처리를 위한 300 TOPS 광학 흐름 가속기 탑재.
※ RTX 4090이 마이크로소프트 플라이트 시뮬레이터에서 2배 빠르고, RacerX에서 4배 빠름.
② 엔비디아 지포스 RTX 4080 GPU
- 메모리 : 12G 및 16G GDDR6X
- 성능 비교 : 3080 Ti GPU보다 3배 빠름
- 가격 : 12G 탑재 기준(899 달러), 16G 탑재 기준(1,199 달러)
- 출시일 : 2022년 11월 예정
[S/W]
☞ RacerX : 엔비디아 옴니버스로 구축된 인터랙티브 시뮬레이션
- 물리적 시뮬레이션
- 레이 트레이싱 구현(조명, 반사, 굴절)
- 실행 필요 H/W : 1개의 GPU로 실행.
★ 사전 렌더링 혹은 제작되지 않음.
☞ 엔비디아의 신규 애플리케이션 구동 반도체 및 플랫폼 범위 확장용 최초의 클라우드 서비스 공개 발표!
☞엔비디아, 게임 모딩용으로 옴니버스 애플리케이션인 'RTX 리믹스' 출시 발표
- 게임 시작시 옴니버스에 로드되는 USD로 게임 캡쳐
- RTX 리닉스 : AI 지원 도구세트(텍스처 및 에셋 해상도 향상 전용 딥 러닝 모델, 정확한 물리적 특성을 갖는 재료를 변환하는 AI 모델이 포함됨)
- 완료시 RTX 모드 팩을 내보내고, RTX 렌더러로 게임 플레이를 시작함.
※ 마이크로소프트 게이밍 산하 제니맥스 미디어(베데스다 소프트웍스)에서 발표한 '엘더스크롤 3 : 모로윈드' 게임을 대상으로 사용 중에 있다고 함.
☞ GPU 프로그래밍화 쉐이딩
- 25년 전에 프로그래밍화 고급 음영처리 GPU를 도입.
- SIGGRAPH 2018에서는 2개의 신규 프로세서로 프로그래밍이 가능한 쉐이더를 확장한 엔비디아 RTX GPU를 출시함.
(RT 코어 : 레이 트레이싱 전용 구현 코어 / 텐서 코어 : 딥 러닝의 핵심인 행렬 연산 처리)
☞ 엔비디아 RTX 전체 스택 인벤션
- 1세대 RTX : VkRAY, DXR, DLSS 1.0
- 2세대 RTX : 엔비디아 실시간 디노이저, 리플렉스, RTXDI, RTXGI, DLSS 2, Caustics
- 3세대 RTX : 실시간 경로 추적(패스 트레이싱), 쉐이더 실행순서 재배치, 2D SGM, 광학 플로우, DLSS 3, Opacity 마이크로 맵, Displaced Micro-Meshes
※ RTXGI : 레이 트레이싱을 이용하여 실시간 멀티 바운스 간접광을 처리
※ RTXDI : 레이 트레이싱을 이용하여 수백만 개 광원에서 나오는 직접 조명 처리 및 모든 조명에서 그림자를 구현함.(광고판, TV 스크린, 네온 튜브 등 방사 표면에 사용된다고 함)
※ NRD(엔비디아 실시간 디노이저) : 불완전 레이 트레이싱화된 이미지를 실측 정보를 추론 및 필요한 레이의 개수를 줄이는 시공간 노이즈 제거 기술
[키워드]
☞ 로켓 추진 엔진 = 가속 컴퓨팅(연료는 AI)
[기능]
☞ 쉐이더 실행 순서 재배치(Shader Execution Reordering)
- 레이 트레이싱 특성 : 빛이 사방으로 반사 및 다양한 유형의 표면을 교차하여 병렬화가 어렵기로 악명이 높음.
- 레이 트레이싱 워크로드 : 여러 스레드가 서로 다른 쉐이더 처리 혹은 결합 또는 캐시가 어려운 메모리에 액세스함.
- SER은 GPU의 리소스를 최대한 활용하고자, 고급 음영 처리 워크로드를 즉석에서 재조정하여 실행 효율성 개선.
※ 이 신규 기술 덕분에 레이 트레이싱은 2 ~ 3배 증가하고, 전체 게임 성능은 25% 향상함
☞ 엔비디아의 신규 AI 업스케일링 기술인 DLSS 3(Deep Learning Super Sampling 3)를 도입함.(픽셀 단위가 아닌 완전한 신규 프레임을 생성)
- DLSS 3 : 신규 광학 흐름 가속기, 게임 엔진 모션 벡터, 컨볼루셔널 오토인코더 AI 프레임 생성기, 리플렉스 초저지연 파이프라인 등 4개 구성 요소를 탑재함.
- 광학 흐름 가속기 : 신경망 네트워크에 프레임별 픽셀 방향 및 속도를 제공
- 광학 멀티 프레임 세대 : 게임의 프레임 쌍을 지오메트리 및 픽셀 모션 벡터와 함께 신경망 네트워크에 제공하여 중간 프레임을 생성함.
★ DLSS 3 : 그래픽 파이프라인으로 처리하지 않고, 신규 프레임을 생성하여 게임성능을 4배 향상시킴.(게임에는 관여하지 않음)
★ DLSS 3 버전 적용 게임 발표
① CD 프로젝트 레드, '사이버펑크 2077'의 SER 및 DLSS 3.0 지원 공식 발표!
①-1. 최신 게임에는 조명 효과만을 위해서 모든 픽셀에 대해 600개 이상의 레이 트레이싱 연산을 실행함.(4년 전에 실시간 레이 트레이싱을 처음 도입 시 비교하면 16배 증가함)
①-2. 이번에는 AI를 통하여 4년 만에 16배 향상된 성능을 제공함.(일부 픽셀은 계산되나 대부분은 예측됨)
② 마이크로소프트 플라이트 시뮬레이터, DLSS 3 지원 공식 발표.
③ 밸브 코퍼레이션, 포탈(2007) 게임의 DLSS 3 지원공식 발표(옴니버스 활용, 2022년 11월, 기존 포탈 게임 소유자는 무료 DLC로 제공)
☞ 엔비디아 RTX로 실시간 레이 트레이싱을 출시
- RT 코어 : BVH 횡단 및 레이 트라이앵글 교차 테스트 수행하여 SM이 각 레이에 수천 개 명령을 소비하지 않도록 함.
- DLSS : 컨볼루셔널 오토인코더 AI 모델을 사용하여 저해상도 현재 프레임과 고해상도 이전 프레임을 이용하여 픽셀 대 픽셀 기반으로 더 높은 해상도의 현재 프레임을 예측함.
- AI 모델 : 초고해상도 16K 참조 이미지를 예측하도록 트레이닝.(신경망 훈련)
[아키텍쳐]
☞ 엔비디아, 3세대 RTX GPU인 에이다 러브에이스 마이크로아키텍쳐 공식 발표!
- 1개의 GPU로 RacerX를 완전하게 구동함
- 코드명인 에이다 러브에이스는 세계 최초 컴퓨터 프로그래머로 알려진 수학자인 '에이다 러브에이스'에서 따옴
- 제조공정 및 트랜지스터 : TSMC 4nm 공정, 760억개
- GPU 메모리 : 마이크론 GDDR6X 메모리
- GPU(CUDA) 코어 : 이전 암페어 기반 RTX 2000 시리즈보다 70% 많은 18,000개 이상 탑재 및 통합
- 쉐이더 : 신규 스트림 멀티프로세서(90 쉐이더 테라플롭스), 2배 전력 효율성 향상
- 레이 트레이싱 : 3세대 신규 RT 코어(200 레이 트레이싱 테라플롭스), 2배 레이 트레이싱 교차로 처리량 향상
- 딥 러닝 : 4세대 텐서 코어(1,400 페타 텐서 테라플롭스), 광학 순서도 가속기
- 호퍼 기반 H100 GPU의 FP8 트랜스포머 엔진 탑재
① 신규 기술인 '쉐이더 실행 순서 재배치(Shader Execution Reordering)'를 탑재 : 즉석에서 작업을 재조정하여 레이 트레이싱 속도를 2~3배를 높임.(GPU판 비순차적 실행 처리 기술)
② 신규 엔진인 '불투명도 마이크로맵 엔진(알파 테스트 지오메트리의 레이 트레이싱 속도 2배 향상)'과 마이크로 메쉬 엔진(BVH 빌드 및 무비용 스토리지로 지오메트리의 풍요로움 구현)을 탑재함.
|