NVIDIA가 암페어에 대한 질문에 답했습니다.
우선 뜬금없이(?) RTX IO에 대한 언급이 많네요.
https://www.techpowerup.com/271705/nvidia-rtx-io-detailed-gpu-assisted-storage-stack-here-to-stay-until-cpu-core-counts-rise
SSD에서 압축되지 않은 데이터를 PCIe 4.0 NVMe sSD의 최고 속도인 7GB/s로 불러오려면 2개의 CPU 코어를 최대한 활용합니다. I/O 리퀘스트가 많을수록 성능에 영향을 줍니다.
NVIDIA RTX I/O는 다이렉트스토리지를 활용해(https://gigglehd.com/gg/8123501) 데이터의 압축을 더욱 빠르게 해제합니다. 'RTX'가 붙어 있기에 지포스 GTX 시리즈에선 쓰진 못합니다. 튜링에선 가능합니다.
RTX I/O를 위한 특별한 SSD 요구 스펙은 없으나, PCIe 4.0 NVMe SSD가 더 나은 결과를 줄 거라고 답합니다. RTX I/O는 I/O에 필요한 CPU 부하를 줄이고 GPU에서 그래픽 데이터의 압축을 풀어내 SSD 성능을 높입니다.
RTX I/O는 기존 방식보다 훨씬 빠르게 데이터를 불러오지만, 프레임 버퍼 메모리를 대체하는 기술은 아닙니다. 대신 CPU 오버헤드를 낮춰줍니다. 또 머신 러닝 라이브러리에서도 쓸 수 있습니다.
RTX 30 시리즈에서는 쿠다 코어의 수도 바뀌었습니다. 암페어는 튜링보다 두배 더 많은 FP32 처리량을 목표로 삼았습니다. 이를 위해 암페어의 SM은 FP32와 INT32 작업을 위한 새로운 데이터 경로 설계를 도입했습니다.
각 파티션의 데이터 경로는 1클럭당 16개의 FP32 작업을 수행하는 16개의 FP32 쿠다 코어로 구성됩니다. 또 다른 경로는 16개의 FP32 쿠다 코어와 16개의 INT32 코어로 구성됩니다.
그 결과 암페어 SM 파티션은 1클럭 당 32개의 FP32 작업이나 16개의 FP32 + 16개의 INT32 작업을 수행합니다. 이는 튜링 SM의 FP32에서 두배 빨라진 속도입니다. 처리량을 두배로 늘리기 위해 공유 메모리와 L1 캐시 성능을 높였습니다.
PCIe 3.0에 암페어를 장착할 경우 몇% 정도의 성능 하락이 있습니다.
RTX 3080은 케이블 분배 말고 완전히 분리된 2개의 케이블을 사용해 연결하길 권장합니다.
RTX 인코더는 AV1 디코드 지원이 추가됐습니다.
NVIDIA 리플렉스는 900 시리즈 이후 제품부터 사용 가능합니다.
이중 기류 설계는 케이스 방향과 상관 없습니다. 그래픽카드를 뒤집어 장착하는 케이스도 상관이 없다고 합니다. RTX 3090의 파운더스 에디션은 타이탄 RTX나 RTX 2080 슈퍼 파운더스 에디션보다 조용합니다.
암페어 아키텍처는 HDMI 2.1을 지원합니다. 48Gbps의 완전한 대역폭, DSC, 8K 해상도, HDR 모두.
DLSS 2.1은 8K 초 고성능 모드, VR 지원, 동적 해상도 지원이 추가됐습니다.
RTX 3080에 10GB 메모리를 쓴 이유는? 돈 때문입니다. 10GB가 아니라면 20GB를 써야 하는데 그러면 699달러로는 절대로 맞출 수 없기 때문입니다. 메모리 버스를 320비트에서 더 올리면 그것도 돈이고, 낮추면 성능에 영향을 주겠죠.