정확히는 2020년 10년 4일에 기글하드웨어 운영자님이 디테일과 세부적으로 올려주신 게시글은 있습니다.
하지만, 2020년 8월 19일(미국 현지 시각 2020년 8월 17일)에 핫 칩스 컨퍼런스에서 공식 발표한 'XBOX Series X(XSX) 시스템 아키텍쳐'
컨퍼런스를 제가 자체 직접 번역해서 올린 자료가 있어서 뒤늦게 업로드하여 늦은 감이 있긴 하지만 한번 공개해보고자 합니다.
그 때 당시에 번역을 했을 때는 나름 처음보는 용어도 많았고, 파파고 및 구글 번역기를 통해서 이중 번역으로 최대한 고치고 하느라 해서
나름 고생했던 기억이 새록새록 납니다^^;;
※ 만약에 중복 게시글이라고 판단된다면 자삭하겠습니다.
01 : 엑스박스 시리즈 X(XSX) 시스템 아키텍처 프레젠테이션
Jeff Andrews & Mark Grossman(제프 앤드류 & 마크 그로스맨)
마이크로소프트 애저 실리콘 아키텍쳐 팀
02 : 차세대 콘솔 APU(SOC) H/W의 혁신
- 3.8Ghz AMD Zen 2 아키텍쳐 기반 라이젠 3세대 서버 클래스 CPU 코어
- Sampler Feedback Streaming(SFS, 샘플러 피드백 스트리밍)
- DirectX Ray-Tracing(다이렉트X 레이 트레이싱)
- Variable Rate Shading(VRS, 가변 레이트 쉐이딩)
- Machine Learning Acceleration(머신 러닝 가속 기능)
- DirectX 3D(D3D) Mesh Shading(다이렉트X 3D 메쉬 쉐이딩)
- GDDR 14Gbps, 320-BIT 메모리 버스 => Bandwidth(대역폭) 560GB/s
- XBOX Velocity Architecture(엑스박스 벨로시티 아키텍쳐)
☞ MSP Crypto/Decompression @ NVMe SSD BandWidth
- OPUS Audio Decode(OPUS 오디오 디코드)
- High Quality Sample Rate Converter(고품질 샘플 레이트 컨버터)
- Project Acoustics Acceleration(프로젝트 어쿠스틱스 가속 기능, 오디오 레이 트레이싱)
☞ Convolution / FFT FP Audio Engine
- 8K Capable(8K 해상도 호환), HDMI 2.1 & DSC(HDMI 2.1 기반 Display Stream Compression(디스플레이 무손실 압축 전송 기술),
10Gbps FRL, ALLM(Automatic Low Latency Mode, 자동 저속 지연 모드)
- Variable Refresh Rate(VRR, 가변 화면 주사율), 120Hz Support
- Linear Light Display Processing
- HSP/Pluton ROT, SHACK
03 : XSX SOC 스펙 : 다이 레이아웃
- 공정 : TSMC 7nm 인핸스드 공종 제조
- 다이 크기 : 360.4 mm2
- 탑재 트랜지스터 : 15,300,000,000개(153억개)
- 패키지 : 52.5mm & 52.5mm 크기 기반 2963개 볼 BGA(Ball Grid Array, 볼 그리드 어레이)
- 회로 선폭 : 0.80mm Min Pitch
- 제조사 : AMD(라이젠 CPU, 라데온 GPU 제조사)
04. XSX SOC 스펙 : 블록 다이어그램
05. XSX SOC 스펙 : CPU, GPU, DDR-RAM
① CPU : 8 Core & 16 Thread(옥타 코어 & 헥사데카 스레드) ZEN 2 아키텍처 기반 라이젠 3세대 커스텀 CPU 코어
☞ 작동 속도 : AMD SMT(멀티 스레딩 모드 활성화) ☞ 비활성화 모드(3.8Ghz) & 활성화 모드(3.6Ghz)
- CPU 코어 캐쉬
☞ 코어 당 L1[32KB(Instruction, 명령어 & 데이터) = 토탈 : 64KB], L2(512KB), 4 코어 CCX 기반 L3 공유 캐시 4MB
- CPU 클러스터 : 4C & 8T(쿼드 코어 & 옥타 스레드), L3 4MB 공유 캐시 → L2 + L3 Cache LLC(Last Level Cache, 최종 레벨 캐쉬) 유효 캐시 메모리 용량 12MB
☞ 2x SMID FP 파이프라인 / 코어 : 2 MUL & 2 ADD AVX 256 Per Clock → 32x SPFP Ops/CLK
- XBOX SPLEAP : HW To Prevent Escalation Of Privilege Attacks(하드웨어 권한 상승 공격 방지 기법)
② GPU : 1.825Ghz, 52 CU[컴퓨팅 유닛, 64개 단위 1CU 구성 공식 ☞ 64 * 52 : 3328 스트리밍 프로세서(SP)]
③ RAM
- 메모리 종류 : GDDR6
- 메모리 용량 : 16G
- 메모리 분배 : 16G → 10G(High Memory Interleave, 높은 메모리 동시 접근방식) / 6G(Low Memory Interleave, 낮은 메모리 동시 접근 방식)
- 메모리 데이터 전송폭 : 20채널 * 16G GDDR6 14Gbps → 560GB/s
- 메모리 뱅크 : 총 320비트 메모리 뱅크
- 메모리 보안 : Full BandWidth Cryptography(전체 대역폭 암호화), Integrity Check Regions(무결성 검사 영역)
06. XSX SOC 스펙 : 멀티미디어, IO, 스토리지, ETC
① GPU 비디오 인코딩 / 디코딩
- 구형 480p / 1080p 인코더 + 4K & 8K AVC & HEVC / VP9 HDR 디코딩
- AVC & HEVC HDR 인코딩
② GPU 디스플레이 프로세서
- 전체적 퀄리티 HDR(High Dynamic Rage) & WCG(Wid Color Gamut), 리니어 라이트 HDR 디스플레이 프로세싱과 3D 룩업테이블 실행
- HDMI 2.1[ALLM(Automatic Low Latency Mode, 자동 저속 지연 모드), Variable Refresh Rate(VRR, 가변 화면 주사율),
10Gbps FRL 기능 및 Display Stream Compression(디스플레이 무손실 압축 전송 기술) 등 탑재]
- HDMI 2.1[10Gbps FRL 기능 및 Display Stream Compression(디스플레이 무손실 압축 전송 기술) 등 탑재 및 활성화
HDR 444 YUV & RGB 8K UHD & 60FPS]
③ SERDES I/O 통신
- PCI-E 4.0 기반 8x5
- HDMI 2.1 Gbps FRL
④ 시스템 스토리지
- 내장 커스텀 NVMe SSD(1TB), PCI-E 4.0 x2
- 외장 삽입형 스토리지(시게이트 XSX 전용 확장 카드) → 2nd NVMe SSD, PCI-E 4.0 x2
- 4K UHD Blu-Ray ODD
- 사우스브릿지(PCH, FCH) : PCI-E, USB 3.0, SATA 시스템 컨트롤러, SPI, I2C 기타 등등
- 네트워크 : 1Gbps 유선 이더넷, 무선 Wi-Fi, MS 와이어리스 프로토콜 컨트롤러 Wi-Fi
07. 무어의 법칙 가격 상승 문제 이슈 - H/W 전용 엔진 추가
- 무어의 법칙 곡선 그래프는 효과적인 논리적 밀도 확장에 적합하지만 비용이 상승되는 문제가 존재함.
☞ 참고 자료 : 오른쪽 아래 다이어그램 참조(세부내용 : 2019 HC31, TSMC Keynote 세션 2.7 페이지 4)
- 기존 XBOX ONE(S 기종 및 X 기종)의 16nm Finfet SoC 제조공정보다 XBOX Series X의 7nm TSMC 인핸스드 제조공정을 채택했을 때는 엄청난 노드를 절약할 수 있는 효과를 가져온다고 함.
- 더 높은 웨이퍼 가격 및 낮은 수율은 웨이퍼 단가가 더 높아지기 때문임.
☞ 개선된 H/W, 새로운 H/W 가속기 추가 및 전원 공급으로 SoC 다이 제조공정 비용을 절약하기 위한 것이라고 함.
08. XSX SOC 스펙 : MS에서 디자인하여 탑재한 새로운 H/W 엔진 가속기능
- 오디오 : XOX의 CPU보다 8배 뛰어난 H/W기반 SPFP 연산
☞ CFPU2 : 2x 4-Way FP SIMD DSPs, 4x FP 엔진
[프로그래밍 가능, 고성능 합성연산 대역폭 처리량, FFT(Fast Fourier Transform, 고속 퓨리에 알고리즘 변환기술),
Reverberation(음향 반사 기능), 주파수 영역 오디오]
☞ MOVAD : OPUS 실시간 디코더, 샘플링 속도 변환기
① 300배의 H/W 기반 OPUS 실시간 디코딩 채널
② 100db SNR SRC/피칭의 H/W기반 OPUS 실시간 성능 디코딩
☞ LOGAN : 4x DSP 코어, SRC, 오디오 FX, XMA 디코딩
- 300배의 H/W 기반 실시간 채널 디코딩
- 보안 및 압축해제
☞ HSP/플루톤 : 루트 신뢰성, 암호화, emCPUS, SHACK
※ SHACK : Secure HArdware Crypto Keys(H/W 기반 보안 암호화 키)
☞ MSP : NVMe SSD 대역폭에서 'Crypto/Hash/Decomp'의 2개 이상 Zen 2 CPU 코어 워크로드 절감
① H/W 기반 4대의 고성능 대역폭 암호화 엔진 → 총 대역폭 : 5GB/s, 추가 해쉬 엔진 : 5GB/s
② 2대 범용 + 텍스처 압축 해제 엔진 가속 → 총 : 6GB/s 대역폭
09. 엑스박스 벨로시티 아키텍쳐 도입 동기
- 적은 DRAM 비용 절감
① 전년 동기 대비 증감율 -30%
② 최근에 지난 8.5년 만에 전년 동기 대비 증감율 -5%
- 플래시 메모리 비용 절감 효과
☞ 지난 8.5년 동안 전년 동기 대비 증감율이 ~23%
- DRAM, 플래시 메모리의 $/GB 비율
☞ 현재는 1GB 당 33달러의 가격비율을 보이고 있음.
〓> DRAM의 게임 아트 컨텐츠 S/W 캐시를 위한 백업 저장소로 사용되는 고성능 대역폭 NVMe SSD
☞ HDD 용량 및 면적 밀도 대비 대용량 게임 로드 시간의 선형 비트 전송률 스케일링 이슈되는 문제를 해결함
☞ XBOX 게이밍사업부서는 2007년부터 DRAM 공간을 절약하기 위한 고성능 대역폭 플래시 메모리의 전환을 계획함.
10. 엑스박스 벨로시티 아키텍쳐 / 샘플러 피드백 시스템 - 쉐이더 피드백 스트리밍
- 쉐이더 피드백 스트리밍(SFS)
① GPU SFS은 H/W 기반으로 활성 텍스처 부분을 기록함
② 게임은 Fetch / Free 등 우선 순위로 로딩함.
③ 다이렉트 스토리지는 SSD, MSP의 Cryptography/Decompression을 관리함
- DRAM 혜택 : 게임 아트 용량 대비 평균 2.5배 공간 확보
- MSP 지원 NVMe SSD 스토리지 공간 절감방법
① 무손실 MS XVA ~ BCN 텍스처에서 2:1 비율로 압축함(MS의 XVA 압축해제는 더 높은 RDO + 손실 비율을 지원함)
② OPUS 오디오 압축
③ 감압 / Zlib 일반 감압
11. GPU
※ "우리는 기술이 길을 방해가 되는 지점에 도달해 있습니다." - 엑스박스 게임 스튜디오 총괄 스튜디오 헤드 매튜 부티 수석 부사장
★ GPU의 설계 목표 : 증가된 현실감, 화면 해상도 및 프레임 속도 충족
- BANK를 깨버리는 실리콘 W/O에 새로운 알고리즘을 구현
- 분리된 GPU 코어보다 효율적인 개선
12. GPU 다이어그램
- 28개 중 26개 듀얼 CU이 탑재(2CU 비활성화)
- 통합 지오메트릭 엔진
- 메쉬 쉐이딩 지오메트릭 엔진
- 분산된 Primitives & Rasterization
- 스크린 기울기 색상 / 깊이 단위
- 멀티 코어 커맨드 프로세서
13. 듀얼 컴퓨팅 유닛
- 4개 SIMD 프로세서 + 4 Scalar ALU 유닛
- 듀얼 CU당 데이터 공유 기능 포함하여 128개 유닛 처리, SIMD당 32 스칼라 FP32 FMAD 처리
- CU당 7개 명령 및 실행
- 2개의 벡터 ALU, 1개의 벡터 데이터, 2개의 스칼라, 2개의 컨트롤
- 클럭 단위로 4개의 텍스처 또는 레이-옵스 작업 처리
- 클럭 단위 총합 : FP 32비트(256), FP 16비트(512)
14 ~ 16. GPU의 진화
- XBOX ONE : 2013년 출시, Full-HD(1080p) 해상도 디스플레이
(1.3 테라플롭스, DDR3 대역폭(68.3 GB/s) + ESRAM 대역폭(204GB/s), 1.6 Gtris/Sec, 13 Gpix/Sec)
(DX 11.1 API 플랫폼, 메가 텍스처, 하위 호환, 스칼라 쉐이더 유닛)
- XBOX ONE X : 2017년 출시, 4K UHD(2160p) 해상도 디스플레이
(6 테라플롭, GDDR6 대역폭(325GB/s), 4.4 Gtris/Sec, 35Gpix/Sec)
- XBOX Series X : 2020 홀리데이 출시 예정, 4K UHD & 120Hz, 8K UHD 해상도 디스플레이 호환
(12 테라플롭, GDDR6 대역폭(560GB/s), 7.3 Gtris/Sec, 116 Gpix/Sec)
★ 어떻게 10배 더 많은 픽셀와 4배에서 6배 성능 차이가 있는 GPU로 1x 전력을 소비하는 비결이 무엇일까요?
답 : 특허받은 혁신기술
17. 가변 레이트 쉐이딩
- 미세하게 제어된 밀도 바이어스를 통한 음영 파편화
① 8x8 타일당 X축, Y축 비율
② 낮은 비율 : 색상 별로 1x2, 2x1 또는 2x2 픽셀
③ 미세 비율 : 1xAA에서 최대 8xAA
- 드로우 버텍스, 원시 화면, 스크린 타일 및 AA Level의 조합에 따라서 수정
- 전체 가장자리 세부 정보. 일시적 안티 앨리어싱 기법과 호환되는 구멍 없음, 뒤틀림 또는 체커보드 아티팩트 없음
- 10% ~ 30%의 작업 성능 향상을 위한 소규모 영역 비용
18. 샘플러 피드백 스트리밍(엑스박스 벨로시티 아키텍쳐 GPU 지원)
- 이전 스타일 PRT : 소프트 페이지 장애를 통한 가상화된 텍스처
- 쉐이더 계발의 부담
- 드라이버 메모리 관리자를 통한 직렬화
- 신규 H/W : 2개의 새로운 MIP 맵핑 구조
LOD 타일 레지던트 맵 : 샘플러 명령어는 클램프 된 LOD를 가져옵니다.
LOD 타일 리퀘스트 맵 : 필요한 최소 누적된 LOD를 가져옵니다.
19 ~ 23. 샘플러 피드백 스트리밍(구축)
19. ① 전체 텍스처 할당, 작은 LOD(예 : 2 및 UP), 마크 표시
20 ~ 21. ② 렌더 프레임
20. A) 샘플(레지던시 맵, 레지던트 텍스처)
21. B) 요청된 LOD 레코드
22. 앱이 LOD를 검사 및 기록하고, 사용하지 않는 타일 제거 및, 요청된 타일을 로드함.
23. 레지던트 맵 업데이트
24. H/W 커스텀 지정 상주 지도 필터링
- 텍스처 타일당 하나의 맵 "텍셀"만 전환 기능으로 허용
- 평활화(스무싱)(으)로 전환하여 아티팩트를 최소화
- 전통적 이선형, 오답형 답변을 생성함.
- 신규 필터 : 커서-LOD 영역에서 항상 전환
→ 샘플러 피드백 스트리밍
매우 작은 영역 비용, 최대 60%의 I/O 및 메모리 절약
25. 다이렉트X 레이 트레이싱 가속 기능 ①
완전한 대체되지 않는 기존 렌더링으로의 경제적인 업그레이드
26. 다이렉트X 레이 트레이싱 가속 기능 ②
- 커스텀 지정 레이-박스와 레이-트라이앵글 유닛
- 380G/Sec 레이-박스 피크, 95G/Sec 레이-트라이앵글 피크
- 네트워크 성능(?)은 대역폭, 1개의 레이당 방문한 노드 수 / Tris에 따라 다름.
- 쉐이더는 BVH Traversal, Material Shading 등을 위해 병렬로 실행가능함.
- 3배 ~ 10배 가속에 드는 경미한 비용 발생함.
27. 기타 기술
- 게임용 머신러닝 추론 가속화(캐릭터 동작, 해상도 스케일링)
- 매우 작은 초소형 면적 비용으로 3배 ~ 10 성능 향상
- 두 개의 독립적인 가상화 명령 스트림
- DirectX API 레벨로 다름
- 메인 타이틀 OS, 시스템 OS를 위한 별도의 가상화 머신
- 렌더링, 블리딩, 디스플레이용 32비트 HDR 형식
- 999E5 -- 9비트 맨티사, 5비트 공유 지수
- 11:11:10보다 더 나은 품질 향상, 50% 대역폭 및 블렌드 시간 vs 64비트