원문은 AMD Ryzen 7000 Series SoC Architecture Overview라는 이름으로 전달된 문서를 간추린 것 같은데, 제가 CPU랑 바이오스는 받았어도 저 파일은 못 받아서 이제서야 대충 읽어보는 김에 올려 봅니다.
라이젠 7000 시리즈. 5nm 공정으로 제조된 8코어 CCD 2개와 6nm로 제조된 IOD 1개로 구성됩니다.
라이젠 7000 시리즈는 코드네임 젠4라는 CPU 아키텍처를 탑재했습니다. AMD는 2017년에 1세대 젠을 발표한 이후 계속해서 아키텍처를 업데이트해 왔습니다.
1세대 라이젠은 글로벌 파운드리의 14nm 공정으로 생산하고, 기존의 엑스케베이터 아키텍처보다 IPC가 52% 향상됐습니다. 아키텍처를 처음부터 다시 설계한 덕분이지요. 그 다음에는 젠2와 젠3로 아키텍처를 개선했는데, 특히 젠2의 칩렛 패키징 도입이 큰 효과를 가져왔습니다. 그 전까지는 CPU에 메모리 컨트롤러와 I/O까지 모두 통합됐지만 이걸 분리시켜 작은 다이로 만들어서 제조 단가를 낮출 수 있었습니다. 이후 젠3에서는 구조를 개선해 L3 캐시의 이용 효율을 높여 IPC를 19% 높였습니다.
라이젠 7000은 크게 5가지 특징이 있습니다. 우선 기존 세대보다 IPC가 13% 오른 젠4 아키텍처의 도입, AVX-512 명령어 세트 지원, IOD의 공정을 개선하고 GPU를 내장, AM5라는 새로운 소켓, 그리고 공급 전력과 온도 확장입니다.
젠4는 명령의 디코드나 분기 예측을 수행하는 프론트 엔드, 명령을 실행하는 실행 엔진, 내장 캐시와 메모리에 데이터를 읽고 쓰는 로드/스토어가 모두 개선됐습니다.
x86 프로세서는 x86 명령어를 불러와 해독(디코딩)하고 내부 연산기에서 실행할 수 있는 내부 명령어로 변환하는데, 이 부분을 프론트 엔드라고 부릅니다. 젠4의 프론트 엔드는 분기 예측 유닛, 디코드된 내부 명령을 일시적으로 저장하는 Op 캐시가 강화됐습니다. CPU가 불러오누 x86 명령은 디코더를 이용해 내부 명령으로 변환해 실행 엔진에 전달합니다. 이 때 디코드된 내부 명령을 일시적으로 저장하는 곳이 Op 캐시로, 여기에서 데이터를 불러오면 복잡한 x86 명령을 디코딩할 필요 없이 바로 명령을 실행할 수 있어 CPU의 실행 효율이 오릅니다.
AMD는 Op 캐시의 명령 수가 4K에서 6.75K로 68% 가량 늘었으며, 1클럭 당 8개의 내부 명령을 읽던 것이 9개로 늘었다고 설명합니다.
분기 예측도 강화됐습니다. 분기 예측에서 메모리의 예측 주소를 저장하던 L1 BTB(Branch Target Buffer)가 50% 늘었고(2x 1K에서 2x 1.5k), L2 BTB도 용량이 증가(2x 6.5K에서 2x7k)했습니다. 이러한 프론트엔드의 개선이 젠4의 IPC 향상에서 약 1/3을 차지한다고 설명합니다.
내부 명령을 실행하는 실행 엔진도 강화됐습니다. 가장 큰 변화는 레지스터 파일(연산 유닛이 처리하는 데이터를 일시적으로 보관하는 메모리 영역)의 용량이 늘어났다는 것입니다. 정수는 192에서 224ㅐ, 부동 소수점은 160에서 192가 됐습니다. 또 명령 리타이어 큐의 용량도 25% 늘었습니다. 다만 기본적인 구조는 젠3와 같아 1클럭당 10개의 정수 연산을 처리하거나 6개의 부동 소수점 연산을 처리합니다.
로드/스토어의 경우 로두 큐가 25% 증가, 데이터 캐시 포트의 크래시 감소, L2 DTLB가 50% 개선됐습니다.
캐시의 경우 L2 캐시가 512KB에서 1MB로 늘었습니다. 이런 변화 덕분에 메모리 레이턴시가 줄어들어 CPU 전체의 성능이 개선됐습니다.
이런 변화 덕분에 같은 클럭에서 싱글 스레드 처리 성능을 비교하면 IPC가 13% 올랐다는 게 AMD의 설명입니다. 젠2에서 15%, 젠에서 19%가 올랐으니 예전만큼은 아니지만, 1세대 젠에서 52%가 오른 이후 꾸준히 끌어 올린 것이니 이미 많이 올라왔다고도 할 수 있습니다.
젠4는 신형 SIMD 연산 확장 명령 세트인 AVX-512를 지원합니다. 인텔은 스카이레이크 세대 이후에 지원했다가 앨더레이크에서 빼버렸고, AMD CPU에서는 처음으로 지원합니다.
이 AVX-512는 SIMD 레지스터를 512비트로 늘린 게 아니라 256비트 SIMD 레지스터를 유지하면서 AVX-512를 지원합니다. 그래서 처리량은 같으나 명령 읽기 횟수가 줄어들고, 컨트롤 오버헤드가 감소하기에 AVX-256보다 효율이 향상됩니다.
젠4의 AVX-512는 아이스레이크에서 확장된 버전을 사용합니다. FP32를 INT8로 옮겨서 추론하는 VNNI, Bfloat16 등 머신 러닝/딥 러닝 추론의 연산 성능을 높여주는 확장 명령을 지원합니다. VNNNI를 사용하면 라이젠 5000보다 2.47배의 성능을 낸다고 합니다.
AVX-512 외에도 가상화 관련 명령도 추가됐습니다.
1세대 젠 아키텍처는 4개의 CPU 코어가 1개의 CCX를 구성하고, 이거 2개를 모아 하나의 CCD를 만들여, 여기에 메모리 컨트롤러로와 I/O 컨트롤러를 넣었습니다. 젠2에서는 CCD 2개와 IOD 1개로 나눴습니다. 1개의 CCX에는 4개의 코어, 2개의 CCX가 모여 1개의 CCD를 구성하는 건 변함이 없으나, 메모리 컨트롤러와 I/O는 IOD로 분리시켰습니다. 젠3에선 CCD 2개와 IOD 1개로 구성된 건 유지하지만 CCD의 구조가 4코어 CCX 2개에서 8코어 CCX 1개로 바뀌었습니다.
CCD와 IOD를 따로 나눈 칩렛 아키텍처의 가장 큰 장점은 제조 유연성과 원가 절감입니다. 하나의 큰 칩을 만드는 것보다 작은 칩을 여러개 만드는 것이 수율이 높고, 더 많은 코어를 탑재한 제품을 만들 수 있으며, 서로 다른 공정으로 각각의 다이를 만들 수도 있습니다.
젠3까지 IOD는 14nm 공정으로 만들었으니 CPU보다 2세대 정도 뒤쳐졌습니다. 그러나 젠4의 IOD는 7nm를 개선한 6nm로 바뀌어, 이전 세대까지 CPU 생산에 쓰던 것과 동급의 공정으로 업그레이드됐습니다. 그래서 다이 크기는 125제곱mm에서 122제곱mm로 소폭 줄어들고, 그 대신 트랜지스터 수가 20억 9천만개에서 34억 개로 늘어났기에 그만큼 기능을 강화할 수 있게 됐습니다.
젠4 IOD에는 그래픽이 내장됩니다. 지금까지 라이젠은 칩렛 구조의 데스크탑 다이와 별개로, CPU와 GPU를 모두 포함한 모놀리식 다이를 노트북과 APU로 출시했는데요. 젠4부터는 모든 데스크탑 프로세서에 GPU가 내장됩니다. 이 GPU는 RDNA2 아키텍처지만 CU가 2개밖에 없어 성능이 매우 낮습니다. 다만 하드웨어 레이 트레이싱, AVX 디코드 엔진, HDMI 2.1/DP 2.0 등의 기능을 갖췄습니다.
I/O의 경우 PCIe 5.0 28레인으로 16레인은 그래픽카드, 8레인은 그래픽카드나 2x4 NVMe, 나머지 4레인은 PCIe 4.0으로 바꿔 칩셋과 연결에 사용합니다. USB는 USB 10Gbps가 4레인, USB-C가 3레인, USB A가 1레인이며 호환성을 위해 USB 2.0 포트도 하나 있습니다. 또 노트북 프로세서에서는 USB4나 썬더볼트 3/4을 지원하지만 데스크탑에서는 그 수요가 많지 않아 뺐다고 설명합니다.
소켓은 AM5로 바뀝니다. 소켓이 PGA에서 LGA로 바뀌면서 CPU가 쿨러에 딸려서 뽑히지 않습니다. 또 DDR5 메모리를 지원합니다. DDR4는 지원하지 않습니다. 그리고 EXPO라는 오버클럭 프로파일을 지원합니다. 오버클럭을 쉽게 할 수 있도록 패브릭/메모리 컨트롤러/메모리 클럭의 고정은 풀립니다. 라이젠 5000까지는 그 비율이 1:1:1로 정해졌으나 이제는 메모리 컨트롤러와 메모리 클럭의 비율만 1:1이 되고 패브릭 클럭은 자동 설정됩니다.
X670E와 X670
B650E와 B650
소켓 AM5는 새로운 전원 스펙인 SVI3(Serial VID Interface 3.0)가 추가됐습니다. SVI3은 최대 230W까지 CPU에 공급할 수 있고, 전원 회로와 CPU가 양방향 통신을 해 보다 안정적으로 전압 설정이나 전력 공급이 이루어집니다. 또 전력 상태를 새로 정의해 전력 낭비를 줄입니다. 여기에 맞춰 라이젠 7000의 TDP(PL1)은 170W, 맥스 소켓 파워(PL2)는 230W로 올랐습니다. 물론 105W나 65W로 낮출 수도 있습니다.
슈팅게임 제비우스 보스처럼 생겼습니다.