2022년 3월 21일에 올라온 글입니다. 이 글에서 다루는 라이젠 7 5800X3D는 진작 출시되어 성능 테스트까지 마쳤지요. https://gigglehd.com/gg/12127797
하지만 성능 말고 기술적인 내용은 이 글을 볼만 하기에 올려봅니다.
AMD는 ISCCC(International Solid-State Circuits Conference) 2022에서 젠3 코어에 대해 설명했습니다. 젠3 프로세서의 파이프라인이야 이미 알려질 대로 알려졌고, 여기에서 새로 공개된 건 L3 캐시와 트랜지스터 구성입니다.
젠3 CCX는 3가지 종류를 처음부터 염두에 두고 만들었습니다. 왼쪽이 마티스, 라이젠 5000 시리즈 데스크탑과 에픽 프로세서가 이 구성을 씁니다. 가운데가 렘브란트, 라이젠 5000G와 6000G 시리즈가 이걸 씁니다. 가장 오른쪽은 저가형으로 라이젠 4000/4000G/애슬론 3000 시리즈가 여기에 해당되는데, 이건 젠2 아키텍처 기반입니다. 즉 젠3로 4코어 8MB L3는 나오지 않을 가능성이 큽니다. 만들 수는 있지만요.
L3의 경우 32MB 용량은 TSV를 쓴다고 가정해서 설계했습니다. 하지만 APU의 16MB L3는 TSV를 쓰지 않고, 캐시와 코어 타일을 따로 설계해서 합치는 모듈러 설계를 사용합니다.
L3 캐시는 32B/사이클의 대역으로 작동하는 링 버스 2개로 구성됩니다. L3 캐시 용량이 젠2에 비해 두 배로 늘어나면서 L3의 면적은 1.72배, 소비 전력은 1.52배가 늘어났습니다. 성능 향상에 비하면 효율적인 선택입니다.
인텔 코어 시리즈도 마찬가지지만, 이렇게 큰 규모/용량에선 패브릭 인터커넥트보다는 링버스가 효율이 좋습니다. 다만 코어 시리즈는 1개의 링에 링 스톱을 2개 넣지만, 젠3는 양방향 듀얼 링 구조입니다. 이건 제온 스케일러블에 가까운 설계지요. 캐시를 이렇게 설계했기에 라이젠 뿐만 아니라 에픽에서도 그대로 쓸 수 있었으리라 보입니다.
셀 라이브러리도 HC(High Current)에서 HD(High Density)로 바뀌었습니다. HC는 젠2에서 쓰던 고속 라이브러리고, HD는 트랜지스터 밀도와 저전력을 위한 라이브러리입니다. 젠3로 오면서 L3 용량이 두 배가 늘어났으나 면적은 14% 줄어들고, 소비 전력은 24% 줄어든 것도 셀 라이브러리의 차이가 한몫 하리라 보입니다.
젠3는 16웨이 세트 결합을 8개의 슬라이스로 나누니 1개의 슬라이스에 2웨이 구성이 됩니다. 마티스 뿐만 아니라 렘브란트도 같습니다. 그리고 이 슬라이스마다 링 스톱이 있습니다. SW0/RPT0과 SW1/RPT1은 링 버스용 스위치와 리피터인데, SW0/SW1은 가로 방향 접속이 가능한 구성을 사용했습니다. 그래서 링이 아니라 메쉬 인터커넥터도 가능했겠지만, 이 경우 성능 향상은 힘들었을 겁니다.
L3 캐시는 처음부터 3D V 캐시를 쓰는 걸 염두에 두고 설계했습니다.
3D V 캐시와 L3 캐시를 연결하는 TSV는 L3 캐시의 가운데이며, 3D V 캐시의 크기는 41제곱mm입니다.
SoIC-F2B를 사용해서 연결했습니다. 이건 다이의 단면 촬영 사진입니다. 하이브리드 본드 3D에서 마이크로 범프 3D, 그리고 C4로 오면서 다이가 점점 커집니다. 배선 밀도를 높이려면 마이크로 범프로도 부족하기에 하이브리드 본드가 필요하다는 소리입니다.
TSV의 피치는 9μm입니다. 최상단 다이, 그러니까 3D V 캐시 쪽은 배선층이 14층(가장 아래가 알루미늄, 나머지는 구리 배선)이며 TSMC N7 공정으로 사용합니다. 2개의 다이는 BPM(본드 패드 메탈)로 연결하는데 TSMC가 SoIC-본드라고 불렀던 금속 재질로 보이지만, 그 정확한 내용은 모릅니다.
SRM의 구조는 128KB 용량의 블럭이 512개, 각 슬라이스의 용량은 4MB니까 1 슬라이드당 32블럭으로 보입니다. 또 TSV 사이를 그대로 신호가 통과하는 건 위험하기에, ESD(Electro-Static Discharge. 정전기 방전)방지용의 클램프 회로와 그 이후에 신호를 정규화하는 아이솔레이션 회로가 있습니다. 또 태그 램과 LRU(Least Recently Used. 캐시가 가득 찼을 때 메모리로 내보낼 데이터를 정하는 알고리즘의 일종)을 위해 1088개의 6KB 블럭을 지정합니다. 태그에 1024개, LRU에 64개로 추측됩니다.
인피니티 패브릭이나 HBM2, PCIe에서는 PHY가 따로 있지만, AMD의 3D V 캐시 구조는 신호를 그대로 연결한 쪽에 가깝습니다. 3D V 캐시를 이루는 구조 앞뒤에는 버퍼가 있고 클럭을 동기화합니다. 그래서 1사이클에 해당되는 레이턴시가 늘어나지만 대신 용량이 64MB가 늘어납니다.
그래서 AMD가 어떻게 64MB의 3D V 캐시를 연결했을까요? 여기에 대해서는 설명하지 않았습니다. 하지만 TSV를 통해 연결할 때 32B/사이클을 양방향으로 8개 연결했다고 설명했으며, 여기에 스위치와 리피터가 들어갔다는 사실은 알고 있습니다. 그래서 SW0/SW1 스위치를 위/아래/옆/SRAM과 연결하며, 위/아래 다이에 연결하는 식으로 구성했으리라 추측합니다.
그렇게 나온 구성은 대충 이렇습니다. 탑/미들 다이가 있는 이유는 베이스 다이의 면적이 41제곱mm에 용량은 32MB인데, 그 위에 64MB SRAM을 다이 하나로 넣었다고 생각하기 어려우니 32MB 2개를 겹쳤다고 추측하고 있습니다. 이 탑/미들 다이에서도 링 버퍼를 넣었는지는 알 수 없습니다. 이런 구조라면 용량을 늘리고 1/2/4스택을 만드는 것도 가능합니다.
다만 다수의 다이를 겹치면서 온도가 오르는 단점은 있습니다. 실제로 라이젠 7 5800X3D는 오버클럭을 권장하지 않는 제품이기도 합니다. 가장 열이 많이 나는(CPU 코어가 있는) 베이스 다이가 가장 아래에 깔려 있고, 그 위에 상대적으로 열이 많이 나지 않는 SRAM을 올렸는데 이게 열 배출을 막으니까요.
젠2와 젠3의 공정은 기본적으로 같습니다. 그래서 트랜지스터도 변함이 없습니다.
대신 트랜지스터에서 중간 전압이나 저전압을 쓰는 비중을 높여 소비 전력을 낮췄다고 합니다.
그래서 클럭은 4~6% 올랐고
전력 효율도 최대 20% 가량 높아졌습니다.