z14 프로세서의 제조 기술. 제조는 글로벌 파운드리.
IBM은 2017년 7월에 발표한 최신 메인프레임인 IBM z14에 탑재된 CPU, z14 프로세서를 반도체 회로 기술의 국제 학회인
ISSCC 2018에서 2월 12일에 발표했습니다. IBM이 메인프레임과 CPU 기술을 새로 내놓은 건은 3년만입니다. 2015년 1월에 메인 프레임 IBM System z1'을 발표하고, 2월의 ISSCC 2015에서 z13 프로세서의 기술을 밝혔습니다.
이번에 발표한 z14 프로세서와 3년 전에 발표한 z13 프로세서의 가장 큰 차이점은 제조 기술입니다. z14는 14nm 세대의 SOI(Silicon On Insulator) CMOS 기술과 FinFET 트랜지스터 기술로 제조했습니다. 이에 비해 z13은 22nm 세대의 SOI CMOS 기술과 평면형 트랜지스터 기술로 제조했습니다. 제조 기술의 미세화와 회로 기술 연구로 처리 성능이 향상되고, 내장 메모리(온 칩 캐시)의 용량이 늘었습니다.
z14 프로세서는 z13 프로세서와 마찬가지로 2 종류의 실리콘 다이로 구성됩니다. 하나는 마이크로 프로세서 그 자체인 실리콘 다이로 CP(Central Processor)라고 부릅니다. 또 다른 건 CPU 노드 사이의 연결과 L4 캐시를 겸하는 실리콘 다이로 SC(System Control)이라 부릅니다.
1개의 CPU 노드는 여러 CP 다이와 1개의 SC 다이로 구성됩니다. CP 다이의 수는 5개나 6개입니다. 이러한 실리콘 다이는 따로 패키징되는데 IBM은 이 패키지를 SCM(Single Chip Module)이라고 부릅니다. 모듈이라 부르는 건 일반 패키지가 아닌 전용 히트 스프레더를 붙인 별도의 패키지라 그렇다고 생각됩니다. 즉, CPU 노드(IBM은 Drawer라고 부릅니다)은 최대 6개의 CP 모듈과 1개의 SC 모듈로 구성됩니다.
CP 모듈 3개가 모여 CP 클러스터라는 서브 노드를 형성, 클러스터의 모든 CP 모듈(CP 다이)가 서로 연결됩니다. 클러스터 사이에 CP 모듈은 연결하지 않습니다. SC 모듈은 CPU 노드의 모든 CP 모듈과 직접 연결합니다. CPU 노드는 메인 프레임 시스템 구성을 결정하는 중요한 요소입니다. 1개의 노드를 장착한 시스템부터 최대 4개의 노드를 연결한 시스템까지 준비됐으며, 각각의 노드는 SC 모듈을 통해 서로 연결합니다.
z14 시스템의 CPU 노드. 최대 3개의 CP 칩이 클러스터를 구성하는 두개의 클러스터와 1개의 SC 칩 노드를 구성합니다. SC 칩은 같은 노드의 모든 CP 칩과 이어져, 다른 노드의 SC 칩과 데이터를 교환합니다.
ISSCC 2018의 데모 세션에서 IBM z14 시스템의 실제 부품을 사용한 모델 내부를 볼 수 있도록 전시했습니다. 사진은 시스템의 CPU 노드 부분, 안쪽엔느 CP 모듈에 수냉 부품을 장착했습니다. CP 모듈 중앙 왼쪽에 SC 모듈이 있습니다. SC 모듈은 공냉 쿨링(절단면이 보이도록 전시했습니다). CP 모듈 오른쪽에는 메인 메모리 보드가 수직으로 장착.
CPU 노드를 구성하는 칩을 봅시다. 우선 CP는 10개의 물리 코어를 내장합니다. 클럭 5.2GHz. 기존의 z13보다 200Mhz 정도 높습니다. CP 칩은 CPU 코어 외에 메모리 인터페이스 회로, 입출력 인터페이스 회로, CP 칩과 SC 칩을 연결하는 X-Bus 인터페이스 회로가 내장됩니다.
트랜지스터 수는 61억 개, 실리콘 다이 면적은 696제곱mm입니다. z13의 CP 칩은 각각 40억 개, 678제곱mm니 트랜지스터가 1.5배 늘어난 반면 실리콘 다이 면적은 3% 증가에 그쳤음을 알 수 있습니다. 제조 공정 미세화의 위력이 절대적입니다.
다음은 SC 칩입니다. L4 캐시와 CP 칩을 연결하는 X-Bus 인터페이스, SC 칩 사이를 연결하는 A-Bus 인터페이스 회로 등으로 구성됩니다. 클럭은 2.66GHz로 CP 칩의 1/2입니다. SC 칩의 트랜지스터 수는 97억개, 실리콘 다이 면적은 696제곱mm로 CP 다이와 거의 같습니다.
CPU 성능 향상에 필수적인 캐시 메모리는 L1부터 L3까지가 CP 칩에 탑재됩니다. L1과 L2는 CPU 코어마다 독립적으로 사용, L3 캐시는 공유 캐시입니다. L1 캐시 용량은 명령 캐시가 128KB, 데이터가 128KB, 메모리 종류는 SRAM입니다. L2 캐시는 명령이 2MB, 데이터가 4MB, 메모리 종류는 eDRAM입니다. 모든 코어에 이 구성이 들어갑니다. 캐시를 포함한 CPU 코어의 실리콘 면적은 28제곱mm, z13 프로세서의 CPU 코어는 42제곱mm니 2/3으로 줄었습니다.
L3 캐시 용량은 128MB. 메모리 종류는 eDRAM입니다. 그러나 L3 캐시 디렉토리에는 SRAM을 씁니다. SC 칩의 L4 캐시는 용량이 672MB(5.25Gbit)로 상당히 크며 종류는 eDRAM입니다. 이들 캐시 메모리는 기존의 z13 프로세서보다 대폭 늘었습니다. 특히 L3 캐시는 z13에서 64MB였는데 z14는 128MB로 두배 늘었습니다. 캐시 메모리 종류는 z13도 L1이 SRAM, L2~L4가 eDRAM으로 기본적으로 같습니다.
z14 시스템의 메인 메모리는 CPU 노드 당 8TB로 큽니다. CP 칩에 메모리 인터페이스가 있으며 메인 메모리 채널로 연결됩니다. 각각의 드로어에 최대 25개의 DIMM 보드를 장착합니다. 하나의 시스템은 최대 4개의 노드를 탑재하니 메인 메모리의 최대 용량은 32TB가 됩니다.
CP 칩과 CP, SC 칩을 연결하는 인터페이스는 X-Bus입니다. 고속 연결에 싱글 엔드 방식으로 한개의 레인이 5.2Gbit/s의 최대 전송 속도를 갖춥니다. 링크 당 최대 전송 속도는 0.8Tbit/s입니다.
SC 칩 사이(노드 사이)의 인터커넥트는 A-Bus입니다. 고속 연결, 차동 방식으로 1개의 레인이 7.8Gbit/s의 최대 전송 속도를 갖춥니다. 링크의 최대 전송 속도는 0.67Tbit/s입니다.
회로 기술에선 암호화 처리 속도를 6~7배 증가시키고, 분기 타겟 버퍼를 확대, 신경망 학습을 도입해 분기 예측 정확도를 향상시켰습니다. 배정밀도 부동 소수점 연산 유닛의 대역폭을 2배로 확대하고 L3 캐시에 ECC를 도입해 신뢰성을 높였습니다. 이런 연구 끝에 스레드 성능을 10% 향상시키고 멀티스레딩 처리 성능을 25% 향상시켰다고 합니다.
하나의 노드에 CPU 코어는 41개(CP 칩 5개)나 49개(CPU 칩 6개)로 구성됩니다. 물리적으로는 CPU 칩의 CPU 코어가 10개 있으나, 논리적으로는 8개나 9개입니다. 즉 10개의 코어 중 1개나 2개는 쓰지 않는 것입니다. 신뢰성이나 수율을 높이기 위해서 이렇게 구성한 듯 합니다.