인텔 알더레이크는 고성능/고효율의 2가지 CPU 코어가 있으며, 상황에 따라 운영체제/애플리케이션에서 이를 전환해 사용합니다. 고효율 코어는 그레이스몬트, 고성능 코어는 골든 코브입니다.
스카이레이크보다 40% 더 성능이 높은 그레이스몬트
그레이스몬트는 인텔의 '몬트' 시리즈 저전력 코어에 속합니다. 원래 몬트 시리즈는 아톰 시리즈 프로세서에서 사용했지요. 하지만 2020년에 출시한 하이브리드 프로세서인 레이크필드부터 코어 계열 고성능 코어와 트레몬트 고효율 코어 4개를 함께 사용했습니다. 레이크필드는 고성능과 고효율 코어를 상황에 따라 전환하는 인텔의 첫번째 하이브리드 프로세서입니다.
이번에 나온 그레이스몬트도 그런 식으로 사용하는 고효율 코어 아키텍처입니다. 고성능 코어인 알더레이크와 함께 사용하지요. 인텔 역사상 가장 효율적인 x86 프로세서로, 여러 개선을 통해 전력 사용량을 최소화하면서 고성능을 실현한 CPU 코어라는 게 인텔의 설명입니다. 간단히 말해서 더 높은 효율로 내부 명령을 인코딩하고, 이를 병렬 처리하는 실행 엔진을 통해 실제 실행 과정에서 걸리는 전력을 최대한 줄여줍니다. 구체적으로는 다음과 같은 특징이 있습니다.
강화된 프론트 엔드
5천개의 엔트리 분기 타겟 캐시를 도입해 더 정확한 분기 예측을 실행. 트레몬트는 천개였습니다.
L1 데이터 캐시가 32KB에서 64KB로 증가
인텔 최초의 온 디멘드 명령어 길이를 도입. 디코더에서 L1 명령 캐시와 디코딩된 명령어를 생성 가능
클럭 사이클 당 최대 6명령을 디코딩하는 아웃 오브 오더 디코더
병렬성을 높인 벡엔드
5와이드 할당, 8와이드 리타이어, 256 엔트리 아웃 오브 오더 윈도우, 17개의 실행 포트
실행 엔진은 4개의 정수 ALU, 2개의 로드 AGU와 스토어 AGU, 2개의 정수 스토어 데이터, 2개의 FP/Vec 스택, 2개의 점프 포트 2개의 FP Vec 스토어 데이터 등을 구현
향상된 캐시/메모리
32KB 데이터 캐시, 4개의 AGU, 최대 2MB의 L2 캐시(4개의 CPU 코어가 공유, 1사이클당 64바이트)
새로운 명령어 세트
인텔 CET (Control-flow Enforcement Technology)
인텔 VT-rp (Intel Virtulization Technology Redirect Protection)
AVX (하스웰과 같은 256비트 AVX)
이런 설계를 통해 그레이스몬트는 소비 전력에 영향을 주는 전압을 대폭 낮췄으며, 2016년의 스카이레이크와 비교하면 소비 전력이 같을 때 40%의 성능 향상, 같은 성능이면 소비 전력이 40% 줄어들었다고 합니다.
4코어 그레이스몬트를 2코어 스카이레이크와 비교하면 그 차이가 80%로 늘어납니다. 2코어 스카이레이크는 2016년에 판매된 슬림 노트북의 코어 i7 프로세서를 가리킵니다.
11세대 코어 프로세서보다 19% 향상된 골든 코브
고성능 코어인 골든 코브는 2019년에 인텔이 출시한 아이스레이크 기반 10세대 코어 프로세서, 서니 코브의 후속작입니다. 2020년에 출시한 타이거레이크 기반 11세대 코어 프로세서는 윌로우 코브를 사용했고, 이번에는 그 세번째 코브 시리즈인 골든 코브를 도입합니다.
골든 코브는 낮은 레이턴시를 통해 높은 싱글 스레드 성능을 실현하는데 초점을 맞췄습니다. 내부 구조도 그런 목표를 실현하기 위해 설계됐습니다. 구체적으로는 디코더와 캐시를 크게 수정했습니다.
윌로우 코브의 데이터 길이는 16B였지만 골든 코브는 32B가 됐습니다. 디코더 수도 4개에서 6개, 1클럭 당 마이크로 Ops 캐시에서 읽어오는 마이크로 Ops는 6개에서 8개, 마이크로 Ops 캐시도 2.25KB에서 4K로 늘었습니다.
아웃 오브 오더 엔징도 강화됐습니다. 윌로우 코브까지 5할당 10 실행 포트에서 6할당 12 실행 포트로, 레지스터 파일의 리 오더 버퍼도 512개로 늘었습니다.
5번째 ALU 실행 포트가 추가됐습니다.
벡터 엔진에서는 FADD 2유닛이 더해졌습니다. FMA에서 FP16 데이터를 지원해, AVX512 명령 실행 시 FP16을 더 효율적으로 연산합니다.
캐시도 강화됐습니다. 데이터 로딩은 2포트에서 3포트로, 3x256비트나 2x512비트 로드가 가능한 것 외에 로드 버퍼, 스토어 버퍼가 향상돼 메모리에서 불러올 때 병렬 처리가 가능해졌습니다. 데이터 TLB도 64에서 96으로 늘었습니다.
캐시 계층 자체는 윌로우 코브와 같으며 L1과 L2 캐시는 그대로입니다. 하지만 골든 코브의 서버 버전인 사파이어 라피드에서는 2MB L2 캐시를 도입합니다.
AMX (Advanced Matrix Extensions)를 지원하는 확장 명령 세트와 AMX 연산 유닛이 추가됐습니다. AMX는 AI를 효율적으로 실행하는 명령 세트로 INT8은 2000, Bfloat16은 1000개의 처리를 1클럭 사이클만에 처리합니다. 다만 AMX는 서버용 제품에서만 지원합니다.
이런 개량으로 골든 코브를 도입한 알더레이크 데스크탑 프로세서는 11세대 데스크탑 프로세서인 로켓레이크와 비교해서 같은 클럭에서 19%의 성능 향상을 가져옵니다.