22nm 공정 세대에서 물리 코어 수가 50% 늘어나다


인텔은 14nm 공정 세대의 서버 CPU 제품군인 제온 프로세서 ​​E5-2600 v4를 발표했습니다. 코드네임은 브로드웰-EP(Broadwell-EP)며 듀얼 소켓인 제온 E5-2xxx 시리즈에 속합니다. 인텔은 이 세대에서 CPU 코어 수를 늘려 최대 구성을 22 코어로 했습니다. 또한 메모리는 DDR4를 지원하고 메모리 전송 속도는 최대 2,400Mtps로 높였습니다.

 

1.jpg

 

브로드웰-EP의 발표

 

인텔은 65nm의 툴사(Tulsa)에서 2코어, 45nm의 네할렘-EX(Nehalem-EX)에서 8코어, 32nm의 웨스트메어-EX(Westmere-EX)에서 10코어, 22nm의 하스웰-EX(Haswell-EX)에선 18코어로 프로세스 세대마다 CPU 코어 수를 늘려 왔습니다 . 코어 수의 증가는 2 → 8 → 10 → 18로 변칙적입니다. 이번에는 하스웰에서 브로드웰로 가면서 CPU 코어 아키텍처가 마이너 체인지됐고, CPU 코어 수는 18 → 24로 50% 증가했습니다. 그러나 중복되는 코어가 있기에 전체 24코어 중 현재 SKU에서 쓰이는 건 22코어까지입니다. 즉 최대 구성의 제품은 22코어긴 해도 실제로는 24코어가 다이에 있습니다.

 

이렇게 예비 코어를 넣는 이유는 대형 다이일수록 결함(defect)이 포함될 가능성이 높아지기 때문입니다. 로직 회로는 결함에 약하며, 불량이 생기면 수율이 떨어집니다. 400제곱mm 이상의 칩의 경우 결함이 존재하는 다이는 매우 많아집니다. 이걸 모두 파기하면 수율은 현저하게 떨어지겠지요. 

 

따라서 GPU 나 게임기용 APU는 결함으로 인한 불량 코어를 감암하고 중복된 로직 구성을 넣는 것이 일반적입니다. 현재 브로드웰-EP의 구성에선 24코어 중 2코어가 불량이어도 출하할 수 있습니다. SRAM 부분도 대체 셀로 중복된 부분이 있기에 수율을 일정하게 끌어올릴 수 있습니다. 브로드웰-EP의 24코어는 그런 목적으로 보입니다.

 

 

다이 크기를 작게 줄인 브로드웰-E 계열

 

이번에 인텔은 프로세스를 미세화했지만 코어 수는 50% 늘어나는 데 그쳤습니다. CPU 코어 자체의 향상이 작아, 코어 면적이 줄어들면서 다이 크기도 전보다 작아졌습니다. 브로드웰-EP의 다이 크기는 최대 24 코어로, 웨이퍼를 가지고 계산하면 300mm 웨이퍼에서 뽑아내는 브로드웰-EP의 다이 면적은 450제곱mm가 됩니다.

 

2.jpg

 

인텔의 서버 CPU 다이 크기

 

지금까지 인텔의 최대 구성 서버 CPU 다이를 보면 22nm 공정의 하스웰-E 계열이 18코어에 662제곱mm, 아이비타운이 15코어에 541제곱mm, 고성능 서버 CPU에선 브로드웰-EP의 다이 크기가 435mm의 툴사보다도 더 작으며, 하스웰-EP/EX와 비교하면 68%가 됩니다. 인텔 14nm 공정의 트랜지스터 밀도가 높기에 좀 더 다이를 줄여도 좋겠지만 I/O를 확보하면서 이 정도에 그쳤습니다. 현재 공정 기술에선 I/O 부분의 축소 비율이 낮아, 코어 부분이 작아져도 I/O 부분은 크게 줄어들지 않습니다.

 

3.jpg

 

브로드웰-EP 웨이퍼

 

인텔은 현 세대의 서버 CPU 다이 크기를 기존의 70% 정도로 줄였습니다. 여기에는 다이를 작게 만들 수밖에 없는 경제적인 사정이 있는 것으로 보입니다. 현재 제조 공정은 갈수록 웨이퍼의 제조 비용이 늘어나고 있습니다. 이 비율을 갈수록 커지는데, 이는 공정이 복잡해지면서 웨이퍼 처리량이 떨어졌기 때문입니다. 급격하게 늘어나는 프로세스 개발 비용도 한몫 합니다.

 

인텔은 트랜지스터나 배선 밀도를 늘려 이 문제를 해결하려 합니다. 즉, 더 조밀한 칩을 만들어 다이를 줄이고 다이 면적 당 비용 상승을 상쇄하려 합니다. 따라서 인텔은 프로세스 미세화를 진행하면서 제조 비용을 억제하기 위해 다이 자체를 줄여야 합니다. 이것이 브로드웰-EP에서 발생한 것이라 추측됩니다.

 

4.jpg

 

갈수록 늘어나는 비용

 

 

모듈형 설계. 브로드웰-EP

 

24코어(실제 출시 모델은 22코어) 브로드웰-EP의 구성은 다음과 같습니다. 기본적으론 하스웰-EP와 마찬가지로 이중 링버스가 2개 있습니다. 각 링마다 CPU 코어와 LL 캐시 슬라이스가 링 스톱에 연결됩니다. 2개의 링이 쌍을 이루는데 버퍼 스위치로 연결됩니다. 버퍼 스위치는 위/아래 2곳에 설치됩니다. 외부 I/O 및 메모리 인터페이스도 링 스톱에 연결됩니다.

 

5.jpg

 

브로드웰-EP 24코어의 다이어그램

 

이 구조는 하스웰-EP/EX와 기본적으로 같습니다. 아래는 하스웰-EX의 구성도입니다. CPU 코어 수는 다르지만 두 쌍의 링에 코어와 I/O가 배치됐다는 점은 같습니다. 그림에 QPI 인터페이스가 3개 있는 건 EX 계열이라 그렇습니다. 실제로 브로드웰-EP는 다이에 3개의 QPI 링크가 있으나 eP 계열 제품은 비활성화됐을 것으로 추측합니다.

 

6.jpg

 

하스웰-EP/EX 모듈 설계

 

인텔은 CPU 설계에서 물리적 설계를 그대로 쓸 수 있는 모듈형 디자인을 채택합니다. 로직 기반 설계 방식과는 다르게 각 모듈의 물리 설계를 결합해 여러 CPU 제품을 설계할 수 있도록 합니다. 브로드웰-EP/EX에서도 이 모듈형 설계 기법이 활용됩니다. 최대 규모의 구성에서 모듈을 절단해 소규모 구성의 칩을 설계할 수 있도록 합니다. 아래는 하스웰 세대에서의 파생입니다.

 

7.jpg

 

하스웰-EP/EX의 다이

 

이 구조는 브로드웰-EP에도 유지돼 기본 설계로 3종류의 다이를 만들 수 있습니다. 가장 큰 HCC(High Count Cores)의 24코어 다이는 각 링마다 6코어 x2고 2개의 링이 있으니 총 24코어가 됩니다. MCC(Medium Core Count)의 15코어 다이는 각 링마다 5x2 코어로 줄어들며, 오른족 열을 줄여 15코어로 만들었습니다. LCC(Low Core Count)의 10코어 다이는 1개의 링에 5코어씩 10코어 구성이 됩니다.

 

8.jpg

 

브로드웰-EP의 링 버스 구성

 

재밌는 건 브로드웰-EP와 하스웰-EP가 2개의 링에서 대칭형으로 코어를 배치하지 않았다는 것입니다. 왼쪽의 링은 CPU 코어가 바깥쪽이고 LL 캐시가 오른쪽이나, 오른쪽 링은 CPU 코어가 오른쪽에 배치됩니다. 또 브로드웰-EP의 구성은 코어 배치만 보면 아이비타운과 같지만 링 버스가 달라 링버스가 단순합니다.

 

9.jpg

 

아이비타운의 링버스

 

CPU 아키텍처 측면에선 LL 캐시 컨트롤이 확장돼 가상 컴퓨터의 우선도에 따른 제어가 가능해졌습니다. Intel Resource Director Technology는 캐시를 할당해, 캐시 QoS 모니터링 뿐만 아니라, 캐시의 태그를 참조해 우선 순위 비트를 확장, 하이퍼바이저가 우선 순위를 제어할 수 있도록 했습니다.

 

10.jpg

 

기존의 캐시 컨트롤

 

11.jpg

 

브로드웰-EP의 캐시 컨트롤

 

또 브로드웰-EP의 전력 제어는 CPU 코어 단위로 전압을 제어하게 됐습니다. 부하에 따라 CPU 코어마다 각각 다른 전압과 클럭을 적용해 최적의 구성을 뽑아낼 수 있습니다.

 

 

데이터 센터의 프로세싱 리소스가 변화한다

 

현재 대형 서버 CPU에선 인텔이 지배적이며 특히 x86/x64에선 압도적인 상황입니다. 그러나 인텔의 서버 CPU가 경쟁하는 상대는 다른 회사의 서버용 CPU가 아닙니다. 현재 데이터 센터는 구조적인 변화를 맞이하고 있으며, 서버 CPU의 역할에도 변화가 생기고 있습니다. 데이터 센터에서 처리하는 데이터가 바뀌고 있기 때문입니다.

 

서버 CPU에서 고성능 대형 CPU 코어를 요구했던 건, 서버 워크로드의 스레드 부하가 무거웠기 때문입니다. 그런데 빅 데이터와 딥 러닝으로 트렌드가 바뀌면서, 서버에서 처리해야 할 작업이 스레드는 가벼우나 데이터 양은 많은 것으로 바뀌게 됐습니다. 이렇게 되면 대량의 데이터를 처리할 때 대형 CPU 코어는 전력 효율이 나빠지게 됩니다.

 

기존의 서버 CPU는 성능이 높아도 소비 전력이 크기에, 메모리나 I/O 같은 워크로드에선 전력 효율이 낮습니다. 반면 작은 프로세싱 코어를 여럿 사용하면 각각의 CPU 코어가 메모리나 I/O 액세스를 기다리는 동안 다른 CPU 코어가 처리할 수 있어 메모리 대역폭을 효율적으로 사용할 수 있습니다.

 

이러한 흐름 때문에 스몰 코어를 사용한 서버 CPU가 높은 효율로 주목을 받았습니다. 또한 GPU와 같은 고효율 SIMT(Single Instruction, Multiple Thread) 유형의 병렬 프로세서는 딥 러닝에서 많이들 쓰는 분위기입니다. 고정 회로를 실현하는 FPGA (Field-Programmable Gate Array)도 마이크로소프트의 데이터 센터에 쓰인 이후 관심이 높아졌습니다.

 

12.jpg

 

프로세서의 전력 효율성과 애플리케이션 유연성

 

이런 상황에서 데이터 센터에 점차 GPU나 FPGA의 사용이 늘어나기 시작했습니다. 서버에선 대형 CPU만 쓰던 지금까지와는 분명 다른 흐름입니다.

 

인텔은 이런 상황에 맞춰 GPU와 경쟁할 분야에선 제온 파이(나이츠 패밀리) 시리즈인 나이츠 랜딩을, FPGA에선 알테라를 인수해 대비하고 있습니다. 또 제온과 FPGA를 Multi-Chip Package(MCP)로 탑재한 제품을 계획하고 있으며, 앞으로의 데이터 센터에선 FPGA가 유용하다고 보는 중입니다.

 

즉, 데이터센터를 위한 인텔의 프로세서 제품군이 확산되고 있습니다. 그 중 서버 CPU는 데이터 센터의 주역 중 하나로 위치가 바뀌고 있습니다. 지금까지와는 경쟁자가 다르고 제품 카테고리도 다른 곳에서 경쟁하게 됩니다.

 

물론 처리 성능이 높은 대형 CPU 코어와 트래픽을 줄이기 위핸 대용량 캐시 서버 CPU는 앞으로도 중요한 위치를 차지합니다. 그러나 데이터센터가 다양화의 시대를 맞이하면서 서버 CPU만 확보하면 끝나는 상황은 더 이상 아닙니다. 인텔의 장점은 이런 변화에 맞춰 대응을 준비한다는 것이며, 단점은 바로 이 때문에 인텔의 전략적인 핵심이 어디에 있는지 보이지 않는다는 것입니다. 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.