eDRAM 버전이 출시되는 하이엔드 그래픽스 버전 브로드웰

 

인텔은 미국 샌프란시스코에서 개최된 자사의 기술 컨퍼런스 Intel Developer Forum(IDF)에서 14nm 세대의 CPU 아키텍처인 브로드웰 패밀리 전체에 대해 설명했습니다.

 

브로드웰 패밀리는 아직 코어 M(Broadwell-Y)만 발표됐으나 앞으로는 기존대로 서버까지 모든 범위로 제품이 출시됩니다. IDF에서는 아직 발표되지 않은 고성능 버전의 예로 아래 쿼드코어 버전이 나왔습니다. 하스웰처럼 하이엔드 그래픽에선 eDRAM 버전이 나옵니다.

 

1.jpg

 

브로드웰-Y의 다이 레이아웃

 

2.jpg

 

3.jpg

 

쿼드코어 브로드웰의 개념

 

명령 실행 효율인 IPC(Instruction-per-Clock)이 기존보다 향상되고, 부동 소수점 연산과 벡터 실행 레이턴시가 줄어듭니다. 아이들 시 전력은 60% 줄어들며 액티브 전력은 30% 줄어듭니다. PCH(Platform Controller Hub)의 전력 관리는 보다 섬세하게 이루어지며 통합 전압 조정기(IVR)의 실장 형태도 달라집니다. CPU 코어는 마이너 체인지지만 GPU 코어는 마이크로 아키텍처가 크게 변해 지원하는 API도 확장됩니다. GPU에서 무엇보다 중요한 건 공유 가상 주소 영역을 하드웨어에서 지원해 CPU 코어와 GPU 코어 사이의 데이터 교환이 쉬워졌다는 것입니다.

 

브로드웰의 특징 중에서도 가장 중요한 건 말할 필요도 없이 14nm 공정으로 제조한다는 것입니다. 새로운 프로세스 기술 덕분에 저항을 65%까지 낮추고 최소 구동 전압을 10% 낮췄으며, 저전압시 트랜지스터 성능을 10~15%로 끌어올려 누설 전류를 절반으로 줄였습니다. 브로드웰의 전력 효율 향상 대부분은 프로세스 기술에서 비롯된 것으로 나타났습니다. 저항과 전압 저하율은 최근 프로세스로 이행 중에서는 매우 양호하며 14nm 과정은 인텔의 강력한 제조 기술입니다.

 

4.jpg

 

5.jpg

 

인텔의 14nm 과정은 수축률이 높아 로직 구역의 면적이 22nm 공정의 51%까지 줄었습니다. 다이 면적 크기가 작아진다는 건 전력도 거기에 맞춰 줄어들어야 전력 밀도(Power Density)를 유지한다는 이야기입니다. 하스웰과 같은 구성으로 만든 브로드웰의 다이가 만약 50% 정도로 줄어드는데 액티브 파워가 70% 밖에 줄어들지 않는다면 전력 밀도는 올라가게 됩니다. 전력 밀도의 상승은 냉각을 어렵게 합니다.

 

6.jpg

 

인텔 프로세스 기술의 로직 구역 스케일링

 

 

CPU 코어와 라스트 레벨 캐시는 22nm 세대에서 50%로 축소

 

브로드웰의 다이를 하스웰과 비교해보면 그것을 잘 알 수 있습니다. 아래 그림에서 윗부분은 4 CPU 코어+GT2 GPU 코어의 하스웰, 아래가 브로드웰-Y에서 2 CPU 코어+GT2 GPU 코어입니다. 같은 구성의 비교는 아니지만 하스웰에서 브로드웰로 가며 크기가 얼마나 줄어드는지 잘 나타납니다.

 

7.jpg

 

하스웰 4+2와 브로드웰 2+2의 다이 비교

 

이를 부분별로 보면 아래 그림처럼 됩니다. CPU 코어와 2MB의 LL 캐시 슬라이스 다이 영역은 22nm 하스웰부터 14nm 브로드웰까지 거의 50%로 축소됐습니다. 브로드웰의 CPU 코어 마이크로 아키텍처 확장은 크기 않아 로직과 SRAM이 공정 미세화 비율에 맞춰 작아지는 것으로 나타났습니다. GPU 코어는 같은 GT2 등급이지만 구조적으로 확장돼 다이 지역은 69%입니다. 이 비율만 봐도 브로드웰이 CPU보다 GPU 확장에 무게를 둔 세대임을 알 수 있습니다.

 

8.jpg

 

하스웰 4+2와 브로드웰 2+2의 다이를 부분별로 비교

 

시스템 에이전트와 I/O 영역의 축소율은 57%인데 축소율이 낮은 I/O 영역이 포함되서 그렇습니다. DRAM 인터페이스 역시 63%로 축소율이 낮습니다. 브로드웰의 하스웰 패밀리 다이와 비교하면 아래와 같습니다. 브로드웰-Y의 구성에 맞는 건 하스웰 2+2로 이 두가지를 비교하면 다이가 62%로 줄어듭니다.

 

9.jpg

 

다이 레이아웃

 

브로드웰은 2+2구성에서 더 높은 TDP(Thermal Design Power)도 커버하기 위해서 이 이상 다이를 줄이긴 어렵다고 봅니다. 거꾸로 말하면 GPU 구역을 늘린 건 발열의 관점에서 보면 당연한 흐름입니다. CPU가 차지하는 구역을 늘리면 다크 실리콘이 생기기 때문입니다.

 

 

CPU 마이크로 아키텍처는 소폭 개량

 

브로드웰의 CPU 코어 마이크로 아키텍처 확장으로서는 아웃 오브 오더 스케줄러 엔트리가 60에서 64로 확장됐습니다. 이 엔트리는 네할렘이 36, 샌디브릿지가 54로 제법 확장됐습니다. 또 스토어 포워딩도 더욱 빨라졌습니다.

 

L2 통합 TLB(Translation Lookaside Buffer)는 4KB와 2MB 페이지가 1K엔트리에서 1.5K엔트리로 확장됐습니다. 또 새로 1GB 페이지 L2 TLB가 16개 항목이 마련됐습니다. 분기 주소 예측 기능의 정확도도 개량됐습니다.

 

인텔은 연산 성능을 오랬만에 올렸습니다. 부동 소수점 곱셈은 그동안 5사이클 레이턴시에서 3사이클 레이턴시로 줄었습니다. 계산은 Radix-1024 나눗셈 유닛의 레이턴시가 단축되고 산출량도 늘었습니다. 또 하스웰에 추가된 Gather 명령도 생성하는 uOPs가 최대 60% 향상됐습니다. 이 밖에 암호화와 보안은 새로운 명령이 추가됩니다.

 

10.jpg

 

11.jpg

 

12.jpg

 

재미있는 기능은 프로세서의 실행 트레이스를 자동으로 메모리에 써내는 Intel Processor Trace 모니터링 기능이 더해졌다는 것입니다. 또 좀처럼 사용할 수 없는 Transactional Synchronization Extensions(Intel TSX)에 대해서도 새로운 명령이 추가됩니다.

 

 

전압 조정기는 인덕터만 도터 보드에

 

인텔 CPU 전력 절약 기술의 핵심인 통합 전압 조정기(IVR:Integrated Voltage Regulator)은 브로드웰에서 큰 변화가 있었습니다. 하스웰에선 IVR의 인덕터를 CPU 패키지 배선층에 생성하지만 브로드웰에서 인덕터는 CPU 패키지 아래 도터보드 3DL 몯률로 옮겨갔습니다. 하스웰 CPU 패키지의 뒷면에 있던 둥근 트레이스가 사라지고 브로드웰-Y에선 아래의 도터보드가 나오게 됐습니다. 

 

13.jpg

 

하스웰의 IVR은 온 다이에 장착된 DC-DC 컨버터와 고밀도 MIM(metal-insulator-metal) 캐패시터, 그리고 Package trace inductor로 구성됩니다. IVR의 유닛 중 인덕터 부분만 다이가 아니라 패키지에 있습니다. 다이와 패키지를 모두 사용하는 통합입니다.

 

CPU용 전압 조정기를 칩에 통합할 경우 가장 큰 문제가 되는 건 대형 외장 부품인 인덕터의 통합입니다. 인텔은 CPU 패키지의 서브 스트레이트로 Air Core Inductor를 생성했습니다. 서브 스트레이트의 PTH(Plated Through-Hole)과 Trace를 사용해 에어 코어 인덕터를 만듭니다. PTH의 주변을 돌아 코일 모양의 형태로 만드는 것으로 보입니다. 비 자성 재료의 트레이스를 표준 패키지 기술로 제조할 수 있습니다.

 

14.jpg

 

15.jpg

 

IVR에서는 전압 변환이 빠르게 이루어지니 인덕터의 용량도 상대적으로 작아집니다. 그 때문에 패키지 내부 배선을 사용한 인덕터에서도 가능해 졌습니다. 이 기술로 메인보드 CPU 측과 칩 패키지에는 외장 캐패시터를 넣을 필요가 없어졌습니다. 브로드웰에서는 다이에 내장된 백 컨버터와 MIM 캐패시터는 그대로 두고 패키지 인덕터를 3DL로 이동시켰습니다.

 

인텔의 Srinivas Chennupaty(Sr. Principal Engineer, CPU Chief Architect, Intel)는 그 이유에 대해 CPU 패키지를 얇게 만들고 싶다는 요구가 있었기 때문이라고 설명합니다. 패키지 트레이스 인덕터를 사용하면 코일 때문에 패키지를 두껍게 만들 어야 합니다. 패키지 두께를 줄이기 위해 패키지 트레이스 인덕터를 빼는 건 논리적입니다.

 

또 다른 인텔 관계자는 패키지 트레이스 인덕터는 노이즈가 큰 문제였다고 설명합니다. 실제로 인텔의 과거 논문에서도 패키지 트레이스 인덕터의 EMI을 어떻게 억제할지를 논한 바 있습니다.

 

16.jpg

 

인텔이 4년 전에 패키지 트레이스 인덕터의 EMI 특성을 설명한 슬라이드

 

인텔의 연구를 보면 IVR의 목표가 다이에 인덕터를 포함해 통합하는 것입니다. 브로드웰의 내장은 그런 흐름에서 역행할 것으로 보입니다. 또 스카이레이크에선 전압 조정기의 스펙이 바뀌어 더욱 퇴보한다는 소문도 있습니다. 전압 조정기의 통합의 경우 지금도 말이 많습니다.

 

이러한 불안을 없애기 위해서인지 인텔은 IDF에서 IVR의 효율성 향상을 강조했습니다. 저 전압 시 손실을 줄이고 전압 하강 속도를 향상시키는 등의 개량을 했습니다.

 

17.jpg

 

 

GPU 코어의 내부 아키텍처를 개량

 

인텔의 틱톡 모델은 사실 CPU 코어와 GPU 코어의 확장을 교체하는 모델이기도 합니다. 프로세스가 미세화하는 최초의 틱 세대는 미세화 뿐만 아니라 GPU 코어가 크게 강화되는 경향도 강합니다. 그리고 다음 세대인 톡 세대는 CPU 코어가 강화됩니다. 브로드웰은 틱에서 GPU 코어를 더욱 강화합니다. 커스텀 설계 CPU 코어와 로직 합성 부분, 대부분의 GPU 코어에서 차이를 보이고 있습니다.

 

18.jpg

 

19.jpg

 

성능/전력 향상은 프로세스 기술과 회로 설계 기술도 기여

 

브로드웰 GPU 코어의 확장은 다양합니다. 프로세스 기술과 회로 설계 기술에 의한 전력 효율의 향상도 있지만, 그 이상으로 마이크로 아키텍처의 확장의 비율이 큽니다.

 

브로드웰 GPU 코어는 하스웰 GPU 코어와 내부 마이크로 아키텍처가 바뀌었습니다. 하스웰 GPU 코어에선 연산 코어의 최소 단위인 Sub-Slice(하프 슬라이스라고도 부름)는 10개의 EU(execution unit)을 갖추고 있었습니다. EU는 4-way의 SIMD(Single Instruction, Multiple Data)유닛을 2개 갖추고 있으며 각각의 SIMD가 다른 스레드의 명령을 실행 가능합니다.

 

또 텍스쳐 유닛(그림에선 3D 샘플러), 텍스처 L2 캐시도 서브 슬라이스로 나뉩니다. 하스웰 GPU는 2개의 서브 슬라이스가 Slice Common이라 불리는 유닛을 공유합니다. 슬라이스 커먼에는 폴리곤에서 픽셀로 변환하는 라스터라이저, 화면에 표시하는 픽셀을 가공하는 픽셀 백엔드와 L3캐시, 렌더/딥스 캐시 등의 유닛들이 포함됩니다.

 

20.jpg

 

브로드웰의 GT2

 

그에비해 브로드웰에서 서브 슬라이스는 2유닛이 아니라 3유닛이 되고 각 조각이 각각 8개의 EU을 갖춥니다. 그래서 EU에 대비 텍스처 유닛의 비율이 바뀌었습니다. 기존엔 10 EU에 대해 1텍스처 유닛이었던 게 8 EU-1 텍스처가 되면서 텍스처의 비율이 높아졌습니다. 즉 상대적으로 텍스처 성능이 높아졌습니다. 인텔은 FLOPS-텍스처비가 40대 1에서 32-1이 됐다고 설명하는데 이것도 같은 말입니다. 연산-텍스처의 비율은 그래픽 최적화에 영향을 미칩니다. 또 일반적인 GPU는 연산 유닛 수를 4의 배수로 하지만 인텔의 경우 SIMT(Single Instruction, Multiple Thread)형 제어가 아니라 4의 배수에 얽매이지 않습니다.

 

21.jpg

 

브로드웰의 GT2 블럭 다이어그램

 

22.jpg

 

또 브로드웰에선 위 슬라이드의 왼쪽 끝에 있는 3D 그래픽 처리의 고정 기능 유닛 군을 강화했습니다. 지오 메트리 파이프의 경우 성능이 2배가 되었다고 합니다. 일반적으로 지오메트리 파이프의 개량을 할 경우엔 파이프를 2개로 하며 그 아래의 쉐이더 프로세서도 2분할해 2개의 GPU처럼 제어하지만 브로드웰은 그렇게 확장하진 않았습니다.

 

 

공유 가상 메모리를 지원하는 브로드웰

 

GPU 아키텍처의 측면에서 브로드웰의 가장 중요한 확장은 공유 가상 주소 영역(Shared Virtual Address Space)일 것입니다. 브로드웰에선 GPU 코어와 CPU 코어 군이 하나의 가상 메모리 주소 공간을 공유할 수 있습니다. 그래서 CPU 코어와 GPU 코어 사이에서 주소 포인터 데이터를 교환 가능합니다.

 

인텔은 MIC 아키텍처에서 소프트웨어 제어 공유 가상 메모리(SVM:Shared Virtual Memory)을 도입했지만 브로드웰의 경우 하드웨어 제어입니다. 소프트웨어 제어로 정밀도가 큰(페이지 기준) SVM과 다르게 브로드웰에선 캐시 라인 단위로 정확도가 낮은 SVM을 지원하며 GPU와 CPU사이는 아톰 오퍼레이션에서 동기화합니다.

 

또 브로드웰에선 하드웨어 기반의 메모리 일관성 시스템을 갖추고 있어 CPU와 GPU 양쪽에서 캐시를 스누프할 수 있습니다. 이 점에서 GPU 스누프만 가능한 AMD보다 발전된 스펙이라 할 수 있습니다. 다만 인텔도 방대한 업데이트가 발생하는 GPU 캐시에 대한 스누프 트래픽을 줄일 방법은 아직 밝힌 게 없습니다.

 

공유 가상 주소 영역은 GPU 컴퓨팅의 필수 단계입니다. 이 기능을 통해 브로드웰 이후엔 인텔 GPU 코어를 사용한 범용 애플리케이션의 개발이 한층 쉬워질 것이라 추측됩니다. 이와 같은 기능은 AMD도 APU(Accelerated Processing Unit)의 하드웨어에서, NVIDIA는 소프트웨어에서 구현하고 있습니다. 이 기능의 구현은 인텔이 내장 GPU 코어에서 GPU 컴퓨팅에 적극적임을 보여 줍니다.

 

브로드웰의 GPU 코어도 하스웰처럼 여러 구성으로 제공됩니다. 현재 밝혀진 것은 GT2의 스펙 뿐이나 GT3이 GT2의 두배 구성이라면 아래 그림처럼 될 것입니다. 부동 소수점 연산 유닛 수는 384유닛(절반인 192유닛은 슈퍼 기능 유닛과 공유)입니다.

 

23.jpg

 

브로드웰 GPU 코어의 변형

 

브로드웰 GPU 코어에 대해서는 IDF 이틀날에 집중 세션이 열렸습니다. 다음에 올라올 글을 기다려 주세요. 참고로 인텔은 2세대 eDRAM에 대한 개요를 올해 6월의 VLSI Symposium(Symposium on VLSI Technology and Circuits)에서 발표한 바 있습니다. 셀 영역 크기는 기존과 달라지지 않기에 eDRAM의 최대 용량도 바뀌지 않을 것이나 대기 전력은 크게 줄어듭니다.

 

24.jpg

 

25.jpg

 

26.jpg

 

하스웰의 eDRAM 아키텍처. 2세대 eDRAM도 기본 아키텍처는 비슷합니다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.