기글 하드웨어 정보 게시판 - 결국 밝혀진 AMD의 Bulldozer

기글하드웨어 특집과 정보 게시판

특집 기사나 르포, 컴퓨터 사용이나 생활에서 두고두고 유용한 도움을 줄 수 있는 정보들을 쓸 수 있는 곳입니다. 내용이 짧거나 한시적인 경우 뉴스 리포트를 사용해 주시고, 심도 깊은 내용은 스페셜 게시판으로 이동됩니다.

결국 밝혀진 AMD의 Bulldozer

blueM

전력과 성능사이

https://gigglehd.com/zbxe/5321486

2011.03.01 12:21:56

10202

● 컴팩트하고 전력 효율이 높은 Bulldozer

▲ ISSCC2011가 열린 샌프란시스코 Marriott 호텔

AMD는 미국 샌프란 시스코에서 지난 주 개최된 반도체 컨퍼런스 "ISSCC (IEEE International Solid - State Circuits Conference) 2011"에서 새로운 아키텍처 CPU "Bulldozer (불도저)"의 설계 개요를 밝혔다. ISSCC에서 3 개의 세션으로 계시된 Bulldozer의 모습은 설계대로라면, 이 새로운 CPU가 상당한 경쟁력을 가지는 것으로 보인다.

ISSCC에서 밝혀진 것은 Bulldozer 다이 평면도에 대한 정보 및 각 모듈의 개요, 상대적으로 작은 모듈 크기, 3.5GHz 이상을 달성하는 높은 클럭화된 디자인과 높은 처리량을 제공하는 부동 소수점 ( FP) 장치의 구조 및 파워 게이팅(Power Gating)을 많이 사용한 저전력 설계 등 다양하다.

또한 이러한 자료를 통해 Bulldozer 아키텍처의 특성을 명료하게 되었다. 큰 포인트는 8 코어를 상대적으로 작은 다이 사이즈로 실현될 수 클러스터 아키텍쳐의 이득. 이것은 올해 중반에 등장하는 8 코어 Bulldozer가 비용적으로 무리하지 않고 있다는 것을 의미하고 있다.

또한 Bulldozer 디자인 개념은 정수 연산 파이프는 기존의 AMD CPU보다 가늘어, 동작 클럭의 향상 등으로 보완하는 것도 명료하게 되었다. Bulldozer는 종래와 같은 전력 범위에서 3.5GHz 이상의 주파수에서 동작할 수 있다고 한다.

FO4 (Fanout - Of - 4)가 기존의 K10보다 20 % 적은 즉, 파이프라인 당 게이트 딜레이가 20 % 나 줄어들었기 때문이다. 부동 소수점 (FP) 단위는 128 - bit의 SIMD 를 2 병렬하면 다른 명령어를 2 명령어 병렬로 실행되도록 레지스터 대역을 가지는 것도 밝혀졌다.

절전은 32nm 세대 게이트 누설 전류 (Leakage) 가 적은 HKMG (High-K/Metal Gate) 기술이 채택된 것 외에도 문턱 전압은 표준 (RVt)이지만 채널 길이의 긴 트랜지스터 (LC - RVt )를 많이 채택함으로써 누설 전류를 억제했다.

모듈 전체의 누설 전류는 맥스 시간 22 ~ 23 % 정도로 상대적으로 낮다. CPU 코어 내부의 L1 캐시는 기존의 6T (6 트랜지스터) SRAM 셀에서 8T SRAM 셀을 바꾸어, 데이터 내용을 유지할 수 있는 전압을 낮췄다. 즉, 더 낮은 전압으로 구동할 수 있게 되었다. 특정 유닛 단위로 전원을 차단하는 파워 게이팅이 CPU 코어의 캐시에도 채용되고 있다.

이러한 특징을 보면, Bulldozer는 작고 전력 효율이 높은 CPU로 디자인되어 있는 것을 알 수있다. AMD는 내년 (2012 년)에 Bulldozer 아키텍처를 메인 스트림 데스크탑과 노트북 PCdp 도입할 예정이다. Bulldozer의 CPU 코어가 충분히 작고, 메인 스트림 PC에 맞는 비용에 들어가는 것이 명확하게 되었다.

▲ Bulldozer의 다이 사진

▲ AMD CPU 마이 그레이션 그림

▲ Bulldozer 소비 전력

● Orochi의 CORE 다이 사진을 처음 공개

이것은 이번에 공개되는 Bulldozer 코어 CPU 다이 "Orochi"의 사진이다. Orochi는 Bulldozer 기반의 첫번째 다이, GLOBALFOUNDRIES의 32nm SOI 프로세스 (High-K/Metal Gate)로 제조된다.

Orochi는 2 개의 CPU 코어를 융합시킨 "Bulldozer Module"를 총 4 개 탑재한다. CPU 코어 수로 환산하면 8 코어 상당 ,8 - way 멀티 쓰레드이다. 4 개의 Bulldozer Module 외에도 8MB의 L3 캐쉬, 듀얼 채널 DDR3 인터페이스, 4 링크 HyperTransport 3.0를 내장한다.

Orochi 다이는 AMD가 올해 중반에 서버와 하이 엔드 데스크탑에 투입하는 CPU 제품군의 기반이 된다. 제품으로의 코드명은 하이 엔드 데스크톱 "Zambezi (잠베지)", 서버 "Valencia (발렌시아)"와 "Interlagos (인테루라고스 = 포르투갈어 발음 / 인타라고스)"이다. Interlagos는 2 개의 다이를 패키지에서 연결 MCM (Multi - Chip Module)에서 16 코어 (8 개 모듈)이 된다.

▲ AMD CPU 아키텍처 전환

Orochi 다이를 보면, 각 Bulldozer Module로 2MB의 L2 캐시가 긴밀하게 통합되어 있는 것을 알 수있다. 실질적으로 L2까지를 포함한 모듈이 되고 있다. Orochi 다이는 4 개의 모듈이 마주 놓여있다.

ISSCC에서는 다이의 중앙은 크로스바가 차지하고 있는 것으로 설명되었다. 그 주위에 Bulldozer Module, 노스 브릿지, L3 캐시 메모리 컨트롤러 등이 배치되어 있다. L3 캐시는 2MB 씩 4 개의 구획으로 분리되어 있다. 각 유닛의 교차되는 다이 중앙은 크로스바를 배치하기 위하여 합리적이다.

그림의 다이 오른쪽에는 듀얼 채널 DDR3 메모리가 배치되어 있다. Orochi 세대는 DDR3 - 1866까지 지원하게 되어있다. 또한 다이 왼쪽, 그것 위쪽 및 아래쪽의 왼쪽 부분에는 HyperTransport의 PHY 것으로 보이는 유닛이 배치되어 있다. 기존의 HyperTransport의 PHY 장치가 늘어났다. 다이의 가장자리 상당 부분이 I / O 패드에서 점유, 설계되고 있다.

AMD는 작년 (2010 년) 9 월에도 Orochi 다이 사진을 공개하고 있었다. 그러나 이때의 다이 사진은 가공이 더해지고 CPU 코어의 개요 및 크기를 알 수 없도록 되어 있었다. 아래 그림의 오른쪽 사진이 지난해 것이다. Bulldozer Module 부분이 가공되어 있는 것을 알 수 있다. AMD가 명백하게 처리하여 감추고 싶었던 Bulldozer Module의 크기와 모양이다. 이번 ISSCC에서는 그것이 밝혀졌다.

▲ Bulldozer의 다이 신구 비교

● Bulldozer Module에 대한 자세한 정보가 밝혀져

Orochi에 Bulldozer Module은 각각 아래 그림과 같은 구조로 되어 있다. CPU 모듈 부분은 큰 단위별로 명확하게 구분되며, 장치 그룹들 사이에 클록 띠가 끼어들어 통합되고 있다. 맨 위 단위 군이 프런트 엔드 명령어 인출 / 해독과 분기 예측, 64KB의 L1 명령 캐시. 그 아래에 정수 코어가 2 개 놓여 있다. 정수 코어는 정수 연산 파이프 블록의 로드 및 저장을 수행하며, 시스템의 블록에 상하로 나뉘어 있다. 로드 / 스토아 유닛은 16KB의 L1 데이터 캐시를 코어에 각각 포함하고 있다. 아래는 부동 소수점 (FP) 장치이다.

Bulldozer Module은 클러스터 아키텍쳐를 기반으로 하며, 1 개의 모듈로 2 스레드 실행 리소스가 클러스터 부분적으로 공유되고 있다. Bulldozer의 정수 연산은 2 개의 스레드에 대한 각각의 전용 코어를 가진다. 그러나 명령 디코더 및 부동 소수점 연산 장치와 같은 2 개의 스레드에서 공유한다. 따라서 정수 코어 부분은 2 개의 스레드가 완전하게 분리되어 있다.

▲ Bulldozer 모듈

▲ Bulldozer 모듈과 장치

▲ Bulldozer 아키텍처

ISSCC에서 이 모듈의 면적이 2MB의 L2 캐시를 포함하여 30.9 평방 mm 것임이 밝혀졌다. 이것은 매우 작은 숫자로, 따라서 Bulldozer 기반 CPU 자체도 코어에 비해 다이가 작아지는 것을 알 수있다. 또한, CPU 전체의 멀티 스레딩 성능 / 다이 면적이 높은 것도 의미한다. 이것은 특히 CPU 코어가 급증을 계속하는 Intel의 경우, 유리하다.

Bulldozer Module의 30.9 평방 mm의 크기가 얼마나 작은지는 AMD의 현재 K10 (Hound) 계 CPU 코어와 비교하면 잘 알 수 있다. Bulldozer는 GLOBALFOUNDRIES의 32nm 공정이므로, 같은 프로세스에서 만들어진 "Llano (라노)"의 CPU 코어와 비교한 것이 아래 그림이다. Llano는 올해 AMD의 메인 스트림 CPU가 된다.

▲ Bulldozer과 Llano 비교

▲ 다이 사진을 제외한 모듈 비교

● Llano의 K10 코어 약 2 개분의 크기인 Bulldozer Module

Llano의 32nm K10 코어의 면적은 CPU 코어 뿐이라면 9.69 평방 mm. CPU 코어 +1 MB L2 캐시 + 파워 게이팅 17.7 평방 mm가 되고 있다. 반면 Bulldozer Module은 코어 2 분 모듈과 2MB L2에서 30.9 평방 mm. 다이 사진을 보면 2MB의 L2를 제외한 부분은 18 평방 mm 정도로 보인다. 즉, 코어 2 분 Bulldozer Module 본체는 1 코어 분 K10 CPU 코어의 약 2 배의 면적이라는 것이 된다.

K10 코어 2 개분에서 Bulldozer Module 1 개면, CPU 코어 수를 비교해보면 계산이 맞는다고 할 수 있다. 그렇다고는 해도, Bulldozer Module는 K10보다 기능적으로 매우 확장되고 있다. 기능을 강화하고 듀얼 코어로 했다면, K10 2 개분보다 큰 면적을 먹는다. Bulldozer는 그것을 K10 2 개분의 면적에 밀어 넣었다라고 할 수 있다.

Bulldozer Module에서 역산하면 Bulldozer 기반의 Orochi 다이도 짐작할 수 있다. 다이 사진으로 계산하면 Orochi는 300 평방 mm를 자르는 것으로 추정된다. AMD는 이전에 Orochi가 현재의 45nm 공정의 K10 6 코어 "Istanbul (이스탄불)"다이보다 작아진다고 설명했다. Istanbul는 346 평방 mm이므로, 실제로, Bulldozer는 Istanbul보다 수십 퍼센트 작다.

▲ AMD의 각 세대의 코어 크기

▲ CPU 다이의 전환 그림

300 평방 mm에 가까운 다이 크기는 매우 크게 느껴지지만, 4 개의 코어가 되고나서의 x86 CPU는 하이 엔드에서는 이미 이 크기가 일반화되어 있다. AMD는 65nm 공정의 K10 코어 4 "Barcelona (바르셀로나)"가 283 평방 mm. Intel은 45nm의 Nehalem 4 코어 "Lynnfield (린필드)"가 296 평방 mm, 32nm 6 코어 "Westmere (우에스토미아)"는 한층 작은 240 평방 mm이다. AMD는 8 코어 Orochi 현재 성능에서의 CPU 표준 다이를 가지고 가고 있다고 말할 수 있다.

또한, 메인 스트림 CPU는 현재 4 코어에 GPU 코어를 통합하고 200 평방 mm 정도의 다이 크기가 주류를 이루고 있다. AMD가 올해 중반에 출시할 예정인, K10 4 코어 + GPU 코어 Llano도 200 평방 mm를 조금 넘은 다이가 된다. 따라서 GPU 코어 분을 생각하지 않으면, 메인 스트림 CPU와의 차이도 비교적 작다.

Bulldozer과 Llano의 다이 크기 비교