AMD의 Magny Cours 아키텍쳐 공개
Written by Nebojsa Novakovic
Source - http://www.brightsideofnews.com/news/2009/5/14/amds-magny-cours-architecture-revealed.aspx


지난 달의 AMD 6주년 Opteron 기념식과 다음 달에 나오는 6개-코어 Istanbul에 대한 관련 언급에 뒤이어서, Magny Cours에 대한 새로운 언급이 있었고.  Magny Cours 자신이 사용하는 거대한 소켓 G34도 나타났다.. 잠깐만, 이전에 AMD는 Intel이 자신들의 쿼드-코어 제품들을 위해 취했던 듀얼-다이 MCM 방법을 비웃지 않았나? 지금의 이건 모지?

맞다, Magny Cours은 MCM을 사용하고, 거대한 CPU 이다 - 비록 멀티-CPU인 Power5와 Power6 만큼은 아니지만.. 이런 크기는 여전히 과거 몇 년간 동안 활동한 LGA 775&771에서의 Intel CPU보다 더 큰 크기이다. 그리고 Magny Cours는 2개 Istanbul 다이들을 위해서 공간을 제공해야할 뿐만 아니라, 약간 더 많은 둘레를 필요로하는 Bulldozer와 그 이상의 다이들을 대비하여 약간의 예비 공간도 확보해야 한다

44.JPG

왼쪽이 Socket F이고, 오른쪽이 AMD Socket G34 CPU -  맞다. Socket G34는 훨씬 더 크다.


그럼, AMD 아키텍쳐는 이런 MCM에서 Intel보다 더 잘하고 있는 건가?  우리가 이 기사에서 가지고 있어야 하는 G34 CPU를 한번 살펴 보자. 우선 G34는 2개 45nm 다이들을 가지고 있고, 각 다이마다 6개 코어들과 512KB L2 캐쉬를 가지고 있다. 그리고 공유캐쉬도 다이마다, 아마도 보통보다는 작은, 6MB L3 캐쉬를 갖게 된다. 하지만, 밀집한(dense) 캐쉬 메모리 기술들의 선두(리더)에 예전부터 있었던(혹시 Z-RAM를 기억하시는 분 있나요?) AMD가 4개 코어에서 6개 코어로 점프를 결정했을 때, AMD는 캐쉬 부분에 약간은 더 많이 추가를 했었어야 한다고 난 생각이 든다. (왜냐하면) 기억을 하자면, Core i7과 Gainestown Nehalem(Nehalem-EP)은 4개 코어마다 8MB L3 캐쉬를 가지고 있고, 이 캐쉬들은 216-비트의 트리플 채널 DDR3가 데이터를 공급한다. 게다가 Beckton(Nehalem-EX)는 8개 코어들을 가지게 될 것이고, 24MB의 L3 캐쉬까지 가지게 될 뿐만 아니라, 288-비트 쿼드-채널 메모리 컨트롤러도 가지게 될 것이다. 그래서, 더 많이 메모리에 집중적인 쓰레드들을 위해서,  6개 코어마다 6MB L3 캐쉬와 144-비트 듀얼-채널 DDR3를 갖고 있는 Istanbul은, latency가 운영(관리)되고 있는 한, 캐쉬 증가는 도움이 되기 때문에, 캐쉬를 증가 시켰어야 했다.

현재 좋은 소식으로써, 2개 다이들과 노스브릿지(3개 load FSB는 2개 load FSB와 비교시 분명히 속도 감점이 있다) 사이의 공유 FSB 대신에, 이전에 내가 여러번 설명했듯이, AMD는 한 기판에서 완전한 속도로 2개 Istanbul를 직접적으로 연결하기 위해, HyperTransport를 잘 사용할 수 있다 - 사실상, 이것은 표준 HT 3.1 풀 속도보다 훨씬 더 빠르다.

Magny-Cours MCM에서 각 다이는 4개 HT 3.1 연결을 가지게 될 것이다. 이들은 각각 16비트 모드에서 25.6GB/s 양방향 대역폭를 제공할 것이다. 현재 여러분이 알다 싶이, HT3 스펙은 링크 나누기를 지원할 뿐만 아니라, 링크 합체도 지원하고 있다 - 최대 경우에서 2x32 비트 양방향 링크를 지원한다.

그럼 아래의 도표를 살펴보자. 그리고 AMD가 결국 얼마나 매우 다르게 할 수 있었는지를 기억해라.

55.JPG


다이마다 있는 2개 링크들을 제외하고, 각 다이의 2개 링크들은 다른 Magny-Cours 제품들, FPGA 가속기들, 심지어 HT-기반 공유 메모리 클러스터 상호(서로)연결 컨트롤러들 .. 등과 연결하기 위해 다이 바같쪽으로 갈 것이다. 그래서 G34에는 4개의 외부 HT3 링크들이 주어진다. 그리고 다이마다 남는 2개 HT 링크들에 관해서, 이들은 하나로 함께 연결되어 진다. 그리고, K10.5 아키텍쳐 내부에서만 동작하는 이 결합된 HT는, 왜 AMD가  Torrenza "HT-glued”플랫폼를 발전시키지 않았었는지 우리를 궁금하게 만들고 있다.

표준 HT3.1 속도에서 일지라도, 그리고 엄청 빠른 MCM 연결의 이점들을 하나도 이용하지 않더라도, 2배(의견:2개 HT 링크가 결합되서?)로 된 총 51.2GB/s 대역폭과 반으로 떨어진 왕복 latency(반응, 대기시간)은 2개 다이들 사이의 "불균일 기억 장치 접근(NUMA)" 손실을 관리하는데 도와줄 것이다. 하지만, 만약 AMD가 볼(ball)들(이것은 과거 몇 년동안 대단히 자주 갖지 못했던 것이다)를 갖게 된다면, 다른 CPU들을 위한 외부 HT 연결들과 비교시 별개 클럭으로 빠르게 동작하는  이런 내부 HT 링크들에 의해서, AMD는 다이들 사이의 HT 3.1 대역폭을 정말로 2배 이상으로 할 수도 있다. 그럼 다이 사이의 대역폭은 100GB/s 이상? 이는 전혀 문제가 없다. IBM은 Power 5+와 Power6 아키텍쳐가 갖는 대역폭보다 훨씬 더 높은 대역폭도 가지고 있다.

요약하자면, 1개 다이로 된 제품과 비교시, 다이 사이의 메모리 작업들을 위한 대역폭 손실은 거의 없고, 약간의 latency 손실만 있을 뿐이다. AMD는 항상 Intel보다 더 높은 메모리 이용성을 가지고 있었다(Intel의 70%와 비교시 AMD는 90~94% 범위). 하지만, AMD가 교차-결합(Cross-Link) 메모리 교환을 성공할 수 있을까? 시간만이 말해줄 것이다.

메모리에 대해 말하자면, 이런 경우에서, 우리는 보드의 바같쪽에 CPU마다 여러쌍으로 된 DDR3 채널들을 갖게 될 것이기 때문에, CPU 소켓마다 12개 DIMM 슬롯들이 있게 될 것이다 - 나쁘지 않다.  또한 각 다이는 자기 자신의 DDR3 뿐만 아니라. 다른 다이의 DDR3 채널들에도 동시에(만약 다른 다이도 이 다이의 DDR3 채널 접근을 원할 때는 최소한 줄서는 대기가 발생한다) 접근할 수 있다. 수치들을 살펴 보자면, DDR3-1333 메모리의 경우에서는 총 시스템 메모리 대역폭이 42.66GB/s가 될 것이다. 그리고 12개 슬롯으로 인해, 4GB DDR3-1333 메모리를 설치하면, 소켓마다 48GB 메모리를 구성할 수 있고, 만약 MetaRAM의 커스텀 메모리로 한다면, 소켓마다 192GB DDR3-1066 메모리 용량을 구성할 수 있다. 그래서, 4-Way 보드 경우에서, 여러분은 48개 코어들과 768GB 용량의 DDR3 메모리를 가질 수도 있다.

그럼, Intel은 Beckton으로 똑같이 할 수 있을까? 그렇다. 만약 Intel이 200W 이상의 TDP를 갖는 훨씬 더 큰 새로운 소켓을 만들어 내길 원했다면, Intel은 2개 Beckton Nehalem-EX 다이가 있는 CPU를 뛰어넘는 16개 코어/32개 쓰레드를 갖는 괴물까지도 만들어 낼 수 있었을 것이다. 그리고 CPU들 사이의 더 높아진 대역폭 때문에, 속도가 향상된 QPI 연결의 똑같은 이점들은 여기에서도 적용될 것이다. Intel은 이걸 만들어 낼까? 난 45nm에서는 그렇지 않다고 생각한다. 일단 32nm 다이 축소 제품이 나오게 되면, 나는 듀얼-다이 MCM Westmere 혹은 12개 혹은 16개 코어로 향상된 SandyBridge 칩들을 보게 될 것이라 확신한다.

p.s. 블로그, 개인 게시판, 사적인 곳으로 퍼가기 금지.
그 외 게시판으로 퍼갈시 "자동 삽입되는 내용 및 출처의 수정은 허용되지 않습니다."

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.