7nm의 3세대 라이젠, 트랜지스터 밀도가 낮은 이유

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...31965.html

AMD CPU 코어 클러스터의 축소율 계산

AMD는 7nm 공정으로 전환하면서 젠 CPU 코어 클러스터인 Core Complex(CCX)를 14nm 공정 대비 50%로 줄였습니다. 캐시 SRAM 용량이 같다고 가정하면 칩의 면적이 절반이 되고, 트랜지스터의 수에서도 밀도가 거의 2배로 증가했습니다. CPU 코어 크기도 반으로 줄었으며, 결과적으로 메인스트림을 노리는 APU (Accelerated Processing Unit)에 탑재할 CPU 코어의 수를 2배인 8코어로 늘릴 수 있었습니다.

그러나 기존의 CMOS 공정 미세화대로 본다면 좀 이상합니다. AMD는 14nm의 다음 단계인 10nm를 생략하고 7nm 공정으로 전환했습니다. 프로세스 노드 2세대에 해당되는 전환이며, 2세대를 거쳐 50%로 줄였습니다. 그러나 전통적인 CMOS 스케일링 노드대로라면 면적은 25%가 되야 합니다.

전통적인 CMOS 스케일링 법칙에선 프로세스 노드가 1세대 발전하면 면적이 50%로 줄어들고, 트랜지스터의 밀도는 2배가 됩니다. 즉 2세대라면 4배가 되야 합니다. 14nm 공정에서 10nm로 가면서 50%, 10nm에서 7nm로 가면서 다시 50% 줄어야 합니다. 14nm에서 7nm로 간다면 다이 면적은 25%로 줄어야 합니다.

TSMC 같은 파운드리의 경우 노드의 숫자가 작아질수록 트랜지스터 밀도가 노드 숫자에 가까운 비율로 상승한다고 설명합니다. TSMC의 7nm 공정 N7은 16nm의 16FF+보다 3.3배로 게이트 밀도가 오른다고 합니다. 마찬가지로 SRAM의 면적은 37%로 줄어듭니다. 3.3배라면 30%가 됩니다.

이런 설명은 실제 제품에도 반영됩니다. 모바일 SoC의 경우 TSMC 16nm 공정 애플 A9는 104제곱mm에 20억 개의 트랜지스터로 추측되는데, TSMC 7nm 공정의 애플 A13은 98제곱mm에 85억 개의 트랜지스터와 3배 이상의 밀도를 갖춘 것으로 보입니다. 그럼 AMD와 애플 제품의 트랜지스터 밀도 차이는 어디에 있을까요? 이걸 알려면 현재 반도체 공정에서 확장이란 말의 의미를 생각할 필요가 있습니다.

디바이스 크기의 축소율이 둔화

현재 파운드리의 스케일링은 프로세스 자체의 스케일링과 Design-Technology Co-Optimization (DTCO)를 통해 실현됩니다. 다양한 DTCO 기술을 추가해 로직 셀과 SRAM 셀의 크기를 줄입니다. 결과적으로 전통적인 스케일링과 비슷한 수준으로 트랜지스터 밀도를 높이는 방법입니다.

스케일링의 법칙은 간단합니다. 프로세스의 기반이 되는 형상의 크기를 줄이고, 노드의 숫자를 낮추고, 트랜지스터의 밀도가 오릅니다. 형상의 크기는 CPP(Contacted Poly Pitch)나 게이트 피치, 즉 게이트의 간격과 가장 좁은 메탈 피치(MMP : Minimum Metal Pitch)를 가리킵니다. 각 제조사의 로직은 게이트 피치와 메탈 피치를 곱한 숫자를 노드 이름으로 씁니다. 프로세스 노드의 숫자가 70%로 줄어들면 게이트 피치와 메탈 피치는 70%로 줄어들고, 게이트 피치와 메탈 피치에서 정해지는 면적은 50%로 줄어듭니다.

파운드리의 공정 기술과 형상 크기입니다. TSMC의 40nm 공정은 게이트 피치가 160nm, 메탈 피치가 120nm입니다. 이게 28nm 공정에선 게이트 피치가 118nm(73%), 메탈 피치가 90nm(75%)로 줄어들고, 게이트 피치와 메탈 피치를 곱한 디바이스 면적은 55%로 줄었습니다. 제조 공정이 1세대 발전하고 노드의 숫자가 70%로 작아지니 전체 크기는 절반이 되며 트랜지스터 밀도가 2배로 오릅니다.

그런데 20nm 공정에서 이 법칙이 무너졌습니다. 지금까지처럼 깔끔하게 크기가 줄어들지 않게 됐습니다. TSMC의 10nm 프로세스는 게이트 피치가 66nm, 메탈 피치가 44nm(42nm라는 분석도 있습니다)였습니다. 이게 TSMC 7nm 공정에선 게이트 피치 57nm(학회 발표에선 54nm)로 86%가 됐으며, 메탈 피치는 40nm로 90%가 됐습니다. 게이트 피치와 메탈 피치의 곱은 78.5%밖에 안 됩니다. 기존의 스케일링 법칙과 비교하면 훨씬 작습니다.

AMD는 글로벌 파운드리의 14nm에서 TSMC 7nm 공정으로 10nm 세대를 건너 뛰었습니다. 2세대가 줄어든 것이죠. 글로벌 파운드리의 14nm는 삼성에서 라이센스를 받은 공정으로 게이트 피치 78nm나 84nm, 메탈 피치는 64nm입니다. 반면 TSMC의 7nm 공정은 게이트 피치가 57nm(학회 발표에서 54nm), 메탈 피치는 40nm. 게이트 피치와 금속 피치를 곱한 결과는 40%가 됩니다. 즉 트랜지스터 밀도가 2.5배 늘었다는 계산입니다. TSMC의 16nm와 7nm를 비교하면 37%, 2.7배의 밀도가 됩니다.

로직 칩 설계의 핵심, 표준 셀

디바이스 스케일링만 보면 지금의 CMOS 스케일링은 노드 숫자만큼 많이 바뀌지 않는 것 같습니다. 프로세스 노드가 1세대 미세화되도 트랜지스터 밀도는 2배가 되지 않았습니다. 2세대 노드의 미세화도 4배가 되지 않고 2배가 좀 넘습니다. 이렇게 된 이유 중 하나가 셀 영역입니다.

프로세서를 설계할 때 논리 회로는 로직 셀, 메모리 부분은 SRAM 셀을 사용합니다. 로직 셀은 완전히 새로 설계하는 게 아니라, 회로 블럭마다 재사용 가능한 매크로 셀을 미리 설계해두는 표준 셀을 씁니다. CPU는 일부 커스텀 셀을 넣기도 하지요. 표준 셀은 반도체 파운드리, EDA 툴 제조사, IP 공급사 등에서 제공하는 게 있으나, 프로세서 제조사가 만들 수도 있습니다. 직접 설계하고 직접 만드는 인텔의 경우 자신들만 쓴느 표준 셀이 있기도 합니다.

표준 셀은 레고 블럭같은 부품으로, 여러 셀을 결합해 CPU와 GPU를 설계합니다. 표준 셀은 각 셀의 높이를 맞춰야 합니다. 그래야 공간의 낭비 없이 셀을 배치할 수 있습니다. 셀 높이는 로컬 배선층, 위에서 언급한 최소 메탈 피치의 배선 트랙으로 표시합니다. 9개의 메탈 트랙을 배치할 높이라면 9T 셀이라고 부릅니다. 셀 높이는 셀 라이브러이의 성능 범위와 전력, 회로의 밀도에 따라 결정됩니다.

셀의 높이가 클수록 고성능 회로를 만들기 쉽습니다. 트랜지스터 게이트 폭을 넓혀 전류 구동 강도(drive strength)를 높이기가 쉬워지거든요. FinFET의 경우 셀 높이가 클수록 트랜지스터의 핀 수를 늘려 구동 성능을 향상시킬 수 있습니다. 하지만 셀 높이가 큰 라이브러리를 쓰면 다이 크기도 커지고 소비 전력도 늘어납니다.

반대로 셀 높이가 낮은 라이브러리는 다이 면적과 소비 전력이 작아지지만 클럭을 올리기가 어렵습니다. 따라서 고성능 CPU 코어에는 셀 높이를 올리고, 저성능 디바이스에는 셀 높이를 낮춘 라이브러리를 쓰는 게 일반적입니다. 28~20nm 평면 공정에선 12트랙 셀을 고성능 CPU 코어에, 9트랙 셀을 고밀도/고성능 GPU 코어에, 7트랙 셀을 고밀도/저전력 디바이스에 씁니다.

DTCO을 사용해 표준 셀 크기를 줄임

전통적인 스케일링에선 공정의 크기가 작아진 만큼 표준 셀도 작아졌습니다. 12트랙과 9트랙 표준 셀 모두 제조 공정이 1세대 미세화하면 50%로 줄었습니다. 디자인은 그대로 유지되며 크기가 줄어든대로 셀이 작아졌습니다.

그런데 지금의 CMOS 스케일링은 노드 숫자만큼 줄어들진 않습니다. 그래서 반도체 제조사들은 새로운 방식으로 표준 셀의 크기를 줄여 스케일링을 시도하고 있습니다. 논리 회로의 표준 셀과 SRAM 셀 면적을 줄여, 단위 면적당 트랜지스터 밀도를 높이는 식으로 형상 크기를 유지하면서 트랜지스터 밀도를 높이는 방법이 있습니다.

그러나 셀 면적을 줄이려면 다른 노력이 필요합니다. DTCO라는 기술인데, 표준 셀의 회로 설계와 공정 설계를 연동-최적화해 셀 면적을 줄입니다. 셀 높이를 줄이거나 셀 양쪽의 경계 부분을 줄이거나, 셀 위/아래에 파워 레일 부분을 넣는 방식으로 셀 면적을 줄입니다.

DTCO가 제대로 작동한다면 트랜지스터 밀도가 전체 크기가 줄어든 것 이상으로 줄어드리라 기대합니다. 모바일 SoC의 트랜지스터 밀도가 높아진 이유도 여기에 있습니다. 하지만 고성능 CPU는 그렇게 쉽지 않습니다. DTCO가 성능에 영향을 줄 수 있거든요. 현재 AMD CPU의 트랜지스터 밀도가 낮은 이유도 여기에 있다고 보입니다.

2019년 12월의 IEDM 숏 코스에서 도쿄 일렉트론이 공개한 스케일링 현황

삭제 요청

로그인

나눔글꼴 설치 안내

이 PC에는 나눔글꼴이 설치되어 있지 않습니다.