공정 미세화와 스케일링을 결합
앞으로 CMOS 반도체 프로세스 스케일링은 공정 자체의 미세화뿐만 아니라 DTCO(Design-Technology Co-Optimization : 설계 및 기술 협조 최적화)까지 더해서 이루어집니다. DTCO는 로직 셀과 SRAM 셀의 설계와 공정을 함게 최적화해 셀 자체의 면적을 줄입니다. 셀 자체의 크기를 줄임으로서, 현재 느려진 공정 미세화 속도를 보충해 무어의 법칙을 따라갑니다. 예를 들어 로직 셀이라면 셀 높이를 줄입니다. 셀 높이에 따라 로직 셀의 크기가 좌우되며, 셀 높이는 최하층 메탈 트랙으로 표시합니다. 9개의 메탈 트랙을 배치한다면 9트랙 셀이라고 부릅니다.
지금까진 9트랙 표준 셀 설계 유닛을 7.5트랙 셀로 전환하면 셀 면적이 83%로 줄었습니다. 또 6.5트랙, 6트랙, 5.5트랙, 5트랙으로 셀의 높이를 줄일수록 로직 셀은 더 줄어들어, 같은 크기에 더 많은 셀을 넣어 트랜지스터 밀도를 높일 수 있었습니다. 이렇게 진화를 거듭하며 결국에는 nmox 트랜지스터와 pmos 트랜지스터의 적층이란 간단한 기술만 남게 됩니다.
도쿄 일렉트론이 2019년 12월 IEDM의 숏 코스에서 공개한 스케일링 기술
도쿄 일렉트론이 2019년 12월의 IEDM 숏 코스에서 공개한 셀 높이의 변화
여기서 문제는 DTCO를 도입하고 표준 셀 높이를 줄여도 트랜지스터 성능이 유지되느냐는 것입니다. 현재 고성능 로직에선 스케일링이 어렵습니다. 높은 성능에 맞춰 설계한 AMD CPU는 셀 스케일링의 효과가 크지 않습니다. AMD는 고클럭으로 작동하는 GPU 코어까지 들어가는데, 이 부분의 셀이 상대적으로 큽니다.
셀이 높을수록 고성능 회로를 만들기 쉽고, 셀 높이를 낮추면 성능은 떨어져도 저전력 회로가 됩니다. 그러나 공정 미세화의 절반 이상을 스케일링으로 실현하는 세대가 되면서 앞으로는 셀을 작게 해도 성능을 유지할 필요가 생겼습니다. 그게 된다면 3nm 공정에서 7nm 공정의 4배에 달하는 CPU 코어와 GPU 컴퓨팅 유닛을 탑재해, 256코어 서버 CPU도 가능해질 겁니다.
FinFET는 트랜지스터 성능 향상으로 스케일링을 실현
20nm까지 CMOS 스케일링은 프로세스 미세화에 따라 크기가 줄어들고, 이에 따라 표준 셀도 작아졌습니다. 12트랙과 9트랙의 표준 셀은 제조 공정이 1세대 미세화하면서 50%로 줄어들었습니다. 그러나 지금의 CMOS 스케일링은 크기가 예전처럼 줄어들지 않습니다.
전통적인 공정 개선의 표준 셀 크기 변화
지금의 CMOS 공정 개선에서 표준 셀 크기 변화
지금의 반도체 파운드리 전략은 공정 미세화와 실질적인 스케일링을 더하는 것입니다. 셀 면적이 줄어들면 단위 면적당 트랜지스터 밀도가 높아집니다. 이런 분위기는 FinFET 3D 트랜지스터를 시작했을 때부터 이어졌습니다. FinFET은 평면 FET와 비교하면 채널 구동 능력이 높아, 채널 폭을 좁힐 수 있습니다. 그만큼 셀을 줄여 미세화를 실현할 수 있습니다. 앞으로는 DTCO를 결합해 더욱 줄여 나갑니다.
TSMC가 작년 12월 IEDM에서 발표한 미세화 기술 전망
DTCO를 사용했을 때 표준 셀의 축소
28nm 공정에서 셀 확장을 시도한 AMD
사실 AMD는 이미 5 년 전에 스케일링을 통해 CPU 코어를 작게 만드는 설계를 시험한 바 있습니다. 28nm 불도저 아키텍처의 CPU 코어인 엑스케베이터입니다. 카리조 APU에 탑재된 엑스케베이터는 같은 28nm 공정의 스팀롤러 CPU와 비교하면 다이 면적이 23%나 줄었습니다.
AMD는 28nm 공정에서 CPU 코어는 12트랙의 표준 셀, GPU 코어는 9트랙의 표준 셀로 설계했습니다. 높은 클럭이 필요한 CPU에는 고성능 라이브러리를 넣고, GPU 코어는 동작 클럭보다 밀도를 높이고 연산 유닛 수를 늘리는 게 중요하다고 판단해 9트랙 셀을 썼습니다. 나중의 카리조 APU에선 이 방법을 버리고 CPU 코어인 엑스케베이터도 GPU와 같은 9트랙 셀로 설계했습니다.
AMD는 카리조를 먼저 모바일에 출시, 셀 높이를 낮춰 모바일의 클럭/전력 사용량에서 경쟁력을 높였습니다. 처음에는 모바일 시장을 공략했으나, 나중에 고클럭 데스크탑 버전을 출시했습니다. 9T 라이브러리 때문에 클럭을 높이기가 쉽진 않았으나, 28nm 공정이 많이 개선되면서 9트랙에서도 어느 정도 성능을 낼 수 있게 됏다고 추측됩니다.
16/14nm 공정에서 파운드리 공정은 FinFET 3D가 됐습니다. 여기서 고성능 셀 라이브러리는 12트랙에서 10.5트랙으로 줄어들고, 9트랙 셀도 고성능 영역에서 쓸 수 있게 됐습니다. 그리고 고밀도 라이브러리에는 기존의 7트랙보다 더 작은 6트랙이 등장했습니다. FinFET에서 셀 높이가 줄어든 건, 트랜지스터가 3D 구조가 되며 구동 성능이 향상됐기에 기존보다 좁은 채널에 고성능 셀을 형성할 수 있어서입니다. 그러나 FinFET는 채널의 폭이 늘어나는 Width Quantization 문제가 있습니다. 그래서 6트랙 이하의 작은 셀에선 DTCO를 쓰기 어려우며, 다음의 나노시트 트랜지스터에서 해결될 것으로 보입니다.
Fin과 메탈의 비율과 양자화
FinFET 프로세스는 표준 셀 트랜지스터의 Fin 피치가 중요합니다. 정확히는 Fin 메탈(배선) 피치의 비율이 중요합니다. 여기에서 표준 셀 가운데에 몇 개의 Fin이 배치되는지가 정해집니다. 예를 들어 TSMC의 16nm 프로세스와 삼성/글로벌 파운드리의 14nm 공정은 메탈 피치(배선 간격)이 64nm며 Fin 피치는 48nm입니다. 그럼 각각의 표준 셀에 배치되는 트랜지스터의 Fin 수는 위 그림에 나온대로입니다.
왼쪽에서 두 번째의 9 트랙 셀은 12 개의 Fin을 배치할 수 있습니다. 왼쪽의 파란색이 메탈(배선), 오른쪽의 보라색이 Fin입니다. 9라인 메탈(배선)에 Fin은 12라인을 넣습니다. 보라색 Fin 중에서 색이 진한 건 실제 트랜지스터로 쓸 수 있는 액티브 Fin이며, 옅은 색상은 쓰지 못하는 더미 Fin입니다. 9트랙 셀은 pmos과 nmos가 최대 4fin까지 들어갑니다. 중앙 2Fin이 더미 Fin이 된 이유는 게이트 어드레스를 배치하기 위해서입니다. 최소 6트랙의 셀에선 액티브 Fin은 2개씩, 총 4핀이 됩니다. Fin의 수는 Width Quantization에 따라 정해집니다.
9트랙과 7.5트랙 셀을 결합한 TSMC 1nm 공정으로 제조한 애플 A9
CPU 코어 내부에서 9트랙과 7.5트랙을 조합한 애플 A9
DTCO가 필수인 6트랙 셀의 크기 축소
현재 고밀도 스탠다드 셀의 높이는 6트랙입니다. 앞으로는 6트랙에서 높이를 더 줄인 설계, 6트랙에서 게이트 피치와 메탈 피치를 줄인 설계가 나옵니다. 6트랙 셀에서 더 줄이기란 어렵습니다. 게이트 연결을 배치할 공간이 부족하거든요. 셀 내부의 배선층에서 연결 부위를 배치해야 하는데, 셀 자체의 크기가 줄어들면 그 배치가 매우 어렵습니다.
이전의 6트랙 셀은 더미 핀에 어드레스를 배치할 수 있었으나, 게이트 피치가 좁아지면 연결 부위 사이가 너무 가까워저 나란히 배치하기 어렵습니다. 이 문제는 M0 배선층에 어드레스를 넣는 식으로 해결합니다.
그런데 게이트 피치와 메탈 피치가 더 좁아지만 1트랙을 늘려도 배치가 힘듭니다. 이 경우 메탈과 Fin의 비율에 따라 다르지만, 게이트를 액티브 게이트(Fin) 근처에 배치해 해결 가능합니다. 삼성은 이를 CB on RX Edge라고 부르는데, 일종의 DTCO 기술로 보입니다.
이보다 더 적극적인 해결책은 게이트 연결을 액티브 게이트 바로 위에 배치하는 것으로, 인텔이 Contact Over Active Gate, 삼성이 CB on RX라고 부릅니다. DTCO에서 이게 가능해지면 연결 부위를 어디에든 배치 가능합니다.
성능을 유지하거나 더 높이면서 작은 스탠다드 셀을 실현하려면 이런 DTCO 기술이 꼭 필요합니다. DTCO를 사용하면 6트랙 셀에서 nmos/pmos 모두 2 Fin씩 모두 4 Fin을 유지할 수 있습니다. 또 액티브 Fin을 유지하면서 더미 Fin을 줄이고, 이를 통해 셀 높이를 더욱 낮출 수 있습니다.
사실 인텔은 10nm에서 Contact Over Active Gate를 사용합니다. 표준 셀에서 액티브 Fin을 늘리기 위한 공격적인 시도지요. 셀 높이를 줄여도 성능을 높게 유지하 위해 DTCO를 쓴 것입니다. 스케일링과 성능을 유지하기 위해 인텔은 먼저 작업을 시작했습니다. 그러나 인텔의 10nm는 공격적인 공정 미세화와 다양한 DTCO 때문에 순조롭게 진행되지 않았으며, 이를 통해 현재 반도체 스케일링이 얼마나 어려운지를 알 수 있습니다.
더 과감한 해결책도 있습니다. 액티브 Fin을 1개로 줄이는 겁니다. 더미 Fin이 4개의 연락부와 공유하는 식으로 배치 가능합니다. 하지만 이렇게 만들면 트랜지스터 성능이 2 Fin의 절반으로 줄어들며, CPU와 GPU에 쓰기엔 맞지 않습니다.