Zen 2세대의 로마(Rome) 다이
AMD뿐만 아니라 인텔도 CPU와 I/O의 분리를 구상
AMD는 7nm 공정 ZEN 2세대의 CPU인 로마(Rome)에 멀티 다이 모듈 디자인을 채택했습니다. CPU를 I/O 다이와 CPU 다이로 나누고 CPU 다이를 최신 7nm 공정으로 제조하는 한편, I/O 다이는 성숙된 14nm 공정으로 제조합니다.
64코어 로마 CPU는 1개의 I/O 다이와 8개의 CPU 코어를 탑재한 8개의 CPU 다이로 구성된 MCM(Multi-Chip Module)입니다. AMD는 CPU 패키지의 모듈화된 다이를 칩렛(Chiplet)이라 부릅니다.
로마는 지금까지 없었던 멀티 다이 아키텍처를 썼으나, 이렇게 다이를 나누는 방향성은 어느 정도 예상이 된 바입니다. AMD 뿐만 아니라 인텔도 비슷한 구상을 내비쳐, 앞으로 첨단 공정의 CPU에선 결코 이례적인 구성이 아닐 가능성이 있습니다. 이는 10nm 이후 공정의 특수성에 그 이유가 있습니다.
인텔이 2017년에 발표한 10nm 세대 칩의 방향성을 나타낸 슬라이드. AMD처럼 CPU 같은 고속 로직을 첨단 공정으로, I/O는 성숙된 공정으로 나눠서 제조합니다.
7nm 공정 세대에서 제조 비용이 대폭 늘어납니다. 최첨단 공정 기술은 노광 공정이 복잡하기에 웨이퍼의 제조 단가가 크게 상승합니다. AMD가 2018 Symposia on VLSI Technology and Circuits에서 공개한 제조 비용 비교인데, 7nm에서 큰 폭으로 증가하고 있음을 알 수 있습니다.
수율까지 넣어 제조 비용을 비교하면 16/14nm 공정 노드에서 7nm 노드로 가면서 2배 가까이 제조 비용이 오릅니다. 45nm 프로세스와 비교하면 4배입니다. 즉 16/14nm 프로세스와 같은 크기의 칩을 만들어도 7nm는 2배로 비싸진다는 이야기입니다.
이는 반도체 제조사들이 말하는 '무어의 법칙'의 둔화와도 이어지는 이야기입니다. 무어의 법칙은 2년마다 칩에 들어가는 트랜지스터의 수가 2배로 늘어난다는 내용이나, 실제로는 경제적인 이유가 강합니다. 웨이퍼의 제조 비용은 거의 변하지 않는데 트랜지스터 수는 두 배로 늘어나니 트랜지스터 제조 비용이 반으로 줄어듭니다. 즉, 프로세스 미세화에 따라 2배의 기능을 같은 비용으로 얻을 수 있습니다. 그런데 7nm 세대는 제조 비용이 급상승하면서 무어의 법칙이 지닌 경제성이 무너졌습니다. 여기에서 문제가 생깁니다.
복잡한 노광 공정이 제조 비용 상승으로
7nm 공정에서 비용이 급상승한 이유는 그만큼 프로세스 공정에서 무리를 했기 때문입니다. TSMC의 7nm는 노광 기술에 기존의 ArF 엑시머 레이저 광원을 사용합니다. ArF는 파장이 193nm로 액체의 굴절을 이용해 해상도를 높이는 액침 노광 기술을 사용, 80nm 이하-최소 76nm 피치 패터닝이 가능합니다.
반대로 말하면 액침 싱글 패터닝(LE)는 76nm 피치까지만 만들 수 있습니다. TSMC 7nm의 최소 메탈 피치는 40nm니 이걸로 맞추지 못합니다. 따라서 멀티 패터닝 기술을 사용해 더 세밀한 가공을 진행해야 합니다.
ASML이 설명하는 광원과 최소 피치의 관계
패터닝 기술과 최소 피치의 관계
구체적으로는 가장 피치가 좁은 트랜지스터 핀의 생성에는 공정이 매우 복잡한 SAQP (Self-Aligned Quadruple Patterning)를 사용하고, 가장 좁은 금속층(배선층)은 SADP (Self- Aligned Double Patterning) 등을 사용합니다.
이러한 멀티 패터닝 기술은 공정이 복잡하고 마스크도 늘어납니다. 마스크 비용이 많이 들고 그 수가 늘어나는 만큼 수율이 떨어집니다. 또 오버레이 및 CD (Critical Dimension) 제어 등의 프로세스 컨트롤도 어려워집니다. 그 결과 총 제조 비용이 올라갑니다.
멀티 패터닝 기술
ArF 광원의 7nm 공정에서 마스크 매수가 급증하며 제조 단가가 상승함을 나타내는 ASML의 슬라이드
이것이 현재의 첨단 공정이 안고 있는 문제입니다. 같은 7nm 공정에서도 EUV (Extreme Ultraviolet) 노광이 되면 상황이 또 달라집니다. 마스크 수가 줄어들기에 원칙적으로는 제조 비용이 저렴해 수율을 올리기 쉽고 공정 제어도 한결 편해집니다.
TSMC가 차세대 7nm 공정인 7FF+에서 EUV를 도입하며 삼성도 EUV 버전 7nm 생산을 준비중입니다. EUV 버전의 7nm는 EUV 장비 자체가 비싸다보니 처음에는 장비의 감가 상각 비용을 고려할 필요가 있습니다. 그러나 장기적으로 보면 EUV 세대에서 제조 비용이 내려갑니다. 즉 EUV 7nm 공정으로 전환하면 어느 정도 제조 단가가 내려갑니다. 반면 지금의 ArF 액침버전 7nm 공정은 가장 비싼 공정입니다.
각 프로세스의 크기 차이
기존과 다른 7nm 공정으로 전환
이처럼 7nm 공정은 매우 비싸기에 이번의 제조 공정 이행은 기존과 다른 방식으로 진행됩니다. 28nm 공정까지는 새로운 프로세서를 도입하면 미세화로 트랜지스터 제조 비용이 크게 떨어지는 만큼 공정 전환이 빠르게 진행됐습니다. 파운드리의 공정이 65nm, 40nm, 28nm로 바뀔 때마다 CPU와 GPU의 공정이 바로 바뀌었습니다.
각 제조사의 프로세스 로드맵
그러나 16/14nm 프로세스로의 전환은 더블 패터닝과 FinFET 트랜지스터의 도입(더블 패터닝은 20nm에서) 때문에 다소 시간이 걸립니다. 스마트폰을 보면 잘 알 수 있는데, 플래그쉽 모바일 SoC는 28nm에서 20nm, 그리고 14/16nm 프로세스로 바뀌었지만 보급형 모바일 SoC는 28nm 공정에 머물러 있습니다. 이런 경향은 지금 세대에서 점점 심해지고 있습니다.
현재는 공정 기술이 크게 두 가지로 나뉩니다. 비싼 가격으로 만들어도 되는 칩은 트랜지스터 밀도의 향상과 전력 절감의 장점을 살리기 위해 7nm 공정으로, 저렴한 가격으로 만들어야 하는 칩은 성숙된 16/14/12nm 프로세스에 머무르는 방향으로 나뉘고 있습니다.
이는 상대적으로 마진이 높은 PC&서버용 CPU/GPU도 어느 정도 비슷한 점이 있습니다. 또 인텔의 10nm 공정이 실패한 이유도 여기에 있습니다. 이 문제를 해결하려고 트랜지스터 밀도를 더 높이기 위해 너무 무리했기 때문이죠.
제조 비용을 크게 낮춰줄 7nm와 14nm의 분할
AMD가 로마 CPU를 칩렛 분할한 가장 큰 이유는 제조 비용 절감입니다. 1세대 Zen 기반인 에픽의 네이플스(Naples)도 4개의 칩렛으로 나뉜 모듈형 디자인을 썼습니다. AMD는 단일 다이에 비해 제조 비용이 59%로 줄어든다고 설명합니다. 로마는 그 전략을 한층 더 추진한 프로세서입니다.
칩렛 분할로 제조 비용 절감
CPU 칩의 기능 유닛 중에는 공정 미세화를 해도 크기가 줄어들지 않거나, 그 효과가 작은 부분이 있습니다. 그 전형적인 부분이 I/O 아날로그 회로입니다. 아날로그는 제조 공정을 아무리 줄여도 구성 요소의 크기가 변하지 않습니다. 게다가 CPU 칩에서 결코 무시할 수 없는 면적을 차지합니다. 그런 아날로그 부분을 포함하는 I/O를 두 배로 비싼 7nm 공정으로 만드는 건 낭비입니다. 즉 7nm 공정으로 I/O를 만드는 건 비경제적입니다.
또 I/O와 메모리 인터페이스는 서로 다른 전압으로 구동합니다. 그리고 그 구동 전압은 일반적으로 로직의 구동 전압보다 높습니다. 미세화한 첨단 프로세스는 높은 전압에 적합하며 설계도 번거롭습니다. 신뢰성을 확보하기도 어렵지요. 그래서 I/O와 메모리 인터페이스는 7nm로 바꿔도 그 의미가 크지 않습니다.
이런 점을 감안해서 다이에서 큰 면적을 차지하는 I/O와 메모리 인터페이스, 이를 연결하는 크로스바 스위치를 7nm가 아닌기존의 14nm 프로세스로 만드는 점은 납득할만한 결정입니다. 14nm 공정은 제조 비용이 낮고 수율이 높으며 I/O를 구현한 실적도 있습니다. 인텔이 10nm에서 I/O를 분리한다는 구상을 제시한 이유도 여기에 있다고 추측됩니다.
CPU 다이를 작게 만들어 수율도 증가
로마는 7nm로 생산하는 CPU 칩셋이 8개 있으며, CPU 코어와 캐시, 다이를 연결하는 인피니티 패브릭이 여기에 통합됩니다. CPU 코어가 1개의 Core Complex(CCX)로 정리되는지, 2개의 CCX로 나뉘는지는 아직 알 수 없습니다. CPU 코어 자체는 Zen 2에서 확장이 된 것이며 다이의 크기는 비교적 작습니다.
7nm에서 제조 공정이 복잡해지면서 수율을 떨어트릴 요인이 많습니다. 다이가 큰 칩은 그만큼 결함이 있을 가능성이 높아집니다. GPU처럼 연산 코어 중 일부를 비활성해 상품화가 가능한 칩이라면 그래도 낫지만 CPU에선 문제가 생기기 쉽습니다. 또 AMD처럼 보급형 서버와 하이엔드 데스크탑 모두를 공략한다면 다이 구성의 비율도 고려해야 합니다.
AMD 로마 아키텍처의 CPU 칩렐 다이는 매우 작습니다. 다이가 작다면 그만큼 결함이 포함될 확률이 줄어들어 불량 다이의 수도 줄어듭니다. 이것도 제조 비용에 있어 중요한 문제입니다.