모바일 SoC는 20nm로, GPU는 28nm 그대로

 

요란하게 등장한 NVIDIA의 고성능 GPU인 지포스 GTX 980(GM204)은 제조 공정 기술이 기존에 사용하던 28nm에서 변하지 않았습니다. 애플의 아이폰 6/6플러스용 A8 SoC(System on a Chip)는 20nm로 건너갔는데 비슷한 시기에 발표된 NVIDIA의 GPU는 20nm로 바뀌지 않은 것입니다. 맥스웰 M204는 NVIDIA의 GPU가 이전에도 사용했던 TSMC의 28HP 프로세스를 유지합니다. 그래서 GM204는 400제곱mm에 가까운 대형 다이의 GPU입니다.

 

1.jpg

 

맥스웰의 다이 이미지. 정확한 건 아닙니다.

 

2.jpg

 

NVIDIA GPU의 다이 크기  

 

3.jpg

 

40nm 이후 GPU의 다이 크기

 

예전에는 첨단 제조 공정을 가장 먼저 쓰던 분야가 GPU였으나 지금은 모바일 SoC가 완전히 장악하고 있습니다. 애플 뿐만프로세스는 가장 먼저 GPU가 채용하고 있었으나 지금은 완전히 모바일 SoC가 장악하고 있습니다. 애플뿐만 아니라 퀄컴도 20nm의 칩을 이미 제조하고 있습니다. 게다가 이들 모바일 SoC는 NVIDIA의 퍼포먼스 GPU와 비교하면 초기 생산 개수가 훨씬 많습니다. 즉 물량이 많고 제조가 힘든 모바일 SoC가 새로운 프로세스로 이행하고 수량이 적고 만들기가 상대적으로 수월한 퍼포먼스급 GPU가 구형 공정에 머무르고 있는 것입니다.

 

4.jpg

 

애플은 A8에서 20nm 공정으로 이행

 

5.jpg

 

TSMC의 프로세스 세대별 다이 크기 변화

 

왜 이런 역전 현상이 발생했을까요. 그 배경에는 몇가지 이유가 있습니다. 물론 애플의 아이폰 6/6 플러스 때문에 TSMC의 20nm 제조 라인이 압박을 받아 다른 회사가 물량을 확보하지 못하는 것도 있습니다. 하지만 그것 이상의 이유는 GPU가 20nm 프로세스로 이행할 경제적인 이유가 크지 않다는 것입니다. 

 

GPU의 경우 20nm 프로세스로 이행해도 당장은 트랜지스터 제조 비용이 줄어들지 않습니다. 그것은 웨이퍼를 처리하는 비용이나 새 프로세스 개발을 위한 비용이 20nm에서 대폭 늘었기 때문입니다.

 

이상적인 상황이라면 프로세스를 새로운 것으로 바꿔도 웨이퍼 제조 단가가 늘어나지 않아야 합니다. 그렇게 되면 웨이퍼 제조 비용이 그대로를 유지하면서 트랜지스터 크기가 1/2이 되면 웨이퍼 한장에 들어가는 트랜지스터 수가 2배가 되니 결국 트랜지스터 제조 비용은 1/2로 줄어듭니다. 즉 제조 비용의 추가 부담 없이 2배의 트랜지스터를 만들 수 있게 되는 것입니다. 

 

6.jpg

 

이상적인 반도체의 스케일링

 

실제로는 지난 몇 세대 동안 프로세스가 발전하면서 웨이퍼 제조 단가는 계속 늘어났습니다. 프로세스 공정이 점점 복잡해졌기 때문이지요. 그래도 CMOS 스케일링의 효과는 웨이퍼의 비용 상승을 넘어서는 것이라 트랜지스터 제조 단가는 줄었던 것이 사실입니다.

 

 

프로세스와 웨이퍼의 비용 상승으로 프로세스 발전의 의미가 퇴색 

 

그러나 앞으로 프로세스 미세화에서 웨이퍼 제조 비용이 급상승하면 스케일링으로 커버할 수 없습니다. 만약 1세대의 미세화로 웨이퍼 비용이 2배까지 늘어난다면 트랜지스터 수가 2배가 된다 한들 비용 절감 효과가 상쇄됩니다. 실제로는 거기까지 늘어나진 않지만 GPU는 트랜지스터비용이 지난 세대에 비해 그리 많이 줄어들진 않게 됩니다.

 

그렇게 되면 이 정도의 트랜지스터 수를 갖춘 GPU가 공정을 미세화해도 제조 단가가 줄어들지 않게 되니 미세화의 의미가 없습니다. 그리고 트랜지스터 수를 두배로 늘린 칩을 만들면 다이 제조 단가는 지금보다 크게 늘어나게 될 것입니다. 트랜지스터 제조 비용이 늘어난다 해도 수익이 큰 비싼 칩은 어느 정도 채산성이 맞지만 경제성이 중요한 중급형 이하의 칩은 제조 공정 미세화의 수지타산이 맞지 않게 됩니다.

 

7.jpg

 

앞으로의 반도체 스케일링

 

GPU의 상황이 이러합니다. 그래서 GPU는 20nm 프로세스로 이행해도 트랜지스터 제조 비용은 당장 많이 늘어나는 건 아닙니다. 그러면 무리해서 20nm 프로세스로 이행해 다이 크기를 줄이기보다 28nm를 유지하며 다이 크기를 늘려 만드는 것이 경제적으로 유리합니다. 적어도 수량이 많지 않을 때 무리를 해서 20nm의 다이를 시작할 이유가 희박합니다. 신형 프로세스의 초기 비용은 비싸지만 경쟁이 심해진 성숙된 공정은 제조 단가가 저렴하기에 구형 프로세스가 갈수록 유리해집니다.

 

이런 사정은 GPU뿐만 아니라 모바일 SoC도 같다고 생각할 수 있지만 실제론 그렇지 않습니다. 20nm 공정에서 웨이퍼의 제조 단가가 오르는 주요 원인은 배선층에 더블 패터닝을 도입해서입니다. LELE(Litho-Etch-Litho-Etch)에서 리소그래피와 부식을 2겹으로 하는 더블 패터닝을 거치면서 백엔드 공정에서 나오는 제품량이 크게 떨어지기 때문입니다. 이 더블 패터닝에 따른 제조 단가 증가는 칩의 종류에 따라 다른데 그것은 배선 방법이 달라서입니다.

 

8.jpg

 

9.jpg

 

ARM이 2012년의 ARM Techcon에서 제시한 더블 패터닝에서 해결해야 할 부분

 

 

모바일 SoC와 외장 GPU의 차이점

 

글로벌 파운드리의 Subramani Kengeri(Vice President, Advanced Technology Architecture)는 지난 5월에 다음과 같이 설명했습니다.

 

"GPU에서 1x의 가장 좁은 메탈 레이어를 사용하는 층은 6~8층입니다. 20nm 공정에서 이들 1x 층은 더블 패터닝을 써야 합니다. 그에 비해 모바일 SoC에서 1x를 사용하는 층은 2~3층 뿐입니다. 더블 패터닝을 쓰는 레이어의 수가 GPU에 비해 모바일 SoC가 훨씬 적습니다. 그래서 제조 비용의 경우 양쪽의 주장이 큰 차이를 보이는 것입니다."

 

글로벌 파운드리는 20nm에서 제조비용 증가를 거론하는 것이 GPU 쪽이라 설명합니다. 사실 이 문제를 가장 강하게 지적하는 것은 NVIDIA지요.

 

전형적인 모바일 SoC나 CPU는 20nm 공정에서도 더블 패터닝을 필요로 하는 최소 피치가 최하층인 M1/M2/M3의 3층에 있습니다. 모바일 SoC는 제조 비용을 낮추기 위해서 CPU 쪽의 저항과 딜레이가 낮은 배선을 하며 그 때문에 그라운드 배선층의 수를 제한하고 있습니다. 그래서 20nm 공정의 더블 패터닝에 따라 백 엔드 프로세스의 제조 단가가 늘어난다 한들 3개 층밖에 안되니 받는 영향도 어느 정도 한정됩니다.

 

10.jpg

 

모바일 SoC CPU와 GPU의 메탈층 구성 차이

 

그런데 GPU는 더블 패터닝을 써야 하는 메탈층의 수가 극단적으로 늘어납니다. GPU 제조사는 공종의 옵션이 허락하는 한 최소 피치의 층을 늘리는 경향이 있기 때문입니다. 전형적인 GPU에선 배선층 중 가장 아래부터 중간까지 6층 정도가 최소 피치를 쓰는 경우가 많습니다. 극단적인 경우엔 8개 층을 최소 피치로 만드는 경우도 있습니다. 그래서 GPU는 20nm 프로세스를 도입할 때 생산량의 저하가 심하고 제조 단가가 대폭 늘어나게 됩니다.

 

 

20nm로의 전환이 느려지다

 

이러한 사정이 있어 GPU는 20nm 프로세스로의 이행이 매우 느립니다. 그 결과 GPU는 28nm 공정을 3년이나 스게 됐으며 아키텍처의 확장도 제약을 받습니다. NVIDIA는 원래 맥스웰에서 전력 효율을 높일 예정이었으며 그 덕분에 28nm 공정에서도 전력을 낮추고 성능을 높이는 데 성공했습니다.

 

11.jpg

 

12.jpg

 

맥스웰과 그 이전 세대인 케플러의 비교

 

하지만 제조 공정을 유지하면서 다이 크기를 늘리고 트랜지스터 수가 늘었습니다. 지금까지 프로세스를 미세화해 다이 크기를 유지하면서 트랜지스터 수를 늘렸던 방식과는 확연히 다른 방식입니다. 아래는 AMD GPU에서 프로세스 기술과 아키텍처 확장의 흐름인데 28nm 공정에서 어려움이 많은 것으로 나타났습니다.

 

13.jpg

 

AMD GPU의 프로세스 기술과 아키텍처

 

NVIDIA는 이번에 TSMC의 28HP 프로세스를 채용했지만 더 높은 퍼포먼스급 공정인  28HPP(차기 PS4 APU가 이것을 사용할 것으로 보임)과 고밀도 공정인 8HPC, 저전력인 28HPM(모바일 SoC가 많이 채용)을 쓰지 않았던 이유는 아직 알 수 없습니다.  28nm 공정으로 가면 기존의 프로세스를 유지하는 것이 모듈을 그대로 쓸 수 있다는 점에서 유리하다고 판단했을지도 모릅니다. 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.