●GF110에서 무엇이 바뀐 것인가

 

 NVIDIA가 올해 연말의 판매 경쟁을 향한 새 하이엔드 GPU 「GeForce GTX 580(GF110)」를 발표했다. GF110의 내부 아키텍처는 기존의 최고급형 대상 GPU인 GeForce GTX 480(GF100)과 그다지 큰 변함이 없다. 아래의 다이어그램은 GF100 이지만 GF110도 같다고 생각해도 좋다.

 

kaigai-01.jpg

 

GF100의 Graphics Processing Cluster

 

kaigai-02.jpg

 

GF100의 블럭 다이어그램(block diagram)

 

 NVIDIA는 하위의 퍼포먼스 GPU 아래의 제품에는 그래픽스에 적합하게 내부 아키텍처를 바꾼 시리즈를 제공하고 있다. 그러나 GF110은 기존의 GF100 아키텍처의 연장으로 GeForce GTX 460(GF104) 이하 아키텍처와는 다른 계열이다. GF100과 동일하게 GF110도 GPU 컴퓨팅대상 기능을 다이에 구현하고 있지만 그래픽 제품에서는 일부 기능이 유효화되지 않고 있다.

 

 그러나 아키텍처는 GF100과 같은 계열이여도 GF110 에서 퍼포먼스/전력이 향상하고, 팬 노이즈도 크게 줄어들고 있다. GF110에서 클럭이 향상하고 비활성화 되었던 프로세서 코어가 모두 사용 가능하며 약간의 기능확장까지 되어있다. 그러나 GF110의 경우 이렇게 눈으로 보이는 부분 이외에서의 개량이 더 중요할지도 모른다. 왜냐하면 GF110에서 NVIDIA는 물리설계를 새로 만들었을 가능성이 높기 때문이다.

 

kaigai-03.jpg

 

NVIDIA GPU의 프로세서 유닛의 비교

 

 위 그림에서 바뀐 부분을 보면 지금까지는 비활성화 되었던 프로세서가 최대한 유효화되었고, 같은 수준의 TDP(Thermal Design Power)의 범위내에서 동작 클럭를 끌어 올렸으며, 아이들 시의 전력을 줄여 쿨링 부분의 소음을 대폭 줄인 것 등을 제외하면 기능변경은 없다. 그러나 그 배후에는 눈에 띄지 않는 부분에서 상당히 대규모인 개량이 되었다고 추측된다. 그것은 칩의 물리설계이다.

 

 NVIDIA는 물리설계를 개량하여 칩의 제품 비율, 소비 전력, 클럭 향상과 같은 요소를 개선했다고 추측된다. 이전부터 업계관계자들은 NVIDIA가 GF100의 물리설계를 대폭 고친 버전으로 개발하고 있다고 전해졌다. 논리적인 아키텍처의 변화는 적어도 물리적인 칩으로서 GF110은 대폭 개선된 GPU가 된다고 보여진다.

 

 그리고 40nm프로세스 세대의 NVIDIA GPU에서는 물리설계가 가장 중요한 과제이기 때문에 NVIDIA가 물리설계를 개량한 것이 이치에 맞는다. 단, GF104 아키텍처처럼 그래픽에 특화된 하이엔드 GPU를 기대하고 있었던 일부의 사용자의 기대는 배반하게 된다. 아래의 2개 그림은 각각 GF100/GF110과 GF104의 SM(Streaming Multiprocessor)의 구조다. 양쪽계열은 내부 아키텍처가 다르다.

 

 그러나 지금은 마스크 제작의 비용도 비싸기 때문에, 공략하는 시장마다 다이(반도체 본체)의 종류(variation)를 늘리는 것은 경제적이지 않다. NVIDIA가 하이엔드 GPU를 그래픽과 GPU 컴퓨팅용으로 2개 설계하는 전략은 없을 것이다.

 

kaigai-04.jpg

 

GF100/GF110의 SM

 

kaigai-05.jpg

 

GF104의 SM

 

 

●SM을 비활성화할 필요가 없어진 580

 

 GF100의 다이에는 16개의 SM이 탑재되고 있다. 각 SM은 32개의 연산 프로세서 「CUDA코어」를 포함하므로 물리적으로는 512개의 CUDA코어를 싣고 있다. 그러나 실제 제품으로서의 GF100은 SM 중에 1개를 비활성화여, 이 칩에서 사용할 수 있는 프로세서(CUDA코어)수는 480개가 되었다. GPU 컴퓨팅에 적합한 Tesla제품도 동일하게 SM이 2개 무효화되어 CUDA코어수는 448개다.

 

 NVIDIA가 SM을 막았던 이유는 다이의 결함 때문에 동작하지 않는 불량 SM이 발생하기 때문이다. GF100를 512개의 CUDA코어의 제품으로서 출시하려면 제품 수율이 극단적으로 악화된다. 따라서 일부 SM을 비활성화시켜 제품 수율을 높여 페르미 아키텍처를 제품화했다.

 

 그러나 GF110은  다이의 512개의 CUDA코어를 모두 사용하게 하여 출시한다. NVIDIA는 SM을 막을 필요가 없을 만큼 결함율을 내리는 것에 성공한 것이다. 물론 그래도 결함은 발생하므로 SM을 일부 막은 하위제품은 등장할 것으로 보여진다. 그러나 지금까지 처럼 하이엔드 제품까지 SM을 무효화한 이상사태는 이것으로 끝났다. GF110 베이스의 테슬라에서도 512코어가 등장할 것이다.

 

kaigai-06.jpg

 

GF100의 다이 사진

 

 

●TSMC만의 잘못이 아닌 40nm에서의 제품 수율 문제

 

 NVIDIA가 지금 세대에서 수율 때문에 고생하였던 이유에 대해서는 제조사인 TSMC의 40나노 공정 결함이 크기 때문이라고 알려져 왔다. 아마 이번 GF110도 512코어를 만들수 있었던 원인으로 TSMC의 결함이 줄어든 것이 포함될 것이다. 그러나 실제 이유는 그리 단순하지 않으며 더욱 근본적인 부분에 문제가 있다.

 

 40나노에서 수율이 악화되었던 배경은 NVIDIA가 공식적으로 컨퍼런스에서 설명하고 있다. 2009년 11월의 반도체 컨퍼런스 「IEDM」에서 NVIDIA의 John Y. Chen씨 (Vice President Technology & Foundry Operations, NVIDIA)의 논문 「GPU Technology Trends and Future Requirements」가 그것이다. 이 논문에서 지적하고 있는 중요한 포인트는 첨단 GPU에 요구되는 설계에서 필연적으로 제품 비율이 악화되다고 하는 점이었다. 또, 이 문제는 현재 NVIDIA아키텍처에 특히 잘 나타나는 문제로, 같은 40나노에서도 AMD 보다 NVIDIA쪽이 더 심한 이유는 그것 때문이다. 그러나 장기적으로 보면 모든 프로세서가 직면한 문제이기도 한다.

 

 NVIDIA GPU는 범용적인 병렬 프로세싱을 위해서 프로세서 코어의 설계의 복잡도를 늘려왔다. 현재 NVIDIA GPU의 SM은 다수의 연산 유닛과 큰 레지스터 파일, 내장 메모리나 다른 기능 유니트를 접속하기 위해 방대한 배선이 복잡하게 연결되어 있다. 예를 들면 GF100/GF110 아키텍처에서는 32개의 정수 유닛이 동일 사이클에 병렬 동작하고, 각각이 동시에 레지스터나 메모리에 액세스를 한다.

 

 메모리 엑세스에서는 16개의 로드/스토어 유닛과 4개의 텍스처 유닛이 메모리나 레지스터와 접속되고 있다. 메모리는 캐쉬와 스크래치 패드 메모리의 2계통이며 텍스처 전용의 캐쉬등이 있다. 여기에 테셀레이터 같은 고정 기능 유니트 군이 배선으로 연결되어 있다. 따라서 방대한 길이의 배선이 SM 내부네 연결되어 있다고 추측된다.

 

 

●비아 불량이 NVIDIA GPU의 아킬레스건

 

 물리적으로 반도체 다이는 금속의 배선층이 몇층으로 겹친 입체구조가 되고 있다. 다층배선으로 GPU에서 필요로 하는 조밀한 내부접속을 실현한다. 그러나 배선과 배선의 사이에는 층간 절연 막으로 사이를 갈라놓고 있으므로, 배선을 잇기 위해서는 거기에 세로의 접속을 만들 필요가 있다. 이것은 비아(Via)라고 불리며 절연 막에 구멍을 뚫고 배선을 위한 금속을 채워넣는 방법으로 생성한다. 현재는 구리가 배선 소재로 사용되고 있다.

 

 NVIDIA에 의하면 이 비아의 생성 공정은 불량이 발생하기 쉽다고 한다. 거기에 지금까지 NVIDIA는 배선층 사이를 잇는 접속 노드 1개에 2개 이상의 비아를 마련하고 있었다. 2개 이상의 비아가 있으면 1개의 비아에 불량이 발생했을 경우에도 접속이 유지되어 그 회로 블록은 동작할 수 있다. 즉, 물리설계 수준에서 비아를 늘려 제품 수율의 저하를 막아 왔다.

 

 그런데 미세화가 진행하면 배선이 너무나 조밀해지게 된다. 그 때문에 접속 노드에 1개의 비아만 사용하는 경우가 늘어났다고 한다. 아래 그림은  NVIDIA가 공개한 단위면적당 금속 배선의 합계 길이와 비아의 수다. 보면 알겠지만  단위면적당 배선의 길이는 40나노 공정에서 극적으로 늘어나고, 거기에 따라 비아의 수도 급격하게 늘어나고 있다.

 

kaigai-07.jpg

 

배선 길이와 비아의 관계

 

 이것만 해도 큰 문제이지만 그 이상의 문제는 접속 노드에 1개의 비아밖에 없는 싱글 비아가 늘어난 것이다. 위 표의 제일 아래가 싱글 비아의 수이며, 40나노에서 대폭 늘어난 것을 알 수 있다. 40nm에서는 칩의 모든 비아 가운데 75%는 제품 수율을 향상시키는 다수의 비아가 있다. 그러나 나머지 25%의 싱글 비아는 확장성이 없어, 그 때문에 싱글 비아에 결함이 생겼을 경우 그 회로가 작동하지 않게 되어 수율이 떨어진다. 칩 위에는 이런 싱글 비아가 몇억개가 있다.

 

 그런데 미세화에 따라 비아 홀 자체가 작아지면서 비아의 공간도 작아졌다. 그 때문에 비아를 만드는 것이 기술적으로 점점 어려워지고 있다. 또 비아가 제대로 작동하는  보여도 사용 중에 열을 받으면서 틈에서 빠져버리는 경우도 있을 수 있다고 한다. 즉, 칩의 신뢰성에도 문제가 생길 수 있는 상황이다.

 

 

●결함밀도가 같아도 제조 공정이 진행되면하면 제품 수율이 떨어진다

 

 NVIDIA GPU는 이러한 물리설계상의 문제를 가지고 있었다. 그 때문에 파운드리 공정에서 비아의 결함 비율이 기존과 같아도 GPU의 제품 수율이 악화된다는 상황이다. 물리설계에서 비아 때문에 수율이 떨어지고 있기 때문이다.

 

 아래 그림은 NVIDIA의 싱글 비아 결함밀도와 작동 불량 관계의 그래프다. 오른쪽으로 갈수록 결함이 많아지고 왼쪽으로 갈수록 결함이 줄어든다. 수율의 로스(Loss)는 칩을 제품으로서 내놓을 수 없게 되는 비율도 의미하지만 이것은 위로 갈수록 높아지고 있다. 이걸 보면 결함율이 같을때 제조 공정마다 수율이 나빠진다는 것을 알 수 있다.

 

kaigai-08.jpg

 

싱글 비어의 결함밀도와 작동 불량의 관계

 

 NVIDIA는 40나노 공정에서 10%이하로 수율 로스를 억제하기 위해서는 결함 수준을 1 DPPB (Defective Parts Per Billion)이하로 해야 된다고 하였다. 즉 40나노에서는 130나노 시절과 비교하면 약1/10로 결함이 줄어들어야 같은 수율이 나오게 된다. 그 것을 위해서 기존의 DPPM (Defective Parts Per Million)에서 수를 세는게 아니라 1/1, 000의 단위의 DPPB로 생각해서 결함을 줄일 필요가 있다.

 

 하지만 현실적으로 이것은 어렵다. 시간이 흘러가면 러닝 커브로 결함이 줄어들지만, 원래대로라면 제품 수율이 더 올라가야 할 때 이전 공정의 제품 수율과 같은 수준에 도달하는 정도다. 28나노가 되면 또 같은 문제가 되풀이되게 된다. 본질적인 문제는 복잡화되는 프로세서의 배선 자체에 있다.

 

 이 상황에서 파운드리가 제조 공정의 시작 시기에서 결함밀도를 극적으로 내릴 수 없다면 NVIDIA가 할 수 있는 것은 단지 1개 뿐이다. 물리설계를 다시 하여 배선 사이를 연결하는 비아 수를 늘려 수율을 높이는 것이다. NVIDIA가 GF110의 설계에서 했던 것이 이것이라고 추측된다.

 

 

●큰 댓가를 지불해야 하는 물리설계의 개량

 

 물리적인 설계를 바꿔 문제를 해결할 수 있다면 왜 처음부터 그렇게 하지 않았을까? 그런데 이야기는 그렇게 단순하지 않다. 물리 설계의 개량에는 그만큼의 댓가가 있기 때문이다.

 

  우선 비아의 수를 늘리면 다이 면적을 차지하여 칩의 다이 사이즈가 커지게 된다. NVIDIA도 다이 사이즈가 허용하는 상한선까지 비아의 수를 계산했지만 그 결과 싱글 비아가 늘어났다. 결국 트랜지스터의 간격이 아무리 좁아져도 그 상층의 배선 부분에서 면적을 잡아먹는다면 아무리 제조 공정을 미세화해도 트랜지스터 간격에 따른 다이의 크기 축소를 할 수 없게 된다.

 

 이번에 NVIDIA가 어떻게 이 문제를 해결한 것일지는 아직 모른다. GF110의 다이는 520평방mm으로 GF100의 529평방mm과 거의 같기 때문이다. 다이 사진이 나오지 않으면 정확한 곳은 모른다. 그러나 제품 수율을 높이기 위해 물리설계를 변경하면서, 다이의 비대화를 억제하기 위해서는 다른 블럭에서 다이 면적을 줄이는 등의 노력이 필요했다고 추측된다.

 

 또 이러한 설계 변경을 하면 NVIDIA의 엔지니어링 자원과 시간이 많이 걸리게 된다. NVIDIA는 파운드리의 기능 블럭을 사용하는 스탠다드 셀이 아니고, 자사에서 설계한 커스텀 매크로를 프로세에 사용하고 있다. 그 때문에 프로세서 부분의 물리설계를 변경할 경우에는 보다 손이 많이 간다. 기본은 스탠더드 셀 베이스인 AMD쪽이 지원은 쉬울 것이다. 또 물리설계를 거의 새로 고치게 되므로 검증에도 시간이 걸렸다고 추측된다.

 

 이렇게 다이 사이즈나 시간, 자원등, 다양한 댓가를 생각하면 간단하게 물리설계를 수정할 수 없다. 물리설계를 개량한 GF110이 GF100보다 실질적으로 2/4 분기가 늦은 것에는 이러한 이유가 있다고 추측된다.

 

kaigai-09.jpg

 

GPU의 다이 사이즈와 프로세스 기술의 변천

 

kaigai-10.jpg

 

GPU의 트랜지스터수와 프로세스 기술의 변천

 

 

●CPU와 같은 페이스로 등장한 GF110

 

 GPU 개발은 물리설계를 차분하게 튜닝할 틈이 거의 없다. CPU 에서는 새아키텍처를 설계 종료 이후에 테이프 아웃부터 제품이 팔릴때까지 통상 1년 정도의 기간이 있기 때문에 그 동안 설계 검증과 튜닝을 한다.

 

 통상의 파운드리에서는 샘플 칩의 검증을 하고, 개량한 설계를 Fab로 돌려서 다시 샘플이 나올때 까지의 사이클이 약 1/4 분기이다. GPU의 경우 최단 1사이클이 1/4 분기에 제품이 나오는 것이며  대다수의 경우에는 2사이클 2/4 분기에 제품을 출시하고, 3사이클의 3/4 분기라면 제품이 늦었다고 한다.

 

 그렇게 보면 이번의 GF110은 CPU와 같은 페이스로 등장했다고 말할 수 있다. GF100이 설계가 끝난 다음 1년 후에 등장한 것이 GF110이기 때문이다. CPU처럼 설계 튜닝을 한다면 GF110의 타이밍이 제품투입의 시기다.

 

 원래대로라면 GPU는 파운드리의 제조 기술이 1년마다 하프 노드로 바뀌기 때문에 차분하게 물리설계를 다시 할 시간이 없다. 바로바로 새 공정으로 이식이 시작되기 때문이다. 그러나 이번에는 TSMC같은 파운드리가 고속 로직을 위한 공정에서 32나노 하프 노드를 스킵했기 때문에 상황이 바뀌었다. 같은 40나노 공정이  2년이상 계속되기 때문에 중간 세대 GPU를 40나노로 설계 해야 하다. 그 때문에 두 회사 모두 이번에는 물리설계에 손을 보고 있다.

 

 공교롭게도 TSMC이 2년 사이클의 공정 이행으로 바꾸면서 NVIDIA와 AMD 모두 같은 공정에서 물리설계를 최적화할 기회를 얻었다. NVIDIA의 경우 GF100이 Fab의 시작 단계에서 잘 동작하지 않았기 때문에 물리설계를 2번 다시 했다고 한다. GF100은 원래의 스케쥴에서 2/4 분기 늦었으며, GF110의 물리설계 개량은 그 연장선이라고 생각된다.

 

kaigai-11.jpg

 

 

G80로부터 G100까지의 파생품의 역사

 

 

●소비 전력이 줄어들어 클럭이 상승

 

 시간을 투자하여 물리설계를 다시 한 GF110은 소비 전력도 상대적으로 떨어졌다. 그 때문에 SM을 전부 활성화시키고 작동 클럭을 올렸어도 TDP는 동일 수준을 유지하고 있다.

 

 NVIDIA가 전력을 내리는데 사용한 방법은 일반적인 것이다. 회로 설계를 다시 하여 속도가 낮지만 누설 전류가 낮은 트랜지스터로 바꿀 수 있는 부분을 전부 손을 보고, 레이턴시가 문제가 되는 크리티컬 패스에서는 누설 전류가 많아도 빠른 트랜지스터를 그대로 트랜지스터를 사용했다고 보여진다. IEDM의 논문을 보면 크리티컬 패스에서는 고속 게이트 전압 트랜지스터를 사용하고 다른 부분에는 누설 전류가 낮은 하이 게이트 전압 트랜지스터를 사용하는 경우를 설명하고 있다.

 

kaigai-12.jpg

 

제조 기술과 반도체의 보급

 

 NVIDIA는 다이 면적당 전력밀도가 일정하도록 제품 스펙을 결정하고 있다. 구체적으로는 NVIDIA는 0.3W/평방mm보다 조금 위의 전력밀도를 상한으로 하여 이것을 넘지 않도록 전력을 억제하고 있다. 칩의 피크 소비 전력은 다이 면적에 전력밀도를 곱한 숫자가 되지만, 최상위 GPU 제품의 전력밀도는 거의 일정하기 때문이며, 소비 전력도 특수한 케이스를 제외하면 다이 사이즈에 거의 비례하게 된다.

 

그 때문에 전력밀도는 NVIDIA GPU에 있어서 동작 클럭의 제일 큰 제약이다. 그리고 전력밀도에서 누설 전류에 의한 스태틱이 작동 클럭을 좌우하는 중요한 요소다. 90나노 이후에는 스태틱이 지배적이어서 0.15W/평방mm 〜0.2W/평방mm 사이를 차지하고 있기 때문이다. 아래 그림에서는 초록색이 스태틱, 파란색이 액티브, 회색이 총 합계의 전력 밀도이다.

 

kaigai-13.jpg

 

NVIDIA GPU의 제조 공정마다 전력밀도의 변화

 

 한편 다이나믹 쪽은 칩의 클럭을 올리면 늘어난다. 그렇다면 늘어난 스태틱에 맞추면 0.3xW/평방mm의 한계를 넘어버린다. 반대 경우를 보면 스태틱을 억제할 수 있으면 클럭을 향상시켜 도이나믹을 높일 수 있게 된다. 이번에 NVIDIA가 GF110의 동작 클럭을 올릴 수 있었던 이유는 여기 있다고 추측된다.

 

 

●2 년마다 큰 변화가 오게 된 GPU

    

 NVIDIA GPU가 현재 직면하고 있는 설계상의 문제를 보면 앞으로 물리설계가 GPU에서 점점 중요해질 것으로 보인다. 병렬성이 매우 높은 GPU에서는 배선을 어떻게 잘 설계하는지가 이번처럼 수율, 신뢰성, 성능 향상의 관건이 될 가능성이 높다.

 

 또, 제조공정 변화가 2년 주기로 바뀐 영향도 크다. NVIDIA는 이번 세대에서 기존과 같은 비율의 성능 향상은 달성할 수 없었다. 다이 사이즈에 여유가 있는 AMD와 비교하면 NVIDIA의 경우 같은 공정에서 GPU를 확장할 수 있는 여지가 적다. 그러나 이것은 2011년 28나노 공정에서 큰 향상이 된다는 것을 의미한다.

 

 다이의 트랜지스터수의 증가는 1년 주기의 경우 각 세대마다 1.4배 정도였지만, 2년 주기에서는 각 세대마다 2배의 트랜지스터 증가가 이루어지며 성능이나 아키텍처 향상의 여지는 그만큼 늘어나게 된다. 즉, 1년마다 완만한 발전을 하던 것이 2년마다 큰 변화를 하는 것으로 바뀌었다. NVIDIA의 다음 GPU 아키텍처 케플러는 큰 변화가 있을 것이다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.