하배에서도 올렸던 이야기인데 조금 더 글을 다듬어 올립니다.
현재 인텔은 가장 미세한 공정을 갖고 있지만 정작 그 공정에서 생산하는 칩의 설계밀도가 매우 낮습니다.
브로드웰 2C/GT2다이가 1300M/82mm^2, 브로드웰 2C/GT3 다이가 1900M/133mm^2의 밀도입니다. 일반적으로 좀 더 많은 양의 유닛을 확보하기 위해서 고밀도로 설계되는 GPU 부분이 더 큰 다이와 작은 다이의 밀도가 별반 차이가 없기도 하고, 절대적인 밀도가 낮은편인데 TSMC 16nm 공정의 A10과 비교하면 3300M/125mm^2로 1.5배 이상 벌어집니다. 단위면적당 트랜지스터 카운트가 크게 적습니다.
이 차이를 비슷한 체급의 GPU 코어로 비교하면 동일한 384ALU의 브로드웰 GT3과 A9X의 GPU 면적을 비교하면 아래와 같습니다.
브로드웰 2C/GT3 구성의 다이샷. 133mm^2의 면적의 과반을 GPU가 차지하고 있습니다.
A9X의 다이입니다. 이미지 축척이 달라서 꽤 커보입니다만 해당 칩의 다이면적은 147mm^2입니다. 그리고 GPU가 차지하는 면적은 그 절반도 채 되지 않습니다. 같은 세대 공정에서 저정도의 면적 격차가 발생합니다. 심지어 인텔 GT3 쪽은 다이면적을 집어삼키는 괴물인 ROP가 절반 밖에 안되는데도 불구하고 이정도입니다.
물론 인텔의 주력라인인 데스크탑 CPU와 같이 병렬성이 낮아 소수의 유닛을 고클럭으로 밀어붙일 수 있고 소비전력의 상한이 유연한 환경에서는 적절한 방향입니다. 실제로 소비전력을 넉넉히 확보할 수만 있다면 절대성능에서 앞서긴 합니다.
문제는 GPU와 모바일 SoC의 영역에서는 이야기가 달라서 GPU는 병렬성이 높은 연산을 주로 하는 특성상 동작클럭이 다소 낮아지더라도 같은 다이 면적에서 가능한한 많은 양의 유닛을 확보하는게 효율적입니다. 모바일 프로세서는 소비전력 범위가 제한되는데, 이 영역에선 대체로 저밀도 설계에서 밀도를 희생해 달성한 고클럭대에서의 클럭 마진은 낭비일 뿐입니다. 그럼에도 불구하고 CPU, GPU, 모바일, 데스크탑 가리지 않고 똑같은 저밀도 설계입니다.
같은 아키텍쳐를 저밀도 고클럭 - 고밀도 저클럭 설계로 양쪽을 겸해서 쓰는건 그렇게 드문 일도 불가능한 일도 아니라 모바일 영역에서 꽤 자주 보이는데 화웨이나 미디어텍의 보급형 라인에선 동일한 A53을 고클럭 저효율 - 저클럭 고효율로 빅리틀 구성을 한 SoC들도 있고 스냅드래곤의 경우는 Kryo 코어를 목표 클럭범위와 캐시 크기만 달리한 설계로 빅리틀 구성으로 사용하고 있고, 경쟁상대인 AMD도 Steamroller 에서 Excavator로 넘어가면서 고밀도 설계로 이행하여 모바일 영역에서의 전력대 성능비를 수십%단위로 향상시키고(물론 AMD 주장인 50%대와는 달리 벤치마크를 보면 비슷한 ULV급에서의 향상이 27% 정도긴 합니다.) 남는 다이공간엔 사우스브릿지까지 완전히 통합시켜 온전한 SoC화를 달성한 바도 있습니다.
이해를 위해 첨부하면 작동클럭과 밀도의 관계는 SRAM 셀의 경우 대략 이런 경향을 보입니다.
이래저래 인텔도 하자면 못할건 전혀 없을듯 한데도 불구하고 여전히 목표에 적절치 못한 방향을 몇년째 질질 끌고 있는건데 그럼에도 불구하고 어느정도는 되는 결과물이 나오는 인텔 공정이 대단하긴 합니다만 상대보다 앞선 공정을 유지하는 전략도 무너져 틱톡이 아니라 PAO후우 쿰척쿰척이 되어버린 지금에까지 버티고 있는건 상당히 의문스럽습니다.