중국 兆芯은 x86 호환 8코어 SoC인 그루브 KX-5000 시리즈를 작년 말에 발표했습니다. https://gigglehd.com/gg/1978467 여기에선 그 자세한 내용을 소개합니다.
KX-5000 시리즈는 11월 9일에 테이프 아웃됐고, 12월 28일에는 정식으로 발표했습니다. SKU도 공개했는데 총 5가지 모델이 있네요.
최대 지원 메모리를 128GB로 늘리고 ECC와 레지스터드 DIMM을 지원하며, GPU가 없는 KH-20000도 있습니다. 이 시리즈는 KH-26800과 KH-25800의 두가지 모델이 있네요.
상세 스펙은 아래 표에 있지만 클럭이 다들 2GHz 이하로 성능이 썩 높진 않습니다. 아래 표엔 없으나 KH-26800은 KX-U5680, KH-25800은 KX-U5580에서 GPU를 뺀 모델입니다.
모델 | KX-U5680 | KX-U5580 | KX-U5580M | KX-5640 | KX-5540 |
---|---|---|---|---|---|
제조 공정 | 28nm | ||||
패키지 | HFCBGA 37.5 × 37.5mm | ||||
클럭 | 2GHz | 1.8GHz | 1.8GHz 이하 | 2GHz | 1.8GHz |
코어 수 | 8 | 4 | |||
Adaptive Overcloking | 없음 | 수 | 없음 | ||
공유 L2 캐시 | 4MB × 2 | 4MB | |||
명령어 셋트 | x86 / x64 / SSE 4.2 / AVX / TXT / NXbit | ||||
암호화 | ACE / SHA-1 / SHA-256 / SM3 / SM4 / 난수 발생 | ||||
버스 | FSB | ||||
APIC 지원 | 수 | ||||
온도 보호 | 지원 | ||||
C-States (C1-C4) | 지원 | ||||
P-State | 지원 | ||||
GPU 기반 API | DirectX 11.1 | ||||
하드웨어 디코딩 | 지원 | ||||
최대 해상도 | 4K | ||||
최대 디스플레이 출력 | 3개 |
CPU 외에 GPU, PCI-E 버스, DDR4 메모리 컨트롤러를 내장합니다. PCI-E 3.0은 24레인으로 9슬롯까지 커버 가능.
다만 내장 그래픽은 아직 알려지지 않았습니다. 다이렉트 X 11.1과 4K 출력 외에는 이렇다 할만한 스펙이 없습니다.
사우스브릿지, 칩셋은 ZX-200입니다. PCI-E 3.0 x4로 연결, 9레인 PCI-E 2.0 제공, USB 3.1 타입 C 2포트, USB 3.0 3포트, USB 2.0 6포트를 제공.
KX-5000 시리즈의 마이크로 아키텍처는 코드네임 WuDaoKou입니다. 2013년 8월부터 개발을 시작해 아키텍처를 새로 설계하고, 파이프 라인, 메모리 액세스 대역폭, 분기 예측 실행 등을 재설계하거나 개선을 통해 IPC를 기존 제품(ZX-C)에서 25% 늘렸습니다. 또 코어 수를 늘려 1개 칩의 성능은 140%가 됐습니다. DDR4의 지원으로 메모리 대역폭은 120% 증가.
KX-5000 8코어 모델의 벤치마크는 메모리 대역폭이 STREAM 1C COPY가 12GB/s, STREAM 8C COPY가 17GB/s. SPECint2006의 점수는 19.9, SPECint_rate2006 점수는 115였습니다. 프리츠 체스 벤치마크 점수는 7,911, 7-zip의 종합 점수는 12,112MIPS, 시네벤치 R11.5의 CPU 렌더링 점수는 4.01pts로 코어 i3-6100 수준의 성능이라고 합니다.
다만 이건 모두 멀티스페드에 특화된 테스트입니다. KX-5000가 8코어임을 감안하면 싱글 코어 성능은 2코어/4스레드의 코어 i3-6100보다 낮다고 해야 합니다.
기존의 ZX-C+는 4코어 설계로, 8코어 SKU는 4코어 다이 2개를 하나의 패키지로 합친 방식입니다. 두개의 다이 사이에서 캐시 일관성을 위해 메인보드 노스브릿지를 거치다보니 대기 시간이 문제가 됐습니다. KX-5000 시리즈는 이게 모두 하나의 칩에 모이면서 코어 일관성은 노드 사이의 크로스바 스위치가 맡습니다. 그래서 대기 시간이 줄어들게 됩니다.
KX-5000 시리즈의 개발 과정도 공개했습니다. 2013년 8월부터 개발을 시작해 2014년 6월에 아키텍처가 완성, 2015년 7월에 기본 설계가 완성됐습니다. 2016년 4월에 하드웨어 설계를 마치고 2016년 8월에 노광용 마스크의 테이프 아웃, 2016년 10월에 검사를 실시해 2017년 10월에 양산에 들어갔습니다.
개발에는 총 9000개월이 걸렸고, 4000개의 코어를 사용했으며, 그 데이터는 200TB에 달합니다. 10대의 하드웨어 에뮬레이터와 테스트 플랫폼을 사용해 1500억 개에 달하는 명령 조합을 에뮬레이션, 300개 이상의 소프트웨어 테스트를 수행했습니다. 여기에는 CPU, GPU, 메모리 컨트롤러, PCI Express 버스의 포괄적인 성능/기능/신뢰성/에이징 테스트가 이루어졌습니다.
또 WHQL(Windows Hardware Quality Labs) 인증도 취득해 윈도우 7/10 등의 운영체제 지원도 확보했습니다.
다음 모델인 LuJiaZui, KX-6000 시리즈는 16nm로 제조 공정을 줄이고 클럭을 3GHz까지 높입니다. 그 다음인 KX-7000에서 마이크로 아키텍쳐를 혁신하고 DDR5 메모리와 PCI Express 4.0를 지원합니다.
여기에서 사용하는 코드네임은 중국의 지명입니다. ZX-C와 ZX-C+는 상하이 푸둥의 기술 단지인 장쟝에서, KX-5000의 우다오코우는 베이징 중관촌(한국으로 치자면 용산), KX-6000의 루쟈주이는 상하이 푸둥에서 가장 번화한 지역입니다.
중국에서 CPU와 OS를 독자적으로 개발하는 어려움도 토로했습니다. 중국에서 CPU를 개발한 건 최근의 일로서 그 동안 노하우가 축적된 인텔이나 ARM에 비해 설계 능력이 부족합니다. 인텔은 마이크로소프트를 비롯한 OS 개발사, 델과 HP 같은 PC 업체와 생태계를 구축했으나 중국은 아니지요.
CPU의 개발 비용도 비쌉니다. Arm은 IP 설계와 라이센스 위주이며 반도체를 직접 제조하지 않아 개발 비용이 저렴합니다. 최근 5년 동안 CPU 개발에 투자한 비용은 매년 2억 4380만 파운드 수준이었습니다. 인텔은 매년 114억 달러. AMD는 여기의 1/10입니다. IBM과 애플은 인텔과 AMD의 중간. 화웨이의 자회사인 하이실리콘은 이제 인텔과 비슷한 수준이라네요.
아키텍처마다 개발에 필요한 비용도 다른데, x86은 하나의 아키텍처를 개발하는데 30억 달러가 필요, Arm이나 Power 아키텍처보다 많이 비쌉니다. 다만 兆芯이 연구 개발에 얼마나 썼는지는 정작 밝히지 않았네요. 다른 회사와 비교해 보면 30억 달러 정도의 투자는 필요할 듯 합니다만.
OS 개발은 인력과 자금이 부족합니다. 마이크로소프트는 10만 명 규모의 직원이 있으나, 중국의 OS 개발사는 큰 곳도 300~500명 정도. 하드웨어 제조 업체와 협력 관계도 잘 구축되지 않았습니다. 개발 자금의 경우 윈도우 비스타의 개발 비용은 200억 달러. 아폴로 계획과 비슷한 수준이나 중국에서 그 정도로 큰 돈을 OS 개발에 투자할만한 곳은 없습니다.