Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 http://pc.watch.impress.co.jp/docs/colum...56229.html

1.jpg

 

반도체 칩의 국제 컨퍼런스 COOL Chips 20이 4월 19일부터 요코하마 정보 문화 센터에서 개최됐습니다. COOL Chips는 세계 최첨단 칩 기술이 발표되는 곳으로, 이번에는 세계에서 가장 빠른 슈퍼 컴퓨터 Sunway TaihuLight의 프로세서인 Shenwei 26010 (SW26010)의 핵심 개요가 처음으로 공개됐습니다.

 

 

중국에서 개발한 독자적인 아키텍처의 CPU. Sunway TaihuLight

 

Sunway TaihuLight는 중국의 National Supercomputing Center in Wuxi의 슈퍼 컴퓨터입니다. 2016년 6월의 슈퍼 컴퓨터 랭킹 TOP 500에서 1위를 기록해 화제가 됐습니다. 

 

최고 성능은 125 PFLOPS, Linpack 105 PFLOPS로 100 PFLOPS 클래스의 슈퍼 컴퓨터입니다. Sunway TaihuLight의 중요한 점은 자체 개발 프로세서를 채용했다는 데 있습니다.

 

Sunway의 슈퍼 컴퓨터 시리즈엔 자체 프로세서가 쓰입니다. 프로세서를 개발한 곳은 중국의 Shanghai High Performance IC Design Center입니다. 중국이 개발한 아키텍처에 중국에서 만든 프로세서를 쓴 슈퍼 컴퓨터인 것입니다.

 

TaihuLight보다 전 세대인 Sunway BlueLight는 16코어 Shenwei 1600이 탑재됐습니다. 이번 TaihuLight에는 260 코어 Shenwei 26010 (SW26010)가 탑재됐습니다. 독자 개발일뿐만 아니라 CPU 마이크로 아키텍처가 매우 특별하다는 점에서도 주목 받고 있습니다.

 

2.png

 

Sunway TaihuLight 개요

 

3.png

 

Sunway TaihuLight 슈퍼 컴퓨터의 전체 구성

 

4.png

 

Cool Chips에서 공개된 Sunway 프로세서 개발의 역사

 

5.png

 

자체 프로세서를 탑재하는 Sunway의 슈퍼 컴퓨터의 역사

 

SW26010 프로세서의 특징은 간단한 소형 코어를 멀티 코어로 구성했다는 점과, 여러 종류의 코어를 모은 이기종 멀티 코어 구성 이라는 점입니다.

 

6.png

 

마이크로 아키텍처를 단순화하고 코어 수를 늘린 설계

 

 

PS3의 Cell BE와 비슷한 SW26010

 

SW26010 프로세서는 소니의 게임기인 PS3의 CPU인 Cell Broadband Engine (Cell BE)와 많이 비슷합니다. 이번에는 SW26010의 디테일이 더 자세히 밝혀지면서 Cell BE와의 비슷한 점과 다른 점이 더욱 명확해졌습니다.

 

SW26010는 관리를 맡은 일반적인 메인 프로세서와 벡터 유닛을 갖춘 다수의 연산 프로세서 어레이로 클러스터를 구성합니다. 연산 프로세서는 데이터 캐시 없이 소프트웨어 제어 스크래치 패드 메모리를 갖춥니다. PS3 게임 프로그래머에게는 친숙한 아키텍처입니다.

 

7.png

 

중국 최초의 자체 멀티 코어 프로세서

 

일단 PS3를 기반으로 한 슈퍼 컴퓨터가 있었기에 슈퍼 컴퓨터용 SW26010가 비슷한 구성을 가졌다는 점도 그리 놀라운 일은 아닙니다. 게임 프로그래밍과 슈퍼 컴퓨터가 꽤 가까운 곳에 있음을 상징하는 구조이기도 합니다.

 

그러나 시대와 공정 기술이 다릅니다. Cell BE는 9코어지만 SW26010는 260 코어입니다. 또한 프로그래밍 OpenACC를 지원해 더욱 개발 친화적인 모델이 됐습니다. Cell BE가 진화했다면 SW26010에 가까운 구성이 됐을지도 모릅니다(이건 일본 소니빠의 설레발?)

 

 

3종류의 프로세서를 탑재하는 SW26010

 

자세히 보면 SW26010는 3종류의 처리 요소(Processing Element : PE), 즉 CPU 코어를 가지고 있습니다. 관리 코어인 MPE(Management Processing Element), 연산 코어 CPE(Computing Processing Element), 메모리 액세스 코어 IMPE(Intelligent Memory Processing Element)입니다. 260 코어 안에 포함되는 건 이 중에서도 MPE와 CPE의 수입니다.

 

8.png

 

Cool Chips에서 공개 된 SW26010의 전체 구성

 

9.png

 

ISC16에서 공개 된 SW26010의 전체 구성

 

10.png

 

SW26010 전체는 4 개의 코어 그룹으로 구성된다. 연산 프로세서인 CPE는 64 프로세서씩 CPE 클러스터로 구성됩니다. CPE 클러스터 4개면 SW26010의 256 코어가 나옵니다. 각각의 CPE 클러스터는 하나의 MPE로 관리됩니다. 1개의 MPE에서 64개의 CPE를 관리해 작업을 오프로드합니다.

 

SW26010의 CPE 클러스터는 8x8 메시 구조입니다. 클러스터는 클러스터 컨트롤러를 통해 온칩 네트워크에 연결됩니다. 클러스터 컨트롤러는 64코어로 공유 L2 캐시도 내장됩니다.

 

11.png

 

CPE 클러스터 구성

 

 

일반적인 CPU 아키텍처의 MPE

 

MPE (Management Processing Element)는 Cell BE로 말하면 PPU(Power Processor Unit) 에 해당하는 관리용 CPU 코어입니다.

 

일반적인 CPU 코어의 구조에, 3 명령 이슈의 비순차적 명령어 처리 슈퍼 스칼라 코어. 명령과 데이터를 모두 L1 및 L2 계층에 캐시합니다. OS 및 런타임 등 제어 시스템과 통신 시스템의 프로그램을 실행시키는 것이 주목적입니다.

 

MPE는 64비트 RISC 계열의 독자적인 명령 세트를 채용하며 사용자 모드와 시스템 모드를 모두 지원합니다. Cool Chips에서의 발표에 따르면 3개의 실행 파이프개로 1유닛 메모리 명령 및 분기 명령 등의 핸들링을, 나머지 2 유닛이 정수와 부동 소수점 연산 파이프가 됩니다.

 

MPE는 256-bit의 SIMD (Single Instruction, Multiple Data) 유닛을 2개 준비하기에 두 파이프에 256-bit SIMD가 1유닛씩 할당된 것으로 보입니다. 64-bit 배정밀도 부동 소수점 연산에서 16운영/사이클이 됩니다.

 

명령 실행 단위는 아웃 오브 오더. 캐시는 L1 명령 캐시가 32KB, L1 데이터 캐쉬가 32KB, L2 캐시가 256KB입니다.

 

12.png

 

Cool Chips에서 공개 된 MPE의 블록 다이어그램

 

13.png

 

ISC16시 MPE와 CPE를 설명한 슬라이드

 

 

Cell BE의 SPU와 비슷한 부분이 있는 CPE

 

CPE (Computing Processing Element)는 Cell BE에서 SPU(Synergistic Processor Unit)에 해당되는 연산용 CPU 코어입니다. MPE와 비교하면 훨씬 간단한 소형 코어입니다.

 

2 명령 이슈에 L1 명령 캐시가 있으나 L1 데이터 캐시는 없습니다. 256-bit의 SIMD (Single Instruction, Multiple Data) 장치를 갖춰 병렬화된 연산 작업을 수행하는데 최적화됐습니다.

 

CPE는 명령 세트가 64 bit RISC 고유 명령입니다. 아웃 오브 오더 실행이나 명령 단위로 자유롭게 아웃 오브 오더 실행이 되는 건 아닙니다. 명령 스트림을 코드 블럭으로 구성해 코드 블럭 기반으로 비순차적 명령어 처리가 가능한 경우에 실행합니다.

 

16KB의 L1 명령 캐시를 가지지만 L1 데이터 캐시가 없고 64KB 스크래치 패드 메모리 (Scratch Pad Memory : SPM)를 포함합니다. 이 메모리는 LDM (로컬 데이터 메모리 : Local Data Memory)라고 하며 소프트웨어 관리에서 프로그래머에게 노출됩니다. 이 LDM 데이터 로컬 유틸리티를 유용하게 사용하는 것이 SW26010 성능 최적화에서 중요합니다.

 

CPE에서 중요한 특징은 온칩 레지스터 커뮤니케이션입니다. CPE 사이에서 레지스터 내용의 직접적인 전달이 가능합니다.

 

메모리 계층에선 CPE 클러스터에서 공유 L2 캐시도 포함하는데 이것은 64 CPE 코어의 공유입니다. CPE는 레지스터 커뮤니케이션 기능은 레지스터에서 직접 온칩 네트워크를 통해 다른 CPE에 레지스터 내용을 보낼 수 있습니다. 메모리 계층을 통하지 않습니다. 레지스터 커뮤니케이션 명령이 설정되어 있으며, 노드 사이나 멀티 캐스트를 모두 지원합니다. 네트워크 프로세서 에서 볼 수 있는 구조입니다.

 

14.png

 

CPE 사이의 레지스터 커뮤니케이션

 

CPE는 실행 파이프는 2개로 1개는 메모리 액세스와 분기 등 컨트롤을 맡으며 다른 1개는 연산입니다. 연산 파이프는 MPE와 마찬가지로 256-bit SIMD 유닛입니다.

 

참고로 게임에 맞춘 Cell BE는 32-bit 단정밀도 부동 소수점 연산에 최적화 되어 있었으며, FP32x4의 128-bit SIMD였습니다. 반면 SW26010는 슈퍼컴퓨터용이니 64-bit 배정밀도 부동 소수점 연산에 최적화된 FP64x4의 256-bit SIMD입니다. 64-bit 배정밀도 부동 소수점 연산에서는 8 운영 / 사이클입니다.

 

15.png

 

Cool Chips에서 공개 된 CPE의 블록 다이어그램

 

 

단일 프로세서에 GPU 수준의 성능을 발휘

 

IMPE (Intelligent Memory Processing Element)는 SW26010의 세번째 처리 장치입니다. CPE 클러스터에 포함된 메모리 제어 장치와 통합된 메모리 액세스 오퍼레이션을 대상으로 한 프로세서입니다.

 

단일 이슈 명령 유닛의 실행 코어는 제각각 실행 파이프 버퍼가 있습니다. 데이터 셔플 네트워크가 다른 레이아웃의 메모리 액세스 오퍼레이션에서 메모리 액세스 전에 대응할 수 있게 됐습니다.

 

16.png

 

Cool Chips에서 공개 된 IMPE 마이크로 아키텍처

 

17.png

 

SW26010는 단일 프로세서에서 3.06 TFLOPS (64-bit 배정 밀도 부동 소수점 연산)로 GPU 수준의 연산 성능을 달성합니다.

 

동작 클럭은 1.45GHz, 256개의 CPE가 각각 256-bit (64-bit x4way)의 연산이 가능하며 4개의 MPE 2유닛 256-bit (64-bit x4way) 연산해서 총 3.06 TFLOPS가 됩니다. Sunway TaihuLight 전체 시스템은 40,960 노드니 피크 성능은 125PFLOPS입니다.

 

18.png

 

Sunway TaihuLight의 스펙

 

19.png

 

SW26010의 스펙

 

20.png

 

매우 높은 전력 대 성능

 

연산 성능이 매우 높은 SW26010와 Sunway TaihuLight를 보면 메모리 대역폭은 SW2601가 136.5GB/s로 그리 높지 않습니다. GPU가 500GB/s를 넘어섰음을 감안하면 성능에 비해 낮습니다.

 

또한 딥 러닝에서 각광받는 낮은 정밀도의 연산도 지원하지 않아, 목적과 사용 사례를 어느 정도 한정한 슈퍼 컴퓨터라고 할 수 있습니다. 그러나 딥 러닝을 염두에 둔 연구 개발도하는 것 같습니다.

 

21.png

 

National Supercomputing Center in Wuxi의 최근 발표에서는 딥러닝을 위한 Sunway Chip 계획의 가능성도 시사하고 있습니다.



  • ?
    RuBisCO 2017.04.22 12:30
    고토 히로시게 칼럼이군요. 이분 칼럼은 다 좋은데 이상할 정도로 CELL/BE에 집착하시더군요.
  • ?
    히로리아 2017.04.22 12:46
    소니빠라던가...
  • ?
    şandin 2017.04.22 15:59
    g4560 이런거보다 연산속도가 1억배 빠른 컴퓨터다라고 이해하면 쉽겠죠
  • profile
    냐아      (대충 좋은 소리) 2017.04.22 17:55
    왜 SW인가 했더니 위신(威申)이 높은 프로세서군요.
  • ?
    중고나라VIP      (5600x / RX6600XT) 원래 암드는 감성과 의리로 쓰는겁니다. 2017.04.22 23:51
    Made in China...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 등록된 글이 없습니다.
목록
Board Pagination Prev 1 ... 16 17 18 19 20 21 22 23 24 25 Next
/ 25

AMD
한미마이크로닉스
더함
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소