컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2019.03.10 05:15

인텔 10nm CPU 코어, 서니 코브의 핵심인 AVX-512

조회 수 6188 댓글 12

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...67662.html

인텔 10nm 프로세스의 코어 프로세서 CPU인 서니 코브(Sunny Cove)는 마이크로 아키텍처가 비교적 크게 바뀌었습니다. 현재 내용이 알려진 건 실행 파이프/메모리 뿐이나 그것만으로도 큰 변화가 있었음을 알 수 있습니다. 서니 코브를 기존의 스카이레이크와 비교하면 이런 식입니다.

서니 코브의 블럭 다이어그램 추측

스카이레이크의 블럭 다이어그램

10nm 세대의 퍼포먼스 CPU 코어, 서니 코브

스카이레이크의 AVX-512는 서버용으로 개발된 스카이레이크-X에서만 지원합니다. 그러나 서니 코브는 AVX-512를 기본적으로 지원한다고 보입니다. AVX-512는 기존 AVX의 SIMD (Single Instruction, Multiple Data)를 2배로 늘린 게 전부가 아닙니다. 벡터 유닛에선 획기적인 변화가 있어 어찌보면 GPU와 비슷합니다.

AVX-512은 원래 GPU에 맞서 개발된 라라비 명령 확장(Larrabee New Instructions) 에서 발전한 명령어입니다. 라라비에서 제온 파이를 거치면서 명령 포맷은 바뀌었으나 기본적인 특징은 라라비의 새 명령 확장을 계승합니다. 512비트의 넓은 SIMD 유닛에 2비트 단정밀도 부동소수점 연산은 16wide로 수행합니다. 또 프레디케이션을 본격적으로 지원하는 등, 새로운 요소가 AVX에 추가됐습니다. 서니 코브의 AVX-512는 이런 특징을 잘 살렸습니다.

서니 코브의 AVX-512 구현은 스카이레이크-X의 구현을 확장한 것으로 추측됩니다. 현재 스ㅏ이레이크는 포트 0과 포트 1에 각각 256비트 SIMD FMA 연산 유닛이 있고, 포트 5에 256비트 셔플 유닛이 있습니다. 스카이레이크-X에선 이를 확장해 기존의 포트 0과 포트 1의 256비트 SIMD FMA 유닛 2개를 묶어 512비트 SIMD 유닛으로 씁니다. 또 포트 5에 새로 512비트 FMA 유닛을 배치합니다. 3개의 포트를 써서 512비트 FMA를 2개 병렬 수행합니다.

512비트의 넓은 레지스터 액세스

그럼 왜 포트 0과 포트 1은 256비트 FMA 디바이스일까요. 기존의 256비트 AVX에서 포트 5 FMA를 끄고 전력 사용량을 절감하기 위한 방법으로 보입니다. 또 레지스터 액세스 포트의 효율도 높일 필요가 있습니다. 포트 0, 1, 5는 제각각 SIMD 레지스터 액세스 포트가 있는데 이것의 설계는 매우 성가십니다.

인텔은 AVX-512에서 새로 512비트의 레지스터인 ZMM을 도입했습니다. 논리 레지스터는 32개, 서니 코브의 물리 레지스터 수는 아직 알려지지 않았습니다. 이렇게 긴 벡터를 구현하려면 레지스터 액세스가 문제가 됩니다. FMA 연산에선 1사이클의 레지스터에 3 읽기와 1 쓰기가 필요합니다. AVX-512에선 너비가 512비트며 유닛이 2개입니다. 512비트 읽기 경로가 6개, 쓰기 경로가 2개니 이것의 배선만 따져도 복잡합니다.

이 문제를 해결하는 방법 중 하나가 512비트 레지스터 파일을 256비트식 분할 구현하는 겁니다. 512비트를 32비트/64비트로 레인을 나누니 분할 액세스가 가능합니다. 256비트는 512비트의 절반 크기만 있으면 됩니다. 서니 코브는 포트 0과 포트 1의 256비트 벡터 유닛이 각각 512비ㅡ 레지스터를 256비트 분할해 액세스합니다. 포트 0이 어퍼, 포트 1이 로워 같은 식이 됩니다.

포트 0과 포트 1은 각각 256비트 YMM 레지스터 액세스 포트를 갖고 있습니다. 따라서 포트 0과 포트 1을 결합해 512비트 AVX-512 연산의 경로로 쓰면 포트 0과 1 중 하나는 기존의 256비트 레지스터 액세스 포트를 그대로 쓸 수 있습니다. ZMM 레지스터와 YMM 레지스터의 확장으로 실제 구현은 256비트 이상이 됩니다.

ZMM 레지스터의 액세스가 필요한 셔플 유닛

포트 0과 1의 조합츠럼 FMA 연산 같은 일반적인 연산 유닛은 512비트 레지스터 파일을 256비트씩 분할해서 쓸 수 있습니다. 그러나 같은 AVX 유닛 중에서도 셔플 유닛은 그렇지 않습니다. 셔플 유닛은 벡터 레지스터의 슬롯 내용을 대체하기 위해 ZMM 레지스터의 모든 슬롯에 액세스해야만 합니다. 그래서 512비트 레지스터 전체에 연결되야 합니다.

따라서 셔플 유닛은 포트 5에 배치하는 게 일반적입니다. 포트 5의 벡터 연산 유닛은 512비트로, 512비트의 ZMM 레지스터 전체에 액세스 포트를 갖고 있습니다. 이것이 스카이레이크-X의 셔플 유닛 구현 방식입니다. 그런데 서니 코브는 셔플 유닛을 포트 1에도 넣었습니다. 이 두번째 셔플 유닛에 대해선 자세히 알려지지 않았습니다.

이게 256비트의 YMM 전용 셔플 유닛이라면 원래의 포트 1 YMM 레지스터 액세스 패스를 씁니다. 하지만 두번째의 512비트 셔플 유닛이라면 512비트 ZMM 레지스터 패스가 필요합니다. 하지만 포트 0과 1 중 하나는 256비트로 나눈 ZMM 레니즈스터의 로워/어퍼 모두에 액세스가 가능할 겁니다. 그래서 여기에 셔플 유닛을 배치해도 문제가 없습니다. 그렇다면 1 사이클에 최대 2개의 AVX-512 셔플 명령을 실행할 수 있습니다.

그럼 셔플 유닛이 왜 2개나 필요할까요? AVX-512의 벡터가 길고, 효율적인 벡터 프로세싱을 실현하기 위해서 Structure of Arrays (SOA)의 배열 처리가 중요해서입니다. AOA를 위한 작업 항목의 메모리 레이아웃 변환을 위해 셔플 유닛이 중요하다고 추측됩니다.

SOA 레이아웃 효율화의 AVX-512

이것이 AVX-512의 가장 중요한 부분입니다. SOA 레이아웃 실행은 AVX-512의 핵심이며, AVX-512가 기존의 SSE/AVX와 본질적으로 다른 부분입니다. SOA를 효율적으로 수행할 수 있도록 AVX-512에서 패널티 없이 프레디케이션 기능도 구현했습니다. 이는 GPU처럼 플로우 컨트롤이 가능한 벡터 유닛이 됐음을 의미합니다.

벡터 프로세싱의 메모리 에이아웃은 크게 두 가지가 있습니다. 하나는 Array of Structures (AOS) 혹은 Packed나 SIMD라 부르는 방식입니다. 다른 하나는 Structure of Arrays (SOA) 혹은 스칼라, SIMT(Single Instruction, Multiple Thread)라고 부르는 방식입니다 AOS/팩드/SIMD는 데이커를 일정 크기로 압축해 처리합니다. 반면 SOA/스칼라/SIMT는 패키지를 분해해 구성 요소를 같은 형태로 묶어 처리합니다.

AOS는 팩 처리의 크기가 정해져 있어 효율이 나빠질 수도 있습니다. 3개의 구성 요소를 4웨이 벡터에서 실행한다면 나머지 한 개의 슬롯이 낭비됩니다. 반면 SOA는 패키지를 나눠 배열에 채우기에 낭비되는 부분이 없습니다. 4웨이 백터라면 3개로 나눈 팩을 4개 가져와 3 사이클로 실행합니다. 벡터 길이가 커질수록 이 문제는 복잡해집니다.

그래서 벡터기 갈면 SOA를 씁니다. SOA를 효율적으로 처리하기 위해 벡터의 각 레인에 플로우 컨트롤 기능을 넣는 게 일반적입니다. 512비트라면 단정밀도 16레인이지만, 16레인이 모두 같은 명령을 실행한다면 이를 지원하는 애플리케이션에만 한정됩니다. 하지만 16레인의 명령 실행 여부를 따로 설정할 수 있다면 애플리케이션에 적용하기가 쉬워집니다.

마스크 레지스터 프로그램을 사용한 프레디케이션이 지금의 대세

이런 벡터 플로어 컨트롤엔 마스커 레지스터를 사용한 프레디케이션의 수행이 일반적입니다. 프레디케이션에선 각 레인마다 명령을 실행할지를, 혹은 연산 결과를 레지스터에 기록할지를 마스크 레지스터를 써서 선택합니다. 전용 마스크 레지스터를 사용해 프레디케이션을 차별 없이 제공합니다. 프레디케이션을 사용하면 벡터의 각 레인에 조건 분기가 생겨도 원래 분기인 것처럼 보이게 만듭니다.

벡터 길이를 넓혀 마스크 레지스터로 프레디케이션하고, SOA를 지원하는 구조는 현재 CPU 벡터 유닛의 대세입니다. arm의 Scalable Vector Extention (SVE)와 RISC-V의 벡터 ISA는 어느정도 비슷한 마스크 레지스터로 프레디케이션을 지원합니다. NVIDIA 나 AMD, Imagination Technologies 등의 GPU도 마찬가지입니다. AVX-512도 비슷합니다. 정확하게 이 기능은 AVX-512의 바탕이었던 라라비 NI(Larrabee New Instructions)에서 구현됐기에 CPU에선 인텔이 앞섰다고 할 수 있습니다. 이걸 인텔 CPU 전체로 보급하는 과정입니다.

AOS와 SOA의 변환에 필요한 셔플 유닛

마스크 레지스터에 의해 AVX-512는 SOA를 효율적으로 처리할 수 있습니다. 그러나 메모리에 저장된 원본 데이터 배열이 AOS라면 SOA로 바꿔줘야 합니다. 이 변환에는 집결/분산 명령을 쓸 수도 있지만 그럼 대기 시간이 길고 메모리 액세스가 복잡해집니다. 그래서 로드/셔플을 조합한 방법이 나왔습니다.

이 레이아웃 변환 과정에서 셔플을 여러번 수행합니다. 변환 과정에서 셔플이 연속 실행되며 셔플 엔진의 사용이 늘어납니다. 서니 코브의 AVX-512 유닛 배치는 이런 요구에 맞추기 위함이라 추측됩니다. 정리하면 AVX-512F에서 확장된 AOS-SOA 변환 명령을 살리기 위해 서니 코브는 AVX-512 명령도 확장하고, 그 결과 AVX-512를 보다 효율적으로 쓰리라 기대됩니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '12'

쮸쀼쮸쀼 2019.03.10 05:26

AoS에서 SoA로의 전환은 GPU에서도 봤던 걸로 기억하는데, 갈수록 CPU도 GPU처럼 변해가는 걸까요.
TundraMC 자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2019.03.10 13:18

인텔은 (아직) GPGPU에 제대로 대응할만한 물건이 많지 않아서 그런게 아닐까 싶네요. 코두리가 나중에 만들어내면 그때가서 또 버리는건 아닐런지...
니코다이스키 2019.03.10 09:46

cpu 성능향상이 비교적 높지 않았는데
서니 코브는 조금 기대할만 하겠군요
칼토로스 2019.03.10 10:07

잉? 대역폭이 버텨줄려나요?
256비트씩 끊어서 한다 쳐도 4채널이 들어가야될 것같은데요
?
MUSCLE 2019.03.10 10:16

인텔믿고기다리렵니다...; 메인은 인텔 세컨은 젠2나 고대하면서 기다려봐야겟네요..
유자나무 2019.03.10 11:11

서니코브 기대 되긴 하는데... 가격이..

제발 경쟁력 잘 갖춰서 나왔으면 좋겠습니다.

지금 커피R 은 여러 사고가 겹치면서 가격이 떨어질 생각을 안하네요. T_T
?
마라톤 2019.03.10 14:23

좋은 정보 감사합니다. ^_^
?
RuBisCO 2019.03.10 14:27

하지만 소비전력과 전압은 안드로메다로 가버리고 실 성능은 나락으로 떨어지는데 이걸 어쩔 ㄷㄷ
Retribute 안녕하세요. 행복한 하루 되세요. https://blog.naver.com/wsts5336 2019.03.10 15:07

보안 문제는 어떻해 해결할지가 궁금하군요

당장 성능에 있어서 큰 불만은 없지만

보안 패치를 거듭 할수록 낮아지는 성능과 더 이상 소프트웨어 땜질 식으로 대응이 불가한 문제도 있던데

이번엔 꼭 좀 해결되서 나왔으면 합니다
스위키 2019.03.11 09:46

인텔 화이팅~!
세라프 2019.03.12 08:27

오타 있네요.
2비트 단정밀도 -> 32비트 단정밀도
그라나다 보이는 것이 다가 아니다. 2019.03.13 14:14

크르자니크가 미국 연구소 연구원 죄다 자르고 이스라엘 연구소에 대폭 지원 늘린 결과가 제대로 나오길 바랍니다.
항상 이스라엘 연구소가 제대로된걸 만들어줬죠. 미국 연구소는 철밥통 발열돼지들만 만들었고요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

필립스 49B2U5900CH/00, 팝업 카메라 탑재 49인치 커브드 모니터

필립스 49B2U5900CH/00 커브드 모니터입니다. 화면 크기 49인치, 5120x1440의 듀얼 WQHD 해상도, VA 패널, 1800R 곡률, 주사율 75Hz, 4ms GTG 응답 속도, 3000:1 명암비, 10억 7천만 컬러, sRGB 119%/NTSC 97% 색영역, 디스플레이HDR 400,...

Date2023.11.22 소식 By낄낄 Reply0 Views450

Read More
써멀라이트 AXP90-X53 FULL. 완전 구리 LP 타입 쿨러

써멀라이트 AXP90-X53 FULL입니다. 히트싱크와 히트파이프가 전부 구리 재질이고 높이가 53mm인 LP 타입 제품입니다. 6mm 히트파이프 4개, 크기 95x94.5mm, 92mm 구경 팬 TL-9015R 탑재, 회전 속도 2700rpm, 소음 22.4dBA, 풍량 42.58CFM,...

Date2023.11.22 소식 By낄낄 Reply7 Views1349

Read More
스레드리퍼 프로 7995WX, 시네벤치 R23 세계기록 경신

스레드리퍼 프로 7995WX가 시네벤치 R23 세계기록을 경신했습니다. 이 96코어 젠4 프로세서에 액체 질소 쿨링을 써서 201,501점까지 뽑았는데요. 공냉에서 118,642점, 수냉에서 148,053점이었던 것과 비교하면 엄청나게 올랐네요. 전력 ...

Date2023.11.22 소식 By낄낄 Reply2 Views632

Read More
No Image

지포스 RTX 4070은 슈퍼 모델이 나와도 계속 출시

지포스 RTX 4080은 슈퍼로 대체됩니다. 4070 Ti도 슈퍼로 대체됩니다. 하지만 4070 슈퍼 출시 후에도 4070은 계속해서 판매됩니다. 다만 4070 슈퍼에 좀 더 신경을 쓸 거라고 합니다. 그러니까 4070/4070 슈퍼/4070 Ti 슈퍼/4080 슈퍼 이...

Date2023.11.22 소식 By낄낄 Reply1 Views534

Read More
ASUS의 M.2 슬롯이 달린 4060 Ti가 정식 양산/출시

그래픽카드 뒷면에 M.2 슬롯이 달렸던 걸로 유명해졌던 ASUS 지포스 RTX 4060 Ti가 정식으로 양산/출시됐습니다. 일반 버전보다 100위안 정도 비싼 편이기에 가격이 나빠 보이진 않네요. 그리고 M.2 슬롯에 변환 케이블을 연결하면 다른 ...

Date2023.11.22 소식 By낄낄 Reply2 Views643

Read More
블로워 타입의 지포스 RTX 4090이 중국 시장에 출시

엔비디아가 중국에서 지포스 RTX 4090의 생산과 판매를 중단한 가운데, 블로워 타입의 지포스 RTX 4090이 중국 시장에 출시됐습니다. 가격은 24000위안이나 29999위안으로 꽤 비쌉니다. 4090 판매를 막은 게 AI 연구에 쓰지 못하도록 규제...

Date2023.11.22 소식 By낄낄 Reply2 Views621

Read More
애플 매직 마우스 2세대를 충전하면서 쓸 수 있도록 개조

애플 매직 마우스 2세대는 충전 포트가 마우스 바닥에 있어, 이걸 충전하려면 마우스를 뒤집어야 합니다. 그래서 충전하면서 사용이 불가능하죠. 이 마우스에 새로운 케이스를 씌워서 충전하면서 쓸 수 있도록 개조한 사례가 있습니다. 마...

Date2023.11.22 소식 By낄낄 Reply2 Views782

Read More
팀그룹, 재활용 알루미늄으로 만든 방열판을 장착한 친환경 DDR5 모듈

팀그룹의 친황경 DDR5 메모리 모듈인 벌칸 에코입니다. 우선 방열판이 재활용 알루미늄입니다. 재활용 알루미늄 방열판 1만개를 만들면 탄소 배출량이 기존보다 73% 줄어듭니다. 또 산림 관리 협의회 인증 친환경 포장을 사용했습니다. 램...

Date2023.11.21 소식 By낄낄 Reply9 Views1790

Read More
써멀 그리스 이상의 성능을 낸다는 써멀 패드, GELID HeatPhase Ultra

GELID의 써멀 패드인 HeatPhase Ultra입니다. 써멀 그리스보다도 성능이 높다고 주장하는 제품입니다. 가격은 인텔용이 9.5달러, AMD용이 10달러. 신형 상변화 소재로 만들어 자사의 서멀 그리스인 GC 익스트림보다 성능이 높고, 쓰기 간...

Date2023.11.21 소식 By낄낄 Reply9 Views2232

Read More
MSI G2712F. 울트라 래피드 IPS 패널 탑재 게이밍 모니터

MSI G2712F 게이밍 모니터입니다. 1ms GTG 울트라 래피드 IPS 패널, 27인치 크기에 풀 HD, 180Hz 주사율, 어댑티브 싱크, 나이트 비전//플리커 프리/블루라이트 감소, 밝기 300니트, 명암비 1000:1, 색영역은 어도비 RGB 80%, DCI-P3 76%,...

Date2023.11.21 소식 By낄낄 Reply1 Views340

Read More
인텔 코어 i3-14100 샘플이 중국에서 판매 중

인텔 코어 i3-14100 샘플이 중국에서 판매 중입니다. 로켓레이크 리프레시, 4코어 8스레드, SRN26 S스펙 코드, 기본 클럭 3.5GHz에 부스트 클럭은 없음. 정식 출시는 내년 1월입니다.

Date2023.11.21 소식 By낄낄 Reply1 Views740

Read More
팁스터들, 루나레이크 MX에 대한 자료 유출?

음... 근데 좀 미심쩍은 부분이, 인텔이 N3B 즉 TSMC의 공정을 모두 사용한다면... 로드맵이 깨지는건 둘째치고 TSMC의 공정 노드를 사용하는 순간 칩스 보조금 문제는 어떤 나비효과로 출렁이게될지 좀... 저렇게 정말 갈까? 싶네요.

Date2023.11.20 소식 By360Ghz Reply7 Views677

Read More
M3탑재 기기가 국내 전파인증에 등록됐습니다.

iMac, 14~16인치의 m3, m3pro, m3max 맥북 프로가 모두 등록됐습니다.

Date2023.11.20 소식 By방황하는물고기 Reply3 Views1237

Read More
No Image

중국 반도체/컴퓨터 업계 소식 모음

따로 쓰기 너무 귀찮아 글 하나에 몰아서 올립니다. 중국 SophGo가 SiFive에서 라이센스를 받아 RISC-V 기반 고성능 프로세서를 개발 중입니다. SG2380은 16개의 4이슈 비순차 실행 SiFive P670 코어가 탑재되며, X280 AI 가속장치와 이미...

Date2023.11.19 소식 By낄낄 Reply5 Views2388

Read More
No Image

중국에서 지포스 RTX 4090 삭제, 4080/4070 Ti도 재고 부족

지포스 RTX 4090이 NVIDIA 중국 사이트에서 삭제됐습니다. 미국의 수출 규제로 중국에서 살 수 없기 때문에 아예 홈페이지에서 제거한 듯 합니다. https://www.nvidia.cn/geforce/graphics-cards/40-series/ 중국에선 4080과 4070 Ti도 이...

Date2023.11.19 소식 By낄낄 Reply2 Views1288

Read More
No Image

지포스 RTX 50 시리즈는 3nm 공정, DP 2.1 지원

지포스 RTX 50 시리즈는 디스플레이포트 2.1을 지원합니다. https://twitter.com/kopite7kimi/status/1724786988203790504 그리고 블랙웰 GB20x 시리즈는 TSMC 3nm 공정으로 제조됩니다. 어떤 3nm인지는 모릅니다. https://twitter.com/ko...

Date2023.11.19 소식 By낄낄 Reply0 Views1179

Read More
사과 향이 첨가된 써멀 그리스

익스트림 그리스 4G 애플 에디션입니다. 익스트림 그리스 4G에 사과향과 녹색 색소를 더해서 써멀이 남아 있는지 확인하기가 쉽다고 합니다. 주 성분은 산화 알루미늄과 산화 아연, 열전도율음 처음에 12.82w/mk 이상, 5년 후에도 8.8w/mk...

Date2023.11.19 소식 By낄낄 Reply12 Views1834

Read More
No Image

삼성, AMD의 4nm CPU를 생산?

삼성 파운드리가 4nm 공정을 사용해 AMD 젠5c 아키텍처 프로세서인 프로메테우스를 만들 거라고 합니다 . TSMC 역시 프로메테우스를 생산하지만 여기에선 3nm 공정을 써서 더 발전된 버전을 만들 거라고 하네요.

Date2023.11.19 소식 By낄낄 Reply5 Views1677

Read More
라데온 RX 7900M, 긱벤치6에서 4090 랩탑보다 높은 성능

긱벤치 6에 라데온 RX 7900M이 등록됐습니다. 벌칸 테스트에서는 171430점으로 모바일 그래픽 중에서는 가장 높습니다. 지포스 RTX 4090 랩탑보다도 9%가 높습니다. 오픈CL에서는 158867점으로 지포스 RTX 4080 모바일보다 낮게 나왔습니다.

Date2023.11.19 소식 By낄낄 Reply5 Views1030

Read More
구글 타이탄 보안 키, 최대 250개의 패스키를 저장

구글이 타이탄 보안 키를 새로 출시했습니다. USB-C나 USB-A 타입이 있으며 250개의 패스키를 저장할 수 있습니다. 이 USB 보안 키를 USB 포트에 연결하면 로그인 인증이 됩니다. 또 NFC 칩이 내장되어 스마트폰의 비접촉 인증에 쓸 수도 ...

Date2023.11.18 소식 By낄낄 Reply5 Views1007

Read More