Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 http://pc.watch.impress.co.jp/docs/colum...39027.html

ZEN의 부동 소수점 / SIMD 파이프는 4 명령 병렬 구성

 

AMD는 ZEN 마이크로 아키텍처의 부동 소수점 / SIMD 파이프 라인도 완전히 다시 설계했습니다. ZEN 부동 소수점 / SIMD (Single Instruction, Multiple Data) 연산 유닛은 128-bit 폭 SIMD 곱셈 & 제곱 연산 유닛 (MUL / FMAD)와 128-bit SIMD의 덧셈 유닛 (ADD)의 조합이 2 세트니 총 4 파이프가 됩니다. 총 128비트의 곱셈/제곱 연산 유닛이 2+2개니 4스테이지/사이클 명령 발행이 가능합니다. 디스패처의 출력도 최대 4 마이크로 OP가 됩니다. 128-bit라고 해도 SIMD에서 32-bit 단정밀도일 경우이며 4-way 64-bit 배정밀도라면 2-way가 됩니다.

 

불도저 아키텍처는 부동 소수점 / SIMD 연산 유닛은 총 4개입니다. 128-bit의 제곱 연산 유닛 (FMAD)이 2 개로 128-bit의 SIMD 제곱 연산 유닛이 2 개이며 명령 발행은 4 포트였습니다. 불도저를 개량한 스팀롤러는 FP 유닛 디자인을 수정해 128-bit 제곱 연산과 SIMD 정수의 통합 파이프와 128-bit 제곱 연산 유닛, 28 -bit의 SIMD 정수 연산과 셔플의 결합 파이프가 3 파이프 구성, 3 명령 발행이었습니다.

 

1.png

 

AMD의 CPU 마이크로 아키텍처의 흐름

 

2.png

 

AMD의 ZEN 마이크로 아키텍처의 전체 이미지

 

ZEN에서는 SIMD 곱셈과 덧셈을 병렬로 실행할 수 있게 됐습니다. 따라서 곱셈과 덧셈이 공존할 경우 처리량은 이전 세대보다 높아집니다. 디자인에선 상대적으로 도입 비용이 저렴한 덧셈 유닛의 파이프를 추가했습니다. 제곱 연산은 128-bit에서 2 파이프에서 제곱 연산 시엔 덧셈은 할 수 없기에 1 사이클에 2 명령이고 제곱 연산이니까 4 운영, 32-bit 단정밀도 부동 소수점 연산이라면 128-bit SIMD 4 병렬이기에 16 운영 / 사이클입니다.

 

부동 소수점 레지스터는 불도저의 물리적 FP 레지스터가 160 레지스터 (128-bit wide)로 ZEN의 160 레지스터와 같습니다. 파일드라이버는 176 레지스터니 물리 레지스터 수는 줄어든 것이나, 실행 지연 시간과도 관련이 있으니 아직 비교할 수 없습니다.

 

3.png

 

ZEN 마이크로 아키텍처

 

 

CPU의 벡터 유닛의 사상이 서로 다른 인텔과 AMD

 

인텔의 현재 아키텍처는 256-bit의 제곱 유닛이 2개 있습니다. 따라서 제곱 연산 처리량은 인텔 쪽이 2배 높아집니다. 그러나 이것은 256-bit SIMD를 사용하는 경우로 한정됩니다. 물리 레지스터 자원은 스카이레이크가 168개고 ZEN은 160개입니다.

 

인텔과 AMD는 CPU의 짧은 벡터 연산에 대한 생각이 크게 다릅니다. 인텔은 짧은 벡터를 확장하는 데 열심입니다. SSE는 128-bit 벡터였는데 AVX는 256-bit 벡터로 확장하고 MIC (Many Integrated Core) 아키텍처 나이츠 계열 멀티 코어 CPU는 512-bit 벡터를 채택했습니다. 그리고 나이츠 명령 세트는 명령 포맷을 바꿔 AVX-512며 제온 파이 x200 (Knights Landing)를 구현했을뿐 아니라 스카이레이크 아키텍처 제온 브랜드의 서버 CPU도 이를 씁니다.

 

4.png

 

인텔과 AMD의 마이크로 아키텍처 비교

 

간단히 말하면 인텔은 x86 / x64 CPU의 SIMD 명령을 확장하여 보다 벡터 길이를 길게 유지하려 합니다. 현재 인텔 CPU의 256-bit SIMD 유닛은 512-bit 명령어 지원을 상정한 것입니다. AVX-512는 GPU와 마찬가지로 프레디케이션에 의한 플로우 컨트롤도 있습니다. 즉 인텔은 GPU와 같은 벡터 연산을 CPU의 내부에 넣으려고 합니다.

 

5.png

 

인텔의 고성능 CPU와 나이츠 랜딩

 

이에 비해 AMD는 CPU의 벡터는 128-bit 폭으로 충분하다고 생각하는 느낌이 강합니다. 32-bit 단정밀도에서 4-way까지가 CPU의 명령 스트림에서 효율적으로 처리 할 수 있는 크기며, 그 이상으로 벡터를 확장해도 효과가 충분치 않다고 생각하는 듯 합니다. 따라서 SIMD 유닛은 128-bit 너비로 고정하고 와이드 벡터 연산은 GPU 코어에서 실행하면 된다는 게 AMD의 헤테로지니어스 컴퓨팅의 발상입니다.

 

 

제곱 연산 파이프는 덧셈 파이프에서 레지스터 포트를 빌려옴

 

AMD의 공식 설명에서 ZEN의 부동 소수점 연산 파이프는 곱셈 유닛 (MUL)과 덧셈 유닛 (ADD)가 각각 2 개씩입니다. 그러나 실제로는 곱셈 파이프에 제곱 유닛이 내장됩니다. FMA 또는 FMAD라는 융합형 연산은 제곱 유닛으로 실행합니다. 곱셈 유닛과 덧셈 유닛을 함께 사용하는 방식이 아닙니다.

 

"제곱 연산 유닛은 곱셈 파이프에 포함됩니다. (곱셈 유닛과 덧셈 유닛을 함께 사용하는 것이 아님) 제곱 연산의 유닛이 있습니다."(Mike Clark, Senior Fellow, AMD)

 

따라서 원칙적으로는 제곱 연산 시에도 2 개 (곱셈과 덧셈) 파이프를 동시에 움직일 수 있습니다. 그러나 실제로는 제곱 연산과 덧셈은 동시에 이루어질 수 없습니다. 이것은 레지스터 파일의 리드 포트의 제약에 의한 것입니다.

 

6.png

 

ZEN의 부동 소수점 연산 유닛 부분

 

ZEN의 4 개의 부동 소수점 / SIMD 연산 유닛은 각각 2 개의 레지스터 리드 포트를 갖춥니다. 1 사이클에 각 스테이지에서 2 개의 소스 피연산자를 불러오는 게 가능합니다. 그러나 제곱 연산시엔 3 개의 소스 피연산자를 써야 합니다.

 

"제곱 연산에선 3개의 소스 피연사자가 필요합니다. 레지스터 파일에서 읽을 경우 리드 포트가 부족합니다. 따라서 약간의 트릭을 사용합니다. 제곱 연산시엔 덧셈 파이프에서 레지스터 파일 리드 포트를 하나 빌려옵니다. 제곱 연산시에 덧셈 유닛은 사용하지 않으니 덧셈 유닛 자체는 비어 있습니다. 그러나 덧셈 유닛은 레지스터 리드 포트가 하나밖에 남지 않습니다. 따라서 덧셈 (명령 발행)은 스케줄러가 차단합니다. "(Mike Clark, Senior Fellow, AMD)

 

즉, 연산 유닛 자체는 곱셈 & 제곱 연산 유닛 (MUL / FMAD) 및 덧셈 유닛 (ADD)이 서로 분리됐지만, 레지스터 리드 포트 수가 제한되어 있어 곱셈 연산과 덧셈은 동시에 실행할 수 없습니다. FP 레지스터 파일 전체는 128-bit의 리드 포트가 각 유닛 2 개씩 총 8 포트가 됩니다.

 

7.png

 

ZEN 부동 소수점 / SIMD 연산 유닛과 레지스터 포트의 관계

 

 

256-bit 명령은 2 개의 128-bit SIMD 마이크로 OP로 나눠 실행

 

x86 / x64 계의 AVX2 명령어는 256-bit 폭의 SIMD 연산이 있습니다. AMD도 AVX2를 지원하지만 이것은 마이크로 OP 수준으로 나눠 실행합니다.

 

"256-bit 명령은 두개로 나눠 각각 독립적으로 실행합니다. 128-bit 연산 유닛을 2 개 결합시켜 실행하지 않고 완전히 독립된 마이크로 OP가 됩니다. 이 두 가지 마이크로 OP를 아웃 오브 오더 실행할 수 있습니다. 리타이더는 함께 이루어지나 그 전까지는 독립됩니다."(Mike Clark, Senior Fellow, AMD)

 

256-bit AVX 명령 디스패치 스테이지에서 마이크로 OP 레벨로 나뉘어진 128-bit 마이크로 OP로 스케줄을 잡습니다. 마이크로 OP 분할 단계에서 2 개 또는 4 개 (피연산자에 메모리가 포함 된 경우)의 128-bit SIMD 마이크로 OP로 나뉘어집니다. 레지스터도 각각 128-bit 레지스터를 사용합니다. 명령 리타이어는 256-bit 명령으로 만들 필요가 있지만, 그 전까지는 2 개의 128-bit 연산 마이크로 OP는 의존성에 문제가 없는 한 아웃 오브 오더 실행됩니다.

 

 

예약을 체크하는 큐를 마련

 

ZEN 부동 소수점 유닛 부에서는 마이크로 OP 큐가 2 단계인 NSQ (Non-Scheduling Queue)와 스케줄러 큐 (Scheduler Queue)로 나뉩니다. 기존에는 스케줄러 큐 뿐이었으나 새로 NSQ가 추가되었습니다.

 

스케줄러 큐는 각 실행 유닛마다 마이크로 OPs을 실행할 때까지 대기하도록 스케줄링하는 큐입니다. 아웃 오브 오더 스케줄러에선 일반적이지요. 자원이 충족되면 스케줄러 큐에서 마이크로 OP 실행 유닛에 발행합니다.

 

8.png

 

ZEN 실행 엔진

 

반면 그 앞의 NSQ 단계에서는 FP 마이크로 OP를 예약할 수 없습니다. 즉 단순한 마이크로 OP 버퍼입니다. 그러나 NSQ에 FP 마이크로 OP가 대기하는 동안 정수 유닛에 발행된 다른 마이크로 OP가 실행됩니다. 상대적으로 대기 시간이 긴 로드 마이크로 OP가 실행되는 동안 FP 마이크로 OP는 NSQ에서 스케줄러 대기열로 이동합니다. 그리고 FP 마이크로 OP가 연산 파이프에 파견되는 무렵에는 피연산자의 데이터가 레지스터에 로드된다고 합니다.

 

2 단계의 큐를 도입해 ZEN에서는 스케줄링 자원을 절약할 수 있습니다. 다르게 보면 대기하는 동안 자원의 확인 등 예약 작업을 하지 않아도 로드 지연 시간을 줄일 수 있도록 마이크로 OP를 버퍼하는 형태로 바꿨습니다. 이에 따라 스케줄링 자원을 최소화하면서 대기를 효율적으로 할 수 있도록 변경했습니다. 정수와 부동 소수점 연산의 큐잉의 균형을 취하도록 조정했다고 AMD는 설명합니다.

 

ZEN 부동 소수점 / SIMD 연산 유닛 부분의 특징은 자원을 최소화하면서 높은 효율을 발휘할 수 있도록 설계되어 있다는 점입니다. 인텔 256-bit의 제곱 연산 엔진을 2 유닛 탑재해 자원을 부동 소수점 / SIMD로 나눴던 것과는 대조적입니다. GPU 코어와 헤테로지니어스 컴퓨팅을 전제로 한 AMD와, CPU 코어에 GPU와 비슷한 방식을 도입하는 인텔과의 차이가 명확합니다.



  • ?
    archwave 2017.01.17 05:54
    소프트웨어의 멀티 코어 지원이 잘 될 것으로 생각하고 만들었다는 말이 있는 불도저와 어쩐지 비슷해보이는 양상이네요. 이건 그래도 좀 납득이 가는 면이 있기라도 하죠.

    GPU 와 헤테로지니어스로 하면 되니까 CPU 의 백터 처리 길이는 작게 잡아도 된다는 발상이라니.. 헤테로지니어스를 잘 지원해주는 언어 & 툴이라도 만드는게 먼저일거 같네요.

    어찌 되었든 태생이 벡터 연산 능력이 떨어지는게 당연하다는 얘기네요. 뭐 벡터 연산 처리 능력이 필요한 것은 다 GPU 에서 처리하게 만들면 되는 문제이기도 하겠네요.

    헤테로지니어스 쓴다는 것은 현재 상태에서는 농담 수준인거고, 이것도 소프트웨어 업체들이 AMD 지원을 안 해서 그렇다는 핑계거리로 써먹히게 될려나 모르겠다.

    하여튼 ZEN 에 대한 기대치를 좀 낮추게 되는 소식임에는 틀림없군요.
  • ?
    RuBisCO 2017.01.17 09:01
    불도저와의 결정적인 차이라면 불도저 1모듈은 샌디브릿지 1 코어보다 비대했던 반면에 Zen 코어는 스카이레이크의 절반을 좀 넘는 수준에 불과한 코어 면적을 갖는 코어라는겁니다. Zen은 같은 다이면적에서 압도적인 쓰루풋을 달성하면서도 단일쓰레드 성능에서 그렇게 크게 밀리지 않는 코어를 만들어낸다는 목표를 달성했고 불도저는 아니었다는게 결정적인 차이점이죠.
  • ?
    술약한남자 2017.01.18 14:49
    저 궁금한게 있는데요.
    이러면 ZEN에서는 AVX를 쓰나 SSE를 쓰나 마찬가지라서 AVX로 인한 성능향상이 없을꺼 같은데, 제가 제대로 이해한건가요???
  • ?
    sdhm 2017.01.19 11:30
    일단 아이비브릿지까지의 성능은 나올거라는 예상은 듭니다.
    아이비브릿지의 AVX도 128비트거든요.
    128비트로 통일하는 것은 아키텍처와 설계를 최대한 복잡성을 낮춰 생산성과 설계 편이를 동시에 높인다는 장점이 있습니다.
    물론 이렇게 만들면 최적화와 성능을 어느정도 희생시켜야 하는 단점이 있지만, 위에 글에서 언급한 것처럼 무작정 확장한다고 성능향상이 기대만큼 오르지 않는다는 언급이 있습니다.
    게다가 인텔처럼 설계하면, 당장은 성능 향상에 도움이 되겠지만, 시간이 흘러 아키텍처가 확장될수록 굉장히 복잡해져서 나중에는 도저히 건드릴 수 없을 정도로 복잡해져서 생산성과 설계면에서 악영향을 오게 됩니다.
    즉, ZEN은 다시 전통적인 고성능 x86 아키텍처로 돌아가되, 생산성과 설계 용이성도 같이 가져가겠다는 의미로 해석됩니다.
    ARM 코텍스 시리즈의 방향성을 어느 정도 첨가한 방향이라고 생각됩니다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 코어 i5-10210U가 긱벤치에 등장. i7-10510U도 있음

    코어 i5-10210U는 4코어 8스레드, 클럭 2.09GHz, 6MB 캐시, 싱글코어 4133점, 멀티코어 8737점 코어 i7-10510U는 4코어 8스레드, 클럭 2.29GHz, 8MB 캐시, 싱글코어 4195점, 멀티코어 9188점 아래 스크린샷에서는 코멧레이크-U가 아니라 ...
    Date2019.06.20 소식 By낄낄 Reply9 Views6266 file
    Read More
  2. AMD 7nm 로마, 에픽의 코어 구성, 8코어부터 64코어까지

    7nm 공정으로 제조된 코드네임 로마, AMD 에픽 프로세서의 라인업입니다. 가장 하위 모델은 8코어, 상위 모델은 64코어까지 있군요. Model Cores Threads TDP EPYC 7742 64 128 225W EPYC 7702P 64 128 200W EPYC 7702 64 128 200W EPYC 7...
    Date2019.06.20 소식 By낄낄 Reply1 Views1425 file
    Read More
  3. Phison PS2251-17, 외장 SSD용 USB 3.2 Gen2 x2 컨트롤러

    외장 SSD를 위한 USB 3.2 Gen2 x2 컨트롤러인 Phison PS2251-17입니다. 대역폭 20Gbps, 2개의 낸드 채널, 16개의 CE, 3D TLC/QLC와 토글 3.0/ONFI 4.0 인터페이스 지원, 순차 액세스 1.3Gb/s, 4K 랜덤은 200K IOPS까지 가능합니다. 연말에...
    Date2019.06.20 소식 By낄낄 Reply0 Views615 file
    Read More
  4. No Image

    SK 하이닉스, 저전력 NVMe 엔터프라이즈 SSD 출시

    SK 하이닉스가 72단 TLC 3D 낸드 플래시를 사용한 저전력 NVMe 엔터프라이즈 SSD를 출시했다고 발표했습니다. 낸드 플래시, DRAM 메모리, 컨트롤러까지 모두 직접 설계/개발/생산했다고 합니다. M.2에서 4TB, U.2에서 8TB의 용량, 순차 읽...
    Date2019.06.20 소식 By낄낄 Reply0 Views925
    Read More
  5. ASUS ZenScreen MB16AMT 터치스크린 모니터

    ASUS ZenScreen MB16AMT입니다. ASUS ZenScreen MB16AHP 휴대용 모니터 https://gigglehd.com/gg/5096173 와 다른 점이라면 10점 멀티 터치 기능이 추가됐다는 거겠군요. 15.6인치 크기, 풀 HD 해상도, IPS 패널, USB-C/마이크로 HDMI 입...
    Date2019.06.20 소식 By낄낄 Reply0 Views1139 file
    Read More
  6. 올해 마지막이 되어야할 지름 고민중...입니다

        씽크패드를 살까 생각중입니다. 이것도 약간 무의미한 지름 같기도 한데, 대학강의 교육갈때 노트북이 없으면 아이패드로 해야되는데...   아이패드 혼자로는 할수있는게 그렇게 많지가 않거든요...   모델은 T490, T480s을 보고 있...
    Date2019.06.20 질문 By슈베아츠 Reply20 Views1951 file
    Read More
  7. 비카발 R5 3600 벤치마크가 올라왔습니다

               
    Date2019.06.20 소식 By탕탕치킨 Reply8 Views1641 file
    Read More
  8. No Image

    G302 처분이 곤란해졌습니다.

    국내 정발 제품이라 처음 더블클릭 증상이 있었을 때 서비스 센터를 내방해서 교환을 요청했더니 증상 재현이 안 된다며 나중에 다시 오라고 하더라구요.   그리고 AS기간이 지나버렸습니다. 제가 이래서 로지텍 싫어합니다.   여전히 더...
    Date2019.06.20 질문 Bytitle: 컴맹픔스 Reply9 Views1186
    Read More
  9. 인텔 Xe 그래픽. 7nm 공정, 2D+3D 패키징, 고성능

    인텔이 국제 슈퍼컴퓨터 컨퍼런스에서 공개한 슬라이드입니다. Xe 그래픽은 7nm 공정으로 제조되며, EMIB(2D 패키징)과 포베로스(3D 패키징)을 사용, 2021년에 출시된다고 합니다. 써놓고 보니 기존에 나온 내용의 재탕 같네요.
    Date2019.06.19 소식 By낄낄 Reply14 Views2785 file
    Read More
  10. No Image

    AMD가 다양한 나비 GPU를 출시?

    AMD의 리눅스 드라이버에서 발견된 나비 그래픽카드의 몇몇 숫자들입니다. NV_NAVI10_P_A0 = 1, NV_NAVI12_P_A0 = 10, NV_NAVI14_M_A0 = 20, NV_NAVI21_P_A0 = 40, NV_NAVI10_LITE_P_A0 = 0x80, NV_NAVI10_LITE_P_B0 = 0x81, NV_NAVI12_LI...
    Date2019.06.19 소식 By낄낄 Reply6 Views1240
    Read More
  11. No Image

    노트북에 서멀재도포할려고하는데 곰서멀이 무조건 좋은가요?

    유튜버  체X판 에서  노트북들 분해해서 서멀재도포하는 영상들 보면 곰서멀만 쓰던데...     어떤분은 곰서멀이 안좋은이슈가있어서 mx-4가 가성비도좋고 좋다고해서 mx-4를구입해놓은상태지만   곰서멀과 다른 중저가 서멀들과 성능차이...
    Date2019.06.19 질문 ByHAN3290 Reply17 Views2814
    Read More
  12. No Image

    지포스 RTX 슈퍼 시리즈의 가격

    지포스 RTX 슈퍼 시리즈의 가격입니다. RTX 2080 슈퍼는 오버클럭하지 않은 2080 Ti 수준이며, RTX 2070 슈퍼는 오버클럭하지 않은 2080, RTX 2060 슈퍼는 오버클럭하지 않은 2070이라고 합니다. 모델 GPU MSRP NVIDIA GeForce RTX 2080 T...
    Date2019.06.19 소식 By낄낄 Reply8 Views2680
    Read More
  13. NVIDIA 주가 상승, 이유는 GPU가 아닌 자율주행

    한동안 좋지 않은 모습을 보였던 NVIDIA의 주가가 꽤 올랐습니다. 월요일에 144달러였는데 152달러로 마무리됐군요. 뭔 일인가 봤더니만 GPU는 아니고, 볼보랑 자율주행 파트너쉽을 맺는다고.
    Date2019.06.19 소식 By낄낄 Reply1 Views1018 file
    Read More
  14. 라데온 RX 5700 XT 50주년 한정판은 미국/중국만 출시

    라데온 RX 5700 XT 50주년 한정판은 미국과 중국에만 출시된다고 합니다. CPU와 다르게 이건 진짜 한정적인 모델이군요. 5700 수량이 별로 안 많은건가 생각도 듭니다.
    Date2019.06.19 소식 By낄낄 Reply5 Views979 file
    Read More
  15. 커세어의 PCIe 4.0 M,2 SSD 가격

    PCIe 4.0 기반의 M.2 SSD인 커세어 MP600의 가격입니다. 1TB가 249유로(33만원), 2TB가 449유로(59만원)입니다. 커세어의 기존 플래그쉽 SSD인 MP510이 960GB 160유로, 1920GB가 320유로였습니다. 성능은 4950MB/s의 순차 읽기, 4250MB/s...
    Date2019.06.19 소식 By낄낄 Reply0 Views709 file
    Read More
목록
Board Pagination Prev 1 ... 1257 1258 1259 1260 1261 1262 1263 1264 1265 1266 ... 1935 Next
/ 1935

최근 코멘트 30개
린네
01:44
부녀자
01:42
소주
01:32
laphir
01:31
Lynen
01:24
Lynen
01:22
메이드아리스
01:16
냥뇽녕냥
01:11
냥뇽녕냥
01:11
아스트랄로피테쿠스
01:04
냥뇽녕냥
01:02
유지니1203
00:54
임시닉네임
00:49
유카
00:49
투명드래곤
00:42
슬렌네터
00:36
파란화면
00:32
급식단
00:31
copyleft
00:27
파란화면
00:20
veritas
00:19
슬렌네터
00:13
FactCore
00:06
벨드록
00:06
까마귀
00:05
마초코
00:02
아스트랄로피테쿠스
23:59
아이들링
23:34
아이들링
23:33
celinger
23:28

한미마이크로닉스
MSI 코리아
더함
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소