Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 http://pc.watch.impress.co.jp/docs/colum...39027.html

ZEN의 부동 소수점 / SIMD 파이프는 4 명령 병렬 구성

 

AMD는 ZEN 마이크로 아키텍처의 부동 소수점 / SIMD 파이프 라인도 완전히 다시 설계했습니다. ZEN 부동 소수점 / SIMD (Single Instruction, Multiple Data) 연산 유닛은 128-bit 폭 SIMD 곱셈 & 제곱 연산 유닛 (MUL / FMAD)와 128-bit SIMD의 덧셈 유닛 (ADD)의 조합이 2 세트니 총 4 파이프가 됩니다. 총 128비트의 곱셈/제곱 연산 유닛이 2+2개니 4스테이지/사이클 명령 발행이 가능합니다. 디스패처의 출력도 최대 4 마이크로 OP가 됩니다. 128-bit라고 해도 SIMD에서 32-bit 단정밀도일 경우이며 4-way 64-bit 배정밀도라면 2-way가 됩니다.

 

불도저 아키텍처는 부동 소수점 / SIMD 연산 유닛은 총 4개입니다. 128-bit의 제곱 연산 유닛 (FMAD)이 2 개로 128-bit의 SIMD 제곱 연산 유닛이 2 개이며 명령 발행은 4 포트였습니다. 불도저를 개량한 스팀롤러는 FP 유닛 디자인을 수정해 128-bit 제곱 연산과 SIMD 정수의 통합 파이프와 128-bit 제곱 연산 유닛, 28 -bit의 SIMD 정수 연산과 셔플의 결합 파이프가 3 파이프 구성, 3 명령 발행이었습니다.

 

1.png

 

AMD의 CPU 마이크로 아키텍처의 흐름

 

2.png

 

AMD의 ZEN 마이크로 아키텍처의 전체 이미지

 

ZEN에서는 SIMD 곱셈과 덧셈을 병렬로 실행할 수 있게 됐습니다. 따라서 곱셈과 덧셈이 공존할 경우 처리량은 이전 세대보다 높아집니다. 디자인에선 상대적으로 도입 비용이 저렴한 덧셈 유닛의 파이프를 추가했습니다. 제곱 연산은 128-bit에서 2 파이프에서 제곱 연산 시엔 덧셈은 할 수 없기에 1 사이클에 2 명령이고 제곱 연산이니까 4 운영, 32-bit 단정밀도 부동 소수점 연산이라면 128-bit SIMD 4 병렬이기에 16 운영 / 사이클입니다.

 

부동 소수점 레지스터는 불도저의 물리적 FP 레지스터가 160 레지스터 (128-bit wide)로 ZEN의 160 레지스터와 같습니다. 파일드라이버는 176 레지스터니 물리 레지스터 수는 줄어든 것이나, 실행 지연 시간과도 관련이 있으니 아직 비교할 수 없습니다.

 

3.png

 

ZEN 마이크로 아키텍처

 

 

CPU의 벡터 유닛의 사상이 서로 다른 인텔과 AMD

 

인텔의 현재 아키텍처는 256-bit의 제곱 유닛이 2개 있습니다. 따라서 제곱 연산 처리량은 인텔 쪽이 2배 높아집니다. 그러나 이것은 256-bit SIMD를 사용하는 경우로 한정됩니다. 물리 레지스터 자원은 스카이레이크가 168개고 ZEN은 160개입니다.

 

인텔과 AMD는 CPU의 짧은 벡터 연산에 대한 생각이 크게 다릅니다. 인텔은 짧은 벡터를 확장하는 데 열심입니다. SSE는 128-bit 벡터였는데 AVX는 256-bit 벡터로 확장하고 MIC (Many Integrated Core) 아키텍처 나이츠 계열 멀티 코어 CPU는 512-bit 벡터를 채택했습니다. 그리고 나이츠 명령 세트는 명령 포맷을 바꿔 AVX-512며 제온 파이 x200 (Knights Landing)를 구현했을뿐 아니라 스카이레이크 아키텍처 제온 브랜드의 서버 CPU도 이를 씁니다.

 

4.png

 

인텔과 AMD의 마이크로 아키텍처 비교

 

간단히 말하면 인텔은 x86 / x64 CPU의 SIMD 명령을 확장하여 보다 벡터 길이를 길게 유지하려 합니다. 현재 인텔 CPU의 256-bit SIMD 유닛은 512-bit 명령어 지원을 상정한 것입니다. AVX-512는 GPU와 마찬가지로 프레디케이션에 의한 플로우 컨트롤도 있습니다. 즉 인텔은 GPU와 같은 벡터 연산을 CPU의 내부에 넣으려고 합니다.

 

5.png

 

인텔의 고성능 CPU와 나이츠 랜딩

 

이에 비해 AMD는 CPU의 벡터는 128-bit 폭으로 충분하다고 생각하는 느낌이 강합니다. 32-bit 단정밀도에서 4-way까지가 CPU의 명령 스트림에서 효율적으로 처리 할 수 있는 크기며, 그 이상으로 벡터를 확장해도 효과가 충분치 않다고 생각하는 듯 합니다. 따라서 SIMD 유닛은 128-bit 너비로 고정하고 와이드 벡터 연산은 GPU 코어에서 실행하면 된다는 게 AMD의 헤테로지니어스 컴퓨팅의 발상입니다.

 

 

제곱 연산 파이프는 덧셈 파이프에서 레지스터 포트를 빌려옴

 

AMD의 공식 설명에서 ZEN의 부동 소수점 연산 파이프는 곱셈 유닛 (MUL)과 덧셈 유닛 (ADD)가 각각 2 개씩입니다. 그러나 실제로는 곱셈 파이프에 제곱 유닛이 내장됩니다. FMA 또는 FMAD라는 융합형 연산은 제곱 유닛으로 실행합니다. 곱셈 유닛과 덧셈 유닛을 함께 사용하는 방식이 아닙니다.

 

"제곱 연산 유닛은 곱셈 파이프에 포함됩니다. (곱셈 유닛과 덧셈 유닛을 함께 사용하는 것이 아님) 제곱 연산의 유닛이 있습니다."(Mike Clark, Senior Fellow, AMD)

 

따라서 원칙적으로는 제곱 연산 시에도 2 개 (곱셈과 덧셈) 파이프를 동시에 움직일 수 있습니다. 그러나 실제로는 제곱 연산과 덧셈은 동시에 이루어질 수 없습니다. 이것은 레지스터 파일의 리드 포트의 제약에 의한 것입니다.

 

6.png

 

ZEN의 부동 소수점 연산 유닛 부분

 

ZEN의 4 개의 부동 소수점 / SIMD 연산 유닛은 각각 2 개의 레지스터 리드 포트를 갖춥니다. 1 사이클에 각 스테이지에서 2 개의 소스 피연산자를 불러오는 게 가능합니다. 그러나 제곱 연산시엔 3 개의 소스 피연산자를 써야 합니다.

 

"제곱 연산에선 3개의 소스 피연사자가 필요합니다. 레지스터 파일에서 읽을 경우 리드 포트가 부족합니다. 따라서 약간의 트릭을 사용합니다. 제곱 연산시엔 덧셈 파이프에서 레지스터 파일 리드 포트를 하나 빌려옵니다. 제곱 연산시에 덧셈 유닛은 사용하지 않으니 덧셈 유닛 자체는 비어 있습니다. 그러나 덧셈 유닛은 레지스터 리드 포트가 하나밖에 남지 않습니다. 따라서 덧셈 (명령 발행)은 스케줄러가 차단합니다. "(Mike Clark, Senior Fellow, AMD)

 

즉, 연산 유닛 자체는 곱셈 & 제곱 연산 유닛 (MUL / FMAD) 및 덧셈 유닛 (ADD)이 서로 분리됐지만, 레지스터 리드 포트 수가 제한되어 있어 곱셈 연산과 덧셈은 동시에 실행할 수 없습니다. FP 레지스터 파일 전체는 128-bit의 리드 포트가 각 유닛 2 개씩 총 8 포트가 됩니다.

 

7.png

 

ZEN 부동 소수점 / SIMD 연산 유닛과 레지스터 포트의 관계

 

 

256-bit 명령은 2 개의 128-bit SIMD 마이크로 OP로 나눠 실행

 

x86 / x64 계의 AVX2 명령어는 256-bit 폭의 SIMD 연산이 있습니다. AMD도 AVX2를 지원하지만 이것은 마이크로 OP 수준으로 나눠 실행합니다.

 

"256-bit 명령은 두개로 나눠 각각 독립적으로 실행합니다. 128-bit 연산 유닛을 2 개 결합시켜 실행하지 않고 완전히 독립된 마이크로 OP가 됩니다. 이 두 가지 마이크로 OP를 아웃 오브 오더 실행할 수 있습니다. 리타이더는 함께 이루어지나 그 전까지는 독립됩니다."(Mike Clark, Senior Fellow, AMD)

 

256-bit AVX 명령 디스패치 스테이지에서 마이크로 OP 레벨로 나뉘어진 128-bit 마이크로 OP로 스케줄을 잡습니다. 마이크로 OP 분할 단계에서 2 개 또는 4 개 (피연산자에 메모리가 포함 된 경우)의 128-bit SIMD 마이크로 OP로 나뉘어집니다. 레지스터도 각각 128-bit 레지스터를 사용합니다. 명령 리타이어는 256-bit 명령으로 만들 필요가 있지만, 그 전까지는 2 개의 128-bit 연산 마이크로 OP는 의존성에 문제가 없는 한 아웃 오브 오더 실행됩니다.

 

 

예약을 체크하는 큐를 마련

 

ZEN 부동 소수점 유닛 부에서는 마이크로 OP 큐가 2 단계인 NSQ (Non-Scheduling Queue)와 스케줄러 큐 (Scheduler Queue)로 나뉩니다. 기존에는 스케줄러 큐 뿐이었으나 새로 NSQ가 추가되었습니다.

 

스케줄러 큐는 각 실행 유닛마다 마이크로 OPs을 실행할 때까지 대기하도록 스케줄링하는 큐입니다. 아웃 오브 오더 스케줄러에선 일반적이지요. 자원이 충족되면 스케줄러 큐에서 마이크로 OP 실행 유닛에 발행합니다.

 

8.png

 

ZEN 실행 엔진

 

반면 그 앞의 NSQ 단계에서는 FP 마이크로 OP를 예약할 수 없습니다. 즉 단순한 마이크로 OP 버퍼입니다. 그러나 NSQ에 FP 마이크로 OP가 대기하는 동안 정수 유닛에 발행된 다른 마이크로 OP가 실행됩니다. 상대적으로 대기 시간이 긴 로드 마이크로 OP가 실행되는 동안 FP 마이크로 OP는 NSQ에서 스케줄러 대기열로 이동합니다. 그리고 FP 마이크로 OP가 연산 파이프에 파견되는 무렵에는 피연산자의 데이터가 레지스터에 로드된다고 합니다.

 

2 단계의 큐를 도입해 ZEN에서는 스케줄링 자원을 절약할 수 있습니다. 다르게 보면 대기하는 동안 자원의 확인 등 예약 작업을 하지 않아도 로드 지연 시간을 줄일 수 있도록 마이크로 OP를 버퍼하는 형태로 바꿨습니다. 이에 따라 스케줄링 자원을 최소화하면서 대기를 효율적으로 할 수 있도록 변경했습니다. 정수와 부동 소수점 연산의 큐잉의 균형을 취하도록 조정했다고 AMD는 설명합니다.

 

ZEN 부동 소수점 / SIMD 연산 유닛 부분의 특징은 자원을 최소화하면서 높은 효율을 발휘할 수 있도록 설계되어 있다는 점입니다. 인텔 256-bit의 제곱 연산 엔진을 2 유닛 탑재해 자원을 부동 소수점 / SIMD로 나눴던 것과는 대조적입니다. GPU 코어와 헤테로지니어스 컴퓨팅을 전제로 한 AMD와, CPU 코어에 GPU와 비슷한 방식을 도입하는 인텔과의 차이가 명확합니다.



  • ?
    archwave 2017.01.17 05:54
    소프트웨어의 멀티 코어 지원이 잘 될 것으로 생각하고 만들었다는 말이 있는 불도저와 어쩐지 비슷해보이는 양상이네요. 이건 그래도 좀 납득이 가는 면이 있기라도 하죠.

    GPU 와 헤테로지니어스로 하면 되니까 CPU 의 백터 처리 길이는 작게 잡아도 된다는 발상이라니.. 헤테로지니어스를 잘 지원해주는 언어 & 툴이라도 만드는게 먼저일거 같네요.

    어찌 되었든 태생이 벡터 연산 능력이 떨어지는게 당연하다는 얘기네요. 뭐 벡터 연산 처리 능력이 필요한 것은 다 GPU 에서 처리하게 만들면 되는 문제이기도 하겠네요.

    헤테로지니어스 쓴다는 것은 현재 상태에서는 농담 수준인거고, 이것도 소프트웨어 업체들이 AMD 지원을 안 해서 그렇다는 핑계거리로 써먹히게 될려나 모르겠다.

    하여튼 ZEN 에 대한 기대치를 좀 낮추게 되는 소식임에는 틀림없군요.
  • ?
    RuBisCO 2017.01.17 09:01
    불도저와의 결정적인 차이라면 불도저 1모듈은 샌디브릿지 1 코어보다 비대했던 반면에 Zen 코어는 스카이레이크의 절반을 좀 넘는 수준에 불과한 코어 면적을 갖는 코어라는겁니다. Zen은 같은 다이면적에서 압도적인 쓰루풋을 달성하면서도 단일쓰레드 성능에서 그렇게 크게 밀리지 않는 코어를 만들어낸다는 목표를 달성했고 불도저는 아니었다는게 결정적인 차이점이죠.
  • ?
    술약한남자 2017.01.18 14:49
    저 궁금한게 있는데요.
    이러면 ZEN에서는 AVX를 쓰나 SSE를 쓰나 마찬가지라서 AVX로 인한 성능향상이 없을꺼 같은데, 제가 제대로 이해한건가요???
  • ?
    sdhm 2017.01.19 11:30
    일단 아이비브릿지까지의 성능은 나올거라는 예상은 듭니다.
    아이비브릿지의 AVX도 128비트거든요.
    128비트로 통일하는 것은 아키텍처와 설계를 최대한 복잡성을 낮춰 생산성과 설계 편이를 동시에 높인다는 장점이 있습니다.
    물론 이렇게 만들면 최적화와 성능을 어느정도 희생시켜야 하는 단점이 있지만, 위에 글에서 언급한 것처럼 무작정 확장한다고 성능향상이 기대만큼 오르지 않는다는 언급이 있습니다.
    게다가 인텔처럼 설계하면, 당장은 성능 향상에 도움이 되겠지만, 시간이 흘러 아키텍처가 확장될수록 굉장히 복잡해져서 나중에는 도저히 건드릴 수 없을 정도로 복잡해져서 생산성과 설계면에서 악영향을 오게 됩니다.
    즉, ZEN은 다시 전통적인 고성능 x86 아키텍처로 돌아가되, 생산성과 설계 용이성도 같이 가져가겠다는 의미로 해석됩니다.
    ARM 코텍스 시리즈의 방향성을 어느 정도 첨가한 방향이라고 생각됩니다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    마이크론이나 웨스턴 디지털이 키옥시아를 인수?

    마이크론이나 웨스턴 디지털이 키옥시아를 인수하기 위해 경쟁 중이라는 보도입니다. 키옥시아는 작년 가을에 기업 공개를 계획했으나 코로나 때문에 무산됐습니다. 당시에 160억 달러 규모를 예상하고 있었죠. 현재 키옥시아는 베인 캐피...
    Date2021.04.02 소식 By낄낄 Reply0 Views588
    Read More
  2. No Image

    TSMC, 앞으로 3년 동안 팹과 연구 개발에 1천억 달러를 투자

    TSMC가 앞으로 3년 동안 반도체 칩 생산과 연구 개발에 1000억 달러를 투자한다고 밝혔습니다. TSMC는 올해 초에 자본 지출 예산을 2020년 172억 달러에서 45~62% 늘린 250~280억 달러로 키운다고 발표한 바 있습니다. 또 작년에는 전체 ...
    Date2021.04.02 소식 By낄낄 Reply1 Views662
    Read More
  3. 써멀라이트 AXP90-X47 LP타입 쿨러

    써멀라이트 AXP90-X47 LP타입 쿨러입니다. 높이 47mm, LGA 115x/1200 소켓 지원. 0.3mm 두께의 핀을 1.6mm의 간격으로 배치, 니켈 도금 C1100 구리 베이스, 6mm 히트파이프 4개, 쿨링팬은 두께 15mm의 92mm 구경 팬인 TL-9015, 회전 속도 ...
    Date2021.04.02 소식 By낄낄 Reply6 Views1223 file
    Read More
  4. 지포스 RTX 3050 시리즈 노트북 GPU의 스펙과 성능

    지포스 RTX 3050 시리즈 노트북 GPU의 스펙과 성능입니다. 스펙은 표를 보시면 되고, 성능은 3050 Ti가 지포스 RTX 2060 수준입니다. NVIDIA GeForce RTX 3050 Mobile Series GeForce RTX 3050 Laptop GPU GeForce RTX 3050 Ti Laptop GPU...
    Date2021.04.02 소식 By낄낄 Reply0 Views1719 file
    Read More
  5. 라이젠 5000G, 코드네임 세잔의 라인업

    라이젠 5000G 시리즈의 라인업입니다. 코드네임 세잔으로 르누아르의 리프레시 모델에 해당됩니다. 르누아르보다 클럭이 200Mhz씩 올랐네요. 그래픽 코어나 그래픽 클럭이 어떻게 바뀌었을지는 아직 모릅니다.
    Date2021.04.02 소식 By낄낄 Reply5 Views1069 file
    Read More
  6. 기가바이트 어로스 43인치 4K 144Hz 게이밍 모니터

    기가바이트 AORUS FV43U 4K 43 인치 144Hz 게이밍 모니터입니다. 퀀텀 닷, 10비트 패널, DCI-P3 97% 색재현율, 최대 밝기 1000니트, 디스플레이HDR 1000, 1ms MPRT, 가격은 1500달러 선.
    Date2021.04.02 소식 By낄낄 Reply0 Views533 file
    Read More
  7. ASUS 게임용 랜선

    ASUS ROG CAT7 케이블입니다. Cat7을 지원하는 랜선인데, ASUS ROG 브랜드니까 이것도 게이밍 디바이스겠군요. 전송 대역폭 600MHz, 전송 속도 10Gbps, 나일론 직조 재질, 길이 1.5m. 이게 무슨 효과가 있는지는 잘 모르겠지만 가격이 터...
    Date2021.04.02 소식 By낄낄 Reply24 Views4172 file
    Read More
  8. No Image

    인텔, 공정 이름을 변경?

    인텔은 10nm 공정의 개발에 실패하고 몇 년 동안 연기를 거듭했습니다. 이제야 10nm를 출시하기 시작했지만 경쟁 상대인 TSMC는 5nm까지 양산에 성공했으며 이제 4nm를 개발 중이죠. 앞으로는 더 심합니다. TSMC가 3nm+로 전환하는 2023년...
    Date2021.04.02 소식 By낄낄 Reply5 Views901
    Read More
  9. T-FORCE, 로켓레이크 용 XTREEM DDR4 5066/5333/5600MHz 메모리

    T-FORCE가 인텔 로켓레이크를 위한 XTREEM DDR4 5066/5333/5600MHz 메모리를 발표했습니다. 모두 8GB 2개 키트입니다. 아래는 애즈락, ASUS, MSI, 기가바이트 메인보드에서 테스트한 스크린샷입니다.
    Date2021.04.02 소식 By낄낄 Reply2 Views284 file
    Read More
  10. 지포스 RTX 3070 16GB 개조 버전의 테스트

    지포스 RTX 3070 16GB 개조 버전의 테스트입니다. 8GB 모델은 와치독 리전의 레이트레이싱 옵션에서 가끔식 멈추지만 16GB에서는 그런 일이 발생하지 않습니다. 다만 사이버펑크에서는 거의 비슷한 성능이 나옵니다.
    Date2021.04.02 소식 By낄낄 Reply2 Views540 file
    Read More
  11. 중국 Yeston의 커스텀 라데온 RX 6700 XT

    중국 Yeston의 커스텀 라데온 RX 6700 XT입니다. 이번에도 애니메이션 풍의 그림을 그려 넣었습니다. 클럭 2424/2581Mhz로 레퍼런스대로 작동하며, 2.5슬롯의 트리플 팬 LED 쿨러, 6+8핀 보조전원입니다.
    Date2021.04.02 소식 By낄낄 Reply2 Views547 file
    Read More
  12. No Image

    반도체 대란 속 대만 TSMC 공장 화재…"재가동 시일 걸릴듯"

    이 대란중에 TSMC 공장에서 화재가 발생했다고 합니다. 일단 연구동이라고는 하네요.  자세한 내용은 링크를 확인 하세요.. ㅠㅠ
    Date2021.04.01 소식 By준0111 Reply11 Views1545
    Read More
  13. 공유기 아래에 스위치 허브가 있을 때 말입니다

          안녕하세요. 요즘 내부 네트워크가 불안정한 것 같아서 기글에 좀 여쭙고자 합니다.   4포트 기가비트 공유기가 포트가 부족하여 아래에 8포트 기가비트 스위칭허브 붙여서 확장해둔 상황입니다. 다만 물려있는 건 많다지만 동시 동...
    Date2021.04.01 질문 By디렉터즈컷 Reply34 Views4072 file
    Read More
  14. No Image

    TSMC N7(HD)의 트랜지스터 밀도가 어떻게 될까요?

    세미위키를 비롯한 일부 매체들은 96.5MTr/mm2를 밀고 있는데,   위키칩 등의 다른 매체들은 91MTr/mm2를 밀고 있으니 어느 쪽이 확실한지 모르겠네요.     일단 국내 커뮤니티에서는 전자 쪽을 미는 분들이 많은 거 같은데 하필 며칠 전 ...
    Date2021.04.01 일반 By류오동 Reply0 Views701
    Read More
  15. No Image

    NVIDIA, 윈도우 가상 머신에서 지포스 GPU 패스 스루 지원

    NVIDIA는 지포스 GPU에서 윈도우 가상 머신의 GPU 패스 스루를 지원한다고 발표했습니다. 아직은 베타 버전입니다. 리눅스 호스트 PC에서 윈도우 가상 머신을 실행할 경우, 가상 머신이 지포스 그래픽카드를 독점적으로 사용할 수 있습니...
    Date2021.03.31 소식 By낄낄 Reply19 Views2812
    Read More
목록
Board Pagination Prev 1 ... 770 771 772 773 774 775 776 777 778 779 ... 1938 Next
/ 1938

AMD
더함
한미마이크로닉스
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소