Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...92534.html

부동 소수점/SIMD, 로드/스토어를 확장

 

1.png

 

젠 2 마이크로 아키텍처
 

AMD는 젠 2에서 젠 마이크로 아키텍처를 대폭 수정했습니다. 명령을 실행하는 백엔드 부분에서 중요한 포인트는 두 가지입니다. 하나는 부동 소수점과 SIMD (Single Instruction, Multiple Data) 연산 파이프를 256-bit로 확장해 확장 부동 소수점 연산 처리량을 2배로 늘린 것입니다. 다른 하나는 메모리 액세스의 로드/스토어 파이프를 2개에서 3개로 확장해 로드/스토어의 효율을 최대화했습니다. 로드/스토어의 확장은 실질적으로 SIMD 파이프 확장이라고 봐도 되니, 백엔드의 확장은 SIMD 연산 처리량을 개선하기 위해서라고 봐도 되겠습니다. 

 

AMD는 정수 코어 대비 연산 파이프 수를 4개(그 이상으로 늘려도 의미가 크지 않음)로 하고, 아웃 오브 오더의 명령 윈도우는 192개에서 224개로, 물리 정수 레지스터는 168개에서 180개 로 확장했습니다. 젠 2는 SMT(Simultaneous Multithreading)니까 1스레드 당 명령 윈도우가 112개, 레지스터가 90가라는 계산이 나옵니다. SIMD와 로드/스토어를 확장한 대신 정수 연산의 아웃 오브 오더 명령어 처리 자원은 확장하지 않았습니다.

 

2.png

 

젠 2 마이크로 아키텍처의 확장 부분

 

인텔의 아웃 오브 오더 윈도우는 10nm 공정의 서니 코브에서 352개까지 늘렸습니다. 인텔이 지나치게 많이 늘렸다는 견해도 있지요. 젠 2의 아웃 오브 오더 수준은 인텔 스카이레이크 정도입니다. 스카이레이크의 명령 윈도우는 224개, 정수 레지스터는 180개로 젠2와 일치합니다. AMD는 프론트 엔드를 확장해 실행 엔진의 명령 피드를 늘려, 더 많은 명령을 실행 엔진에 보냅니다. 지금의 백엔드 구성은 명령 피드에 맞는 구성이라고 보는 듯 합니다. 어쨌건 정수 연산 리소스의 확장은 인텔처럼 많이 하진 않았습니다.

 

3.png

 

인텔 서니 코브 아키텍처

 

4.png

 

인텔의 리소스 확장

 

5.png

 

젠2와 젠의 프론트엔드 비교

 


아웃 오브 오더 윈도우는 스카이레이크보다 많음

 

젠 2의 아웃 오브 오더 부분을 보면 리타이어 큐(Retire Queue)는 224개로, 최대 224개의 내부 명령을 아웃 오브 오더 실행을 통해 내부에서 제어할 수 있습니다. 이게 클수록 더 많은 명령을 아웃 오브 오더로 실행해 클럭 당 성능을 높일 수 있습니다. 1세대 젠의 리타이어 큐는 192니까 리소스가 17% 늘어난 셈입니다. 젠은 SMT 아키텍처니까 2개의 스레드를 동시 실행하면 리타이어 큐는 각각 96/스레드가 됩니다.

 

리타이어 큐의 확장도 IPC 향상에 기여하지만, AMD는 리소스의 확장을 억제해 그 임팩트는 크지 않습니다. 인텔이 새로운 세대마다 인 오더 리소스를 크게 확장하는 것에 비하면 원만한 편입니다. 앞서 말한대로 젠2와 경쟁할 서니 코브 코어는 리 오더 버퍼가 352개로 젠2의 1.57배입니다. 

 

6.png

 

젠2와 젠의 백엔드 부분 비교


리타이어 큐에서 내부 명령은 리타이어 컨트롤 유닛(Retire Control Unit : RCU)에 맡겨진 아웃 오브 오더 부분에서 처리합니다. 여기서 헷갈리는 부분은 AMD가 프리젠테이션 슬라이드에 사이클마다 8개의 Micro-OP를 리타이어 처리한다고 쓴 반면, 젠 소프트웨어 최적화 가이드에선 8개의 Macro-OP를 리타이어 처리한다고 썼다는 점입니다. 최적화 가이드는 불도저 세대의 이름을 일부 혼용해 작성했는데, Macro-OP는 다수의 Micro-OP를 포함한 복합 명령입니다. 젠 2 슬라이드에서 복합형 명령은 Instruction이라고 표기합니다. 

 

원래 AMD 아키텍처는 레지스터 리네이밍이 정수 코어와 부동소수점/SIMD 코어로 분리돼 배치되고, 그 아래에 스케줄링 큐가 배치되는 복잡한 구조였습니다. 같은 x86/x64라 해도 인텔 CPU는 디코딩한 명령을 통합 스케줄러 Micro-OP로 분해해 리네이밍 물리 레지스터에 할당하고 아웃 오브 오더 큐에 파견합니다.

 

그러나 AMD는 디코더와 스케줄러 사이에서 배치를 수행합니다. AMD는 전통적으로 정수 코어와 FP/SIMD 코어로 CPU 내부를 나눴기에, 스케줄러도 2개의 코어마다 따로 진행했습니다. 코프로세서를 두는 듯한 방식이지요. 정수 파이프와 FP 파이프의 일관성은 두 코어 사이에 공유되는 리타이어 컨트롤 장치가 제어합니다. 

 

이 구성을 위해 AMD 아키텍처는 디스패치 단계에서 Micro-OPs로 분해가 필요합니다. 예를 들어 메모리 피연산자를 가진 FP 계열 명령은 FP 연산 Micro-OP와 로드 Micro-OP로 나눠, 각각 FP 코어와 정수 코어로 분리해 발송해야 합니다. 리타이어 유닛은 명령을 정리해 합쳐야 합니다. 분해된 Micro-OP 실행이 끝나면 복합형 명령으로 정리해서 리타이어 처리합니다. AMD는 디스패치 단계에서 Micro-OPs로 분리하지만, 같은 복합 명령에 속하는 Micro-OP로 묶어 트래킹합니다.

 

 

기본 구조는 그대로인 정수 코어


내부 명령 디스패처에서 정수 코어의 Micro-OPs 디스패치는 1 사이클마다 최대 6 Micro-OPs, FP 유닛은 1사이클마다 최대 4 Micro-OPs를 처리합니다. 이건 젠과 같지요. 내부 명령어 캐시인 OP 캐시의 판독은 1 사이클마다 최대 8개의 명령어니까 디스패치 대역이 상대적으로 좁아 보이지만, 파이프 라인을 이렇게 윗단계는 넓고 아래 단계는 좁게 할당하는 건 일방적인 방법입니다. 실제로 디스패치에 큐를 채우려면 많은 명령어를 가져올 필요가 있습니다. 

 

레지스터 리네이밍 유닛은 정수 코어와 FP 유닛이 각각 분리됐습니다. 물리적 레지스터가 다르기에 이렇게 하는 게 효율이 좋다고 AMD는 봅니다. 레지스터 리네이밍 레지스터의 충돌을 피하기 위해 각각의 Micro-OPs 레지스터의 이름을 바꿔서 물리 레지스터에 전달합니다. 명령과 명령 사이에서 같은 레지스터를 사용하며 충돌이 생기지 않도록 레지스터 리네이밍을 합니다.

 

따라서 물리적 레지스터 공간은 젠이 168개에 젠 2는 180개로 확장돼, 아웃 오브 오더에 여유가 생겼습니다. 스카이레이크와 같은 180개입니다.

 

7.png

 

젠2와 젠의 실행 코어 비교

 

8.png

 

젠 2의 정수 코어

 

FP 유닛의 물리 레지스터 수는 160개로 젠과 같지만, 사실 레지스터의 양은 2배가 됐습니다. 레지스터 스페이스도 커져 더 많은 SIMD 명령어를 실행할 수 있습니다. 앞서 말한대로 정수 코어 실행 파이프는 로드/스토어가 3개로 확장됐습니다. FP 유닛의 실행 파이프는 4개 그대로지만 각각의 유닛은 128비트에서 256비트로 확장됐습니다.

 

 

명령 스케줄러 구성도 변경
 

정수 코어는 스케줄러 큐의 구성이 바뀌었습니다. 젠 2는 정수 연산 스케줄러가 각각의 명령 포트 당 하나의 큐(ALQ : ALU Queue)를, 각각의 큐는 16개의 항목을 갖습니다. 즉 4개의 정수 연산 명령 포트마다 16개의 명령을 대기시킵니다. 큐에서 대기하는 명령은 자원이 활성화될 때마다 순차적으로 실행됩니다.

 

정수 연산은 명령 포트마다 다른 큐를 갖지만, 로드/스토어는 통합 큐(AGQ : Address Generator Queue)를 씁니다. 28개의 항목에서 AGQ가 3개의 로드/스토어 명령 포트에 명령을 발행합니다. 1세대 젠은 로드/스토어의 포트 2개에 각각 14개의 큐가 있었습니다. 1포트당 갖는 큐는 줄었으나, 로드/스토어는 명령 발행 큐가 더 중요합니다.

 

9.png

 

젠2와 젠, 불도저의 정수 코어 비교

 

10.png

 

젠 2의 정수 코어

 

젠 2는 로드/스토어 파이프가 늘어나면서 스케줄러의 명령 발행 포트가 7개가 됐습니다. 최대 7개의 Micro-OPs를 실행 유닛에 발행(이슈)할 수 있습니다. 젠은 로드/스토어가 1개 적은 6포트입니다.

 

불도저 아키텍처에선 정수 코어의 연산 파이프가 2개, 로드/스토어 파이프가 2개였고, 물리 레지스터는 112개, 스케줄러 큐는 48개였습니다. 불도저의 정수 연산 성능이 상당 부분 억제됐음을 알 수 있습니다. 젠은 SMT를 통해 2스레드를 실행하면서 리소스를 공유하지만, 멀티스레딩을 동적으로 제어하기에 불도저보다 IPC가 더 높습니다. 젠2에서 리소스가 늘어나며 SMT의 여유분도 늘었습니다. 

 

11.png

 

젠 2와 젠의 로드/스토어 파이프 비교 


TAG •

  • ?
    마라톤 2019.07.04 07:26
    좋은 정보 감사합니다. ^_^
  • ?
    테브리오 2019.07.04 09:52
    기능들을 확장해서 성능이 올라갔군요.
    엠바고 이후에 게임벤치들이 궁금해집니다.
  • profile
    TundraMC      자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2019.07.04 11:29
    WA!

    머...이정도만(?) 해도 개인적으로는 만족스럽네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    수냉 라디에이터용이나 팬 나사 헤드 납작한거 구매 팁

    링크 제품 구매하시면 볼록튀어나온 나사대신 납작해서 먼지필터를 붙여도 깔끔하고 이래저래 이득이 많습니다 이나사를 파는곳이 별로없더라구요 필요하신분 있다면 좋겠네요 
    Date2019.02.05 분석 ByDewiAngel Reply3 Views1316
    Read More
  2. 7nm 이후의 양산 용 EUV 노광 기술

    첨단 로직 반도체의 양산을 위한 EUV(Extreme Ultra-Violet) 노광 기술이 발전 중입니다. 7nm 노드에서 올해 양산을 시작, 2~3년 간격으로 차세대 노드로 진화합니다. 5nm 양산은 2021년, 3nm 양산이 2023년이 됩니다. 2nm는 빨라야 2026...
    Date2019.02.05 분석 By낄낄 Reply1 Views4747 file
    Read More
  3. 파워서플라이 콘덴서 교체 시 참고할 점

    안녕하세요.   파워서플라이의 출력 콘덴서를 교체가 필요할 때 조금 더 사양이 좋은 콘덴서를 구매하게 됩니다.   정말 효과가 있는지 시험해 보았습니다.   비교제품   1. 삼영 NXH 35V 330uF (10*12)    - ripple current : 1.33A    -...
    Date2019.02.01 분석 By아카자아카리 Reply20 Views6835 file
    Read More
  4. AMD 부르도쟈의 '코어' 마케팅에 대해서 간단히 이야기하자면

    스스로도 그렇게 생각하지 않는 이야기를 소비자한테 지껄이는 기만이었습니다.   https://patents.google.com/patent/US20080209173 https://patents.google.com/patent/US20080263373   부르도쟈가 출시되기 이전에 출원된 AMD의 특허문...
    Date2019.01.23 분석 ByRuBisCO Reply11 Views1657 file
    Read More
  5. 2019년 기술 동향 2: 인텔/글로벌 파운드리

    인텔: 드디어 10nm? (이 글은 CES 2019의 인텔 발표 전에 쓰여진 것이기에, 이번에 새로 추가된 로드맵에 대해서는 언급하지 않습니다. 다만 2018년까지의 인텔 상황을 정리하고, 인텔이 아직 발표하지 않은 내용들을 지적했다는 점에서 ...
    Date2019.01.15 분석 By낄낄 Reply1 Views3574 file
    Read More
  6. 2019년 기술 동향 1: TSMC/삼성

    TSMC: PC 업계에서도 존재감이 늘어난 세계 최대 파운드리 TSMC와 PC와의 관계는(이전에는 아니었으나 지금은) 의외로 크지 않습니다. NVIDIA 지포스 시리즈와 칩셋, 주변기기 정도가 전부이며, 이곳의 기본은 스마트폰 SoC입니다. 그러나...
    Date2019.01.15 분석 By낄낄 Reply6 Views5202 file
    Read More
  7. 미국 에너지부의 슈퍼컴퓨터. 매니악부터 AMD 에픽 밀라노까지

    미국 에너지 부의 슈퍼 컴퓨터 역사 미국 DOE(Department of Energy, 에너지 부)는 70년 동안 최첨단 슈퍼 컴퓨터를 사용해온 부서입니다. 아래는 슈퍼컴퓨팅 2018 전시회에서 전시된 몇 가지 제품입니다. 이 곳은 1977년에 공식적으로 설...
    Date2018.12.22 분석 By낄낄 Reply9 Views3151 file
    Read More
  8. 인텔의 차세대 CPU 마이크로 아키텍처 서니 코브

    서니 코브와 7nm 공정, 적층 기술을 발표 인텔은 차세대 CPU 마이크로 아키텍처 서니 코브(Sunny Cove)의 내용을 일부 공개했습니다. 서니 코브는 10nm 공정 CPU 코어에서 명령 발행 포트를 확장하는 큰 폭의 마이크로 아키텍처 혁신입니...
    Date2018.12.18 분석 By낄낄 Reply11 Views3877 file
    Read More
  9. 64코어 ZEN 2 CPU 로마. 왜 CPU와 I/O를 분리했을까

    Zen 2세대의 로마(Rome) 다이 AMD뿐만 아니라 인텔도 CPU와 I/O의 분리를 구상 AMD는 7nm 공정 ZEN 2세대의 CPU인 로마(Rome)에 멀티 다이 모듈 디자인을 채택했습니다. CPU를 I/O 다이와 CPU 다이로 나누고 CPU 다이를 최신 7nm 공정으...
    Date2018.12.07 분석 By낄낄 Reply6 Views6562 file
    Read More
  10. 낸드의 10배, 옵테인의 2배 속도. MRAM SSD

    MRAM SSD, 3D Xpoint(옵테인) SSD, 낸드 플래시 SSD(인텔 P3700)의 4K 랜덤 쓰기 속도 비교. MRAM(자기 저항 메모리)를 쓴 스토리지가 엄청난 속도를 과시하고 있습니다. 그것도 구체적으로요. MRAM을 쓴 SSD와 기준 플래시 메모리의 SSD...
    Date2018.11.27 분석 By낄낄 Reply14 Views5475 file
    Read More
  11. 서버와 PC의 시스템 메모리를 대체. 나노 튜브 메모리

    NRAM(나노 튜브 메모리)로 DRAM을 대체. 왼쪽은 기존 컴퓨터의 메모리 계층. 중앙은 기존 메모리 계층의 설명. 오른쪽이 DDR 타입의 NRAM으로, DRAM보다 높은 성능과 같은 수준의 다시 쓰기 수명, 더 큰 저장 용량에 낮은 가격을 소개. ...
    Date2018.11.25 분석 By낄낄 Reply5 Views3700 file
    Read More
  12. QLC 기반 초대용량 낸드 플래시의 성능 향상 기술

    낸드 플래시 메모리는 1개의 메모리 셀에 여러 비트(bit)를 기록하는 멀티 레벨 셀 기술을 씁니다. 현재 상품화된 낸드 플래시 중 가장 많은 비트를 저장하는 기술은 1개의 메모리 셀에 4비트 데이터를 기록하는 QLC(quadruple level cell...
    Date2018.11.17 분석 By낄낄 Reply12 Views3390 file
    Read More
  13. EVGA Z370 FTW 9600K@4.8GHz+램오버 후기

    아마존 직구 후 기쁜 마음으로 9600K를 꼽았으나 한국에 Z370 FTW 관련해서 글을 찾기 힘들어 작성합니다. 부족한 글이지만 참고가 되신다면 좋겠습니다.   OC와 관련된 사양은 아래와 같습니다. CPU: 인텔 i5 9600K M/B: EVGA Z370 FTW (...
    Date2018.11.11 분석 By곧미남 Reply14 Views6551 file
    Read More
  14. 애플 맥 미니(2018) 분해 사진

    애플 맥 미니(2018)의 분해 사진입니다. 인텔 코어 i3 프로세서. 쿼드코어, 6MB L3 캐시, 3.6GHz. 8GB DDR4-2666Mhz SO-DIMM 메모리 128GB SSD 인텔 UHD 그래픽 620 802.11ac WiFi, 블루투스 5.0 macOS 모하비 기존 폼팩터 그대로입니다. ...
    Date2018.11.10 분석 By낄낄 Reply12 Views15346 file
    Read More
  15. 가격을 무기로 QLC SSD가 니어 라인/클라이언트 HDD를 잠식

    주요 스토리지의 성능(세로축)과 저장 용량당 비용(가로축). TLC 방식의 3D 낸드 플래시를 내장한 SSD의 총 비용은 10K/15K 급 HDD의 절반 수준으로 떨어졌습니다. QLC 방식의 3D NAND 플래시를 내장한 SSD는 전체 비용을 더욱 줄여 니어...
    Date2018.11.08 분석 By낄낄 Reply19 Views4708 file
    Read More
  16. 로지텍 mx마스터 스위치 교체

    1년정도 회사에서 사용하던 mx마스터에서 더블클릭 현상이 일어나기 시작했습니다. 캐드, 엑셀등 업무용으로는 정말 완벽한 마우스인데 스위치 내구도가 별로인게 좀 아쉽죠. 뭐..그래서 스위치 교체를 해봤습니다.   일단 마우스를 뒤집...
    Date2018.10.27 분석 Bytitle: 명사수가네샤 Reply19 Views3870 file
    Read More
  17. 레이븐릿지 APU에서 라데온 리라이브 활성화 방법

    Radeon ReLive for AMD Raven Ridge APU 2400G 2200G    이번에 AMD 라이젠 레이븐릿지 2400G APU를 구입했는데, 그래픽카드 드라이브를 설치하니 라데온 리라이브(Radeon Relive)기능이 없는거에요. 그리고 심지어는 플루이드모션 기능도...
    Date2018.10.02 분석 By부녀자 Reply4 Views4363 file
    Read More
  18. 맥북 프로 외장그래픽 자동전환 버그...?

    어제 밤에 카페에서 공구 세트 및 노트북 리뷰글 쓰는데 완충 상태에서 단 2시간만에 베터리가 30퍼로 급감하는 이상 증세가 있었네요. 원래 6시간은 버텼는데 말입니다.   어 뭐지... 하며 활성 상태도 확인해보고 다 확인해봤는데 이상...
    Date2018.10.02 분석 By우주코어 Reply13 Views2379 file
    Read More
  19. 애플의 브랜드 파워는 왜 이렇게 강력한가?

      주의 : 스압 경보 갑니다. 참고로 말하자면, 제가 작성한 글은 대체로 깁니다. 제가 스압을 따로 말한다면 정말 길다라는 말이 됩니다. 사진 빼고 워드 30페이지가 넘는 분량입니다(....) 염두에 두고 읽어주세요.         이번 아이폰 ...
    Date2018.10.01 분석 By청염 Reply37 Views5997 file
    Read More
  20. No Image

    디스플레이 포트-DP케이블 사용시 주의점 - 20핀 존재 유/무

    —- 20180927. 내용응 수정추가 합니다. .  댓글의 추가하고 기존 내용을 정정합니다.    2의 내용을 전부 취소합니다. 제가 글 주변이 좀 모자랐네요.  20pin에 관련된 내용을 다음 덧글 복사본을 참조해주시기 바랍니다.  ***   20번 핀...
    Date2018.09.26 분석 By필립 Reply26 Views24654
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 11 Next
/ 11

최근 코멘트 30개
검은숲
19:21
cowper
19:21
Kylver
19:14
wwsun98
18:27
TundraMC
18:20
쿠클라델
18:20
CKyuJay
18:20
툴라
18:19
애플마티니
18:18
kerberos
18:15
AKG-3
18:11
야생감귤
18:09
에드화이트
18:08
강제
18:00
강제
18:00
Argenté
17:59
냥뇽녕냥
17:57
까르르
17:48
까르르
17:43
책읽는달팽
17:43
툴라
17:33
PAIMON
17:30
유입입니다
17:29
Argenté
17:29
M16
17:24
Iwish
17:21
애플마티니
17:14
TundraMC
17:13
바람돌이
16:53
벨드록
16:49

AMD
더함
MSI 코리아
한미마이크로닉스

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소