Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...92849.html

SIMD 유닛뿐만 아니라 레지스터와 데이터 포트도 2배로

 

1.png

 

젠 2 마이크로 아키텍처
 

젠 2의 연산 엔진에서 가장 향상된 건 AVX 계열 명령을 실행하는 부동 소수점(Floating Point)/SIMD (Single Instruction, Multiple Data) 파이프입니다. 젠 2는 SIMD 파이프가 젠의 128비트에서 256비트로 확장됐습니다. 32비트 단정밀도 부동소수점 연산(FP32)은 8개를 1사이클에서 동시에 처리합니다. 젠2는 FMA(Fused Multiply Add : FMAD)를 실행하는 SIMD 유닛이 2개 있어, FMA는 1사이클에 32 오퍼레이션 처리가 가능합니다.

 

AMD는 AVX2 256비트 명령을 젠에서도 지원했으나, SIMD 연산 유닛 자체는 128비트였습니다. 젠2에서 256비트 AVX-256 명령을 쓸 경우 부동소수점 연산 처리량은 2배로 늘어납니다. 하지만 512비트의 SIMD인 AVX-512는 젠 2에서 지원하지 않습니다. AVX-512은 단순히 SIMD 폭을 2배로 늘린 게 아니라 다양한 확장이 추가됐기 때문입니다.

 

2.png

 

젠 2 마이크로 아키텍처

 

젠 2는 FP/SIMD 파이프를 256비트로 늘리고, 물리 레지스터 파일도 기존의 128비트 x 160개에서 256비트 x 160개로 두 배 늘렸습니다. 레지스터 용량은 2.5KB에서 5KB가 됐습니다. 또 FP/SIMD 파이프가 확장되며 L1 데이터 캐쉬와 FP 유닛의 경로도 2개의 256비트 로드와 1개의 256비트 스토어를 병렬 처리할 수 있게 됐습니다. 기존의 젠은 2개의 128비트 로드와 1개의 128비트 스토어를 병렬로 수행할 수 있습니다. 로드/스토어의 대역은 2배가 된 셈입니다.

 

정수 코어에서 로드/스토어를 위한 주소 생성(Address Generation)을 3 파이프에 맞췄습니다. FP/SIMD도 256비트로 두 배가 되면서 레지스터와 포트도 확장됐습니다. 그러나 젠 2도 FP/SIMD 유닛의 연산 파이프는 기존대로 4 사이클마다 4개의 Micro-OPs를 발송한다는 건 변하지 않았습니다. 256비트를 파이프마다 2개씩 나눠 128비트 Micro-OPs를 발행하진 못합니다.

 

명령 스케줄러의 큐는 젠의 96개에서 젠 2는 100개로 조금 확장됐습니다. 불도저의 128비트 FMAD 파이프는 2개였습니다. 불도저는 2개의 정수 코어에 1개의 FP/SIMD 유닛을 공유하지만, 젠과 젠2는 SMT (Simultaneous Multithreading)가 있어 두 개의 스레드가 하나의 FP/SIMD를 공유하기도 합니다. 

 

3.png

 

젠 2와 젠, 불도저의 FP/SIMD 유닛 비교

 

4.png

 

젠 2의 FP/SIMD 유닛 

 


파이프마다 기능이 달라지는 젠 아키텍처의 SIMD 유닛

 

젠/젠2 아키텍처의 FP/SIMD 4 파이프는 부동 소수점(FP) FMA(Fused Multiply Add : FMAD)와 곱셈(Multiply : MUL)의 파이프가 2개, FP가 덧셈(Addition : ADD) 파이프가 2개인 구성입니다. 부동 소수점 연산이니까 FMAD, FMUL, FMAD가 됩니다. FMAD와 FMUL 파이프는 MUL라고 이름이 붙어 있지만 실제로는 FMAD 유닛도 구현됐습니다. 이건 젠 2에서도 다르지 않습니다.

 

젠 소프트웨어 최적화 가이드에선 파이프에 숫자를 붙였습니다. 첫 번째 MUL이 파이프 0, 두 번째 MUL이 파이프 1, 첫 번째 ADD가 파이프 2, 두 번째 ADD가 파이프 3입니다. 그러니까 파이프 0과 1이 MUL, 파이프 2와 3이 ADDd입니다. 1세대 젠은 각 파이프가 지원하는 기능이 다르기에 파이프 번호로 확인이 됩니다. 파이프 0은 부동 소수점 FMA와 MUL, 정수 MUL과 ADD. 파이프 1은 FP FMA와 MUL, 정수 ADD는 있으나 정수 MUL은 없고 대신 SIMD 셔플 유닛이 있습니다. 

 

AMD는 소프트웨어의 최적화를 쉽게 하기 위해 4개의 파이프에 기능을 분산하고, 젠2에도 각 파이프를 비대칭으로 구성했습니다. 아래가 젠의 FP/SIMD 파이프 유닛 구성도입니다. 

 

5.png

 

1세대 젠의 FP/SIMD 파이프 구성도 

 

6.png

 

젠 2와 젠의 실행 코어 부분 차이

 

 

3개 피연산자의 FMAD 지원 방식 


젠 계열 마이크로 아키텍처는 MUL과 ADD를 결합하고 FMAD도 기존대로 지원합니다(3개 피연산자 형식의 FMA3 만 지원). 젠의 FMAD는 FMUL 파이프와 FMAD 파이프를 연결해 쓰진 않습니다. FMAD 유닛 자체는 FMUL 파이프에서 구현합니다. 그러나 젠은 FMAD 작업 시 FMAD 파이프 3을 쓰진 못합니다. 레지스터의 읽기 포트를 2개의 FMAD 파이프가 차지하기 때문입니다.

 

FMAD는 3개의 피연산자로 구성됩니다. a * b + c니까 3개의 소스 피연산자 레지스터에서 불러옵니다. 그러나 AMD의 FP/SIMD 파이프는 일반 연산에 필요한 2 소스 읽기에 해당되는 레지스터 리드 포트만 제공합니다. 그래서 FMAD 런타임은 레지스터 읽기 패스를 ADD 파이프에서 가져옵니다. 구체적으로는 파이프 3의 2개의 레지스터 리드 패스를 파이프 0과 파이프 1 FMAD에 각각 1개씩 연결합니다. 그 결과 파이프 0과 파이프 1으로 FMAD 3 레지스터 읽기와 3개의 피연산자를 활용한 연산이 가능합니다.

 

7.png

 

젠의 SIMD 파이프와 레지스터 포트의 관계 

 

이 구성은 기본적으로 젠 2에서도 변하지 않은 것으로 보입니다. 대신 젠보다 레지스터 포트가 개선됐습니다. 아직은 넓은 벡터의 SIMD 연산 유닛은 그 자체 뿐만 아니라 배선 구현이 매우 복잡합니다. 256-bit SIMD 유닛이라면 256비트의 레지스터 리드 포트 2개, 256비트의 레지스터 라이트 포트가 하나 필요합니다. 4개의 SIMD 연산 유닛이 있으면 4배의 포트가 필요하고, 이것들이 서로 충돌하지 않도록 배선을 구현할 필요가 있습니다. 

 

젠이 이런 레지스터 포트를 나눠 쓰는 건 물리적인 레지스터 포트를 줄이기 위해서입니다. 인텔 서니 코브도 레지스터 포트를 아낀 SIMD 유닛 디자인을 쓸 가능성이 높습니다. 불도저는 4 피연산자의 FMAD 명령을 지원했으나, 젠 이후 3 피연산자의 FMAD만 지원합니다. 젠 2는 256비트로 SIMD 유닛이 확장되고 유닛 자체의 성능도 올랐습니다. 젠에서 4사이클이었던 곱셈(MUL)의 지연 시간이 젠 2에서는 3사이클이 됐습니다. 

 

8.png

 

젠 2의 FP/SIMD 유닛

 

9.png

 

젠2와 젠의 백엔드 비교

 

 

256비트로 내부 명령을 줄이고 쉽게 제어한다

 

AMD는 젠까지 AVX2 256비트 명령어를 지원했지만, 연산 유닛은 128비트였습니다. 256비트 AVX2 명령어는 2개의 SIMD 파이프를 동기화시켜 실행하지 않고, 내부 명령을 2개로 분할해 실행했습니다. 젠에서 256비트의 AVX2 명령어는 프론트 엔드에서 1개의 256비트 명령으로 변환합니다. 그러나 파견 단계에서 256비트 명령어는 2개의 128비트 연산 Micro-OP로 변환돼 실행 경로에 보냅니다. 참고로 불도저는 256비트 AVX2 명령어를 프론트 엔드에서 2개의 MacroOP로 변환(Fast-Path Double)했습니다.

 

젠 2는 내부 구성이 256비트로 바뀌며 처리량이 2배로 늘었을 뿐만 아니라 스케줄링 리소스도 절약해, 보다 효율적으로 명령을 실행하고 전력 사용량도 낮출 가능성이 생겼습니다. 젠과 젠 2 모두 AVX2 256비트를 x86/x64 명령으로 디코딩하면 1개의 명령이 되지만, 젠은 디스패치에서 128비트Micro-OPs가 됩니다. 따라서 4개의 디스패치 포트 중 2개를 1개의 AVX2 256비트 명령에 써야 합니다. 스케줄러도 2개를 차지하면 레지스터를 쓸 때에도 2세트로 맞춰야 합니다.

 

10.png

 

젠은 1개의 AVX2 256비트 명령에서 2개의 128비트 로드/스토어 Micro-OPs를 로드 큐에 넣어야 합니다. 그리고 이를 리타이어 큐까지 전부 추적해야 합니다. 하지만 젠 2는 각각 1개의 256비트 Micro-OP로 끝냅니다. 그 결과 전력과 성능에서 모두 좋은 효과를 냅니다. 1개의 리타이어 큐, 1개의 스케줄러, 1개의 로드/스토어면 끝납니다.

 


스토어 전용 어드레스 생성 유닛이 추가


젠 2는 로드/스토어 유닛 파이프가 2개에서 3개로 늘었습니다. 기존의 어드레스 생성 유닛(Address Generation Unit : AGU)은 2개였지만 새로 AGU를 할당했습니다. 기존의 2개 AGU는 로드/스토어, 새로 추가된 AGU는 스토어 전용입니다. 여기에 맞춰 스토어 큐도 44개에서 48개로 늘었습니다.

 

젠 아키텍처는 2 로드/1 스토어의 3 오퍼레이션을 1사이클에 처리했습니다. 그러나 AGPU 파이프는 2개니까 최대 로드/스토어 사이클과 일치하지 않습니다. 젠 2 아키텍처에서는 AGU 파이프와 로드/스토어의 오퍼레이션이 일치하게 됐습니다. 이런 구성은 인텔 스카이레이크와 같습니다. 인텔은 10nm 서니 코브에서 로드/스토어 AGU를 4개로 늘렸고, 내부에서 처리하는 스토어 수는 72개입니다. 

 

11.png

 

로드/스토어의 개량은 또 있습니다. 메모리에 저장된 데이터를 결합하는 WCB(Write Combine Buffer)는 여러 사이클로 나뉘어진 메모리를 하나로 통합해 전력을 줄이고 성능을 높입니다. 지금까지 AMD의 WCB는 여러 쓰기 스트림을 대응하는데 문제가 있었습니다. 젠 2는 이를 더 잘 처리하며, 데이터 L2 캐시에서 L1 캐시로 프리페치 알고리즘도 개선됐습니다. L3 프리패치는 원래 안했습니다. 

 

12.png

 

L1 데이터 캐시의 용량은 32KB를 유지합니다. Translation Lookaside Buffer(TLB)는 L1 DTLB 64개로 변함 없습니다. L2 TLB는 여전히 명령과 데이터로 나뉘어지며, L2 DTLB는 1.5K에서 2K로 늘었습니다. L2 DTLB는 대기 시간이 줄어들고 1G 페이지도 지원합니다.

 


CPU의 설계 사상을 바꾼 AMD
 

젠 2의 FP/SIMD 파이프 라인 강화는 AMD의 CPU 설계 사상이 어떻게 바뀌었는지를 보여줍니다. 'FP/SIMD 연산은 GPU 코어에 맡긴다'에서 'CPU에서도 나름대로 높은 FP/SIMD 성능을 제공한다'는 것입니다. AVX-512를 구현하는 인텔도 CPU의 FP/SIMD를 강화하진 않았으나, 어쨌건 CPU 자체의 FP/SIMD 성능을 소흘히 여기지 않습니다.

 

원래 AMD는 CPU 코어와 GPU 코어를 합친 APU(Accelerated Processing Unit)에 집중했습니다. 서버용으로도 대형 APU를 출시할 계획을 갖고 있었지요. 그래서 SIMD 연산은 APU에 내장된 GPU 코어에 맡기려는 분위였습니다. APU에 내장된 GPU 코어로 CPU 코어와 메모리 일관성을 갖고, 작은 크기의 병렬 작업도 GPU 코어에 전달한다는 게 원래 AMD의 설계 사상이었습니다. 그래서 AMD는 CPU 코어의 FP/SIMD 유닛은 크게 강화하지 않았습니다. 인텔이 256비트 SIMD 유닛을 도입한 후에도 AMD는 128비트 SIMD를 유지했습니다.

 

하지만 AMD는 젠에서 CPU를 중시하는 방향으로 전환했습니다. APU도 메인스트림 시장에 적극 출시하나, 고성능 시장에선 CPU+GPU 조합을 쓰는 방향입니다. 이는 CPU와 GPU를 모두 갖고 있는 AMD의 장점을 살려 나가겠다는 전략으로 보입니다. 


TAG •

  • ?
    마라톤 2019.07.06 10:03
    좋은 정보 감사합니다. ^_^
  • profile
    title: AI깍지 2019.07.06 16:40
    고생하셔서 번역해주신 게시물인데 외계어를 보는 느낌이에요. 저는 컴덕후가 아닌듯..

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. AMD 'Instinct(인스팅트) MI350' 서버(데이터센터) GPU, 4nm TSMC 노드에서 출시를 공식 확인

    ▶ AMD의 Instinct(인스팅트) MI350 서버(데이터센터) GPU, 4nm TSMC 노드에서 출시할 것으로 확인 - 분석 회사 : 3rd CDNA '서버(데이터센터) GPU 마이크로아키텍처의 다른 변형이 있을 것으로 주장(이전 소문에는 유사 제품이 취소됨) -...
    Date2024.04.12 소식 By블레이더영혼 Reply1 Views469 file
    Read More
  2. 엔비디아가 드디어 CPU 크래시에 대한 공식 선전포고를 했습니다.

      이제까진 그냥 유저들끼리, 그리고 일반 뉴스/웹진 선에서 다룬 문제였는데 이걸 제조사 차원에서 공식적으로 특정 제조사 결함으로 때려박으면서 공개적으로 공격을 시작한 건 아마 이번이 처음이지 싶군요.   552.12 Feedback Thread...
    Date2024.04.12 소식 By류오동 Reply20 Views3404 file
    Read More
  3. 인텔, VISION(비전) 2024 컨퍼런스 댓글 재방송중계

      ☞ 바로 시작하겠습니다. 댓글에서 뵙겠습니다.   ※ 본래, '2024년 4월 10일 00시 30분'에 시작했었으나 인텔 해당 이벤트의 사이트에서는 생중계만 방송 이후에   재방송으로 송출되는 방식으로 확인되서 부득이하게 재방송 중계로 진...
    Date2024.04.11 소식 By블레이더영혼 Reply56 Views705 file
    Read More
  4. SO-DIMM 슬롯 4개가 달린 ASUS 막시무스 XII 히어로 메인보드

    인텔 Z590 칩셋을 쓴 ASUS ROG 막시부스 XII 히어로 메인보드입니다. 지금이 2024년인데 무슨 Z590 같은 구닥다리 소식은 왜 올렸냐면, 여기에는 일반적인 DIMM 슬롯이 아니라 노트북용 SO-DIMM 슬롯 4개가 있어서 그렇습니다. SO-DIMM 메...
    Date2024.04.11 소식 By낄낄 Reply10 Views1770 file
    Read More
  5. 로지텍 G 프로 X 60 라이트스피드 게이밍 키보드

    로지텍 G 프로 X 60 라이트스피드 게이밍 키보드입니다. 가격 179달러. 60% 크기의 키보드로 키패드와 커서, 펑션 키를 전부 뺐습니다. fps 게임에선 마우스를 크게 움직이기에 키보드는 작을수록 유리하다는 의견이 있고, 거기에 맞춰서...
    Date2024.04.11 소식 By낄낄 Reply21 Views1792 file
    Read More
  6. AMD 새 드라이버에서 라이젠 9000 시리즈 확인

    ASUS X670 ROG 크로스헤어 히어로 메인보드의 새 칩셋 드라이버가 나왔습니다. 여기에선 라이젠 6000, 7000, 8000, 그리고 라이젠 9000 시리즈에 대한 언급이 포함됩니다. 플랫폼 관리 프레임워크인 AMD PMF가 라이젠 9000 버전이 있네요.
    Date2024.04.11 소식 By낄낄 Reply0 Views818 file
    Read More
  7. 인텔 LGA-1851 소켓 실물 사진 등장

    LGA-1851 소켓이 달린 산업용 메인보드가 발견 https://gigglehd.com/gg/15743123 이 제품이 임베디드 월드 2024에서 전시됐습니다. 인텔 LGA-1851 소켓이 달려 있습니다 . 모바일/데스크탑 시장에 모두 출시되는 메테오레이크-PS가 이 소...
    Date2024.04.11 소식 By낄낄 Reply8 Views1617 file
    Read More
  8. No Image

    AMD 내장 그래픽, 27년까지 RDNA3+를 유지?

    AMD가 내장 그래픽의 아키텍처를 2027년까지 RDNA3+으로 유지할 거라고 합니다. RDNA3+가 RDNA3에서 뭐가 바뀌었는지는 아직 모릅니다. 아키텍처를 유지해도 코어 수만 늘린다면 내장 그래픽에서 크게 아쉬울 건 없을 것 같은데.. 아직은 ...
    Date2024.04.11 소식 By낄낄 Reply5 Views1004
    Read More
  9. 커세어 X 예스톤 사쿠라 신부 에디션 메모리

    커세어 X 예스톤 사쿠라 신부 에디션 메모리입니다. 써야 할 말은 제목에 다 나와 있네요. 예스톤은 중국에서 저 캐릭터를 넣은 그래픽카드를 종종 판매했는데요. 이번엔 커세어랑 콜라보했네요. RGB LED 탑재, 6400-7200MT/s로 작동합니다.
    Date2024.04.11 소식 By낄낄 Reply5 Views1196 file
    Read More
  10. No Image

    모니터 신호를 on/off 할 수 있는 방법?

    네 물론 선을 뽑아버리면(...)간단 하지만   버튼 하나로 on/off 를 하고 싶습니다...     듀얼모니터를 쓰는데 하나가 안필요 할땐 꺼놓고 싶거든요     예전에 hdmi 신호 설렉터를 사용해서 해보려했는데...   모니터가 한대만 물려있으...
    Date2024.04.11 질문 By포도맛계란 Reply9 Views550
    Read More
  11. 마우스 배터리가 죽었습니다

    이런일도 있을 수 있네요   작년 11월에 attack shark x3라는 마우스를 구매했습니다. 가볍고 좋더라구요   그런데 오늘 배터리가 죽었습니다. 어제 충전해주고 오늘 사용 중 갑자기 꺼지길래 뭔 일인가 했는데 배터리가 아예 죽어버렸네...
    Date2024.04.10 질문 Bydmy01 Reply8 Views655 file
    Read More
  12. No Image

    (루머) AI 확보를 위해 CPU에서 캐시 용량을 줄였다?

    아난드텍 포럼에 올라온 글입니다. AMD 스트릭스 포인트는 원래 대용량의 시스템 레벨 캐시가 탑재되고 젠5와 RDNA3+의 성능이 크게 향상될 계획이었으나, AI를 위한 XDNA2 NPU를 넣기 위해 CPU/GPU는 줄였다고 합니다. https://forums.an...
    Date2024.04.10 소식 By낄낄 Reply5 Views1140
    Read More
  13. No Image

    시놀로지 nas quickconnect는 필요할 때만 사용하세요(속도차이).

    시놀로지 nas 를 quickconnect 연결이 편리해서 잘 사용중입니다.   리소스 모니터 볼 때나 간단한 파일 올리고 내릴때는 크게 불편함이 없었는데 synology photos 핸드폰 사진 자동백업 할때는 많이 느립니다.   quickconnect 는 최대 30...
    Date2024.04.10 일반 Bytitle: 오타쿠아라 Reply9 Views663
    Read More
  14. No Image

    대만 지진 발생 후 DRAM 현물 가격 공개 중단

    대만 지진 발생 후 메모리 제조사들이 DRAM 현물 가격의 공개를 중단했습니다. 마이크론이 먼저 시작했고 한국 회사들이 그 뒤를 이었습니다. 이런 재해가 발생하면 DRAM 가격은 일반적으로 오르는 편입니다. 공급에 차질을 빚으니까요. ...
    Date2024.04.10 소식 By낄낄 Reply7 Views862
    Read More
  15. 인텔, 288코어 제온 6과 성능이 4배로 오른 가우디 3 AI 가속기 발표

    인텔이 인텔 비전 2024에서 코드네임 시에라 포레스트의 차세대 제온인 제온 6 프로세서, 가우디 시리즈의 최신 버전인 가우디 3를 발표했습니다. 인텔의 데이터센터 프로세서는 에메랄드 래피드까지 'x 세대 제온 스케일러블 프로세...
    Date2024.04.10 소식 By낄낄 Reply7 Views1292 file
    Read More
목록
Board Pagination Prev 1 ... 5 6 7 8 9 10 11 12 13 14 ... 1939 Next
/ 1939

MSI 코리아
AMD
한미마이크로닉스
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소