컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2022.10.03 04:14

라이젠 7000의 개선점 5가지: 젠4, AVX-512, 내장 GPU, AM5, 전력 확장

조회 수 4098 댓글 6

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/column/ubiq/1442338.html

원문은 AMD Ryzen 7000 Series SoC Architecture Overview라는 이름으로 전달된 문서를 간추린 것 같은데, 제가 CPU랑 바이오스는 받았어도 저 파일은 못 받아서 이제서야 대충 읽어보는 김에 올려 봅니다.

라이젠 7000 시리즈. 5nm 공정으로 제조된 8코어 CCD 2개와 6nm로 제조된 IOD 1개로 구성됩니다.

라이젠 7000 시리즈는 코드네임 젠4라는 CPU 아키텍처를 탑재했습니다. AMD는 2017년에 1세대 젠을 발표한 이후 계속해서 아키텍처를 업데이트해 왔습니다.

1세대 라이젠은 글로벌 파운드리의 14nm 공정으로 생산하고, 기존의 엑스케베이터 아키텍처보다 IPC가 52% 향상됐습니다. 아키텍처를 처음부터 다시 설계한 덕분이지요. 그 다음에는 젠2와 젠3로 아키텍처를 개선했는데, 특히 젠2의 칩렛 패키징 도입이 큰 효과를 가져왔습니다. 그 전까지는 CPU에 메모리 컨트롤러와 I/O까지 모두 통합됐지만 이걸 분리시켜 작은 다이로 만들어서 제조 단가를 낮출 수 있었습니다. 이후 젠3에서는 구조를 개선해 L3 캐시의 이용 효율을 높여 IPC를 19% 높였습니다.

라이젠 7000은 크게 5가지 특징이 있습니다. 우선 기존 세대보다 IPC가 13% 오른 젠4 아키텍처의 도입, AVX-512 명령어 세트 지원, IOD의 공정을 개선하고 GPU를 내장, AM5라는 새로운 소켓, 그리고 공급 전력과 온도 확장입니다.

젠4는 명령의 디코드나 분기 예측을 수행하는 프론트 엔드, 명령을 실행하는 실행 엔진, 내장 캐시와 메모리에 데이터를 읽고 쓰는 로드/스토어가 모두 개선됐습니다.

x86 프로세서는 x86 명령어를 불러와 해독(디코딩)하고 내부 연산기에서 실행할 수 있는 내부 명령어로 변환하는데, 이 부분을 프론트 엔드라고 부릅니다. 젠4의 프론트 엔드는 분기 예측 유닛, 디코드된 내부 명령을 일시적으로 저장하는 Op 캐시가 강화됐습니다. CPU가 불러오누 x86 명령은 디코더를 이용해 내부 명령으로 변환해 실행 엔진에 전달합니다. 이 때 디코드된 내부 명령을 일시적으로 저장하는 곳이 Op 캐시로, 여기에서 데이터를 불러오면 복잡한 x86 명령을 디코딩할 필요 없이 바로 명령을 실행할 수 있어 CPU의 실행 효율이 오릅니다.

AMD는 Op 캐시의 명령 수가 4K에서 6.75K로 68% 가량 늘었으며, 1클럭 당 8개의 내부 명령을 읽던 것이 9개로 늘었다고 설명합니다.

분기 예측도 강화됐습니다. 분기 예측에서 메모리의 예측 주소를 저장하던 L1 BTB(Branch Target Buffer)가 50% 늘었고(2x 1K에서 2x 1.5k), L2 BTB도 용량이 증가(2x 6.5K에서 2x7k)했습니다. 이러한 프론트엔드의 개선이 젠4의 IPC 향상에서 약 1/3을 차지한다고 설명합니다.

내부 명령을 실행하는 실행 엔진도 강화됐습니다. 가장 큰 변화는 레지스터 파일(연산 유닛이 처리하는 데이터를 일시적으로 보관하는 메모리 영역)의 용량이 늘어났다는 것입니다. 정수는 192에서 224ㅐ, 부동 소수점은 160에서 192가 됐습니다. 또 명령 리타이어 큐의 용량도 25% 늘었습니다. 다만 기본적인 구조는 젠3와 같아 1클럭당 10개의 정수 연산을 처리하거나 6개의 부동 소수점 연산을 처리합니다.

로드/스토어의 경우 로두 큐가 25% 증가, 데이터 캐시 포트의 크래시 감소, L2 DTLB가 50% 개선됐습니다.

캐시의 경우 L2 캐시가 512KB에서 1MB로 늘었습니다. 이런 변화 덕분에 메모리 레이턴시가 줄어들어 CPU 전체의 성능이 개선됐습니다.

이런 변화 덕분에 같은 클럭에서 싱글 스레드 처리 성능을 비교하면 IPC가 13% 올랐다는 게 AMD의 설명입니다. 젠2에서 15%, 젠에서 19%가 올랐으니 예전만큼은 아니지만, 1세대 젠에서 52%가 오른 이후 꾸준히 끌어 올린 것이니 이미 많이 올라왔다고도 할 수 있습니다.

젠4는 신형 SIMD 연산 확장 명령 세트인 AVX-512를 지원합니다. 인텔은 스카이레이크 세대 이후에 지원했다가 앨더레이크에서 빼버렸고, AMD CPU에서는 처음으로 지원합니다.

이 AVX-512는 SIMD 레지스터를 512비트로 늘린 게 아니라 256비트 SIMD 레지스터를 유지하면서 AVX-512를 지원합니다. 그래서 처리량은 같으나 명령 읽기 횟수가 줄어들고, 컨트롤 오버헤드가 감소하기에 AVX-256보다 효율이 향상됩니다.

젠4의 AVX-512는 아이스레이크에서 확장된 버전을 사용합니다. FP32를 INT8로 옮겨서 추론하는 VNNI, Bfloat16 등 머신 러닝/딥 러닝 추론의 연산 성능을 높여주는 확장 명령을 지원합니다. VNNNI를 사용하면 라이젠 5000보다 2.47배의 성능을 낸다고 합니다.

AVX-512 외에도 가상화 관련 명령도 추가됐습니다.

1세대 젠 아키텍처는 4개의 CPU 코어가 1개의 CCX를 구성하고, 이거 2개를 모아 하나의 CCD를 만들여, 여기에 메모리 컨트롤러로와 I/O 컨트롤러를 넣었습니다. 젠2에서는 CCD 2개와 IOD 1개로 나눴습니다. 1개의 CCX에는 4개의 코어, 2개의 CCX가 모여 1개의 CCD를 구성하는 건 변함이 없으나, 메모리 컨트롤러와 I/O는 IOD로 분리시켰습니다. 젠3에선 CCD 2개와 IOD 1개로 구성된 건 유지하지만 CCD의 구조가 4코어 CCX 2개에서 8코어 CCX 1개로 바뀌었습니다.

CCD와 IOD를 따로 나눈 칩렛 아키텍처의 가장 큰 장점은 제조 유연성과 원가 절감입니다. 하나의 큰 칩을 만드는 것보다 작은 칩을 여러개 만드는 것이 수율이 높고, 더 많은 코어를 탑재한 제품을 만들 수 있으며, 서로 다른 공정으로 각각의 다이를 만들 수도 있습니다.

젠3까지 IOD는 14nm 공정으로 만들었으니 CPU보다 2세대 정도 뒤쳐졌습니다. 그러나 젠4의 IOD는 7nm를 개선한 6nm로 바뀌어, 이전 세대까지 CPU 생산에 쓰던 것과 동급의 공정으로 업그레이드됐습니다. 그래서 다이 크기는 125제곱mm에서 122제곱mm로 소폭 줄어들고, 그 대신 트랜지스터 수가 20억 9천만개에서 34억 개로 늘어났기에 그만큼 기능을 강화할 수 있게 됐습니다.

젠4 IOD에는 그래픽이 내장됩니다. 지금까지 라이젠은 칩렛 구조의 데스크탑 다이와 별개로, CPU와 GPU를 모두 포함한 모놀리식 다이를 노트북과 APU로 출시했는데요. 젠4부터는 모든 데스크탑 프로세서에 GPU가 내장됩니다. 이 GPU는 RDNA2 아키텍처지만 CU가 2개밖에 없어 성능이 매우 낮습니다. 다만 하드웨어 레이 트레이싱, AVX 디코드 엔진, HDMI 2.1/DP 2.0 등의 기능을 갖췄습니다.

I/O의 경우 PCIe 5.0 28레인으로 16레인은 그래픽카드, 8레인은 그래픽카드나 2x4 NVMe, 나머지 4레인은 PCIe 4.0으로 바꿔 칩셋과 연결에 사용합니다. USB는 USB 10Gbps가 4레인, USB-C가 3레인, USB A가 1레인이며 호환성을 위해 USB 2.0 포트도 하나 있습니다. 또 노트북 프로세서에서는 USB4나 썬더볼트 3/4을 지원하지만 데스크탑에서는 그 수요가 많지 않아 뺐다고 설명합니다.

소켓은 AM5로 바뀝니다. 소켓이 PGA에서 LGA로 바뀌면서 CPU가 쿨러에 딸려서 뽑히지 않습니다. 또 DDR5 메모리를 지원합니다. DDR4는 지원하지 않습니다. 그리고 EXPO라는 오버클럭 프로파일을 지원합니다. 오버클럭을 쉽게 할 수 있도록 패브릭/메모리 컨트롤러/메모리 클럭의 고정은 풀립니다. 라이젠 5000까지는 그 비율이 1:1:1로 정해졌으나 이제는 메모리 컨트롤러와 메모리 클럭의 비율만 1:1이 되고 패브릭 클럭은 자동 설정됩니다.

X670E와 X670

B650E와 B650

소켓 AM5는 새로운 전원 스펙인 SVI3(Serial VID Interface 3.0)가 추가됐습니다. SVI3은 최대 230W까지 CPU에 공급할 수 있고, 전원 회로와 CPU가 양방향 통신을 해 보다 안정적으로 전압 설정이나 전력 공급이 이루어집니다. 또 전력 상태를 새로 정의해 전력 낭비를 줄입니다. 여기에 맞춰 라이젠 7000의 TDP(PL1)은 170W, 맥스 소켓 파워(PL2)는 230W로 올랐습니다. 물론 105W나 65W로 낮출 수도 있습니다.

삭제 요청

TAG •

Prev AMD 라데온 아드레날린 UI 롤백시키기(APU 리라이브 활성화)

AMD 라데온 아드레날린 UI 롤백시키기(APU 리라이브 활성화) 2022.10.03by TundraMC MSI, 13세대 코어 프로세서를 탑재한 시스템, 신형 파워와 ... Next

MSI, 13세대 코어 프로세서를 탑재한 시스템, 신형 파워와 ... 2022.10.03by 낄낄

목록 스크랩

위로 아래로 댓글로 가기

Comments '6'

아라 2022.10.03 07:38

이번세대는 히트스프래더가 멋있어서 써 보고 싶네요.
슈팅게임 제비우스 보스처럼 생겼습니다.
?
leesoo raysoda.com/user/leesoo 2022.10.03 14:11

제일 마음에 드는 점은 내장그래픽이 생겼다는 부분이에요. 이제 라이젠도 구입을 고려해보는 걸로...?
?
ASTRAY 레이라고 불러주세오 ' ㅠ' 2022.10.03 14:24

3d 모델도 얼른 공개했으면 좋겠네요
?
초싸이언급컴맹 2022.10.03 18:32

와 LGA!
白夜2ndT 원래 암드빠의 길은 외롭고 힘든거에요! 0ㅅ0)-3 / Twitter @2ndTurning 2022.10.03 19:04

확실히 팩토리 OC때문에 말이 많아도 발전한 요소들이 많네요. 특히 화면표시기(!) 기본 내장은 정말 반갑죠.
?
마라톤 2022.10.04 14:02

좋은 정보 감사합니다. ^_^

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

삼성전자, 2027년 1.4나노 양산으로 앞서간다

삼성전자는 2015년 핀펫(FinFET) 트랜지스터를 세계 최초로 양산하고, 지난 6월 GAA(Gate All Around) 트랜지스터 기술을 적용한 3나노 1세대 공정 양산을 세계 최초로 시작했으며, 앞선 양산 노하우를 기반으로 3나노 응용처를 확대하고 ...

Date2022.10.04 소식 By낄낄 Reply8 Views1313

Read More
인텔 13세대 코어 프로세서의 마진은 매우 낮음

인텔 13세대 코어 프로세서는 라이젠 7000 시리즈와 비슷한 가격에 발표되었습니다. 그렇게 할 수 있었던 이유는 인텔이 랩터레이크의 소매업체 마진을 줄였기 때문이라고 하네요. 소매상은 코어 i5-13600K에 10%의 마진을 붙여서 349달...

Date2022.10.04 소식 By낄낄 Reply19 Views3668

Read More
쿠거 크라투스 오픈프레임 케이스

쿠거 크라투스 오픈프레임 케이스입니다. 3D 구조 튜브로 만든 프레임, 4장의 강화유리, 커브드 글래스 사용, 메인보드 트레이에 45mm의 선정리 공간이 있어 케이블 노출을 최소화합니다. 2.5/3.5인치 베이 2개, 3.5인치 베이 3개, 7+2개...

Date2022.10.04 소식 By낄낄 Reply1 Views803

Read More
No Image

rdna3는 찌라시가 좀 적은거같네여

4000번대는 막 파스도 돌아다니고 루머도 많았는데 rdna3는 그닥 ㅋㅋ.. 좀 아쉬워요 출시 한달도 안남았는데 미끼좀 던졌으면 좋겠습니다.

Date2022.10.04 일반 By방황하는물고기 Reply2 Views1100

Read More
NVIDIA, 호퍼 H100의 성능을 상향 조절

NVIDIA가 호퍼 H100 데이터센터 GPU의 성능을 조절했습니다. 원래 FP64는 30TFLOPS였는데 이제는 34TFLOPS, FP32는60TFLOPS에서 67TFLOPS가 됐습니다. 코어 수는 유지하면서 클럭을 1775MHz가 아닌 1982MHz로 높여서 성능이 오른 듯 합니다.

Date2022.10.04 소식 By낄낄 Reply3 Views803

Read More
XFX 라데온 RX 6700 XL, 노말 모델이 등장

XFX 라데온 RX 6700 XL, 혹은 라데온 6700이라고도 불린 모델이 중고 매장에서 발견됐습니다. 라데온 6700은 중간에 RX를 안 붙이고 나왔다가 나중에 RX 6700으로 나왔으나, 1년 이상 BC-2235라는 이름의 채굴 카드로만 판매됐습니다. 그...

Date2022.10.04 소식 By낄낄 Reply1 Views679

Read More
AMD B650 칩셋 탑재 메인보드 공개

메인보드 제조사들이 AMD B650 칩셋을 쓴 메인보드를 공개했습니다. ASUS: https://edgeup.asus.com/2022/b650-motherboard-guide/ ROG Strix B650E-E Gaming WiFi ROG Strix B650E-F Gaming WiFi ROG Strix B650E-I Gaming WiFi ROG Stri...

Date2022.10.04 소식 By낄낄 Reply9 Views1286

Read More
No Image

LG디스플레이, 27인치 OLED 생산준비…중형TV 공략 '속도'

LG디스플레이가 중형 화이트(W)-유기발광다이오드(OLED) 패널 생산량을 공격적으로 늘린다. 올해에 이어 내년 전세계 TV시장에 대한 우려가 커지는 상황에서 OLED 응용처를 확대한다는 방침이다. 28일 업계에 따르면 LG디스플레이는 다음...

Date2022.10.03 소식 By김해김씨 Reply21 Views1390

Read More
No Image

인텔은 13세대 팔아서 얼마나 남으려나요

이 글을 쓰려고 생각한지 일주일이 지나서야 작성 버튼을 누릅니다. 너무 게으르네요. 원래는 라이젠 7000까지 함께 쓰려고 했는데, 일주일 동안 다른 글도 올라오고, 새로 유출된 것도 있어서 그쪽은 굳이 쓸 필요가 없어졌어요. 인텔이 ...

Date2022.10.03 일반 By낄낄 Reply16 Views2025

Read More
No Image

RTX 4090 블로워가 나올까요?

예전 3090까지는 벤더용으로 나온 블로워 3090이 있어서 서버에 달면 성능이 꽤 괜찮게 나왔었습니다. 가성비가 동급 쿼드로나 테슬라에 비해 좋아서 학습용으로 잘 썼는데요, 이번에 호퍼 나오면서 워크스테이션, 랙마운트 할 것 없이 30...

Date2022.10.03 질문 By국밥맨 Reply17 Views1526

Read More
AMD 라데온 아드레날린 UI 롤백시키기(APU 리라이브 활성화)

1. 참고 링크에 올린 주소로 들어가서 먼저 압축 파일을 받은뒤 압축을 해제해두시면 됩니다. 2. 작업관리자에서 AMD 드라이버 관련 프로세스 다 죽이면 됩니다. QtWeBEngin은 안죽여도 되긴 하는데 만약 오류가 나면 그때 죽이시면...

Date2022.10.03 일반 ByTundraMC Reply12 Views995

Read More
라이젠 7000의 개선점 5가지: 젠4, AVX-512, 내장 GPU, AM5, 전력 확장

원문은 AMD Ryzen 7000 Series SoC Architecture Overview라는 이름으로 전달된 문서를 간추린 것 같은데, 제가 CPU랑 바이오스는 받았어도 저 파일은 못 받아서 이제서야 대충 읽어보는 김에 올려 봅니다. 라이젠 7000 시리즈. 5nm 공정...

Date2022.10.03 소식 By낄낄 Reply6 Views4098

Read More
MSI, 13세대 코어 프로세서를 탑재한 시스템, 신형 파워와 모니터를 발표

MSI는 인텔의 13세대 코어 프로세서 발표에 맞춰서 넥스트 플레이그라운드 리프레임드라는 제목으로 신제품을 공개했습니다. 우선 게이밍 데스크탑입니다. 모두 '최신' 인텔 프로세서와 NVIDIA 그래픽카드, DDR5 메모리로 업그레...

Date2022.10.03 소식 By낄낄 Reply0 Views842

Read More
3Dcenter에서 정리한 ZEN4 리뷰 총요약본.jpg

전 세계 25개 사이트에서 실시한 4730개 항목의 종합 평균이라고 합니다. 여기엔 평균 FPS는 물론 1% Low, 99th Percentile 등의 항목까지 전부 다 포함됩니다. 게임 같은 경우 UHD 등과 같이 GPU 병목이 걸린 벤치나, 각종 버그 ...

Date2022.10.03 분석 By류오동 Reply7 Views1987

Read More
No Image

FPGA를 써서 x86보다 50배 효율적으로 3D 레이 트레이싱 게임을 실행

자일링스 Artix-7 100T FPGA 개발 보드가 라이젠 7 4800H보다 50배 더 효율적으로 3D 레이 트레이싱 게임을 실행했습니다. 이 FPGA는 101,440개의 로직 셀이 있고 28나노 공정으로 제조됐으며 280달러에 판매하는 물건입니다. 그리 비싼 ...

Date2022.10.03 소식 By낄낄 Reply7 Views1331

Read More