컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2017.03.09 03:27

AMD가 말하는 라이젠을 위한 최적화 조언

조회 수 11493 댓글 14

Extra Form
참고/링크	http://www.4gamer.net/games/300/G030061/20170308070/

AMD 라이젠이 나왔습니다. 지금까지 AMD CPU에선 생각도 할 수 없을 정도로 성능이 좋긴 한데, 모든 점에서 인텔을 앞서는 것도 아니고 단점도 있는 건 사실입니다. https://gigglehd.com/gg/803464

GDC 2017에서 Ken Mitchell(Developer Technology Engineer, AMD)가 강연한 Optimizing for AMD Ryzen CPU는 바로 라이젠을 위한 소프트웨어 최적화에 대한 것입니다.

우선 라이젠의 명령어 셋트를 봅시다. 라이젠은 7세대 APU인 브리스톨 릿지에서도 지원하지 않았던 다수의 인텔 확장 명령어 셋트를 지원합니다. 예를 들어 덧셈을 연속으로 실행할 것을 고려하고 플래그를 취급하는 덧셈 명령인 ADX는 인텔이 브로드웰 세대에서 도입한 것인데 라이젠도 지원하기 시작했습니다.

반면 AMD 고유의 확장 명령어인 FMA4, TBM, XOP는 지원하지 않습니다. AMD CPU에서만 쓸 수 있으니 소프트웨어 개발자들이 지원에 소극적이었다고 합니다. 이들 명령 셋트는 지원이 중단되면서 앞으로 나올 AMD CPU에서도 보긴 어려울 것입니다.

또 한가지 흥미로운 화제는 라이젠의 캐시입니다. 라이젠은 코어마다 L1 명령 캐시 64KB, L1 데이터 캐시 32KB, L2 캐시 512KB를 갖추고, 4개의 코어가 8MB L3 캐시를 공유하는 CPU 컴플렉스(CCX)라는 구조를 씁니다. 8코어 모델인 라이젠 7이 2개의 CCX를 갖고 있으니 L3 캐시는 총 16MB가 됩니다.

라이젠 7의 캐시는 경쟁 상대보다 대역폭이 뛰어나지만 레이턴시는 떨어지는 결과가 나왓는데, AMD는 라이젠의 캐시가 경쟁 상대보다 뛰어나다고 주장했습니다. 그 이유는 L1, L2, L3 캐시의 레이턴시가 모두 낮기 때문이라고. 위 표에서 레이턴시는 4~40클럭 사이클로 결코 늦지 않습니다.

AMD가 제시한 결과를 보면 캐시 레이턴시는 라이젠과 인텔의 L1 데이터 캐시는 같고, L2에선 인텔이 낮지만 L3에선 라이젠이 낮습니다. 그럼 왜 벤치마크 결과 https://gigglehd.com/gg/820955 와는 다를까요? 그건 뭐 다른 이유가 있겠죠.

CPU 아키텍처와 성능 측정에 사용하는 명령을 표시한 슬라이드입니다. DF(데이터 패브릭)은 메모리 컨트롤러와 I/O를 중개하는 부분으로 CPU 코어 측 성능은 RDPMC 명령으로 볼 수 있습니다. 참고로 메모리 컨트롤러와 I/O 컨트롤러는 NDA가 걸려 있어서 공개 불가.

이제 본론이라고 해도 되겠네요. 라이젠엔 XFR이라는 기능이 있어 CPU 쿨러의 성능이 좋고 TDP에 여유가 있다면 부스트 클럭을 넢어서도록 동작이 가능합니다. 그런데 라이젠 7이 최대 부스트 클럭을 초과해서 작동하려면 8개의 CPU 코어 중 6개 이상이 C6 스테이트까지 떨어져야 합니다. C6은 딥 파워 다운이라 불리는 것으로 아이들 상태입니다. 즉 여러 코어에 적당한 부하가 가해지는 게임이나 애플리케이션에선 XFR의 작동 조건을 충족시켜 최대 부스트 클럭을 넘기가 어렵다고 합니다.

위 도표는 라이젠 7 1800X의 동작 클럭 패턴을 나타낸 것으로 ACPI P 스테이트가 3.6GHz, 3.2GHz, 2.2GHz의 3단계가 P3 스테이트이며 C 스테이트에 따라 4단계 부스트 클럭이 나오곤 합니다. 모든 코어가 활성화된 상태에선 부스트 클럭은 기본 클럭보다 고작 100Mhz 높은 3.7GHz며, 싱글 스레드 애플리케이션에선 최대 4.0GHz입니다.

또 라이젠의 성능은 운영체제의 전원 관리 설정과도 밀접한 관련이 있습니다. 윈도우 10의 전원 관리 탭에서 고성능으로 설정하면 모든 CPU 코어의 P 스테이트가 최고값인 P0으로 고정되고, OS 스케줄러도 전력 사용량을 따지지 않고 모든 CPU 코어를 사용하는 상태가 됩니다. 또 CPU 부하가 낮을 때 사용하지 않는 코어를 멈추는 코어 피킹 기능을 무효화합니다.

오른쪽 아래에서 '윈도우 10이라면 1ms 이하로 동작 클럭을 제어한다'는 말은 인텔 CPU에서도 마찬가지입니다.

그리고 전원 관리 옵션을 균형으로 설정하면 코어 피킹이 활성화돼, 피킹된 코어를 피해서 전력 효율을 높이도록 OS 스케줄러를 바꿉니다. 이 상태에선 CPU에 걸리는 부하가 높아져 코어 피킹을 해제하려 해도 최고 속도까지 올라가는 데 30ms가 걸립니다. 이는 AMD가 전원 관리 설정을 고성능으로 설정하라고 권장하는 이유입니다.

사실 코어 피킹으로 인한 성능 저하는 인텔 CPU에서도 충분히 가능한 이야기이기도 합니다.

동작 클럭, 바이오스, 윈도우 10의 설정에 대한 주의사항입니다. 바이오스에서 P-스테이트를 최고값인 P0, 코어 퍼포먼스 부스트와 글로벌 C 스테이트 컨트롤은 끄고, 윈도우 10의 전원 설정을 고성능으로 두라는 것. CPU의 전력 제어용 컨트롤러인 시스템 매니지먼트 유닛은 P0 스테이트에 고정 전력을 공급하게 합니다.

다음은 다이렉트 X 12입니다. https://gigglehd.com/gg/803181 여기서 말한 것도 있으니 간단히 요약하면 다이렉트 X 12를 쓰는 것만으로 CPU의 성능을 끌어내진 못한다네요. 다이렉트 X 12는 스레드 단위로 GPU 큐를 처리할 수 있어 멀티스레드 효율이 높아진다는 게 일반론이나, 꼭 그런 건 아니라고 합니다.

위 슬라이드는 마이크로소프트의 샘플 코드를 사용해 드로우 컨텍스트의 수와 성능을 표시한 것입니다. 드로우 수가 1025일 때 드로우 컨텍스트는 2~3으로, 더 늘려도 성능이 떨어진다고 합니다. 그리고 드로우를 10배로 늘려 10250개가 되면 드로우 컨텍스트는 7 정도가 최적의 값이 됩니다. 그 이상은 역효과를 낼 뿐.

드로우 컨텍스트 수는 stdafx.h에서 NumContexts라는 상수로 설정돼 있습니다.

그리고 AMD는 드로우 수를 300으로 나눈 값고, 스레드 수에서 1을 뺀 값을 비교해서 둘 중 작은 값을 드로우 컨텍스트 수로 쓰는 게 좋다고 해결책을 제시했습니다. 그럼 라이젠 7에서 SMT가 활성화되고 드로우 수가 크다면 드로우 컨텍스트는 15가 나오겠네요. 다만 이건 어디까지나 다이렉트 X 12를 대상으로 한 이야기며 다이렉트 X 11 게임과는 상관이 없습니다. 그리고 게임 개발자가 생각할 문제니까 일반 사용자와는 상관이 별로..

그리고 캐시에 미리 데이터를 불러오눈 프리페치 명령은 쓰지 않는 게 좋다고도 합니다. 라이젠의 캐시 시스템은 충분히 효율이 좋기에 프리패치를 쓰면 캐시 루프가 정상 작동하지 ㅇ낳는다고 하네요.

work()는 고정 루프로 프리페치가 없으면 컴파일러가 루프를 전개하나, 프리페치를 넣으면 루프가 돌지 않아 결과적으로 느려진다고 합니다.

프리페치 계열 명령 셋트는 AMD가 1998년에 나온 K6-2에서 처음으로 채택한 확장 명령 셋트인 3DNow!에 포함됐습니다. 이게 인텔 CPU에도 도입돼 윈도우 8이후에선 꼭 필요한 명령 셋트가 됐네요. AMD가 제안한지 19년이 지나서야 보급이 제대로 된 셈이지만.

AMD의 프로파일인 CodeXL의 라이젠 지원 버전은 조만간 발표할 거라고 하니 프로그래밍 하시는 분들은 https://github.com/GPUOpen-Tools/CodeXL 여길 참조.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '14'

?
슈민 2017.03.09 10:39

좋은 정보 감사합니다.
?
yamsengyi 2017.03.09 11:18

고생하셨습니다.
이거슨 로-우 한 레벨이군요 ㅎㄷㄷ
슬렌네터 Human is just the biological boot loader for A.I. 2017.03.09 11:21

어...음... 그니까 게임 개발자들은 저대로 하면 라이젠이 더 짱짱해진다는거겟죠!? -.-
벌레쟁이 이젠 울트라뽑는 하이브 2017.03.09 14:58

게임 개발자들이 건들건 DX하고 프리패치밖에 없겠네용.
아라 2017.03.09 12:42

역시 터보는 아무때나 터지진 않네요.
8300도 3.4~6이 기본이고 4.0 터보 보는게 손에 꼽을 정도니
Induky 자타공인 암드사랑 정회원입니다 (_ _) 2017.03.09 13:31

한번 고성능 모드로 했을때 얼마나 전력소모 차이가 나는지 봐야게쓰요
스이드림 이리와요. 해치지 않아요. 2017.03.09 14:27

XFR 동작 개념에 대한 자세한 정보가 궁금했엇는데 굳이 그 설명을 필요로 하지 않아도 되겠네요
실사용에서는 동작하는 경우가 거의 없을테니...

이러면 1700 상위 모델을 구매하는 이유가 없어지네요
벌레쟁이 이젠 울트라뽑는 하이브 2017.03.09 15:00

XFR이란건 완전히 터보부스트네요.
나머지 코어를 죄다 C6로 놓다니.
동전삼춘 2017.03.09 15:25

결국 동일코어, 동일쓰레드의 하위모델이 오버클럭만 잘 된다면, 굳이 상위모델을 살 이유가 1도 없는 셈이군요. 상위모델은 XFR이 빵빵 터지는 (1~2개 코어만 집중 사용하도록 프로그래밍된?)애플리케이션을 사용하는 사람에게 유리하겠구요.
?
중고나라VIP (5600x / RX6600XT) 원래 암드는 감성과 의리로 쓰는겁니다. 2017.03.11 13:57

라이젠 정식발표전에 실물을 갖고계셨던 분이 1800x, 1700x, 1700셋중에
무엇을 사겠냐고 질문을 받으셨을때, 주저없이 1700을 사겠다고 답변하신게
생각나네요. 전 xfr기능이 궁금해서 1700x를 샀는데 차이가 크지 않은듯ㅠㅠ
白夜2ndT 원래 암드빠의 길은 외롭고 힘든거에요! 0ㅅ0)-3 / Twitter @2ndTurning 2017.03.09 16:50

결론 : 절전기능 끄세여
.......으잉?!
?
야메떼 2017.03.09 16:53

USB절전이 코어파킹의 원인이라던데...
윈도에서 ?USB절전좀 빼면 안되나 싶네요..
워낙 에러도 많고 문제도 많이 발생하는 기능인데...
TundraMC 자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2017.03.09 23:07

과연 성장형 CPU군요.
바이오스 업댓으로 프레임이 2배넘게오른것으로도 모자라 제조사가 직접 최적화방법을 알려주다니
?
놀부심뽀 2017.03.10 15:46

ㅋ,,, 이런건 좀 무리다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

100TB SSD, 4비트 QLC 3D 낸드 플래시

플래시 메모리 관련 세계 최대 규모의 강연회/전시회인 플래시 메모리 서밋에서 페이스북과 도시바가 100TB의 SSD를 실현할 기술을 설명했습니다. 페이스북은 100TB의 SSD를 WORM이라 부릅니다. 용량은 매우 크지만 쓰기 내구성이 150번 ...

Date2016.08.10 분석 By낄낄 Reply18 Views3679

Read More
SP-CAP과 탄탈 캐패시터의 비교

요즘 이엠텍에서 허위스펙으로 문제시 된 SP-CAP과 탄탈 캐패시터의 성능을 간단히 비교해보도록 하겠습니다. 1. 이엠텍은 탄탈 캐패시터를 썼는가? 스펙시트부터 보기 전에... 우선 이엠텍 기판에는 SP-CAP과 탄탈 캐패시터가 둘 다 ...

Date2016.08.09 분석 ByMoria Reply28 Views5851

Read More
16/14nm FinFET 세대에서 변화한 GPU 공정 기술

AMD는 글로벌 파운드리의 14LPP를 사용 AMD는 FinFET 공정 세대에서 글로벌 파운드리의 14nm 프로세스인 14LPP를 GPU와 APU에 채용했습니다. 라데온 RX 480 (폴라리스 10)은 AMD의 첫 14LPP 제품입니다. 글로벌 파운드리의 14LPP은 삼겅과...

Date2016.08.04 분석 By낄낄 Reply4 Views2948

Read More
자주 보이는 SSD 컨트롤러들

SSD는 컨트롤러와 플래시 메모리로 구성됩니다. SSD 컨트롤러를 제공하는 회사는 다양하며, 여기서 나오는 제품의 규격도 각양각색이죠. 마벨의 메인스트림 SATA 컨트롤러는 88SS9187, 88SS9188, 88SS9189, 88SS9190의 4가지가 있습니다. ...

Date2016.07.31 분석 By낄낄 Reply8 Views9992

Read More
No Image

10년 동안 CPU의 성능은 얼마나 발전했을까요?

10년 사이에 CPU의 처리 성능이 얼마나 변했는지를 벤치마크를 통해 보여주는 분석글이 있네요. 비교 대상은 인텔 코어 2 Duo E6600부터 인텔 코어 i7-4790K까지입니다. AMD의 CPU와 APU도 하나씩 들어가 있긴 한데 거의 구색맞추기라는 ...

Date2016.07.24 분석 By쮸쀼쮸쀼 Reply17 Views3180

Read More
No Image

지포스 GTX 1060이 왜 GTX 960보다 더 비싼가?

지포스 GTX 1060은 이름만 놓고 보면 지포스 GTX 960의 후속작인것 같습니다. 그런데 가격 차이는 많이 나네요. GTX 960은 TSMC의 구닥다리(?) 28nm 공정으로 만들었으며 다이 면적은 228제곱mm입니다. GTX 1060은 최신인 16nm 공정에 다...

Date2016.07.17 분석 By낄낄 Reply17 Views27526

Read More
AMD의 새로운 GPU, 폴라리스의 전력과 회로 설계

CPU의 강력한 절전 기능을 탑재한 폴라리스 AMD가 발표한 새로운 GPU인 라데온 RX 400 (폴라리스) 패밀리의 회로 설계에서 가장 큰 특징은 CPU 수준의 절전 기술을 도입했다는 것입니다. 폴라리스는 AMD의 절전을 위한 최신 제어 기술이 ...

Date2016.07.15 분석 By낄낄 Reply12 Views2483

Read More
VR을 가속화하는 AMD의 폴라리스 아키텍처

높은 순위의 작업 스케줄링을 빠르게 AMD는 새로운 GPU인 라데온 RX 480에서 폴라리스 아키텍처 GPU의 프론트 엔드 제어 프로세서 군을 강화했습니다. 명령 프로세서 및 ACE (Asynchronous Compute Engine) 이외에 하드웨어 스케줄러 (Har...

Date2016.07.12 분석 By낄낄 Reply0 Views1264

Read More
쿨러마스터 MasterWatt Lite 500W 파워 분해

쿨러마스터 MasterWatt Lite 500W 파워의 분해 사진입니다. 쿨러마스터 마스터와트 라이트 시리즈는 400/500/600/700W의 4가지 모델이 있으며 액티브 PFC, 일제 캐패시터, 80Plus 화이트 인증이 특징입니다.

Date2016.07.11 분석 By낄낄 Reply5 Views907

Read More
AMD의 GCN 아키텍저, 그 진화의 방향성

AMD 폴라리스 아키텍처의 진화 포인트는 스케줄링 AMD는 라데온 RX 400 (Polaris) 시리즈의 GPU 아키텍처에서 하드웨어 스케줄러(Hardware Scheduler : HWS)를 도입했습니다. 이것은 GPU의 프론트 엔드에서 작업 스케줄링을 수행하는 하드...

Date2016.07.11 분석 By낄낄 Reply9 Views2752

Read More
과연 하이엔드 그래픽카드는 가격에 걸맞은 TIM을 도포하여 출고될까?

얼마 전에 구입한 1080 스트릭스를 가지고 오늘 이엠텍에 내방해 써멀 컴파운드 재도포를 했습니다. 비장의 곰써멀을 가져갔는데요, 사용한 지 얼마 되지 않았고 온도가 크게 높지는 않은데도 굳이 한 이유는 (곰써멀 https://giggleh...

Date2016.07.11 분석 ByVoxPopuli Reply8 Views1671

Read More
인텔 서버 전략의 핵심인 제온 파이와 FPGA

제온 파이 기반 시스템 구축을 위한 레퍼런스 개발 인텔은 14nm 프로세스 세대의 새로운 멀티 코어 프로세서인 나이츠 랜딩을 공식 발표했습니다. PCI-E 카드 기반 보조 프로세서인 기존의 제온 파이(나이츠 코너)와 달리, 나이츠 랜딩은 ...

Date2016.07.06 분석 By낄낄 Reply1 Views1374

Read More
호모지니어스 구성이 가능한 새 제온 파이. 나이츠 랜딩의 장점

마침내 정식 발표된 나이츠 랜딩 인텔은 멀티 코어 프로세서인 제온 파이의 신제품, 나이츠 랜딩(KNL)을 공식적으로 발표했습니다. 1개의 칩에 최대 72 코어를 탑재, 각 코어가 512비트 폭 벡터 유닛을 2개 갖춰고 32비트 단정밀도 부동 ...

Date2016.07.05 분석 By낄낄 Reply5 Views2073

Read More
No Image

RX480의 가격에 대한 분석

댓글을 달려다 글을 남깁니다. AMD는 RX 480의 리테일 가격을 $199+ 로 발표했습니다. 때문에 많은 분들이 저렴한 가격대를 기대하신것으로 알고 있습니다. 그러나 리테일 가격은 부가세를 제외한 면세 가격입니다. 미국은 주마다 개별 ...

Date2016.07.03 분석 ByMoria Reply21 Views1663

Read More
라데온 RX 480 정식 발표

AMD 라데온 RX 480이 발표됐습니다. 199달러라는 저렴한 가격에 우수한 VR 경험을 제공하는다는 게 컨셉. 라데온 RX 480은 코드네임 폴라리스를 사용하는 GPU로, 아키텍처 자체는 GCN에 속하지만 라데온 HD 7000이 1세대, 라데온 R9 290X...

Date2016.06.29 분석 By낄낄 Reply6 Views1760

Read More