컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2017.03.09 03:27

AMD가 말하는 라이젠을 위한 최적화 조언

조회 수 11493 댓글 14

Extra Form
참고/링크	http://www.4gamer.net/games/300/G030061/20170308070/

AMD 라이젠이 나왔습니다. 지금까지 AMD CPU에선 생각도 할 수 없을 정도로 성능이 좋긴 한데, 모든 점에서 인텔을 앞서는 것도 아니고 단점도 있는 건 사실입니다. https://gigglehd.com/gg/803464

GDC 2017에서 Ken Mitchell(Developer Technology Engineer, AMD)가 강연한 Optimizing for AMD Ryzen CPU는 바로 라이젠을 위한 소프트웨어 최적화에 대한 것입니다.

우선 라이젠의 명령어 셋트를 봅시다. 라이젠은 7세대 APU인 브리스톨 릿지에서도 지원하지 않았던 다수의 인텔 확장 명령어 셋트를 지원합니다. 예를 들어 덧셈을 연속으로 실행할 것을 고려하고 플래그를 취급하는 덧셈 명령인 ADX는 인텔이 브로드웰 세대에서 도입한 것인데 라이젠도 지원하기 시작했습니다.

반면 AMD 고유의 확장 명령어인 FMA4, TBM, XOP는 지원하지 않습니다. AMD CPU에서만 쓸 수 있으니 소프트웨어 개발자들이 지원에 소극적이었다고 합니다. 이들 명령 셋트는 지원이 중단되면서 앞으로 나올 AMD CPU에서도 보긴 어려울 것입니다.

또 한가지 흥미로운 화제는 라이젠의 캐시입니다. 라이젠은 코어마다 L1 명령 캐시 64KB, L1 데이터 캐시 32KB, L2 캐시 512KB를 갖추고, 4개의 코어가 8MB L3 캐시를 공유하는 CPU 컴플렉스(CCX)라는 구조를 씁니다. 8코어 모델인 라이젠 7이 2개의 CCX를 갖고 있으니 L3 캐시는 총 16MB가 됩니다.

라이젠 7의 캐시는 경쟁 상대보다 대역폭이 뛰어나지만 레이턴시는 떨어지는 결과가 나왓는데, AMD는 라이젠의 캐시가 경쟁 상대보다 뛰어나다고 주장했습니다. 그 이유는 L1, L2, L3 캐시의 레이턴시가 모두 낮기 때문이라고. 위 표에서 레이턴시는 4~40클럭 사이클로 결코 늦지 않습니다.

AMD가 제시한 결과를 보면 캐시 레이턴시는 라이젠과 인텔의 L1 데이터 캐시는 같고, L2에선 인텔이 낮지만 L3에선 라이젠이 낮습니다. 그럼 왜 벤치마크 결과 https://gigglehd.com/gg/820955 와는 다를까요? 그건 뭐 다른 이유가 있겠죠.

CPU 아키텍처와 성능 측정에 사용하는 명령을 표시한 슬라이드입니다. DF(데이터 패브릭)은 메모리 컨트롤러와 I/O를 중개하는 부분으로 CPU 코어 측 성능은 RDPMC 명령으로 볼 수 있습니다. 참고로 메모리 컨트롤러와 I/O 컨트롤러는 NDA가 걸려 있어서 공개 불가.

이제 본론이라고 해도 되겠네요. 라이젠엔 XFR이라는 기능이 있어 CPU 쿨러의 성능이 좋고 TDP에 여유가 있다면 부스트 클럭을 넢어서도록 동작이 가능합니다. 그런데 라이젠 7이 최대 부스트 클럭을 초과해서 작동하려면 8개의 CPU 코어 중 6개 이상이 C6 스테이트까지 떨어져야 합니다. C6은 딥 파워 다운이라 불리는 것으로 아이들 상태입니다. 즉 여러 코어에 적당한 부하가 가해지는 게임이나 애플리케이션에선 XFR의 작동 조건을 충족시켜 최대 부스트 클럭을 넘기가 어렵다고 합니다.

위 도표는 라이젠 7 1800X의 동작 클럭 패턴을 나타낸 것으로 ACPI P 스테이트가 3.6GHz, 3.2GHz, 2.2GHz의 3단계가 P3 스테이트이며 C 스테이트에 따라 4단계 부스트 클럭이 나오곤 합니다. 모든 코어가 활성화된 상태에선 부스트 클럭은 기본 클럭보다 고작 100Mhz 높은 3.7GHz며, 싱글 스레드 애플리케이션에선 최대 4.0GHz입니다.

또 라이젠의 성능은 운영체제의 전원 관리 설정과도 밀접한 관련이 있습니다. 윈도우 10의 전원 관리 탭에서 고성능으로 설정하면 모든 CPU 코어의 P 스테이트가 최고값인 P0으로 고정되고, OS 스케줄러도 전력 사용량을 따지지 않고 모든 CPU 코어를 사용하는 상태가 됩니다. 또 CPU 부하가 낮을 때 사용하지 않는 코어를 멈추는 코어 피킹 기능을 무효화합니다.

오른쪽 아래에서 '윈도우 10이라면 1ms 이하로 동작 클럭을 제어한다'는 말은 인텔 CPU에서도 마찬가지입니다.

그리고 전원 관리 옵션을 균형으로 설정하면 코어 피킹이 활성화돼, 피킹된 코어를 피해서 전력 효율을 높이도록 OS 스케줄러를 바꿉니다. 이 상태에선 CPU에 걸리는 부하가 높아져 코어 피킹을 해제하려 해도 최고 속도까지 올라가는 데 30ms가 걸립니다. 이는 AMD가 전원 관리 설정을 고성능으로 설정하라고 권장하는 이유입니다.

사실 코어 피킹으로 인한 성능 저하는 인텔 CPU에서도 충분히 가능한 이야기이기도 합니다.

동작 클럭, 바이오스, 윈도우 10의 설정에 대한 주의사항입니다. 바이오스에서 P-스테이트를 최고값인 P0, 코어 퍼포먼스 부스트와 글로벌 C 스테이트 컨트롤은 끄고, 윈도우 10의 전원 설정을 고성능으로 두라는 것. CPU의 전력 제어용 컨트롤러인 시스템 매니지먼트 유닛은 P0 스테이트에 고정 전력을 공급하게 합니다.

다음은 다이렉트 X 12입니다. https://gigglehd.com/gg/803181 여기서 말한 것도 있으니 간단히 요약하면 다이렉트 X 12를 쓰는 것만으로 CPU의 성능을 끌어내진 못한다네요. 다이렉트 X 12는 스레드 단위로 GPU 큐를 처리할 수 있어 멀티스레드 효율이 높아진다는 게 일반론이나, 꼭 그런 건 아니라고 합니다.

위 슬라이드는 마이크로소프트의 샘플 코드를 사용해 드로우 컨텍스트의 수와 성능을 표시한 것입니다. 드로우 수가 1025일 때 드로우 컨텍스트는 2~3으로, 더 늘려도 성능이 떨어진다고 합니다. 그리고 드로우를 10배로 늘려 10250개가 되면 드로우 컨텍스트는 7 정도가 최적의 값이 됩니다. 그 이상은 역효과를 낼 뿐.

드로우 컨텍스트 수는 stdafx.h에서 NumContexts라는 상수로 설정돼 있습니다.

그리고 AMD는 드로우 수를 300으로 나눈 값고, 스레드 수에서 1을 뺀 값을 비교해서 둘 중 작은 값을 드로우 컨텍스트 수로 쓰는 게 좋다고 해결책을 제시했습니다. 그럼 라이젠 7에서 SMT가 활성화되고 드로우 수가 크다면 드로우 컨텍스트는 15가 나오겠네요. 다만 이건 어디까지나 다이렉트 X 12를 대상으로 한 이야기며 다이렉트 X 11 게임과는 상관이 없습니다. 그리고 게임 개발자가 생각할 문제니까 일반 사용자와는 상관이 별로..

그리고 캐시에 미리 데이터를 불러오눈 프리페치 명령은 쓰지 않는 게 좋다고도 합니다. 라이젠의 캐시 시스템은 충분히 효율이 좋기에 프리패치를 쓰면 캐시 루프가 정상 작동하지 ㅇ낳는다고 하네요.

work()는 고정 루프로 프리페치가 없으면 컴파일러가 루프를 전개하나, 프리페치를 넣으면 루프가 돌지 않아 결과적으로 느려진다고 합니다.

프리페치 계열 명령 셋트는 AMD가 1998년에 나온 K6-2에서 처음으로 채택한 확장 명령 셋트인 3DNow!에 포함됐습니다. 이게 인텔 CPU에도 도입돼 윈도우 8이후에선 꼭 필요한 명령 셋트가 됐네요. AMD가 제안한지 19년이 지나서야 보급이 제대로 된 셈이지만.

AMD의 프로파일인 CodeXL의 라이젠 지원 버전은 조만간 발표할 거라고 하니 프로그래밍 하시는 분들은 https://github.com/GPUOpen-Tools/CodeXL 여길 참조.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '14'

?
슈민 2017.03.09 10:39

좋은 정보 감사합니다.
?
yamsengyi 2017.03.09 11:18

고생하셨습니다.
이거슨 로-우 한 레벨이군요 ㅎㄷㄷ
슬렌네터 Human is just the biological boot loader for A.I. 2017.03.09 11:21

어...음... 그니까 게임 개발자들은 저대로 하면 라이젠이 더 짱짱해진다는거겟죠!? -.-
벌레쟁이 이젠 울트라뽑는 하이브 2017.03.09 14:58

게임 개발자들이 건들건 DX하고 프리패치밖에 없겠네용.
아라 2017.03.09 12:42

역시 터보는 아무때나 터지진 않네요.
8300도 3.4~6이 기본이고 4.0 터보 보는게 손에 꼽을 정도니
Induky 자타공인 암드사랑 정회원입니다 (_ _) 2017.03.09 13:31

한번 고성능 모드로 했을때 얼마나 전력소모 차이가 나는지 봐야게쓰요
스이드림 이리와요. 해치지 않아요. 2017.03.09 14:27

XFR 동작 개념에 대한 자세한 정보가 궁금했엇는데 굳이 그 설명을 필요로 하지 않아도 되겠네요
실사용에서는 동작하는 경우가 거의 없을테니...

이러면 1700 상위 모델을 구매하는 이유가 없어지네요
벌레쟁이 이젠 울트라뽑는 하이브 2017.03.09 15:00

XFR이란건 완전히 터보부스트네요.
나머지 코어를 죄다 C6로 놓다니.
동전삼춘 2017.03.09 15:25

결국 동일코어, 동일쓰레드의 하위모델이 오버클럭만 잘 된다면, 굳이 상위모델을 살 이유가 1도 없는 셈이군요. 상위모델은 XFR이 빵빵 터지는 (1~2개 코어만 집중 사용하도록 프로그래밍된?)애플리케이션을 사용하는 사람에게 유리하겠구요.
?
중고나라VIP (5600x / RX6600XT) 원래 암드는 감성과 의리로 쓰는겁니다. 2017.03.11 13:57

라이젠 정식발표전에 실물을 갖고계셨던 분이 1800x, 1700x, 1700셋중에
무엇을 사겠냐고 질문을 받으셨을때, 주저없이 1700을 사겠다고 답변하신게
생각나네요. 전 xfr기능이 궁금해서 1700x를 샀는데 차이가 크지 않은듯ㅠㅠ
白夜2ndT 원래 암드빠의 길은 외롭고 힘든거에요! 0ㅅ0)-3 / Twitter @2ndTurning 2017.03.09 16:50

결론 : 절전기능 끄세여
.......으잉?!
?
야메떼 2017.03.09 16:53

USB절전이 코어파킹의 원인이라던데...
윈도에서 ?USB절전좀 빼면 안되나 싶네요..
워낙 에러도 많고 문제도 많이 발생하는 기능인데...
TundraMC 자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2017.03.09 23:07

과연 성장형 CPU군요.
바이오스 업댓으로 프레임이 2배넘게오른것으로도 모자라 제조사가 직접 최적화방법을 알려주다니
?
놀부심뽀 2017.03.10 15:46

ㅋ,,, 이런건 좀 무리다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

와...지름은 타이밍이랬는데..

지난번에 여차저차해서 구매절차에서 약간의 꼼수를 사용해서 구매를 하기로 했습니다 다만 결제라인을 태우는데 승인을 해줄 수 있는 담당자들(그중엔 저도포함)이 휴가와 맞물려 보류를 했습니다. 대상이 된 물품은 삼성전자 870 ...

Date2022.08.23 일반 ByAKG-3 Reply5 Views953

Read More
젠4 에픽, 젠3보다 싱글코어 성능 17% 향상?

젠4 아키텍처를 사용한 제노아 에픽 프로세서의 긱벤치5 싱글코어 성능이 젠3 에픽인 밀란보다 17% 가량 높습니다. 둘 다 3.5GHz의 속도로 실행됐는데 제노아는 싱글코어 1460점, 밀란은 1249점이 나왔습니다. 멀티코어 성능의 경우 코어 ...

Date2022.08.23 소식 By낄낄 Reply5 Views1545

Read More
TSMC N3E의 수율 공개. 계획했던 것보다도 높음

TSMC N3E 공정의 수율이 공개됐습니다. N3E는 N3의개선된 버전으로, 이 공정을 사용해 만든 SRAM의 수율이 N3을 넘어서 256Mb SRAM 기준 80%에 도달했다고 합니다. 또 모바일/HPC 테스트 칩의 수율도 80%, 링 오실레이터의 수율은 92% 이...

Date2022.08.23 소식 By낄낄 Reply16 Views4710

Read More
독일에서 삼성 SSD의 RMA 전에 드라이브를 파괴해 달라고 요구

독일에서 삼성 980 프로 2TB SSD의 RMA를 요청했더니, 보내기 전에 구멍을 내거나 망치로 깨달라는 답변을 들었다고 합니다. 사용자의 민감한 데이터가 유출되지 않도록 보호하기 위해서라네요. 일반적으로 RMA는 '멀쩡해 보이는 상...

Date2022.08.23 소식 By낄낄 Reply4 Views2281

Read More
No Image

기글 회원님들 안녕하세요 배우는 초보가 질문드립니다 조카가 준 라이젠7 2700 을 사용중인데 라이젠 3600으로 교체하면 성능향상 문의 드려요 감사합니다

램 16기가 그래픽 1070 ssd 500기가 입니다

Date2022.08.23 질문 Bywnsduddl Reply23 Views755

Read More
AMD, 알데바란 CDNA2, 인스팅트 MI200의 MCM GPU 블럭 다이어그램을 공개

AMD가 핫 칩스 34 컨퍼런스에서 알데바란 CDNA2, 인스팅트 MI200의 MCM GPU 블럭 다이어그램을 처음으로 공개했습니다. 알데바란은 AMD 최초로 MCM 기술을 사용하는 GPU입니다. 베가를 더욱 발전시킨 CDNA2 아키텍처를 도입해 FP64 성능...

Date2022.08.23 소식 By낄낄 Reply2 Views1311

Read More
중국 바이런의 BR100, 세계에서 가장 강력한 GPU

핫 칩스에서 중국 바이런이 BR100 GPU의 상세 정보를 발표했습니다. AI 처리 분야에선 NVIDIA A100보다도 빠르다고 합니다. TSMC 7nm 공정 제조, 770억 개의 트랜지스터, 2.5D CoWoS 패키징, 300MB 온 칩 캐시, 2.3TB/s의 메모리 대역폭...

Date2022.08.23 소식 By낄낄 Reply5 Views1617

Read More
NVIDIA 호퍼 H100 GPU, 4세대 텐서 코어로 최대 2배 빠른 속도

NVIDIA 핫 칩스 34 컨퍼런스에서 호퍼 H100 GPU의 상세 정보를 공개했습니다. 호퍼는 모놀리식 디자인(1개의 대형 다이)을 사용합니다. NVIDIA에 최적화된 TSMC 4N 공정으로 만든 가장 큰 GPU지요. HBM3 메모리와 800억개의 트랜지스터, ...

Date2022.08.23 소식 By낄낄 Reply2 Views1270

Read More
인텔 폰테 베키오 GPU의 성능, NVIDIA A100보다 최대 2.5배

인텔이 핫 칩스 컨퍼런스에서 폰테 베키오 GPU에 대해 설명했습니다. 폰테 베키오 GPU는 1개의 QAM 모듈부터 시작해 Xe 링크를 지닌 4웨이 시스템까지 있으며, 2소켓 사파이어 래피드 제온 프로세서와 함께 사용합니다. 1개의 OAM은 2스...

Date2022.08.23 소식 By낄낄 Reply4 Views1836

Read More
NVIDIA 4nm 그레이스 CPU의 성능

NVIDIA는 작년에 서버용 프로세서인 그레이스를 발표했습니다. 144개의 Arm 코어로 구성된 이 프로세서의 상세 정보가 핫 칩스 컨퍼런스에서 공개됐는데요. SPECrate2017_int_base에서 740점으로 기존의 x86이나 Arm 프로세서를 월등하게 ...

Date2022.08.23 소식 By낄낄 Reply1 Views927

Read More
No Image

내년 TSMC 45/28nm 공정 단가는 6%가 아닌 3% 상승?

반도체 공급 부족 현상이 나아진 것처럼 보이지만, 아직까지는 여유를 부릴 수 없는 것 같습니다. 제조사들은 TSMC에 발주한 45nm와 28nm 공정의 주문을 줄일 생각은 감히 내지 못하고, 내년의 가격 인상폭을 6%에서 3%로 줄여 달라고 협...

Date2022.08.23 소식 By낄낄 Reply1 Views537

Read More
스티브 잡스가 쓴 애플 1 프로토타입이 70만 달러에 판매됨

스티브 잡스가 쓴 애플 1 프로토타입이 경매에서 677,196달러에 낙찰됐습니다. 이 물건은 컴퓨터 매장에서 애플 1을 시연하는데 쓰다가 애플 창고에 보관됐고, 30년 전에 스티브 잡스가 판매자에게 줬다고 합니다.

Date2022.08.23 소식 By낄낄 Reply1 Views553

Read More
인텔 메테오레이크, 애로우레이크, 루나레이크의 3D 칩 패키징 기술 도입

인텔이 핫 칩스 34 컨퍼런스에서 3D 포베로스 칩 디자인의 세부 정보를 공개했습니다. 인텔 메테오레이크의 내장 그래픽이 TSMC 3nm에서 5nm로 바뀌면서, 설계를 수정할 시간이 필요해 출시가 늦어진다는 소문이 있었습니다. 하지만 인텔...

Date2022.08.23 소식 By낄낄 Reply7 Views1614

Read More
메테오레이크의 GPU Tile은 N5로 확정된 듯 합니다.

N3으로 제조되느니, N5로 바뀌었다느니 말이 많았는데, 결국 N5가 맞는 듯 하네요. - CPU: Intel 4 - GPU: TSMC N5 - SOC: TSMC N6 - IO: TSMC N6 - Base interposer: Intel 22FFL 아울러 메테오레이크는 본격적으로 3D 포베로스...

Date2022.08.23 소식 By류오동 Reply1 Views534

Read More
인텔, IoT용 앨더레이크-PS 프로세서 출시

인텔이 IoT 디바이스를 위한 저전력 프로세서인 앨더레이크-PS 시리즈를 출시했습니다. BGA 패키징, 최대 14코어 20스레드, 인텔 7 공정 등 기본적인 스펙은 12세대 모바일 버전과 비슷해 보입니다. 전력 사용량은 기본 45W, 60W로 조절 ...

Date2022.08.23 소식 By낄낄 Reply1 Views424

Read More