컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2016.07.11 15:24

AMD의 GCN 아키텍저, 그 진화의 방향성

조회 수 2752 댓글 9

Extra Form
참고/링크	http://pc.watch.impress.co.jp/docs/colum...09584.html

AMD 폴라리스 아키텍처의 진화 포인트는 스케줄링

AMD는 라데온 RX 400 (Polaris) 시리즈의 GPU 아키텍처에서 하드웨어 스케줄러(Hardware Scheduler : HWS)를 도입했습니다. 이것은 GPU의 프론트 엔드에서 작업 스케줄링을 수행하는 하드웨어입니다. 지금까지의 GPU의 경우 상위 작업 수준의 스케줄링은 CPU에서 소프트웨어로 처리했습니다.

라데온 RX 480 (Polaris 10)의 프론트 엔드. 하드웨어 스케줄러가 더해졌습니다.

이로 인해 AMD GPU는 대기 시간이 짧고 신속하게 작업 스케줄링이 가능하며, 실시간 태스크의 실행 등 다양한 스케줄링을 할 수있습니다. GPU에서 다수의 컴퓨팅 작업과 그래픽스 태스크를 병행 실행하기가 쉬워졌습니다. 또한 큰 흐름에서 보면 하드웨어 스케줄러의 탑재는 GPU를 CPU에 예속시키는 보조 프로세서의 위치가 아닌, 보다 독립적인 프로세서로 진행하게 됐습니다.

하드웨어적으로 보면 GPU 프론트 엔드의 명령 프로세서(Command Processor : CP) 군이 더욱 복잡해졌습니다. AMD는 구조적으로 GPU의 이 부분에 주력하고 있습니다. 더 크기가 작은 작업을 병렬로 여럿 실행시킬 수있는 아키텍처로 나아가는 개혁을 추진하고 있습니다.

GPU의 사령탑인 명령 프로세서

GPU는 간접 프로그래밍 모델을 사용합니다. CPU에서 실행하는 GPU의 디바이스 드라이버 소프트웨어 스택은 다양한 GPU의 제어를 실행합니다. 디바이스 드라이버 상위 언어에서 GPU의 네이티브 명령으로 컴파일하지만, 그것 외에도 OS가 드라이버를 통해 GPU의 다양한 제어를 수행합니다. 기존의 GPU는 다양한 제어를 CPU에 맡기고 있기에, 실시간 처리가 필요한 작업 스케줄링은 어렵습니다.

여기에서 중요한 것이 명령 프로세서입니다. 명령 프로세서는 GPU 특유의 프로세서로 GPU의 프론트 엔드에 해당합니다. CPU 측의 디바이스 드라이버에서 생성된 명령 스트림은 메모리에서 명령 버퍼에 기록합니다. 명령 버퍼는 GPU 측에서 자동으로 인출됩니다. 이 때 GPU에서 명령을 페치하는 하드웨어가 명령 프로세서입니다. 명령 프로세서는 명령 스트림을 가져 오는 작업 그룹을 생성하고 그것을 AMD GPU의 실행 단위인 CU(Compute Unit)에 파견합니다.

AMD GPU의 실행 모델

AMD GPU의 흐름

AMD의 CU는 다수의 쉐이더 엔진을 구성하고 배차 쉐이더 엔진에 작업 그룹을 할당합니다. 쉐이더 엔진은 작업 그룹 중에서 실행하는 쓰레드를 배치하는 웨이브 프론트를 실행합니다. 쉐이더 엔진에서 실행된 웨이브프론트는 각각의 CU로 보내져어 실행된니다.

명령 프로세서는 GPU의 파이프 라인에서 최상위 프론트 엔드를 맡는 하드웨어입니다. GPU 내 연산 코어 군이 악기를 연주하는 오케스트라라면 그것을 제어하는 명령 프로세서는 지휘자에 해당합니다.

폴라리스 10의 쉐이더 엔진

전통적으로 명령 프로세서는 GPU가 수행하는 모든 작업을 처리합니다. 복잡한 제어를 위한 다양한 기능을 갖추고 있지요. GCN 아키텍처의 경우 명령 프로세서는 메모리와 캐시의 읽기, 아토믹 오퍼레이션 온 칩 공유 메모리인 GDS를 읽고 쓰는 그래픽 제어 흐름의 실행 및 기타 커널 출시에 필요한 것은 모두 실행합니다.

또한 명령 프로세서는 쉐이더 엔진에 디스패치 워크 그룹을 추적하여 동기화 등을 제어합니다. 지금의 AMD GPU 세대의 경우 선점에 의한 컨텍스트 스위칭을 제어합니다. 또한 명령 프로세서 자체는 프로그램에서 펌웨어를 실행시킵니다.

라데온 RX 480(폴라리스 10)의 전체 구성

명령 프로세서의 실체는 사용자 정의 마이크로 컨트롤러

복잡하고 강력한 명령 프로세서의 실체는 사용자 정의된 마이크로 컨트롤러 (MCU)입니다. 아래는 AMD가 GCN 아키텍처 발표 후 개최한 2012 년의 AMD Fusion Developer Summit(AFDS)에서 나온 슬라이드입니다. AFDS에서 설명하길, 때로는 CPU처럼 일반적인 명령 세트를 갖춘 임베디드 MCU가 명령 프로세서로 구현되어 있다고 하네요.

GCN의 첫번째 세대 명령 프로세서

즉, 병렬 프로세서인 GPU의 쉐이더 코어와는 별도로 스칼라 코어 제어 명령 프로세서로 GPU에 탑재된 것입니다. 벡터 명령은 GPU 코어로 GPU 전체와 쉐이더 어레이를 제어하는 스칼라 명령은 명령 프로세서에서 실행합니다. 이전의 GPU는 전체 칩에서 1개의 명령 프로세서를 탑재하고 있었습니다. 그러나 AMD는 GCN 아키텍처가 된 이후 명령 프로세서의 강화를 추진해 왔습니다.

명령 프로세서는 그래픽스 태스크와 컴퓨팅 작업을 모두 처리할 수 있습니다. 그러나 AMD는 GPU의 범용화를 목표로하는 가운데, 많은 컴퓨팅 작업을 병렬로 실행할 수 아키텍처를 쓰는 것이 중요하다고 판단했습니다. 그래서 기본 명령 프로세서 외에 컴퓨팅 작업 전용 명령 프로세서 ACE (Asynchronous Compute Engine)를 넣었습니다. CPU에 빗대 설명한다면 명령 프로세서를 멀티 코어 화한 것이 GCN입니다.

GCN은 그래픽스 태스크와 컴퓨팅 작업을 동시에 처리할 수 있게 됐습니다.

ACE는 명령 프로세서의 기능 한정판

ACE의 실체는 명령 프로세서의 기능 축소 버전입니다. GPU 컴퓨팅 작업만을 처리하도록 제한된 것이죠. 현재 ACE는 각각 최대 8 개의 작업 큐를 생성할 수 있으며, 여러 명령 스트림을 처리할 수 있습니다. 말하자면 각 ACE가 각각 8 스레드를 실행하는 멀티 스레드 코어와 같은 구성으로 되어 있다고 Mike Mantor(Senior Fellow Architect, RTG, AMD)는 비유합니다. 즉, AMD는 프론트 엔드의 제어 MCU를 멀티 코어화 하면서 멀티 스레딩으로 (실제로는 큐를 바꾸는 것만) 확장도 수행한 것입니다.

GCN 아키텍처 발표 시 ACE의 설명. 실시간 스케줄링과 컨텍스트 스위칭이 포함됩니다.

AMD의 APU 13 당시의 슬라이드. 여기에는 일부 잘못된 내용이 있는 데, 웨이브 프론트를 보내는 것이 ACE는 아니라네요.

8 태스크 큐를 가진 ACE를 늘려 더 많은 컴퓨팅 작업을 시작하고 관리할 수 있게 됩니다. 지금은 하이엔드 AMD GPU에서 1 명령 프로세서 + 8ACE 미드 레인지, AMD GPU에서 1 명령 프로세서 + 4ACE로 균형을 잡았습니다. 컴퓨팅을 중시하는 경우는 ACE의 수를 늘립니다. AMD GCN 아키텍처의 PS4가 미들 레인지 급의 GPU에 8개의 ACE를 조합한 것은 PS4의 목적을 명확하게 보여주고있습니다.

AMD는 계속해서 프론트 엔드의 강화를 계속하고 있습니다. 현재 GCN 아키텍처의 경우 주요 일반 명령 프로세서가 1개, 컴퓨팅을위한 ACE의 수는 GPU의 크기에 따라 최대 8개입니다. 또한 명령 프로세서 / ACE를 제어하는 GPU의 실행 모드도 확장하고 선제 컨텍스트 스위치를 지원하게 됐습니다.

대략적으로 말하면 명령 프로세서 / ACE와 그 하류의 구조는, GPU의 내부에서 작업을 분해한 후 스케줄링을 제어하는 것입니다. 또한 명령 프로세서 / ACE 자체는 작업 큐에서 인출할 때 작업의 우선 순위 제어 및 실시간 제어를 수행하는 스펙이 됐습니다. 그러나 GPU에 전달하는 단계에서 작업 단위 예약 및 제어 우선 순위와 실시간 처리는 지금까지 드라이버 쪽에서 제어했습니다.

새로운 컨트롤러 코어가 2개 추가

AMD의 최신 폴라리스 아키텍처는 명령 프로세서 및 ACE 이외에 두 개의 하드웨어 스케줄러 코어가 추가됐습니다. 하드웨어 스케줄러는 명령 프로세서 및 ACE가 핸들 작업 스케줄링 제어만을 전용 수행합니다. 하드웨어 스케줄러는 2개이며, 동시에 2 콘텍스트의 스케줄링을 처리할 수 있다고 AMD는 설명합니다. 물리적으로 하드웨어 스케줄러도 새로운 마이크로 컨트롤러이라고 추측됩니다.

AMD는 GCN 아키텍처가 되면서 ACE를 탑재해 더 세밀하고 작은 GPU 컴퓨팅 작업도 효율적으로 병렬 실행할 수 있도록 했습니다. ACE를 늘려 병렬 실행할 수 있는 작업의 수를 늘렸습니다. 또한 선제 컨텍스트 스위칭을 지원함으로써 GPU 리소스 분할을 쉽게 할 수 있도록 했습니다. 현재 AMD GPU는 그래픽과 컴퓨팅 모두에서 커널 프로그램의 실행 도중에 작업을 중단하고 작업을 전환할 수있습니다.

그러나 컨텍스트의 양이 많은 GPU의 경우 선제 컨텍스트 스위칭은 스토어 / 복원의 지연 시간이 상대적으로 길어 다용도로 쓸 수 없습니다. 따라서 GPU에서 많은 작업을 원활히 실행할 경우에는 고급 스케줄링이 필요합니다. GPU의 자원을 작업의 중요도에 따라 유연하게 할당하는 구조 말이죠.

원래 AMD GCN의 ACE는 기능적으로는 우선 순위 스케줄링과 실시간 스케줄링을 할 수 있습니다. 그러나 지금까지는 그러한 스케줄링을 행하는 경우, 일정을 제어하는 프로그램을 CPU 쪽에서 실행했습니다. 따라서 GPU의 상태에 따라 레이턴시를 낮추기가 어려웠습니다.

폴라리스 하드웨어 스케줄러는 이러한 문제를 해결하는 구조입니다. GPU에서 작업 스케줄링을 실행하며, 명령 프로세서와 ACE를 제어하는 새로운 컨트롤러입니다. 작업에 따라 우선 순위 제어를 행하고, 레이턴시가 중요한 작업이 우선적으로 낮은 지연 시간에 실행되도록 제어합니다. 또한 실시간 처리가 필요한 작업은 GPU 자원을 고정적으로 예약해 응답성을 확보합니다. 이러한 제어를 GPU 측의 컨트롤러만으로 행하는 것이 하드웨어 스케줄러입니다.

GPU의 소프트웨어 / 하드웨어의 전체 흐름을 보면 하드웨어 스케줄러는 CPU 측에서 실행하는 커널 모드 드라이버의 처리 중 일부를 GPU 측의 마이크로 컨트롤러에 옮겨온 것입니다. CPU와 GPU의 역할 분담 중 GPU 측의 몫이 늘어났습니다. GPU 하드웨어가 더 한층 진화한 것을 나타내는 아키텍처입니다. 또한 GPU의 프론트 엔드를 지속적으로 확장해 온 AMD 아키텍처에서는 당연한 목표라 할 수 있습니다.

프론트 엔드에 2개의 하드웨어 스케줄러를 더한 폴라리스 아키텍처

하드웨어 스케줄러는 오른족의 우선 순위 큐가 낮은 레이턴시로 작동

삭제 요청

TAG •

Prev 노트북 바이오스 질문드립니다. 노트북 바이오스 질문드립니다. 2016.07.11by 야메떼 DRAM 메모리 가격이 오를 것 Next DRAM 메모리 가격이 오를 것 2016.07.11by 낄낄

목록 스크랩

위로 아래로 댓글로 가기

Comments '9'

?
SST 2016.07.11 15:36

굉장히 복잡한데 이거만드느라 사골한거같은 느낌,,
?
MadDOg 2016.07.11 15:37

ACE를 더 늘려서 컴퓨팅과 그래픽 처리를 더 유연하게 했군요
Kreest 2016.07.11 16:39

유익한 정보네요. 잘 읽었습니다.
?
퀘윈 2016.07.11 18:34

응용만 잘하면 많은 가능성을 가지겠군요.
그나저나 주제가 HSA랑도 관련이 있어 보이네요
?
sdhm 2016.07.11 21:19

HSA를 적극적으로 밀고 있고, PS4나 엑박원 같은 콘솔 환경에서는 이미 활용하고 있으니까요.
다만, 데탑과 노트북 환경에서는 HSA가 필요한 경우가 그리 많지 않아서 이런 기능들이 잘 어필이 되지 않은 것도 있습니다.
하루살이 2016.07.11 22:15

역시 컴퓨팅 향상을 주력으로 개발되고 있군요, 기존 GCN보다 유연성이 올라간 것 같은데 시간이 지나면 더 포텐셜이 발휘될것 같은 느낌입니다.
노비스 the last resort 2016.07.11 22:33

HSA를 염두에 둔 설계인 것 같습니다. 다만 점유율이 올라야 의미가 좀 더 있을텐데...
Fintale 2016.07.12 14:37

조금더 시간이 지나면 빛을 볼거같은데...
frostornge blockchain 2016.07.15 19:18

차세대 APU의 발판인걸까요..

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

커세어 ML 시리즈 쿨링팬

커세어 ML 시리즈 쿨링팬입니다. 120mm는 24.99달러, LED는 27.99달러. 140mm는 29.99달러, LED는 34.99달러. 마찰과 소음을 줄인 Magnetic Levitation bearing 사용이 특징. 120mm는 회전 속도 400~2400rpm, 풍량 12~75CFM, 풍압 0.2~4.2...

Date2016.07.12 소식 By낄낄 Reply0 Views542

Read More
No Image

이제 RX480 앞에는 광산노동자의 운명만이 남았군요.

껄껄껄... 저처럼 고장난 김에 산 사람, AMD 팬심으로 산 사람, 초장부터 개척한 아방가르드들은 독박을 썼습니다. 으헤헤헤헤헤 초기 프리미엄 조차도 떼고 들어오는 수준이라니 이런 초강수를 둘 줄이야... ㄷㄷㄷ

Date2016.07.12 일반 ByRuBisCO Reply5 Views571

Read More
No Image

A당과 N당의 레퍼런스 전략

양사에서 2016년 새 그래픽카드 라인업을 발표함에 따라, 첫시기에 발표되는 레퍼런스 카드에 대한 관심도 높아졌는데요. 과거엔 그리 큰 차이가 있다고 보기 힘들었지만, 올들어 뚜렷하게 드러난 변화를 슬쩍 보겠습니다. A당 - 레퍼런...

Date2016.07.12 일반 ByMoria Reply18 Views1211

Read More
삼성 850 EVO 4TB SSD의 가격과 스펙

삼성 850 EVO 4TB SSD의 가격과 스펙입니다. 가장 중요한 가격은 1499달러라네요. 비싸긴 한데 워낙 대용량이니.. 뭐 하드디스크 수준의 용량인데 이 정도면 아주 비싼 건 아닐지도. 다른 스펙은 아래서 소개한대로, 그리고 850 EVO가 그...

Date2016.07.11 소식 By낄낄 Reply5 Views1326

Read More
라데온 16.7.2 드라이버 공개

라데온 16.7.2 드라이버가 공개됐습니다. 16.7.1에서 출고 기본값으로 복구한 후, 새로 추가된 호한성 모드를 적용했을 때 재시작이 잘 안 되던 버그를 수정했네요. 그 외에 다수의 알려진 문제를 수정. 64비트: https://www2.ati.com/dri...

Date2016.07.11 소식 By낄낄 Reply1 Views427

Read More
쿨러마스터 MasterWatt Lite 500W 파워 분해

쿨러마스터 MasterWatt Lite 500W 파워의 분해 사진입니다. 쿨러마스터 마스터와트 라이트 시리즈는 400/500/600/700W의 4가지 모델이 있으며 액티브 PFC, 일제 캐패시터, 80Plus 화이트 인증이 특징입니다.

Date2016.07.11 분석 By낄낄 Reply5 Views907

Read More
No Image

노트북 바이오스 질문드립니다.

최근에 중고로 노트북을 샀는데.. 기능상에 문제는 없으나 바이오스에 비번이 걸려서 진입이 되지 않습니다. 근데 비번이 걸린건 바이오스이고 윈도우 정상부팅이 되서 쓰는데는 지장이 없습니다. 하지만 추후에 포멧을 하거나 운영...

Date2016.07.11 질문 By야메떼 Reply2 Views5856

Read More
AMD의 GCN 아키텍저, 그 진화의 방향성

AMD 폴라리스 아키텍처의 진화 포인트는 스케줄링 AMD는 라데온 RX 400 (Polaris) 시리즈의 GPU 아키텍처에서 하드웨어 스케줄러(Hardware Scheduler : HWS)를 도입했습니다. 이것은 GPU의 프론트 엔드에서 작업 스케줄링을 수행하는 하드...

Date2016.07.11 분석 By낄낄 Reply9 Views2752

Read More
No Image

DRAM 메모리 가격이 오를 것

2014년 10월부터 2016년 6월까지 메모리 가격은 62%가 떨어졌습니다. 이에 따라 삼성과 SK 하이닉스는 DRAM 투자를 줄이고 수익이 더 높은 낸드 플래시에 집중하기로 했는데요. 그 결과는 DRAM 메모리 가격의 인상으로 이어졌습니다. DRAM...

Date2016.07.11 소식 By낄낄 Reply6 Views915

Read More
과연 하이엔드 그래픽카드는 가격에 걸맞은 TIM을 도포하여 출고될까?

얼마 전에 구입한 1080 스트릭스를 가지고 오늘 이엠텍에 내방해 써멀 컴파운드 재도포를 했습니다. 비장의 곰써멀을 가져갔는데요, 사용한 지 얼마 되지 않았고 온도가 크게 높지는 않은데도 굳이 한 이유는 (곰써멀 https://giggleh...

Date2016.07.11 분석 ByVoxPopuli Reply8 Views1671

Read More
EVGA, GTX 1080/1070용 하이브리드 수냉 쿨러

EVGA가 지포스 GTX 1080과 GTX 1070을 위한 하이브리드 수냉 쿨러를 119.99달러에 판매합니다. EVGA ACX 3.0 시리즈 지원, 120mm 라디에이터, 구리 워터블럭, 메모리와 전원부에 블로워 팬 사용. 라디에이터 크기 121x152.5x27.5mm, 튜브...

Date2016.07.11 소식 By낄낄 Reply1 Views1463

Read More
커세어 K70 LUX RGB 기계식 키보드

커세어 K70 LUX RGB 기계식 키보드입니다. 가격 169.99달러, 체리 MX RGB 스위치, 크기 436x165x38mm, 무게 1.2kg. RGB를 뺀 일반 체리 MX 스위치를 탑재한 K70 LUX는 129.99달러, 체리 MX RGB 기반이나 키패드가 없는 텐키레스 모델인 K6...

Date2016.07.11 소식 By낄낄 Reply0 Views1137

Read More
삼성 SSD 850 EVO 4TB

삼성 SSD 850 EVO 4TB 모델이 출시됐습니다. 일반 소비자용 SSD 중에선 최초의 4TB SSD. 3D V-NAND TLC 낸드 플래시, MHX 컨트롤러, 4GB LPDDR3 캐시, 순차 읽기 540MB/s, 쓰기 520MB/s, 랜덤 읽기 98000 IOPS, 쓰기 90000 IOPS, MTBF 150...

Date2016.07.11 소식 By낄낄 Reply2 Views1005

Read More
GTX 1060 스펙 확정, GP106 코어

NVIDIA GeForce GTX 1060의 최종 스펙이 확정되었습니다. GTX 1060은 GeForce 10 시리즈중 가장 최근의 카드이며, 16nm FinFET 공정을 사용하여 전세대에 비해 성능과 효율면에서 큰 향상을 보여줄 것입니다. 게임시장을 타겟으로 하고 ...

Date2016.07.10 소식 ByMoria Reply3 Views2010

Read More
RX 480의 전력 소비 감소 드라이버, 성능도 감소

라데온 소프트웨어 크림슨 에디션 16.7.1 핫픽스에 Compatibility Mode가 추가됐습니다. 이게 바로 RX 480의 전력 사용량을 줄여주는 작동 모드가 되는데요. AMD는 이번 드라이버가 전력 사용량 감소 외에도 최대 3%의 성능 스ㅏㅇ승 효...

Date2016.07.10 소식 By낄낄 Reply9 Views1589

Read More