인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2017.05.19 15:27

볼타 세대의 GPU에 맞춰 진화한 CUDA 9의 개선점

조회 수 3124 댓글 6

Extra Form
참고/링크	http://www.4gamer.net/games/076/G007660/20170518044/

GTC 2017에서 NVIDIA의 차세대 아키텍처인 볼타, 그리고 볼타를 사용한 GPU인 GV100이 발표됐습니다. 그리고 볼타 세대 GPU체는 새로운 CUDA인 CUDA 9이 쓰입니다.

이 CUDA 9에 대해 설명하는 세션인 CUDA 9 and Beyond가 Mr. CUDA라고도 불리는 Mark Harris(Chief Technologist GPU Computing, NVIDIA)에 의해 열렸습니다.

CUDA 9의 새로운 요소 1. 텐서 코어의 지원

CUDA 9의 새로운 특징은 위 4개를 꼽을 수 있습니다. 볼타 플랫폼 지원이라 써져 있으나 CUDA 9는 기존의 NVIDIA GPU도 지원합니다.

첫번재 새로운 요소는 볼타 세대 GPU에 탑재되는 텐서 코어(Tensor Core)의 지원입니다. 텐서 코어가 무엇인가에 대해서는 https://gigglehd.com/gg/1076083 여기에서 설명했으니 여기에선 간단히 소개하고 넘어가지만, 머신 러닝 AI에서 많이 쓰이는 대규모 행렬 계산이나 연산에 유용한 전용 연산 유닛입니다.

텐서 코어가 수행할 수 있는 가장 기본적인 계산은 4x4 행렬의 연산입니다.

볼타 세대 GPU는 4x4 행렬 계산을 두 세트로 묶어 하나의 Warp에서 처리할 수 있습니다.

볼타는 16x16 행렬 연산을 16개의 Warp로 분해해 실행합니다. CUDA 9는 WMMA(Warp Matrix Multiply and Accumulate)이라는 새로운 데이터 타입(계산 모델)을 이용해 거대한 크기의 행렬 계산을 할 수 있습니다. 물론 Warp로 분해해서 처리할 수 있습니다. 위 슬라이드는 8x8 행렬 계산인데 WMMA를 이용해 4x4 행렬로 분해해서 연산했습니다.

WMMA를 대상으로 한 로드/스토어 명령을 새로 만들어, 행렬 형태의 데이터를 Warp의 데이터 스레드에 배포하거나 반대로 메모리에 내보낼 수 있습니다.

CUDA 9 WMMA를 이용해 거대한 행렬 계산을 했을 때의 처리 능력을 볼타 GV100과 파스칼 GP100에서 비교했습니다. 볼타 세대의 GPU는 기존에 없던 행렬 계산 전용 프로세서인 텐서 코어가 있어 압도적인 성능 차이가 납니다. 이 그래프는 CUDA의 수학 라이브러리인 cuBLAS에서 GEMM(GEneral Matrix-matrix Multiplication)의 성능을 비교한 것인데 FP32에서 1.8배, FP16에서 9.3배 차이가 납니다.

CUDA 9의 새로운 요소 2. 데이터 스레드의 자유로운 그룹화

CUDA 9의 두번째 특징은 볼타 세대 이전, 구체적으로는 케플러~파스칼 세대 GPU에 도움을 주는 기능입니다. Warp를 원하는 크기로 그룹으로 나눠, 그룹 사이에 동기화하는 것이죠. NVIDIA GPU에서 일반적인 1 Warp는 32개의 데이터 스레드가 되는데, 이를 4개의 데이터 스레드로 구성된 8개의 그룹으로 나눌 수 있습니다.

그리고 이렇게 나뉘어진 데이터 스레드는 특정 그룹끼리 동기화를 할 수 있습니다. 그룹별로 처리하는 GPU가 다른 멀티 GPU 환경에서도 CUDA 9가 명시적인 동기화를 취할 수 있는 것입니다.

CUDA 8까지는 데이터 스레드의 처리가 끝난 시점을 동기화하는 시기로 잡았으나, cUDA 9는 개발자가 동기화 지점을 명시적으로 만들 수 있습니다. 또 데이터 스레드 동기화는 데이터 스레드 단위, Warp나 그보다 더 작은 수의 데이터 스레드로 구성된 그룹 사이의 동기화, 멀티 GPU 사이의 데이터 스레드 그룹 동기화가 가능합니다.

일반적인 GPU의 명성 실행은 SIMT(Single Instruction Multiple Threads). 하나의 명령으로 여러 데이터 스레드를 처리합니다. 다른 데이터 스레드에 같은 메모리 어드레스 데이터가 포함돼 있고, 거기에 대한 작업을 병렬로 실행한 경우 명시적인 동기화 지정이 불가능했습니다. CUDA 8 이전에는 동기화의 개념이 없어 모든 데이터 스레드에 대한 처리가 끝나면 종료시키는 구조였습니다. 그래서 예상한 결과가 나오지 않거나 디버깅하기 힘든 버그를 초래하기도 했지요.

CUDA 9는 데이터 스레드 단위부터 GPU 단위까지 다양한 단위로 동기화를 할 수 있습니다. 그래서 기존의 문제를 해결함은 물론, 파스칼 세대 이전 GPU에서도 사용할 수 있다는 게 큽니다.

명시적인 데이터 스레드 동기화는 복잡한 데이터 스레드의 병렬 실행을 안전하게 할 수 있는 구조입니다.

CUDA 9의 새로운 요소 3. 데이터 스레드 사이에 데이터를 보거나 작성 가능

동기화 기능은 파스칼 세대 이전 GPU에서도 쓸 수 있으나, 역시 볼타 세대 GPU에서 위력을 발휘합니다. 그리고 이것이 CUDA 9의 세번째 특징입니다. 볼타 세대 GPU는 데이터 스레드의 동기화는 물론이고, 데이터 스레드 사이에 메세지를 교환하거나 데이터 참조가 가능합니다.

A, B, C라는 세가지 목록 구조 데이터가 있고, A와 C에 GPGPU 처리가 이루어지고 있다고 칩시다. 처리 자체에는 문제가 없습니다. 그런데 A와 C는 서로의 메모리 어드레스를 참조하는 목록 구조의 데이터고, 거기에 다른 목록 구조의 데이터인 B를 통합하려 합니다. 목록 구조 데이터를 재조합한 다음 데이터를 지시 포인터(메모리 어드레스 값)에 재작성하기에, 포인터 갱신이 다른 GPGPU 처리에서 무시되지 않도록 A촤 C를 잠궈야 합니다.

그리고 A촤 C 사이에 B가 오도록 포인터를 갱신하고.

데이터 쓰기가 끝나면 잠금을 해제합니다. 이런 처리를 실현하려면 데이터 스레드에 여러 작업을 할 필요가 있으나, CUDA는 그런 처리는 하지 않는다는 전제로 설계한 플랫폼입니다.

파스칼 세대 이전의 GPU에선 하나의 Warp(데이터 스레드 32개)에 대해서 프로그램 카운터와 스택 포인터가 하나씩밖에 없었습니다. 프로그램 카운터가 가리키는 메모리 어드레스에 저장된 명령을 여러 데이터에 수행할 수밖에 없었지요.

그래서 조건 분기 프로그램 명령이 실행됐을 때, if 조건을 충족하는 데이터 스레드에 대해서만 A; 와 B; 작업을 수행하고, 그렇지 않은 else 조건의 데이터 스레드에는 X;와 Y; 작업을 수행하는 방식으로 여러 스레드에 작업을 했습니다.

Warp의 데이터 스레드는 공통 프로그램 카운터와 스택 포인터로 처리하기에 각 데이터 스레드에 별도의 처릴르 적용하는 매커니즘이 CUDA에 없었습니다. A;와 B;, X;와 Y;에 동기화를 처리하는 건 아키텍처 레벨에서 할 수 없었습니다.

이에 비해 볼타 세대 GPU는 Warp의 데이터 스레드가 별도의 프로그램 카운터와 스택 포인터를 가질 수 있도록 GPU 아키텍처가 개선됩니다. 32개의 데이터 스레드가 개별적인 프로그램 카운터와 스택 포인터를 갖게 되는 거지요.

따라서 if 조건을 만족하는 데이터 스레드 A; 처리가 끝난 단계에서 다른 데이터 스레드와 동기화하거나 다른 데이터 스레드 연산 내용을 참조하는 작업이 가능해졌습니다. 사실 이것은 프로그램 병렬도를 높여 성능을 끌어올리는 게 아니라 더 복잡한 프로그래밍 모델이 가능하게 되는 확장이지요.

그리고 모든 데이터 스레드가 데이터를 복사하거나 데이터 스레드 내용을 통합하는 처리랄 할 수 있습니다.

데이터 스레드마다 다른 작업을 수행하는 사례입니다. 비트 마스크라는 규칙을 여럿 준비하고, 규칙에 맞춰 데이터 스레드를 분류하고 여기에 여러 작업-스레드 사이의 동기화-를 처리하는 것이 볼타 세대 GPU에서 가능합니다.

지포스용 볼타에 텐서 코어가 들어갈 것인가?

CUDA 8에서 CUDA 9로 업데이트되며 프로그래밍 모델이 크게 향상돼 CUDA를 사용하는 개발자에 큰 영향을 미칠 것으로 보입니다. NVIDIA는 CUDA 8 이전의 CUDA 애플리케이션은 CUDA 9에서 다시 컴파일해 호환성을 유지할 수 있으나, 앞으로는 CUDA 9 스타일로 개발하길 권장하고 있습니다. 특히 데이터 스레드 동기화 시점의 명시는 CUDA 9에서 매우 중요한 요소입니다.

그럼 CUDA 9는 언제 나오느냐. GTC 2017에선 밝히지 않았습니다. 다만 볼타 GPU의 출시에 맞춰 등장하는 게 당연하기에 2017년 3분기가 될 것으로 보입니다. CUDA는 테슬라나 쿼드로는 물론이고 지포스에서도 동작하지만, 앞으로의 지포스에서 CUDA 9의 모든 기능이 동작할지는 아직 모릅니다. NVIDIA 직원에게 물어봐도 '앞으로 나올 제품에 대해선 대답하지 않는다'가 돌아올 뿐.

지포스에서 CUDA를 쓰는 사람에게 신경쓰이는 건 지포스 GPU에 텐서 코어가 탑재되느냐는 것입니다. 텐서 코어는 머신 러닝 AI와 컴퓨터 비전 처리를 위한 연산 유닛이며, 다이렉트 X나 벌칸 같은 그래픽 API에서 쓸 방법이 없습니다. NVIDIA GPU에 의한 가속이 가능한 물리 시뮬레이션 엔진 PhsX에서 텐서 코어를 지원하면 게임에서 쓸 수 있을 정도겠지요. 당분간은 지포스에 텐서 코어가 올라갈 가능성은 낮다고 봅니다.

그리고 텐서 코어를 제외하면 볼타와 파스칼 아키텍처의 차이는 16nm와 12nm 등 공정 설계 외엔 없다고 봐도 무방할 것이나, 볼타의 세부 스펙이 공개되면 텐서 코어 외에 무엇이 다른지도 알 수 있을 것입니다. 사실 2017년 4월에 플래그쉽인 타이탄 Xp, 5월 17일에 지포스 GT 1030까지 파스칼 라인업이 나온 것을 감안하면 볼타 기반 지포스가 곧 나오진 않을 것입니다. AMD의 차세대 GPU인 라데온 RX 베가가 나온 후에나 움직임이 보이겠죠.

볼타 세대의 테슬라 V100은 싱글 슬롯 PCI-E 확장 카드로도 나옵니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '6'

Renfro. the last resort 2017.05.19 15:45

텐서코어의 4x4 매트릭스 계산이면 사원수 계산에도 유용할 것 같네요.
Kovsky 2017.05.19 15:56

코어 크기 어마어마하네요;;
?
포인트 팡팡! 2017.05.19 15:56

Kovsky님 축하합니다.
팡팡!에 당첨되어 5포인트를 보너스로 받으셨습니다.

수정 삭제
?
마라톤 2017.05.19 16:09

좋은 정보 감사합니다. ^_^
?
Veneno 2017.05.19 21:52

유익한 정보 감사드립니다
CUDA9의 발전은 기쁘나 하드웨어에 대한 시각이 두가지로 나뉘는군요
하나는 극적으로 높아진 스펙 둘은 기존 빅칩보다도 너무 비대해져
공냉으로 발열 감당안되던 페르미나 수냉이 필수로 보이는 R9 FURY가 떠올라 반갑지 않네요
테슬라만 그렇다면 그러려니 하겠지만
기존 테슬라에서 일반제품군으로 오면서 조금 잘린정도로 유사하게 나왔기에
시기적으로 2018년쯤 일반제품화 될듯 보이는데 일반 제품들은 어찌될지 궁금해집니다
?
wwsun98 2017.05.19 23:20

페르미는 설계 문제에요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

우버에서 보낸 메일을 열면 아웃룩이 먹통이 되는 문제

공유 차량 서비스를 운영하는 우버에서 보낸 이메일을 아웃룩에서 열면 먹통이 됩니다. 보다 정확히 말하면, 이 메일에 포함된 복잡한 표 때문에 프로그램이 작동을 멈추는 것이며, 워드 역시 마찬가지라고 합니다. 빌드 15330.20196 이후...

Date2022.08.03 소식 By낄낄 Reply1 Views525

Read More
No Image

리눅스 민트 21, 바네사의 배포 시작

리눅스 민트 21, 바네사가 배포를 시작했습니다. 시나몬, Xcfe, 메이트의 세 가지 버전이 있으며 리눅스 커널 5.15와 우분투 22.04 LTS를 기반으로 제작해 2027년까지 업데이트를 제공합니다.

Date2022.08.02 소식 By낄낄 Reply3 Views923

Read More
가상화폐 가격이 다시 상승. 특히 이더리움이 57% 오름

가상화폐 가격이 다시 올랐습니다. 비트코인은 7월에만 20%가 올랐고 이더리움은 57%가 올랐다고 하네요. 이더리움은 올해 안에 PoS 방식으로 전환을 앞두고 있습니다. 7월 초에 두번째 병합 테스트를 진행했고 이번주에 마지막 테스트를 ...

Date2022.08.02 소식 By낄낄 Reply3 Views9531

Read More
No Image

압축 포맷중 "내부 파일명 암호화" + "오류정정" 이 가능한 범용적인 포맷이 있는가요?

압축 포맷들을 살펴보다보니 ZIP의 경우 오류 정정이 가능하지만 비밀번호를 걸더라도 내부 파일명은 보여지는 문제가 있고, 7z의 경우 내부 파일명까지 가려지지만 파일이 약간이라도 깨지면 복구할 수 없다는 문제가 있네요. 혹시 범...

Date2022.08.01 질문 By리피 Reply10 Views962

Read More
No Image

기글이 오류로 깨져서 작성 글 수정 및 삭제 버튼이 안 보일 시 자가 대처 방법

작성 글 수정 : https://gigglehd.com/gg/index.php?mid=bbs&document_srl=********&act=dispBoardWrite 작성 글 삭제 : https://gigglehd.com/gg/index.php?mid=bbs&document_srl=********&act=dispBoardDelete 전체 복...

Date2022.07.31 일반 ByFactCore Reply7 Views975

Read More
No Image

아마존 드라이브 클라우드 스토리지, 내년에 서비스 중단

아마존이 클라우드 스토리지 서비스인 아마존 드라이브의 운영을 2023년 12월 31일에 중단합니다. 아마존은 고객에게 보낸 이메일에서 '지난 11년 동안 아마존 드라이브는 파일을 백업할 안전한 클라우드 스토리지였다'며, 앞으로...

Date2022.07.31 소식 By낄낄 Reply1 Views1715

Read More
netbsd 질문 드립니다

netwalker라는 제품을 구매하고 드디어 초록창을 보게되었는데 문제는 netbsd가 nand에 설치된것이 아닌 마이크로 sd카드에 설치되어 있다보니 ld0을 입력해도 로그인은 불가능합니다 http://kapper1224.sblo.jp/article/99716739.html ...

Date2022.07.30 질문 By마카 Reply2 Views467

Read More
VMWare Fusion 이 애플 실리콘을 지원합니다.

대충 상용, 그러니까 돈없는 개인용으로 패러렐즈와 VMWare Fusion가 있었는데... 패러렐즈는 아주 옛날에 쳐 나오고, VMWare는 개발팀의 대다수가 모가지 되었는데 애플 실리콘이 턱 나오니... 뭐 그렇습니다. 여튼 개인은 VMWare ...

Date2022.07.30 일반 By책읽는달팽 Reply8 Views1982

Read More
No Image

'거래량 2위' 테라 알고보니...'셀프 투자'였나?

가상화폐 '테라'에 투자했던 국내 투자자는 25만 명 정도로 추산됩니다. 투자자들이 몰린 건 업계 최고 수준의 거래량 때문이었습니다. '앵커 프로토콜'이라는 일종의 금융 서비스를 운영해 온 테라. 마치 은행처럼 예금 ...

Date2022.07.30 소식 By낄낄 Reply16 Views2463

Read More
구글 크롬, 써드파티 쿠키를 2024년 하반기에 사용 중단

구글이 크롬에서 써드파티 쿠키의 허용을 2024년 하반기부터 지원하지 않겠다고 발표했습니다. 2021년에는 2023년까지 단계적으로 없애 나가겠다고 밝혔지만, 그때보다 시기가 늦어진 것입니다. 또 프라이버시 샌드박스 API의 테스트에 시...

Date2022.07.30 소식 By낄낄 Reply0 Views1177

Read More
트위치,한국에서만 특별한 전송방식 도입

-------------------------------------- 망사용료 한푼도 안내는 회사가 한국에서만 P2P를 도입한다고 합니다. 트코는 최소 인력으로,예전의 사건이후로 누가 실제 운영자인지 모를정도로 유령같이 운영한다는 말이 있던데 이번...

Date2022.07.29 소식 By고자되기 Reply27 Views3716

Read More
아이폰 유튜브 PIP 되시나요?

프리미엄 구독 중인데 설정에 PIP 옵션 자체도 없네요 순차적용이라는데 저는 2주가 넘어도 소식이 없군요 (...) 찾아봐도 일단 기다리는 말 밖에 없군요 흠...

Date2022.07.29 일반 By쿠민 Reply8 Views880

Read More
No Image

메타, 사상 처음으로 수익 감소

페이스북, 인스타그램, 왓츠앱을 갖고 있는 메타는 2022년 2분기 실적이 288억 달러를 기록, 전년 대비 1% 가량 줄었으며 애널리스트의 예상치인 289억 달러보다도 저조한 실적을 보였다고 합니다. 또 순이익은 67억 달러로 2012년 이후 ...

Date2022.07.29 소식 By낄낄 Reply1 Views577

Read More
No Image

웨이브, HBO와 계약 연장

온라인 동영상 서비스(OTT) 웨이브가 지난해 미국 HBO와 체결한 콘텐츠 대규모 공급 계약 연장에 따라 OTT 플랫폼인 HBO맥스의 오리지널 시리즈도 국내에서 처음 공개한다고 28일 밝혔다. 웨이브에 새로 추가되는 HBO맥스의 오리지널 시...

Date2022.07.28 소식 ByBlackbot Reply4 Views778

Read More
No Image

중국 지역 락다운 때문에 윈도우 OEM 사업이 3억 달러 손실

마이크로소프트, 2022년도 4분기 실적 보고서 공개. https://gigglehd.com/gg/12644826 여기에서 윈도우 OEM 매출이 2% 가량 줄었다고 했는데요. 중국의 락다운으로 OEM 버전 운영체제를 탑재할 시스템의 생산이 멈추며 3억 달러, 러시아 ...

Date2022.07.28 소식 By낄낄 Reply0 Views849

Read More