Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 http://www.4gamer.net/games/076/G007660/20170518044/

1.jpg

 

GTC 2017에서 NVIDIA의 차세대 아키텍처인 볼타, 그리고 볼타를 사용한 GPU인 GV100이 발표됐습니다. 그리고 볼타 세대 GPU체는 새로운 CUDA인 CUDA 9이 쓰입니다.

 

2.jpg

 

 

이 CUDA 9에 대해 설명하는 세션인 CUDA 9 and Beyond가 Mr. CUDA라고도 불리는 Mark Harris(Chief Technologist GPU Computing, NVIDIA)에 의해 열렸습니다.

 

 

CUDA 9의 새로운 요소 1. 텐서 코어의 지원

 

3.jpg

 

CUDA 9의 새로운 특징은 위 4개를 꼽을 수 있습니다. 볼타 플랫폼 지원이라 써져 있으나 CUDA 9는 기존의 NVIDIA GPU도 지원합니다.

 

4.jpg

 

첫번재 새로운 요소는 볼타 세대 GPU에 탑재되는 텐서 코어(Tensor Core)의 지원입니다. 텐서 코어가 무엇인가에 대해서는 https://gigglehd.com/gg/1076083 여기에서 설명했으니 여기에선 간단히 소개하고 넘어가지만, 머신 러닝 AI에서 많이 쓰이는 대규모 행렬 계산이나 연산에 유용한 전용 연산 유닛입니다.

 

5.jpg


텐서 코어가 수행할 수 있는 가장 기본적인 계산은 4x4 행렬의 연산입니다.

 

6.jpg

 

볼타 세대 GPU는 4x4 행렬 계산을 두 세트로 묶어 하나의 Warp에서 처리할 수 있습니다.

 

7.jpg

 

볼타는 16x16 행렬 연산을 16개의 Warp로 분해해 실행합니다. CUDA 9는 WMMA(Warp Matrix Multiply and Accumulate)이라는 새로운 데이터 타입(계산 모델)을 이용해 거대한 크기의 행렬 계산을 할 수 있습니다. 물론 Warp로 분해해서 처리할 수 있습니다. 위 슬라이드는 8x8 행렬 계산인데 WMMA를 이용해 4x4 행렬로 분해해서 연산했습니다.

 

8.jpg

 

WMMA를 대상으로 한 로드/스토어 명령을 새로 만들어, 행렬 형태의 데이터를 Warp의 데이터 스레드에 배포하거나 반대로 메모리에 내보낼 수 있습니다.

 

9.jpg

 

CUDA 9 WMMA를 이용해 거대한 행렬 계산을 했을 때의 처리 능력을 볼타 GV100과 파스칼 GP100에서 비교했습니다. 볼타 세대의 GPU는 기존에 없던 행렬 계산 전용 프로세서인 텐서 코어가 있어 압도적인 성능 차이가 납니다. 이 그래프는 CUDA의 수학 라이브러리인 cuBLAS에서 GEMM(GEneral Matrix-matrix Multiplication)의 성능을 비교한 것인데 FP32에서 1.8배, FP16에서 9.3배 차이가 납니다.

 

 

CUDA 9의 새로운 요소 2. 데이터 스레드의 자유로운 그룹화

 

10.jpg

 

CUDA 9의 두번째 특징은 볼타 세대 이전, 구체적으로는 케플러~파스칼 세대 GPU에 도움을 주는 기능입니다. Warp를 원하는 크기로 그룹으로 나눠, 그룹 사이에 동기화하는 것이죠. NVIDIA GPU에서 일반적인 1 Warp는 32개의 데이터 스레드가 되는데, 이를 4개의 데이터 스레드로 구성된 8개의 그룹으로 나눌 수 있습니다.

 

11.jpg

 

그리고 이렇게 나뉘어진 데이터 스레드는 특정 그룹끼리 동기화를 할 수 있습니다. 그룹별로 처리하는 GPU가 다른 멀티 GPU 환경에서도 CUDA 9가 명시적인 동기화를 취할 수 있는 것입니다.

 

 

12.jpg

 

CUDA 8까지는 데이터 스레드의 처리가 끝난 시점을 동기화하는 시기로 잡았으나, cUDA 9는 개발자가 동기화 지점을 명시적으로 만들 수 있습니다. 또 데이터 스레드 동기화는 데이터 스레드 단위, Warp나 그보다 더 작은 수의 데이터 스레드로 구성된 그룹 사이의 동기화, 멀티 GPU 사이의 데이터 스레드 그룹 동기화가 가능합니다.

 

13.jpg

일반적인 GPU의 명성 실행은 SIMT(Single Instruction Multiple Threads). 하나의 명령으로 여러 데이터 스레드를 처리합니다. 다른 데이터 스레드에 같은 메모리 어드레스 데이터가 포함돼 있고, 거기에 대한 작업을 병렬로 실행한 경우 명시적인 동기화 지정이 불가능했습니다. CUDA 8 이전에는 동기화의 개념이 없어 모든 데이터 스레드에 대한 처리가 끝나면 종료시키는 구조였습니다. 그래서 예상한 결과가 나오지 않거나 디버깅하기 힘든 버그를 초래하기도 했지요.

 

 

14.jpg

 

CUDA 9는 데이터 스레드 단위부터 GPU 단위까지 다양한 단위로 동기화를 할 수 있습니다. 그래서 기존의 문제를 해결함은 물론, 파스칼 세대 이전 GPU에서도 사용할 수 있다는 게 큽니다.

 

 

15.jpg

 

명시적인 데이터 스레드 동기화는 복잡한 데이터 스레드의 병렬 실행을 안전하게 할 수 있는 구조입니다.

 

 

CUDA 9의 새로운 요소 3. 데이터 스레드 사이에 데이터를 보거나 작성 가능

 

동기화 기능은 파스칼 세대 이전 GPU에서도 쓸 수 있으나, 역시 볼타 세대 GPU에서 위력을 발휘합니다. 그리고 이것이 CUDA 9의 세번째 특징입니다. 볼타 세대 GPU는 데이터 스레드의 동기화는 물론이고, 데이터 스레드 사이에 메세지를 교환하거나 데이터 참조가 가능합니다.

 

16.jpg

 

A, B, C라는 세가지 목록 구조 데이터가 있고, A와 C에 GPGPU 처리가 이루어지고 있다고 칩시다. 처리 자체에는 문제가 없습니다. 그런데 A와 C는 서로의 메모리 어드레스를 참조하는 목록 구조의 데이터고, 거기에 다른 목록 구조의 데이터인 B를 통합하려 합니다. 목록 구조 데이터를 재조합한 다음 데이터를 지시 포인터(메모리 어드레스 값)에 재작성하기에, 포인터 갱신이 다른 GPGPU 처리에서 무시되지 않도록 A촤 C를 잠궈야 합니다.

 

 

17.jpg

 

그리고 A촤 C 사이에 B가 오도록 포인터를 갱신하고.

 

18.jpg

 

데이터 쓰기가 끝나면 잠금을 해제합니다. 이런 처리를 실현하려면 데이터 스레드에 여러 작업을 할 필요가 있으나, CUDA는 그런 처리는 하지 않는다는 전제로 설계한 플랫폼입니다.

 

19.jpg

 

파스칼 세대 이전의 GPU에선 하나의 Warp(데이터 스레드 32개)에 대해서 프로그램 카운터와 스택 포인터가 하나씩밖에 없었습니다. 프로그램 카운터가 가리키는 메모리 어드레스에 저장된 명령을 여러 데이터에 수행할 수밖에 없었지요.

 

20.jpg

 

그래서 조건 분기 프로그램 명령이 실행됐을 때, if 조건을 충족하는 데이터 스레드에 대해서만 A; 와 B; 작업을 수행하고, 그렇지 않은 else 조건의 데이터 스레드에는 X;와 Y; 작업을 수행하는 방식으로 여러 스레드에 작업을 했습니다.

 

Warp의 데이터 스레드는 공통 프로그램 카운터와 스택 포인터로 처리하기에 각 데이터 스레드에 별도의 처릴르 적용하는 매커니즘이 CUDA에 없었습니다. A;와 B;, X;와 Y;에 동기화를 처리하는 건 아키텍처 레벨에서 할 수 없었습니다.

 

21.jpg

 

이에 비해 볼타 세대 GPU는 Warp의 데이터 스레드가 별도의 프로그램 카운터와 스택 포인터를 가질 수 있도록 GPU 아키텍처가 개선됩니다. 32개의 데이터 스레드가 개별적인 프로그램 카운터와 스택 포인터를 갖게 되는 거지요.

 

22.jpg

 

따라서 if 조건을 만족하는 데이터 스레드 A; 처리가 끝난 단계에서 다른 데이터 스레드와 동기화하거나 다른 데이터 스레드 연산 내용을 참조하는 작업이 가능해졌습니다. 사실 이것은 프로그램 병렬도를 높여 성능을 끌어올리는 게 아니라 더 복잡한 프로그래밍 모델이 가능하게 되는 확장이지요.

 

23.jpg

 

그리고 모든 데이터 스레드가 데이터를 복사하거나 데이터 스레드 내용을 통합하는 처리랄 할 수 있습니다.

 

24.jpg

 

데이터 스레드마다 다른 작업을 수행하는 사례입니다. 비트 마스크라는 규칙을 여럿 준비하고, 규칙에 맞춰 데이터 스레드를 분류하고 여기에 여러 작업-스레드 사이의 동기화-를 처리하는 것이 볼타 세대 GPU에서 가능합니다.

 

 

지포스용 볼타에 텐서 코어가 들어갈 것인가?

 

CUDA 8에서 CUDA 9로 업데이트되며 프로그래밍 모델이 크게 향상돼 CUDA를 사용하는 개발자에 큰 영향을 미칠 것으로 보입니다. NVIDIA는 CUDA 8 이전의 CUDA 애플리케이션은 CUDA 9에서 다시 컴파일해 호환성을 유지할 수 있으나, 앞으로는 CUDA 9 스타일로 개발하길 권장하고 있습니다. 특히 데이터 스레드 동기화 시점의 명시는 CUDA 9에서 매우 중요한 요소입니다.

 

그럼 CUDA 9는 언제 나오느냐. GTC 2017에선 밝히지 않았습니다. 다만 볼타 GPU의 출시에 맞춰 등장하는 게 당연하기에 2017년 3분기가 될 것으로 보입니다. CUDA는 테슬라나 쿼드로는 물론이고 지포스에서도 동작하지만, 앞으로의 지포스에서 CUDA 9의 모든 기능이 동작할지는 아직 모릅니다. NVIDIA 직원에게 물어봐도 '앞으로 나올 제품에 대해선 대답하지 않는다'가 돌아올 뿐.

 

지포스에서 CUDA를 쓰는 사람에게 신경쓰이는 건 지포스 GPU에 텐서 코어가 탑재되느냐는 것입니다. 텐서 코어는 머신 러닝 AI와 컴퓨터 비전 처리를 위한 연산 유닛이며, 다이렉트 X나 벌칸 같은 그래픽 API에서 쓸 방법이 없습니다. NVIDIA GPU에 의한 가속이 가능한 물리 시뮬레이션 엔진 PhsX에서 텐서 코어를 지원하면 게임에서 쓸 수 있을 정도겠지요. 당분간은 지포스에 텐서 코어가 올라갈 가능성은 낮다고 봅니다.

 

그리고 텐서 코어를 제외하면 볼타와 파스칼 아키텍처의 차이는 16nm와 12nm 등 공정 설계 외엔 없다고 봐도 무방할 것이나, 볼타의 세부 스펙이 공개되면 텐서 코어 외에 무엇이 다른지도 알 수 있을 것입니다. 사실 2017년 4월에 플래그쉽인 타이탄 Xp, 5월 17일에 지포스 GT 1030까지 파스칼 라인업이 나온 것을 감안하면 볼타 기반 지포스가 곧 나오진 않을 것입니다. AMD의 차세대 GPU인 라데온 RX 베가가 나온 후에나 움직임이 보이겠죠.

 

25.jpg

 

볼타 세대의 테슬라 V100은 싱글 슬롯 PCI-E 확장 카드로도 나옵니다.



  • profile
    Renfro.      the last resort 2017.05.19 15:45
    텐서코어의 4x4 매트릭스 계산이면 사원수 계산에도 유용할 것 같네요.
  • profile
    Kovsky 2017.05.19 15:56
    코어 크기 어마어마하네요;;
  • ?
    포인트 팡팡! 2017.05.19 15:56
    Kovsky님 축하합니다.
    팡팡!에 당첨되어 5포인트를 보너스로 받으셨습니다.
  • ?
    마라톤 2017.05.19 16:09
    좋은 정보 감사합니다. ^_^
  • ?
    Veneno 2017.05.19 21:52
    유익한 정보 감사드립니다
    CUDA9의 발전은 기쁘나 하드웨어에 대한 시각이 두가지로 나뉘는군요
    하나는 극적으로 높아진 스펙 둘은 기존 빅칩보다도 너무 비대해져
    공냉으로 발열 감당안되던 페르미나 수냉이 필수로 보이는 R9 FURY가 떠올라 반갑지 않네요
    테슬라만 그렇다면 그러려니 하겠지만
    기존 테슬라에서 일반제품군으로 오면서 조금 잘린정도로 유사하게 나왔기에
    시기적으로 2018년쯤 일반제품화 될듯 보이는데 일반 제품들은 어찌될지 궁금해집니다
  • ?
    wwsun98 2017.05.19 23:20
    페르미는 설계 문제에요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. HP, 오디오 드라이버의 키로거 문제를 해결

    HP가 Conexant HD 오디오 드라이버에 포함된 키로거 문제를 해결한 버전을 발표했습니다. 원래 출하될 때 비활성되야 할 로컬 디버깅 기능이 활성화됐기 때문에 일어난 것이며, HP가 데이터를 액세스하는 일은 없다고 합니다. 여기에 해...
    Date2017.05.19 소식 By낄낄 Reply1 Views787 file
    Read More
  2. 볼타 세대의 GPU에 맞춰 진화한 CUDA 9의 개선점

    GTC 2017에서 NVIDIA의 차세대 아키텍처인 볼타, 그리고 볼타를 사용한 GPU인 GV100이 발표됐습니다. 그리고 볼타 세대 GPU체는 새로운 CUDA인 CUDA 9이 쓰입니다. 이 CUDA 9에 대해 설명하는 세션인 CUDA 9 and Beyond가 Mr. CUDA라고도...
    Date2017.05.19 분석 By낄낄 Reply6 Views3124 file
    Read More
  3. WannaCry 랜섬웨어의 암호를 해독하는 Wannakey가 공개

    WannaCry 랜섬웨어의 암호를 해독하는 Wannakey의 소스가 깃허브에 올라왔습니다. 프랑스의 보안 연구가인 Adrien Guinet이 만든 것이라고 하네요. 다만 윈도우 XP여야 하고, 감염 후 PC를 다시 시작하거나 메모리 영역 재배치/삭제가 이...
    Date2017.05.19 소식 By낄낄 Reply4 Views1276 file
    Read More
  4. No Image

    Khronos, OpenCL과 벌칸을 하나로

    Khronos 그룹이 OpenCL과 벌칸을 하나로 합치려고 합니다. 앞으로 하나의 API에서 컴퓨팅과 그래픽의 두가지 연산을 모두 실현 가능하게 됩니다. 벌칸 API은 OpenGL API의 후속작으로 마이크로프트 다이렉트 X 12와 기술적으로 많이 닮아 ...
    Date2017.05.18 소식 By낄낄 Reply3 Views572
    Read More
  5. 윈도우 10 빌드 16199 프리뷰 버전에서 달라진 점

    마이크로소프트가 윈도우 10 인사이더 프리뷰 최신 빌드로, PC는 빌드 16199, 모바일은 빌드 15125를 패스트 링에 반영했습니다. 여기에선 PC 버전의 업데이트 내역을 소개합니다. 마이 피플. 자주 커뮤니케이션을 주고받는 사람을 작업 ...
    Date2017.05.18 소식 By낄낄 Reply0 Views794 file
    Read More
  6. No Image

    윈도우 10 문제?

        윈도우 10을 그동안 사용해봤는데 상태가 반쯤 메롱인 노트북인지라 노트북 문제라고 생각했었습니다만   지난 3월에 노트북을 새로 산 후에도 비슷한 증상이 있네요.     노트북이 처음엔 엄청 빠릿빠릿했지만 어느 날 부터인가 느려...
    Date2017.05.18 질문 By와스웰 Reply14 Views835
    Read More
  7. 폴더명 파일명 메뉴가 모두 안보입니다

      오늘 컴터를 켰더니 바탕화면의 아이콘을 제외하고는 모든 글자가 안보이네요   심지어 팝업 글자도 안보입니다.   랜섬웨어인가 했는데 파일이 잠긴건 아니고...   뭐가 보여야 설정을 바꿀텐데 답답하네요 ㅠ  
    Date2017.05.18 질문 By동물친구 Reply5 Views675 file
    Read More
  8. WannaCry 확산 해커집단, 수집 기밀 정보 판매 계획을 발표

      미국 국가안전보장국의 사이버 스파이 도구를 유출시켜 "WannaCry"를 포함한 세계적인 랜섬웨어 공격의 발단이 된 해커 집단 'The Shadow Brokers'는 16일(미국 시간) 수집한 기밀 정보를 판매 한다는 성명을 발표했습니다.    The Sh...
    Date2017.05.17 소식 By야메떼 Reply11 Views1297 file
    Read More
  9. ARM에서의 윈도우 10, 충분히 빠른 속도

    빌드 2017에서 마이크로소프트는 ARM에서 윈도우 10 시스템을 실행하는 데모를 선보였습니다. 이 13분짜리 동영상에서 마이크로소프트는 x86 Win32 에뮬레이터의 원리와 특징을 소개했는데요. 기존의 x86 32비트 애플리케이션은 수정 없이...
    Date2017.05.16 소식 By낄낄 Reply13 Views1392 file
    Read More
  10. No Image

    부모님 드리기용 윈도우10 셋팅에 대하여.

    노트북을 샀습니다!!   정확하게는 노루님에게 이 노트북을 샀습니다. 노루님 감사합니다. https://gigglehd.com/gg/index.php?mid=bbs&category=14058&document_srl=1081497   이제 저는 이 노트북을 부모님께 드리려고 합니다. ...
    Date2017.05.16 질문 Byclowl Reply12 Views1312
    Read More
  11. MP3. 특허 라이센스 종료

    MP3 오디오 코덱을 개발한 Fraunhofer는 Technicolor의 MP3 관련 특허와 Fraunhofer와 Technicolor의 MP3 관련 소프트웨어 라이센스 프로그램이 4월 23일에 마무리지었다고 발표했습니다. MP3는 여전히 인기가 있는 오디오 코덱이나, AAC...
    Date2017.05.16 소식 By낄낄 Reply5 Views1804 file
    Read More
  12. WCry 랜섬웨어 대란, 북한의 소행?

    카스퍼스키 랩과 구글 연구원인 닐 메타는 전세계에서 랜섬웨어 대란을 일으키고 있는 워너크라이 랜섬웨어에 대해 지금으로서는 워너크라이 랜섬웨어의 구식 버전을 좀 더 연구할 필요가 있지만, 2014년 소니 해킹사건과 2016년 방글라...
    Date2017.05.16 소식 ByCluster Reply7 Views819 file
    Read More
  13. No Image

    이번 랜섬웨어 대란에서 유독 조용한건 우리나라 ISP덕이 크다고 봐야죠.

    우리나라 ISP에서 smb포트를 차단 한 것은 이미 알려진 사실입니다. 이 원인이 10년도 더 된 sasser worm 때문인데요.. 이때 이후로 우리나라 ISP에서 smb포트를 차단 해버렸죠. 평소에는 외부에서 smb포트를 이용하려면 VPN밖에 방법이 ...
    Date2017.05.15 일반 ByInduky Reply10 Views2679
    Read More
  14. No Image

    이번 랜섬웨어 사건은 윈도우10 개인 유저는 걱정 없다고 봅니다

    일단 윈도우10의 경우엔 다들 아시다시피 업데이트 방식이 "강제 자동 업데이트"입니다. 싫어도 업데이트라는 것이죠.   https://technet.microsoft.com/ko-kr/library/security/ms17-010.aspx 이번 랜섬웨어가 사용한 취약점 관련 긴급 ...
    Date2017.05.15 일반 By순딩sheep Reply11 Views1237
    Read More
  15. No Image

    이미지 변환 멀티코어 지원프로그램은

    지금 꿀뷰랑, 알씨로 간편히 이미지 변환 사용중인데,   멀티코어 사용이 안되는듯 하네요.     멀티코어 이용하면서 이미지 변환 가능한 프로그램은 뭐가 있을까요.
    Date2017.05.15 질문 ByHack Reply6 Views650
    Read More
목록
Board Pagination Prev 1 ... 530 531 532 533 534 535 536 537 538 539 ... 579 Next
/ 579

최근 코멘트 30개

MSI 코리아
더함
AMD
한미마이크로닉스

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소