Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 http://www.4gamer.net/games/076/G007660/20170518044/

1.jpg

 

GTC 2017에서 NVIDIA의 차세대 아키텍처인 볼타, 그리고 볼타를 사용한 GPU인 GV100이 발표됐습니다. 그리고 볼타 세대 GPU체는 새로운 CUDA인 CUDA 9이 쓰입니다.

 

2.jpg

 

 

이 CUDA 9에 대해 설명하는 세션인 CUDA 9 and Beyond가 Mr. CUDA라고도 불리는 Mark Harris(Chief Technologist GPU Computing, NVIDIA)에 의해 열렸습니다.

 

 

CUDA 9의 새로운 요소 1. 텐서 코어의 지원

 

3.jpg

 

CUDA 9의 새로운 특징은 위 4개를 꼽을 수 있습니다. 볼타 플랫폼 지원이라 써져 있으나 CUDA 9는 기존의 NVIDIA GPU도 지원합니다.

 

4.jpg

 

첫번재 새로운 요소는 볼타 세대 GPU에 탑재되는 텐서 코어(Tensor Core)의 지원입니다. 텐서 코어가 무엇인가에 대해서는 https://gigglehd.com/gg/1076083 여기에서 설명했으니 여기에선 간단히 소개하고 넘어가지만, 머신 러닝 AI에서 많이 쓰이는 대규모 행렬 계산이나 연산에 유용한 전용 연산 유닛입니다.

 

5.jpg


텐서 코어가 수행할 수 있는 가장 기본적인 계산은 4x4 행렬의 연산입니다.

 

6.jpg

 

볼타 세대 GPU는 4x4 행렬 계산을 두 세트로 묶어 하나의 Warp에서 처리할 수 있습니다.

 

7.jpg

 

볼타는 16x16 행렬 연산을 16개의 Warp로 분해해 실행합니다. CUDA 9는 WMMA(Warp Matrix Multiply and Accumulate)이라는 새로운 데이터 타입(계산 모델)을 이용해 거대한 크기의 행렬 계산을 할 수 있습니다. 물론 Warp로 분해해서 처리할 수 있습니다. 위 슬라이드는 8x8 행렬 계산인데 WMMA를 이용해 4x4 행렬로 분해해서 연산했습니다.

 

8.jpg

 

WMMA를 대상으로 한 로드/스토어 명령을 새로 만들어, 행렬 형태의 데이터를 Warp의 데이터 스레드에 배포하거나 반대로 메모리에 내보낼 수 있습니다.

 

9.jpg

 

CUDA 9 WMMA를 이용해 거대한 행렬 계산을 했을 때의 처리 능력을 볼타 GV100과 파스칼 GP100에서 비교했습니다. 볼타 세대의 GPU는 기존에 없던 행렬 계산 전용 프로세서인 텐서 코어가 있어 압도적인 성능 차이가 납니다. 이 그래프는 CUDA의 수학 라이브러리인 cuBLAS에서 GEMM(GEneral Matrix-matrix Multiplication)의 성능을 비교한 것인데 FP32에서 1.8배, FP16에서 9.3배 차이가 납니다.

 

 

CUDA 9의 새로운 요소 2. 데이터 스레드의 자유로운 그룹화

 

10.jpg

 

CUDA 9의 두번째 특징은 볼타 세대 이전, 구체적으로는 케플러~파스칼 세대 GPU에 도움을 주는 기능입니다. Warp를 원하는 크기로 그룹으로 나눠, 그룹 사이에 동기화하는 것이죠. NVIDIA GPU에서 일반적인 1 Warp는 32개의 데이터 스레드가 되는데, 이를 4개의 데이터 스레드로 구성된 8개의 그룹으로 나눌 수 있습니다.

 

11.jpg

 

그리고 이렇게 나뉘어진 데이터 스레드는 특정 그룹끼리 동기화를 할 수 있습니다. 그룹별로 처리하는 GPU가 다른 멀티 GPU 환경에서도 CUDA 9가 명시적인 동기화를 취할 수 있는 것입니다.

 

 

12.jpg

 

CUDA 8까지는 데이터 스레드의 처리가 끝난 시점을 동기화하는 시기로 잡았으나, cUDA 9는 개발자가 동기화 지점을 명시적으로 만들 수 있습니다. 또 데이터 스레드 동기화는 데이터 스레드 단위, Warp나 그보다 더 작은 수의 데이터 스레드로 구성된 그룹 사이의 동기화, 멀티 GPU 사이의 데이터 스레드 그룹 동기화가 가능합니다.

 

13.jpg

일반적인 GPU의 명성 실행은 SIMT(Single Instruction Multiple Threads). 하나의 명령으로 여러 데이터 스레드를 처리합니다. 다른 데이터 스레드에 같은 메모리 어드레스 데이터가 포함돼 있고, 거기에 대한 작업을 병렬로 실행한 경우 명시적인 동기화 지정이 불가능했습니다. CUDA 8 이전에는 동기화의 개념이 없어 모든 데이터 스레드에 대한 처리가 끝나면 종료시키는 구조였습니다. 그래서 예상한 결과가 나오지 않거나 디버깅하기 힘든 버그를 초래하기도 했지요.

 

 

14.jpg

 

CUDA 9는 데이터 스레드 단위부터 GPU 단위까지 다양한 단위로 동기화를 할 수 있습니다. 그래서 기존의 문제를 해결함은 물론, 파스칼 세대 이전 GPU에서도 사용할 수 있다는 게 큽니다.

 

 

15.jpg

 

명시적인 데이터 스레드 동기화는 복잡한 데이터 스레드의 병렬 실행을 안전하게 할 수 있는 구조입니다.

 

 

CUDA 9의 새로운 요소 3. 데이터 스레드 사이에 데이터를 보거나 작성 가능

 

동기화 기능은 파스칼 세대 이전 GPU에서도 쓸 수 있으나, 역시 볼타 세대 GPU에서 위력을 발휘합니다. 그리고 이것이 CUDA 9의 세번째 특징입니다. 볼타 세대 GPU는 데이터 스레드의 동기화는 물론이고, 데이터 스레드 사이에 메세지를 교환하거나 데이터 참조가 가능합니다.

 

16.jpg

 

A, B, C라는 세가지 목록 구조 데이터가 있고, A와 C에 GPGPU 처리가 이루어지고 있다고 칩시다. 처리 자체에는 문제가 없습니다. 그런데 A와 C는 서로의 메모리 어드레스를 참조하는 목록 구조의 데이터고, 거기에 다른 목록 구조의 데이터인 B를 통합하려 합니다. 목록 구조 데이터를 재조합한 다음 데이터를 지시 포인터(메모리 어드레스 값)에 재작성하기에, 포인터 갱신이 다른 GPGPU 처리에서 무시되지 않도록 A촤 C를 잠궈야 합니다.

 

 

17.jpg

 

그리고 A촤 C 사이에 B가 오도록 포인터를 갱신하고.

 

18.jpg

 

데이터 쓰기가 끝나면 잠금을 해제합니다. 이런 처리를 실현하려면 데이터 스레드에 여러 작업을 할 필요가 있으나, CUDA는 그런 처리는 하지 않는다는 전제로 설계한 플랫폼입니다.

 

19.jpg

 

파스칼 세대 이전의 GPU에선 하나의 Warp(데이터 스레드 32개)에 대해서 프로그램 카운터와 스택 포인터가 하나씩밖에 없었습니다. 프로그램 카운터가 가리키는 메모리 어드레스에 저장된 명령을 여러 데이터에 수행할 수밖에 없었지요.

 

20.jpg

 

그래서 조건 분기 프로그램 명령이 실행됐을 때, if 조건을 충족하는 데이터 스레드에 대해서만 A; 와 B; 작업을 수행하고, 그렇지 않은 else 조건의 데이터 스레드에는 X;와 Y; 작업을 수행하는 방식으로 여러 스레드에 작업을 했습니다.

 

Warp의 데이터 스레드는 공통 프로그램 카운터와 스택 포인터로 처리하기에 각 데이터 스레드에 별도의 처릴르 적용하는 매커니즘이 CUDA에 없었습니다. A;와 B;, X;와 Y;에 동기화를 처리하는 건 아키텍처 레벨에서 할 수 없었습니다.

 

21.jpg

 

이에 비해 볼타 세대 GPU는 Warp의 데이터 스레드가 별도의 프로그램 카운터와 스택 포인터를 가질 수 있도록 GPU 아키텍처가 개선됩니다. 32개의 데이터 스레드가 개별적인 프로그램 카운터와 스택 포인터를 갖게 되는 거지요.

 

22.jpg

 

따라서 if 조건을 만족하는 데이터 스레드 A; 처리가 끝난 단계에서 다른 데이터 스레드와 동기화하거나 다른 데이터 스레드 연산 내용을 참조하는 작업이 가능해졌습니다. 사실 이것은 프로그램 병렬도를 높여 성능을 끌어올리는 게 아니라 더 복잡한 프로그래밍 모델이 가능하게 되는 확장이지요.

 

23.jpg

 

그리고 모든 데이터 스레드가 데이터를 복사하거나 데이터 스레드 내용을 통합하는 처리랄 할 수 있습니다.

 

24.jpg

 

데이터 스레드마다 다른 작업을 수행하는 사례입니다. 비트 마스크라는 규칙을 여럿 준비하고, 규칙에 맞춰 데이터 스레드를 분류하고 여기에 여러 작업-스레드 사이의 동기화-를 처리하는 것이 볼타 세대 GPU에서 가능합니다.

 

 

지포스용 볼타에 텐서 코어가 들어갈 것인가?

 

CUDA 8에서 CUDA 9로 업데이트되며 프로그래밍 모델이 크게 향상돼 CUDA를 사용하는 개발자에 큰 영향을 미칠 것으로 보입니다. NVIDIA는 CUDA 8 이전의 CUDA 애플리케이션은 CUDA 9에서 다시 컴파일해 호환성을 유지할 수 있으나, 앞으로는 CUDA 9 스타일로 개발하길 권장하고 있습니다. 특히 데이터 스레드 동기화 시점의 명시는 CUDA 9에서 매우 중요한 요소입니다.

 

그럼 CUDA 9는 언제 나오느냐. GTC 2017에선 밝히지 않았습니다. 다만 볼타 GPU의 출시에 맞춰 등장하는 게 당연하기에 2017년 3분기가 될 것으로 보입니다. CUDA는 테슬라나 쿼드로는 물론이고 지포스에서도 동작하지만, 앞으로의 지포스에서 CUDA 9의 모든 기능이 동작할지는 아직 모릅니다. NVIDIA 직원에게 물어봐도 '앞으로 나올 제품에 대해선 대답하지 않는다'가 돌아올 뿐.

 

지포스에서 CUDA를 쓰는 사람에게 신경쓰이는 건 지포스 GPU에 텐서 코어가 탑재되느냐는 것입니다. 텐서 코어는 머신 러닝 AI와 컴퓨터 비전 처리를 위한 연산 유닛이며, 다이렉트 X나 벌칸 같은 그래픽 API에서 쓸 방법이 없습니다. NVIDIA GPU에 의한 가속이 가능한 물리 시뮬레이션 엔진 PhsX에서 텐서 코어를 지원하면 게임에서 쓸 수 있을 정도겠지요. 당분간은 지포스에 텐서 코어가 올라갈 가능성은 낮다고 봅니다.

 

그리고 텐서 코어를 제외하면 볼타와 파스칼 아키텍처의 차이는 16nm와 12nm 등 공정 설계 외엔 없다고 봐도 무방할 것이나, 볼타의 세부 스펙이 공개되면 텐서 코어 외에 무엇이 다른지도 알 수 있을 것입니다. 사실 2017년 4월에 플래그쉽인 타이탄 Xp, 5월 17일에 지포스 GT 1030까지 파스칼 라인업이 나온 것을 감안하면 볼타 기반 지포스가 곧 나오진 않을 것입니다. AMD의 차세대 GPU인 라데온 RX 베가가 나온 후에나 움직임이 보이겠죠.

 

25.jpg

 

볼타 세대의 테슬라 V100은 싱글 슬롯 PCI-E 확장 카드로도 나옵니다.



  • profile
    Renfro.      the last resort 2017.05.19 15:45
    텐서코어의 4x4 매트릭스 계산이면 사원수 계산에도 유용할 것 같네요.
  • profile
    Kovsky 2017.05.19 15:56
    코어 크기 어마어마하네요;;
  • ?
    포인트 팡팡! 2017.05.19 15:56
    Kovsky님 축하합니다.
    팡팡!에 당첨되어 5포인트를 보너스로 받으셨습니다.
  • ?
    마라톤 2017.05.19 16:09
    좋은 정보 감사합니다. ^_^
  • ?
    Veneno 2017.05.19 21:52
    유익한 정보 감사드립니다
    CUDA9의 발전은 기쁘나 하드웨어에 대한 시각이 두가지로 나뉘는군요
    하나는 극적으로 높아진 스펙 둘은 기존 빅칩보다도 너무 비대해져
    공냉으로 발열 감당안되던 페르미나 수냉이 필수로 보이는 R9 FURY가 떠올라 반갑지 않네요
    테슬라만 그렇다면 그러려니 하겠지만
    기존 테슬라에서 일반제품군으로 오면서 조금 잘린정도로 유사하게 나왔기에
    시기적으로 2018년쯤 일반제품화 될듯 보이는데 일반 제품들은 어찌될지 궁금해집니다
  • ?
    wwsun98 2017.05.19 23:20
    페르미는 설계 문제에요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    챗GPT가 최신 취약점을 활용해 공격할 수 있음

    챗GPT 같은 LLM이 1일 취약점(발표 다음날 바로 패치가 필요할 정도로 위험한 취약점)을 활용해서 공격할 수 있다고 합니다. 15개의 1일 취약점 데이터 세트를 구해서 시켜 봤더니 GPT-4는 취약점의 87%를 써먹었다고 하네요. 설명이 없었...
    Date2024.04.19 소식 By낄낄 Reply5 Views793
    Read More
  2. No Image

    리눅스 Nouveau 드라이버 관리자가 NVIDIA에 합류

    10년이 넘도록 리눅스 커널용 오픈소스 NVIDIA GPU 드라이버인 Nouveau의 수석 관리자로 일했던 Ben Skeggs가 NVIDIA에 입사했습니다. 이 사람은 2013년 9월 18일에 원래 직장이던 레드햇에서 퇴사하면서 오픈소스 드라이버 개발에서도 손...
    Date2024.04.19 소식 By낄낄 Reply1 Views613
    Read More
  3. No Image

    유튜브, 광고 차단 앱 사용시 불이익

    유튜브는 광고 차단 앱을 비롯해 서비스 약관을 위반하는 써드파티 앱을 사용하는 시청자는 동영상을 재생할 때 버퍼링이 발생하거나 영상 표시가 안 될 수 있다고 공지했습니다. 유튜브가 광고 차단을 차단하는 건 이해가 되지만 그 전에...
    Date2024.04.17 소식 By낄낄 Reply12 Views1442
    Read More
  4. No Image

    리누스 토발즈, 탭 vs 스페이스에서 뭘 쓰든간에 파싱은 되어야 되잖아!

    리누스 토르발즈의 모든 행동은 아시다시피 뉴스거리가 됩니다.   지난주 커밋에서는 탭 문자를 공백으로 대체하여 한 줄에서 정확히 한 가지만 변경했습니다. "Kconfig 파서가 오류 없이 파일을 읽는 데 도움이 됩니다." Torvalds는 The ...
    Date2024.04.17 소식 Bytitle: 폭8책읽는달팽 Reply10 Views1219
    Read More
  5. 하아 유튜브.. 또 무슨 삽질이니..

      또디자인 바꾼다고 저러는건지 정신놓고 있는것 같습니다. 전체화면이나 영화관모드 등의 버튼이 UI 가 씹혀서 안보여요;     그리고 얼마전부터 플레이어 비율이 영상 비율대로 안가는 바람에,   가끔 이런식으로 자막이 깔리는 부분...
    Date2024.04.16 일반 Bytitle: 가난한AKG-3 Reply5 Views2169 file
    Read More
  6. No Image

    엑셀시트 비밀번호 얼마나 강력한가요

    자작한 스프레드시트 하나를 열기 보호하고 싶은데요 예전 엑셀은 zip파일로 압축해서 메모장 열고 sheet protection 부분만 지우면 보호가 멀끔히 사라져 있으나 마나했는데요 요즘 엑셀 버전은 꽤나 강력한지 못 푸는거 같은데 이것도 ...
    Date2024.04.16 질문 By왓땃따뚜겐 Reply3 Views1247
    Read More
  7. No Image

    광섬유로 301Tb/s 전송에 성공

    Aston 대학 연구팀이 영국 가정의 평균 광대역 속도인 69.4Mb/s보다 450만배 빠른 301Tb/s로 데이터 전송에 성공했습니다. 광섬유에서 사용하지 않던 새로운 파장 대역을 활용해서 전송했기에, 기존 광섬유 네트워크를 활용할 수 있다는 ...
    Date2024.04.16 소식 By낄낄 Reply3 Views1098
    Read More
  8. No Image

    '카카오-라인' 통합 브랜드로 亞 1위 블록체인 도전장

    카카오와 라인(네이버 계열사)에서 출발한 두 블록체인 프로젝트 '클레이튼'과 '핀시아'가 하나로 통합된 브랜드로 아시아 시장 선점에 나선다. 13일 블록체인 업계에 따르면 클레이튼·핀시아 재단은 오는 30일 ...
    Date2024.04.16 소식 By낄낄 Reply2 Views771
    Read More
  9. No Image

    일론 머스크, X의 신규 가입자 대상으로 유료화?

    일론 머스크는 X(트위터)의 신규 가입자가 글을 쓸 때 약간의 돈을 내도록 하는 것이 봇을 막는 유일한 방법이라고 말했습니다. 지금 AI나 봇은 캡차를 쉽게 뚫을 수 있다는 말도 덧붙였습니다.
    Date2024.04.16 소식 By낄낄 Reply4 Views612
    Read More
  10. No Image

    로켓레이크에서 윈도우 11 업데이트 에러가 해결됨

    11세대 코어 프로세서, 로켓레이크에서 윈도우 11의 업데이트 실행을 방해하는 버그가 마침내 해결됐습니다. 로켓레이크의 인텔 스마트 사운드 테크놀러지 드라이버가 윈도우 11에서 블루스크린 충돌을 일으켰던 것이 그 이유입니다. 문제...
    Date2024.04.16 소식 By낄낄 Reply3 Views735
    Read More
  11. 윈도우 98용 앱을 95로 포팅하는데 성공

    윈도우 98의 닷넷 프레임워크를 윈도우 95에서 쓸 수 있게 포팅해, 윈도우 98용으로 출시된 여러 앱을 윈도우 95에서 실행하는데 성공했습니다. 98 초창기에는 딱히 98에서만 되는 앱은 없었던 것 같은데 기억이 가물가물 하네요. 그때만...
    Date2024.04.16 소식 By낄낄 Reply2 Views930 file
    Read More
  12. 483바이트 용량의 레이 트레이싱 데모

    483바이트 용량의 레이 트레이싱 데모입니다. 용량이 작고 그래픽이 단순해서 펜티엄 프로(1995년에 나옴) 이상 CPU면 실행 가능합니다. 2개의 구체가 화면 가까이로 다가오며, 하늘과 두 공 사이에 반사된 이미지가 공 표면에 보여집니다.
    Date2024.04.16 소식 By낄낄 Reply5 Views973 file
    Read More
  13. AI가 레드 데드 리뎀션 2를 플레이

    AI한테 게임 플레이를 시키는 건 이제 식상한 일처럼 보이지만요. 방대한 오픈월드의 레드 데드 리뎀션 2라면 이야기가 달라질 수 있습니다. 여기에선 GPT-4V로 구동하는 AI가 컴퓨터에서 시각과 청각 신호를 받아 게임을 플레이하도록 했...
    Date2024.04.16 소식 By낄낄 Reply9 Views1412 file
    Read More
  14. No Image

    일본 호야가 랜섬웨어 공격으로 해킹당함

    일본의 광학 기술 회사인 호야가 랜섬웨어 공격을 받았습니다. 해커들은 170만 개의 파일(2TB)가 공개되는 걸 원하지 않는다면 천만 달러를 내놓으라 요구하고 있습니다. 호야는 각종 첨단 유리 제품을 만드는 회사입니다. 반도체 제조용 ...
    Date2024.04.15 소식 By낄낄 Reply4 Views987
    Read More
  15. No Image

    vscode copilot은 버전이 몇인가요?

    gpt 버전 몇을 기반하나요??  홈페이지 뒤적거려도 정보가 없네요.. 
    Date2024.04.14 질문 By방황하는물고기 Reply4 Views699
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 578 Next
/ 578

최근 코멘트 30개
SuGo
23:33
급식단
23:32
고자되기
23:25
헥사곤윈
23:20
linlie
23:20
염발
23:20
360Ghz
23:18
360Ghz
23:15
360Ghz
23:14
gurepa
23:11
장구
23:09
하뉴
23:07
AKG-3
23:07
고자되기
23:06
오버쿨럭커
23:05
FactCore
23:02
오버쿨럭커
23:02
유타나토스
23:00
낄낄
23:00
슈베아츠
22:57
피자피자
22:57
탐린
22:57
Touchless
22:55
Touchless
22:52
360Ghz
22:51
슬렌네터
22:51
블레이더영혼
22:50
노코나
22:50
늅찡
22:49
360Ghz
22:48

MSI 코리아
더함
한미마이크로닉스
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소