컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2017.05.12 16:15

본격적으로 딥 러닝을 공략하는 자이언트 코어. 테슬라 V100

조회 수 2925 댓글 4

Extra Form
참고/링크	http://pc.watch.impress.co.jp/docs/colum...59175.html

볼타와 자비에르가 3분기에 출시

NVIDIA는 차세대 GPU 아키텍처 볼타(Volta)와 차세대 SoC 자비에르(Xavier)의 개요와 일정을 발표했습니다. 볼타는 내부 마이크로 아키텍쳐를 일신한 NVIDIA의 차세대 GPU로 하이엔드 GV100이 먼저 나옵니다. 자비에르는 자동차 등 임베디드을 대상으로 한 SoC입니다.

모두 머신 러닝을 위한 기능을 포함하고 그 성능을 비약적으로 향상시켰습니다. 둘 다 2017년 3분기에 등장하며, 차량용 시스템에서 도요타와 제휴한 것도 발표했습니다.

GV100은 NVIDIA의 다음 플래그쉽 GPU입니다. 이것을 활용한 컴퓨팅용 버전이 테슬라 V100으로 나옵니다.

GV100는 5,120 개의 CUDA 코어(FP32 연산 유닛)을 탑재하고 FP32에서 15TFLPOS의 성능을 냅니다. 또한 딥 러닝 교육에서 쓰이는 FP16에 초점을 맞춘 텐서 연산 유닛을 탑재, FP16에선 120TFLOPS의 성능을 냅니다. NVIDIA는 GV100 기반 시스템의 수주를 개시하고 2017년 3분기부터 출하할 예정입니다.

자비에르는 차세대 자동차 시스템의 SoC입니다. NVIDIA가 설계한 덴버 ARM CPU 코어와 512 CUDA 코어의 볼타 GPU를 탑재했습니다.

자비에르는 딥 러닝의 추론(inference)에서 많이 쓰이는 낮은 정밀도의 연산을 수행하는 프로세서 DLA(Deep Learning Accelerator)를 탑재했습니다. 30W의 전력으로 30TOPS(trillion operations per second)의 INT8(8-bit 정수) 작업을 수행할 수 있습니다. 자비에르는 7월에 일부 고객에게 배송하며 9월부터 본격적으로 출하를 시작합니다.

이것은 NVIDIA가 주최하는 GPU 기술 컨퍼런스 GTC(GPU Technology Conference) 2017에서 발표된 내용입니다. GTC 2017은 미국 산호세에서 5월 8일부터 11일까지 개최됐으며, NVIDIA 젠슨황(Founder and CEO, NVIDIA)이 10일의 기조 연설에서 발표했습니다.

딥 러닝을 공략하는 NVIDIA의 전략

볼타와 자비에르에서 확실해진 NVIDIA의 전략 포인트는 3가지입니다. 우선 NVIDIA가 머신 러닝을 중시하는 방향으로 대폭 바뀌었다는 것입니다. NVIDIA는 몇 년 전부터 머신 러닝에 무게를 두고 있었으나 이번에는 머신 러닝에 최적화된 기능을 GPU에 탑재했습니다.

지금까지 나온 것과 비교하면 확장된 머신 러닝 하드웨어의 규모가 크기에 NVIDIA가 얼마나 중요하게 생각하는지를 엿볼 수 있습니다. 이 정도로 머신 러닝을 강화하면 더 이상 GPU라고 부르기도 어렵습니다.

그 다음은 머신 러닝의 최적화입니다. 고성능 GPU는 학습에 비중을 두고 SoC는 추론에 특화하도록 방향을 제시했습니다. 높은 성능의 학습 역량을 발휘하는 GPU와, 저전력 추론 전문 장치에 탑재하는 걸 목표로 한 SoC. 이렇게 두 방향으로 자사 제품을 진화시키려고 합니다.

세번째는 고성능 GPU와 SoC의 머신 러닝 기능의 구현 형태에 차이를 둔 것입니다. 고성능 GPU는 GPU 코어에서 머신 러닝 기능을 확장했습니다. 반면 SoC 쪽에선 GPU 코어와는 별도로 머신 러닝 가속 장치를 분리한 형태로 구현했습니다. 이 차이는 앞으로의 제품 개발 방향의 차이도 시사하고 있습니다.

또 NVIDIA는 놀랍게도 Xavier의 DLA (Deep Learning Accelerator)를 오픈 소스로 한다고 발표했습니다.

크기에 한계가 온 NVIDIA GPU

볼타 GV100는 진정한 자이언트 프로세서입니다. 다이 크기는 815제곱mm로 GTC 기조 연설에서 젠슨황은 "더 이상 큰 GPU를 만들 수 없다"고 말했는데 그건 사실입니다.

반도체 칩을 제조할 때 노광 공정에서 일정한 사각형 영역을 한번에 작업합니다. 반대로 말하면 그 사각형보다 더 큰 크기의 칩을 만들 수 없습니다. 그리고 현재 쓰는 크기는 33x26mm로 면적이 약 850제곱mm가 됩니다.

GV100은 가공 부분도 현재 기술에서 가능한 최대한의 칩을 씁니다. 트랜지스터 수는 210억개에 달하는데, 이는 초기 지포스 NV10의 약 900배입니다.

제조 공정은 TSMC의 12nm FinFET 프로세스입니다. 이 프로세스는 16nm 세대 프로세스에서 남는 부분을 줄이고 회로 설계, 셀 라이브러리를 축소해 밀도를 높인 공정입니다. 기술의 핵심은 이미 성숙한 16nm이기에 큰 칩을 제조할 수 있으리라 봅니다.

딥 러닝을 위한 Tensor 코어를 SM에 탑재

NVIDIA GPU 아키텍처의 GPU 코어 클러스터인 SM (Streaming Multiprocessor)은 GB100에서 총 80개가 있습니다. FP32 연산 유닛인 CUDA 코어는 총 5,120개입니다.

CUDA 코어의 수는 이전 세대의 파스칼 아키텍처 GP100이 3,584개니까 약 1.43배가 됩니다. 따라서 HPC (High Performance Computing) 등의 기존 워크로드 성능도 오릅니다.

볼타의 SM 아키텍처는 파스칼과 크게 다릅니다. 가장 큰 차이점은 각각의 SM에 8 유닛의 머신 러닝을 위한 연산 어레이인 텐서 코어(Tensor Core)를 탑재했다는 점입니다. 텐서 코어는 텐서 연산을 수행하는데 볼타는 4x4 행렬 연산을 지원합니다.

텐서 코어의 매트릭스는 16개 요소를 입력해 16개의 가중치를 곱해 그 결과를 더해 출력합니다. 볼타의 텐서 코어는 FP16 데이터끼리 곱셈에 FP32 덧셈도 수행합니다.

텐서 코어의 운영

텐서 코어로 딥 러닝 성능을 향상

볼타는 1개의 SM에 8개, GV100 전체에선 640개의 텐서 코어를 지닙니다. 각각의 텐서 코어가 64개의 병렬 연산을 수행할 수 있으니 1.4GHz 정도의 클럭에서 GV100의 FP16 기반 딥 러닝 연산은 120TFLOPS라는 엄청난 숫자를 냅니다.

현 세대의 GP100과 비교하면 딥 러닝 학습은 12배, 추론은 6배의 성능을 냅니다. 즉 NVIDIA는 1년 사이에 GPU의 딥 러닝 학습 성능을 12배로 끌어올린 셈입니다.

SM 아키텍처를 쇄신

텐서 코어를 확장하면서 볼타의 SM은 완전히 새로운 아키텍처를 쓰게 됐습니다. 볼타에서 1개의 SM은 4개의 쿼터에 분할됩니다. 각 쿼터에 FP32 유닛이 16개, FP64 유닛이 8개, 로드/스토어 유닛이 8개 배치됩니다.

명령 유닛은 NVIDIA의 SIMT(Single Instruction, Multiple Thread)로 배치됩니다. warp의 크기는 32스레드로 명령 유닛은 각 사이클마다 1warp로 1개의 명령을 발송합니다. 따라서 FP32 유닛은 2사이클에 걸쳐 하나의 warp를 실행합니다. 2개의 텐서 코어로 실행 가능한 양입니다.

또 정수 연산 유닛 명령의 발행 포트가 분리돼 부동소수점 유닛과 겹쳐 실행하는 것이 가능해졌습니다.

볼타는 메모리 계층 구조도 바뀌었습니다. 과거 2세대에서 NVIDIA GPU는 읽기 전용 L1 데이터 캐시 대신 L2에서 읽어들이는 구조였습니다. 그러나 볼타는 읽기/쓰기 L1 데이터 캐시가 부활하고 용량도 128KB로 커졌습니다. 이 L1은 일부 스크래치 패드처럼 공유 메모리를 쓸 수 있습니다.

볼타 GV100의 메모리는 HBM2로 파스칼 GP100보다 1.2배 빨라졌으며 메모리 대역폭은 900GB/s가 되었습니다. 또한 메모리 컨트롤러의 개선에 의해 메모리 실효 대역폭도 향상됩니다.

GV100는 DRAM 다이를 4개 적층한 4H로 16GB의 용량을 지니지만 8H에 32GB 용량도 고려합니다. 그러나 8H의 경우 순위가 2번째로 늦춰집니다.

칩 인터커넥트인 NVLink는 6링크로 늘어나 연결 딜ㄹ이를 28% 줄였습니다. 그 결과 1개의 다이에서 300GB/s의 대역폭을 냅니다. 링크 수가 늘어나니 직접 연결할 수 있는 GPU 수도 증가해 보다 큰 구성의 계산 노드 설계가 쉬워졌습니다.

또한 NVLink이 2.0이 되면서 하드웨어 커히런시 프로코톨을 지원합니다. 따라서 CPU와 GPU 사이에 가상 메모리 주소를 공유하는 통합 메모리에서 일관성을 지녀 지연 시간이 줄어듭니다.

스레드 제어가 크게 바뀌다

볼타 세대에선 스레드 실행 구조도 바뀝니다. 기존에는 1개의 warp 중 32 스레드가 프로그램 카운터 (PC)를 공유하고 마스크 레지스터에 의한 프레디케이션으로 컨트롤 플로우를 제어했습니다.

하지만 볼타에선 warp의 각각 스레드 레인이 저마다 PC를 갖게 되면서 개별적인 예약이 가능해졌습니다.

또 볼타는 GPU 코어 전체 작업 스케줄링도 유연하게 바뀌었습니다. GPU에 하드웨어 기반의 워크 할당 장치를 설치, GPU 코어의 실행 자원을 유연하게 낮은 지연 시간으로 작업을 할당할 수 있게 됐습니다.

이처럼 볼타는 GPU의 코어 아키텍처를 크게 확장했습니다. NVIDIA GPU의 마이크로 아키텍쳐 중엔 가장 큰 변화입니다. 특히 딥 러닝의 학습을 위한 텐서 유닛을 SM에 더한 건 결정적인 변화입니다. 덧붙여서 네이티브 명령 세트도 볼타 세대에서 새로 변했습니다.

NVIDIA는 딥 러닝으로 방향을 바꿨습니다. 현재 딥 러닝은 교육 단계에서 GPU가 확고한 위치를 구축해, 기존의 HPC (High Performance Computing) 시장뿐만 아니라 일반 데이터 센터까지 딥 러닝용으로 보급되기 시작했습니다.

NVIDIA는 인텔이나 AMD 등 다른 대형 CPU / GPU 제조사와 달리 이쪽 업계에선 상당히 우위에 있습니다. 그러나 인텔도 딥 러닝에 대한 전략을 빠르게 갖추고, AMD도 서버 시장에 재진입하며 GPU 컴퓨팅을 무기로 만드려 합니다. 또 TPU 같은 딥 러닝 프로세서도 앞으로 증가할 것으로 예상됩니다. NVIDIA는 자신들의 입지를 굳히기 위해 딥 러닝을 강화하는 방향으로 가는 것처럼 보입니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '4'

EZDIY 2017.05.12 17:29

좋은 정보 감사합니다:)
int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2017.05.12 20:43

저 텐서 코어 부분을 보니

자동적으로

d(x) = WtX + b

가 보이네요...
?
AltAir 2017.05.13 16:01

이게 그 크으으고 아름다운 사이즈를 자랑한다는 그 물건인가요 ㄷㄷ
?
nyvyr 2017.05.14 23:44

관련 명령어에 특화되어 있는건가요?

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

하드디스크 이상현상 질문

안녕하세요! SSD 3개 + HDD 1개 구성으로 사용하다가 HDD에서 배드섹터가 나와서 교체하게 되었습니다. 6000시간 정도 CCTV용으로 쓰였던 하드디스크를 다른 컴퓨터에서 배드섹터 검사를 마친 후 정상 확인 후 사용했습니다. 그런데...

Date2022.08.14 질문 ByCCa Reply29 Views1174

Read More
쓰기 속도를 2배 높이는 X-낸드 기술

네오 반도체의 X-낸드라는 기술입니다. 데이터 쓰기 속도를 2배 높여, QLC에서도 SLC 수준의 속도를 낼 수 있게 해줍니다. X-낸드는 3D 매트릭스 구조의 플래시 메모리 셀에서 각각의 플레인을 4~16개의 서브 플레인으로 나누고, 이 서브...

Date2022.08.14 소식 By낄낄 Reply7 Views1894

Read More
No Image

AMD RDNA3 GPU의 스펙 소문

AMD RDNA3 GPU의 스펙 관련 소문입니다. 이 스펙은 2020년 이후로 바뀌지 않았다고 하네요. 플래그쉽 모델에는 96MB 인피니티 캐시가 탑재되며 12288개의 코어도 있습니다. 그 아래 모델은 7680개의 스트림 프로세서, 하위 모델은 MCM이 ...

Date2022.08.14 소식 By낄낄 Reply2 Views1550

Read More
AMD, 게임스컴 이벤트에 참여

AMD가 게임스컴 이벤트에 참여한다고 발표했습니다. 8월 24일부터 29일까지 열리는 이 이벤트에서 뭘 발표할지는 알려지지 않았습니다. 발표 없이 참여만 할 수도 있습니다.

Date2022.08.14 소식 By낄낄 Reply1 Views351

Read More
No Image

인텔, 아크 그래픽 대신 CPU를 경품으로 주겠다고 제안

인텔은 Xe-HPG 스캐빈저 헌트라는 이벤트를 2021년 3월에 시작해 몇 달 동안 진행했습니다. 그리고 여기에 당첨된 300명에게 경품으로 아크 그래픽카드를 줘야 했지만, 2022년 8월인 지금도 여전히 상품을 주지 못했습니다. 그리고 다른 ...

Date2022.08.14 소식 By낄낄 Reply9 Views982

Read More
AMD RDNA3 GPU의 코드네임 유출. 물고기 이름을 사용

AMD RDNA3 GPU의 코드네임이 등장했습니다. RDNA 3.0 GFX1100 NAVI 31 Plum Bonito Radeon RX 7900 GFX1101 NAVI 32 Wheat Nas Radeon RX 7800/7700 GFX1102 NAVI 33 Hotpink Bonefish Radeon RX 7600 GFX1103 iGPU Pink Sardine/Phoenix...

Date2022.08.14 소식 By낄낄 Reply1 Views565

Read More
삼성 990 프로 M.2 PCIe Gen5 x4 SSD가 PCI-SIG 인증을 받음

삼성 990 프로 M.2 PCIe Gen5 x4 SSD가 PCI-SIG 인증을 받았습니다. PCIe 5.0 x4로 연결된다는 것 외에 다른 스펙은 알 수가 없네요. 8월 5일에 등록했고 990 프로라는 이름도 확실하게 나와 있습니다. 삼성은 PCIe 5.0 SSD인 PM1743을 ...

Date2022.08.14 소식 By낄낄 Reply1 Views872

Read More
지스킬, AMD를 위한 DDR5-6000 메모리를 개발 중

지스킬 AMD 라이젠 7000 시리즈 프로세서에 최적화된 트라이던트 DDR5-6000 메모리를 개발 중입니다. AMD EXPO 오버클럭 확장 프로파일을 지원합니다. 스펙은 6000MT/s, CL30-38-38-96입니다.

Date2022.08.13 소식 By낄낄 Reply1 Views1015

Read More
에픽 9654, 제노아 CPU의 실물 사진

젠4 아키텍처, 코드네임 제노아의 에픽 9654 실물 사진이 등장했습니다. 96코어 192스레드, TDP 360W이며 OEM 제조사를 위한 트레이에 수납된 듯 합니다. 출시는 올해 말입니다.

Date2022.08.13 소식 By낄낄 Reply6 Views1063

Read More
No Image

중국, CHIPS 법이 외국 기업을 차별한다고 반발

미국 정부가 CHIPS 법을 통과시키면서 중국이 반발하고 나섰습니다. 중국국제무역진흥위원회(CCPIT)와 중국국제상공회의소(CCOIC)는 공동성명에서 "이 법안은 반도체 부문의 글로벌 지정학적 경쟁을 심화하고 글로벌 경제 회복과 미래 기...

Date2022.08.13 소식 By낄낄 Reply5 Views1140

Read More
AMD AMF 인코더의 업데이트, 인코딩 품질 향상/성능은 하락

AMD AMF 인코더에 품질 향상 모드가 추가됐습니다. 이걸 사용하면 인코딩 품질은 1~2% 가량 향상되지만 성능은 그보다 많이 떨어집니다. 새 기능에선 B 프레임과 사전 분석을 통해 영상 품질을 높일 수 있는데, B프레임과 사전 분석을 모...

Date2022.08.13 소식 By낄낄 Reply4 Views1307

Read More
중국 YMTC, 데이터센터용 U.2 SSD를 출시

중국 YMTC가 데이터센터용 U.2 SSD인 PE310을 출시했습니다. Xtacking 2.0 3D TLC 낸드 플래시를 사용하며, 2.5인치 U.2 폼펙터에 PCIe 4.0 x4 인터페이스, 최대 용량 6.4TB, 최고 읽기 6.2Gbps, 쓰기 4.5Gbps, 100만 랜덤 읽기 IOPS, 380...

Date2022.08.13 소식 By낄낄 Reply3 Views1405

Read More
레이저, 데스애더 V3 프로 초경량 무선 마우스 발표

레이저가 초경량 무선 마우스인 데스애더 V3 프로를 발표했습니다. 가격은 149.99달러. 무게 63g에 신형 센서와 3세대 광학식 스위치를 사용합니다. 레이저 하이퍼스피드 와이어리스 무선 기술, 레이저 하이퍼롤링 무선 동글과 함께 사용...

Date2022.08.13 소식 By낄낄 Reply8 Views1026

Read More
인텔, 물리적인 공격을 감지해 보호하는 기능을 도입

인텔이 물리적인 공격을 감지해 보호하는 기능을 CPU에 도입합니다. TRC(Tunable Replica Circuit) - Fault Injection Protection은 하드웨어 센서를 통해 회로 기반 타이밍 오류를 감지하며, 12세대 코어 프로세서에서 처음으로 도입합니...

Date2022.08.13 소식 By낄낄 Reply3 Views780

Read More
지포스 'GTX' 2080이 발견

지포스 GTX 2080의 엔지니어링 샘플을 입수한 사람이 나왔습니다. 오타가 아니라 진짜 RTX가 아닌 GTX입니다. 이베이에서 360달러에 샀다네요. 기판은 PG180으로 양산형 모델에 쓰는 것과 같으며, 보조전원 포트는 8핀 2개인데 1개는 2핀...

Date2022.08.13 소식 By낄낄 Reply9 Views2185

Read More