25TFLOPS의 슈퍼 GPU 베가로 GPU 컴퓨팅 시장을 공략하는 AMD

Extra Form
참고/링크	http://pc.watch.impress.co.jp/docs/colum...34800.html

라데온 인스팅트로 GPU 컴퓨팅 시장을 겨냥

AMD는 1 장의 카드로 25TFLOPS(FP16)의 성능을 실현하는 새로운 GPU, 라데온 인스팅트(Radeon Instinct) MI25를 GPU 컴퓨팅 시장에 출시합니다. 차세대 GPU 아키텍처인 베가 기반의 GPU로, 이게 출시되면 NVIDIA 파스칼 기반의 테슬라 P100(GP100)의 21TFLOPS(FP16)을 넘어섭니다.

AMD는 GPU 컴퓨팅을 위한 포괄적인 전략과 하드웨어 제품, 소프트웨어 플랫폼을 발표했습니다. AMD가 Machine Intelligence(MI)라 부르는 머신 러닝에 GPU 컴퓨팅을위한 새로운 제품 브랜드인 라데온 인스팅트를 출시합니다. 라데온 인스팅트는 머신 러닝 가속 장치를 공략하는 GPU로 2017년 상반기에 출시됩니다. 앞으로는 이런 GPU 컴퓨팅용 제품도 라데온의 서브 브랜드가 됩니다.

라데온 인스팅트는 현재의 폴라리스와 피지 아키텍처 GPU 외에도 차세대 베가 아키텍처 GPU도 포함됩니다. 새로운 아키텍처인 베가 기반의 라데온 인스팅트 MI25는 SIMD 포맷의 FP16을 지원한다는 것을 공식 발표했습니다.

라데온 인스팅트 엑셀레이터

라데온 인스팅트의 개요

딥 러닝의 훈련과 추론 단계를 모두 커버

AMD는 라데온 인스턴트에 맞춰 오픈 소스 머신 러닝을 위한 라이브러리인 MIOpen을 2017년 1분기에 제공합니다. 또 올해 4월에 라데온의 GPU 컴퓨팅 소프트웨어 플랫폼인 Radeon Open Compute Platform(ROCm)을 발표했습니다. ROCm는 멀티 프로그래밍 언어로 오픈 소스의 GPU 컴퓨팅 플랫폼이 됩니다. HSA (Heterogeneous System Architecture)의 AMD GPU를 위한 확장 구현이며, 라데온 인스팅트에 맞춰 AMD는 ROCm을 확장, 딥러닝 프레임 워크로 최적화했습니다.

하드웨어와 소프트웨어를 통합하는 사업인 라데온 인스팅트

머신 러닝을 위한 라이브러리 MIOpen도 투입

ROCK이란 발음을 이용한 개그

ROCm 인프라의 사상

ROCm 인프라 개요

ROCm와 HSA

ROCm의 기능

ROCm 소프트웨어 스택

또한 AMD의 리사 수(Lisa Su. President and CEO, AMD) CEO는 라데온 인스팅트의 배경으로 "컴퓨팅이 몰입 (Immersive)에서 본능적으로 (Instinctive) 바뀐다"고 설명했습니다. 이런 시대에선 데이터 센터가 변화해야 하며, 고성능 CPU뿐만 아니라 고성능 GPU와, CPU와 GPU를 통합시키는 구조가 필요하며, 그 모든 걸 갖춘 게 AMD 뿐이라는 주장입니다.

만반의 준비를 갖추고 GPU 컴퓨팅 시장에 진입하는 AMD

라데온 인스팅트는 AMD가 GPU 컴퓨팅 시장에 다시 진출함을 선언하는 것과 같습니다. GPU를 범용으로 사용하는 GPU 컴퓨팅은 현재 NVIDIA의 독무대입니다. NVIDIA의 경쟁상대는 AMD GPU가 아니라 인텔의 나이츠 랜딩과 FPGA (Field-Programmable Gate Array) 전용 가속장치였습니다. AMD는 여기에 진출을 여러번 시도했으나 눈에 띄는 성공을 거두진 못했는데 그 원인은 여러가지입니다.

하나는 2년 전까지 AMD는 CPU와 GPU를 하나의 다이에 통합한 APU (Accelerated Processing Unit)에 초점을 맞췄고, GPU만을 활용하는 GPU 컴퓨팅을 적극적으로 추진하지 않았다는 겁니다. 또 GPU 컴퓨팅을 위한 소프트웨어 플랫폼 HSA로 업체들을 끌어들이는 데 개발 시간이 걸렸고, GPU 컴퓨팅 시장의 급성장을 예측하지 못했다는 점도 있습니다.

그러나 상황은 바뀌었습니다. 현재 AMD는 APU를 모든 시장에 적용하려던 전략을 멈추고, 하이엔드 CPU와 GPU로 나누는 전략으로 전환한 것으로 보입니다. 또 두 프로세서 사이는 일관된 상호 연결을 제공하는 정책을 발표했습니다. 소프트웨어에서 AMD는 GPU를 오픈화하는 GPUOpen 사업을 1년 전에 출시해 오픈소스를 추진했으며, 그 성과가 간신히 보이기 시작했습니다. 한편 GPU 컴퓨팅은 머신 러닝의 발전에 맞춰 HPC (High Performance Computing) 시장뿐만 아니라 다양한 시장에 빠르게 퍼지고 있습니다. 데이터 센터의 학습과 추론에 GPU가 모두 쓰입니다.

머신 러닝의 다양한 애플리케이션. 특히 보안이 중요합니다.

실시간 추론과 빠른 학습을 위한 신경망 알고리즘은 높은 연산 능력을 필요로 합니다.

현재 AMD는 머신 러닝의 보급에 맞춰 GPU 컴퓨팅 제품의 출시를 강요받는 상황입니다. 이를 놓치면 HPC라는 상대적으로 작은 시장(액수는 커도 도입 수는 적음) 뿐만 아니라, 모든 데이터 센터에 GPU를 투입한다는 절호의 기회를 놓치게 됩니다. AMD 자신도 개별 GPU 전략으로 전환하고, 소프트웨어 기반도 오픈 소스를 통해 갖췄습니다. 또한 FinFET 프로세스와 스택 구조의 DRAM으로 GPU의 성능도 급격히 올라, 머신 러닝을 위한 확장을 추가해 새로운 GPU인 베가를 출시하게 됐습니다.

라데온 인스팅트의 발표까지 1년 동안 혁신이 계속됐습니다.

라데온 인스팅트와 ROCm에 머신 러닝 프레임워크 구축

학습에 베가, 추론에는 폴라리스

라데온 인스팅트의 라인업은 3세대의 AMD GPU에 거쳐 있습니다. 성능/전력 순서대로 MI6, MI8, MI25입니다. MI는 머신 인텔리전스에서 유래한 것이며, 숫자는 FP16 연산 시 TFLOPS를 나타내는 것으로 추측됩니다.

MI6는 패시브 쿨링에 5.7TFLOPS, 224GB/sec의 메모리 대역, 150W 이하의 전력을 쓰며 14nm FinFET 공정의 폴라리스 10(라데온 RX 480)임을 추측할 수 있습니다.

MI8는 소형 폼 팩터로 8.2TFLOPS, 512GB/sec의 메모리 대역, 175W 이하의 전력을 쓰며 28nm 공정의 피지 XT(라데온 R9 나노)로 추측됩니다. 피지 아키텍처의 저전력 버전입니다.

MI25가 라데온 인스팅트의 핵심입니다. 차세대 베가 아키텍처 기반에 패시브 쿨링입니다. 위 이미지에선 2x 팩드 연산이라고 하는데 AMD는 질의 응답 시간에 이것이 SIMD 포맷의 FP16이라 설명했습니다. AMD GPU는 FP32 연산에 최적화된 파이프라인을 갖췄으나, 베가는 32비트 파이프로 16비트 부동 소수점 연산을 2개 병렬 연산하는 SIMD (Single Instruction, Multiple Data) 형식의 수행 덕분에 FP16에서 FP32의 2배 성능을 낼 수 있습니다.

이것은 머신 러닝의 교육 단계에서 데이터 정확도를 낮추는 FP16이 널리 쓰이는 상황에 맞춘 것입니다. 현재의 GPU 컴퓨팅은 머신 러닝을 위해 정확도가 낮은 포맷을 지원해 나가는 추세이며, NVIDIA도 파스칼에서 FP16을 지원합니다.

AMD는 머신 러닝 시장에서 3개의 제품이 영역을 나눈다고 설명합니다. 인식을 담당하는 추론 단계에선 폴라리스 기반 MI6이나 피지 코어의 MI8로도 충분합니다. 반면 MI25는 학습이나 대형 추론을 위한 것이라 AMD는 설명합니다. 데이터 센터에선 학습과 대형 추론이 필요하며 여기에 MI25를 사용한다는 것입니다.

라데온 인스팅트의 성능. MI8 / MI25에서 MIOpen을 사용하면 NVIDIA의 타이탄 X보다 성능이 높다는 게 AMD의 설명입니다.

오픈 소스 전략을 추진하는 AMD

AMD 라데온 인스팅트 GPU 컴퓨팅 전략의 핵심은 오픈 소스입니다.

"라데온 인스팅트는 단순한 제품이 아니라 새로운 제안입니다. 기존의 컴퓨팅 인프라는 이종 혼합(Homogeneous) 프로세서에 전용 가속장치와 인터커넥트, 가속 소프트웨어를 썼습니다. 하지만 차세대 컴퓨팅 인프라는 이종 혼합 프로세서에 오픈 소스 소프트웨어 계층, 개방향 인터커넥트와 가속 장치로 구성됩니다."

AMD의 라자 코두리(Raja Koduri. Senior Vice President and Chief Architect, Radeon Technologies Group, AMD)는 라데온 인스팅트를 이렇게 설명합니다. 오픈 소스와 확장성이 핵심이 될 것이라고 보는 것입니다.

지금의 컴퓨팅 인프라

앞으로의 컴퓨팅 인프라

AMD는 먼저 딥 러닝과 하드웨어 가상화를 통한 다중 사용자GPU (Multiuser GPU : MxGPU)가 잘 어울린다고 설명합니다. GPU를 여러 클라이언트에서 원활하게 공유할 수 있는 하드웨어 컨텍스트 스위칭 기반의 다중 사용자 GPU를 AMD GPU가 지원합니다. 이 기능은 여러 추론 인스턴스를 가상 GPU에서 컨시스턴트에 지원할 수 있기는 PCI 장치 가상화 Single Root I / O Virtualization (SR-IOV)에 의해 효율적으로 실현됩니다.

멀티 GPU에서 ROCm 소프트웨어 인프라는 Remote Direct Memory Access (RDMA)에 의한 멀티 GPU 사이의 커뮤니케이션이 가능하며, Coarse-Grain Shared Virtual Memory도 지원합니다. 또한 AMD는 프로세서 사이의 일관된 상호 연결 표준화에도 참가하고 있습니다. 현재 OpenCAPI CCIX(Cache Coherent Interconnect for Accelerators), Gen-Z의 3가지 컨소시엄이 있으며 AMD는 여기에 모두 참여합니다.

다중 사용자 GPU와 머신 러닝

Zen 서버 CPU Naples 플랫폼과 라데온 인스팅트

AMD는 OpenCAPI, CCIX, Gen-Z에 참가 중입니다.

서버 제조사도 라데온 인스팅트 서버 제품을 준비합니다. 모두 라데온 이스팅트 MI25 기반 시스템입니다. MI25가 16 유닛 시스템이면 400TFLOPS, 4유닛 시스템이면 100TFLOPS가 나옵니다. 앞서 말한대로 MI25가 25TFLOPS 정도 나온다고 예상할 수 있으며, 이게 120유닛 쓴다면 총 3PFLOPS가 나오지만 모두 FP16임을 감안해야 합니다.

AMD는 2017년에 새로운 CPU Zen과 새로운 GPU 베가의 두 아키텍처 투입을 앞두고 있습니다. ZEN의 투입 후 베가와 조합하ㅐ 라데온 인스팅트 플랫폼을 앞세울 것으로 보입니다.

삭제 요청

로그인

나눔글꼴 설치 안내

이 PC에는 나눔글꼴이 설치되어 있지 않습니다.