컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2019.10.12 03:10

자일링스의 FPGA를 AI 가속기에 통합하는 소프트웨어 환경 Vitis

조회 수 2367 댓글 3

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/news/1210460.html

썩 대중적인 물건은 아닌데, ASIC나 FPGA 등의 개념에 대한 설명이 있어서 올려봅니다.

7nm로 생산하는 FPGA 칩 Versal을 손에 든 자일링스 사장 겸 CEO 빅터 펜

FPGA (Field Programmable Gate Array)를 개발/판매하는 자일링스(Xilinx)는 10월 1일부터 2일에 XDF (Xilinx Developer Forum) Americas 2019 (XDF 2019)를 미국 캘리포니아주 산호세의 Fairmont San Jose에서 개최했습니다. 여기서 자일링스 사장 겸 CEO인 빅터 펜은 자사의 FPGA를 활용해 딥러닝을 효과적으로 수행하는 통합 소프트웨어 환경, Vitis를 발표했습니다.

텐서플로우와 Caffe 등의 일반적인 프레임워크를 사용하는 프로그래머가 FPGA의 지식이 없어도 Vitis AI 라이브러리를 활용해서 FPGA 기반 딥 러닝 추론을 쓸 수 있습니다. 10월 말부터 출시돼 자일링스의 FPGA 제품(Alveo와 Zynq 등)을 구입하거나 퍼블릭 클라우드 서비스를 통해 무료로 이용 가능합니다.

ASIC 제작 전 테스트용이었던 FPGA가 이제는 연산용으로

PCI Express의 FPGA 가속 카드 Alveo를 손에 든 빅터 펜

FPGA는 프로그래머블 커스텀이 가능한 로직 블럭이 있어, 여기에 어떤 프로그램(HDL : 하드웨어 기술 언어)을 넣느냐에 따라 다양한 로직 회로를 구성할 수 있습니다. 예를 들어 CPU처럼 다양한 처리를 수행하는 논리 회로를 정의해서 연산하고, GPU 같은 병렬 처리 가능한 논리 회로를 넣는 등, 다양한 활용이 가능합니다. 논리 회로 뿐만 아니라 메모리용 블럭도 있어, 이를 캐시로 쓰거나 메인 메모리처럼 쓸 수도 있습니다.

그래서 FPGA는 반도체 업체들이 SoC나 ASIC (Application Specific Integrated Circuit)를 설계하고 개발할 때 테스트 칩으로 쓰거나, 소량 생산하는 ASIC를 개발해 웨이퍼를 직접 생산하지 않고 FPGA+HDL로 대체하는 식으로 많이 씁니다.

자일링스는 주요 반도체 제조사 중 하나로, FPGA 시장에선 인텔이 인수한 알테라와 더불어 시장을 양분하고 있습니다. 최근에는 인텔 제온+알테라처럼 FPGA를 하나의 패키지로 제공하는 경우도 있고, 자일링스의 Zynq나 인텔 Stratix처럼 Arm CPU를 FPGA가 1칩 SoC로 만들어, OS 실행은 Arm CPU가 하고 FPGA는 특수 용도-예를 들면 DSP처럼 음성 처리하고 GPU가 병렬 처리하는 식으로 다양한 활용하고 있습니다.

이제 FPGA는 테스트 칩이 아니라 일종의 가속기로서 쓰는 경우가 늘어나고 있습니다.

다양한 분야에서 성장 중인 가속기 시장, 딥 러닝용 제품이 주목

FPGA를 사용하는 통합 소프트웨어 환경, Vitis

이렇게 특정 용도에 쓰는 논리 회로를 미국의 반도체 업계에서는 도메인 프로세서, 도메인 가속기라 부릅니다. 현재 반도체 시장의 트렌드이기도 하지요. 18개월~2년 마다 반도체 성능이 두배로 늘어난다는 무어의 법칙을 인텔조차도 실현하기 어려워졌습니다. 이런 상황에서 앞으로 성능을 향상시킬 방법으로 주목받는 게 도메인 프로세서입니다.

도메인 가속기의 대표적인 사례가 GPU입니다. 더 구체적으로 말하면 NVIDIA의 GPU+CUDA입니다.이 조합은 딥 러닝/머신 러닝의 AI 학습에 활용됩니다. 딥 러닝의 DNN Deep Neural Network 교육을 CPU로 수행하려면 엄청난 시간이 걸립니다. 그걸 병렬 처리에 특화된 GPU에서 진행하면 몇 달이 하루로 줄어듭니다. 그래서 지금은 학습 처리를 GPU+CUDA로 수행하고 있습니다. GPU 하나만으로도 그래픽 렌더링이나 병렬 연산이 가능하지만, CUDA와 NVIDIA가 제공하는 라이브러리를 통해 GPU를 AI 학습이라는 특정한 용도에 쓸 수 있게 됐습니다.

Vitis의 구조
　

이번에 자일링스가 발표한 Vitis도 기본적인 아이디어는 CUDA와 비슷합니다. CUDA가 GPU 하드웨어의 차이를 줄여, 어떤 GPU에서도 같은 CUDA 코드의 소프트웨어를 실행하는데, Vitis도 서로 다른 FPGA의 차이점을 Vitis가 흡수하는 구조입니다. 또 보통의 경우엔 프로그래머가 HDL를 다룰 줄 알고, HDL에 따라 FPGA를 어떻게 구성할지는 프로그래밍하지만 Vitis에서는 그런 부분까지 모두 포용합니다. 즉 Vitis라는 소프트웨어를 통해서 도메인별로 가속기를 갖춘 것처럼 만드는 구조입니다.

Vitis AI
　

Vitis AI는 특수 용도의 라이브러리도 함께 제공합니다. 깃허브에 공개된 라이브러리의 일부를 AI에 특화한 것입니다. 일반적으로 AI 프로그램을 설계하는 프로그래머는 텐서플로우와 Caffe같은 딥 러닝 프로그렘워크의 지식은 있으나, 하드웨어에 대해서는 잘 알지 못하는 경우가 많습니다. 실제로 CUDA를 쓰는 프로그래머도 NVIDIA 최적화 툴을 이용해 최적화를 할 뿐이지 GPU 하드웨어에 대해 잘 알지는 못합니다. Vitis도 하드웨어 부분을 Vitis가 처리하기에 많은 지식이 필요하지 않습니다.

Vitis AI가 텐서플로우와 Caffe 등의 딥 러닝 프레임 워크를 지원

하지만 Vitis을 도입해 FPGA에 최적화하하면 텐서플로우와 Caffe를 사용한 AI 프로그램을 만들 수 있습니다. 따라서 소프트웨어 통합 환경이 구축됩니다. 자일링스는 Vitis를 10월말에 제공할 계획이며, 자일링스 FPGA를 사용하는 사용자라면 무료로 제공, 라이브러리는 오픈 소스로 제공합니다.

FPGA + Vitis + Vitis AI 조합으로 딥 러닝 추론의 도메인 가속

자일링스의 Vitis 데모, Zynq의 이미지 인식 소프트웨어를 FPGA에서 실행

자일링스는 Vitis과 Vitis AI 라이브러리를 주로 딥 러닝 추론용으로 제공할 계회입니다. 데이터 센터에서 실행하는 딥 러닝용 학습 솔루션은 현재 NVIDIA가 독점한 상태입니다. 이걸 뒤집긴 매우 어렵지만 엣지 컴퓨팅나 음성 인식을 비롯해 애플리케이션 클라우드에서 쓰는 추론 작업의 경우, 일부 스마트폰의 전용 가속기 외에 대부분의 처리를 CPU에서 합니다. 각 추론마다 도메인 가속기를 쓰는 게 사실상 표준이 됐습니다.

NVIDIA도 이런 분위기에 맞춰 GPU+CUDA를 이용한 추론 개발 키트인 CUDA-X AI를 3월의 GTC 19에서 발표했고, 인텔도 엣지 컴퓨팅에서 추론 작업의 도메인 가속장치인 너바나 NNP-I를 제공하는 등, 다들 추론 작업을 위한 솔루션을 확충 중입니다. 추론이 다음번의 주요 경쟁장이 되리라고 보기 때문입니다. 그래서 자일링스도 Vitis+Vitis AI를 도입하며 이 경쟁에 참여했다고 볼 수 있겠습니다.

ASIC나 CPU/GPU는 기능이 고정돼 애플리케이션마다 실행 효율이 다릅니다.

FPGA는 하드웨어 구성을 유연하게 바꿀 수 있어 효율을 높이기 편합니다.

그럼 GPU 대신 FPGA를 쓰는 이유는 무엇일까요? 이번 XDF 2019에서 자일링스 소프트웨어 AI 제품 마케팅 담당 부사장, 라미네 론은 "CPU와 GPU에서 AI를 처리하면 애플리케이션 처리에 따라 리소스를 제대로 활용하지 못하는 경우가 있습니다. CPU나 GPU는 연산 유닛의 구성이 고정되고 메모리 계층 구조도 바꿀 수 없어서 그렇습니다. 반면 FPGA는 연산 유닛과 메모리 계층을 필요한 처리에 맞춰 최적화합니다." 라고 했습니다. 애플리케이션이 필요로 하는 요구에 따라 최적화할 수 있는 게 FPGA의 장점입니다. 이 최적화 작업은 모두 Vitis가 자동으로 수행해 프로그래머가 신경 쓸 필요가 없다는 장점도 있습니다.

프로그래머가 FPGA에 익숙해 HDL을 쓸 수 있다면 직접 최적화하고 여기서 실행하는 프로그램을 만들어도 됩니다. 하지만 그런 지식이 없어도 Vitis를 도입하면 엣지 컴퓨팅 디바이스의 FPGA 칩이나 FPGA 가속기, 클라우드 가속기 등을 사용해 텐서플로우와 Caffe 등의 프레임 워크를 활용, 딥 러닝 추론 연산을 수행할 수 있습니다. 그것이 Vitis의 장점입니다.

제온의 아성을 무너뜨릴 수 있는가?

자일링스는 FPGA+Vitis의 응용 사례로 딥 러닝을 이용한 영상 인식의 데모를 공개했습니다. 자일링스의 처리는 끝났으나 NVIDIA는 아직 처리 중이네요.

앞으로는 자동 운전이나 ADAS에 필요한 딥 러닝의 영상 인식 엔진으로 채택, 스마트 시티를 실현하는 보안 카메라의 이미지 인식 장치로 활용을 염두에 두고 있습니다. 구체적인 고객사로 일본 히타치 자동차가 자일링스 FPGA를 ADAS 시스템에 사용한 사례를 공개했습니다.

5G도 새로운 응용 분야입니다. 삼성전자가 미국/한국에서 제공하는 5G 베이스 스테이션 솔루션에 자일링스의 FPGA를 채택했음을 밝혔습니다. 일본의 라쿠텐은 제온+알테라 FPGA를 5G에 사용합니다. 이쪽도 회사는 다르지만 FPGA를 5G 서비스에 쓰는 것이죠.

또 애플 시리와 아마존 알락세 같은 음성 인식 기능을 향상시키고, 번역, 자연 언어 기능을 실현하는데도 FPGA 가속기와 이를 장착한 퍼블릭 클라우드 서비스가 있습니다. 클라우드의 딥 러닝 추론 시장에선 많은 CPU(인텔 제온)를 쓰고 있으며, 여기에 딥 러닝 시장에서 독점적인 비중을 차지한 NVIDIA가 있고, 인텔도 추론 전용 도메인 프로세서를 출시하려 합니다. 자일링스도 Vitis 솔루션을 가속화해 시장 점유율을 확보하려 합니다. 앞으로 딥 러닝을 위한 도메인 가속기의 경쟁이 치열해지리라 보입니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '3'

?
달가락 2019.10.12 07:02

일전에 올려주신 VLSI: 무어의 법칙 3단계 (https://gigglehd.com/gg/5781335 )과 더불어 이후의 연산장치가 어떤 방향으로 흘러갈 것인지를 어렴풋이 알게되는 좋은 글이었습니다. 고맙습니다.

한편, 기계학습 추론을 위한 가속장치만 놓고 보자면, nVidia 역시 놀고만 있는 것이 아니라서요. 얼마전에 개선판이 나온 TensorRT 추론 전용 라이브러리와 같이 기존 GPU 기반의 다양한 기계학습용 프레임워크에 손 댈 필요 없는 손쉬운 통합과 전환(예를 들자면 추론용 엔진에 맞춰 학습을 새로 할 필요 없이;)을 강점으로 데이터센터 레벨과 같은 대규모 서비스용 추론에 필요한 요구사항을 맞춰줄려는 노력을 보여주고 있습니다.

기업에서 추론 서비스를 위한 GPU의 차선책으로 CPU를 사용하는 것은 "전용 추론 엔진에 맞춰서 모델을 새로 개발하고 학습"하는 것이 꽤 큰 부담이기 때문이기도 합니다. (논외로, GPU를 사용하는 것은 latency 측면에서 다수의 사용자를 상대해야하는 public service 시나리오에서 손해이기도 합니다. 근본없는 비용도 비용이지만요.) 때문에, 자일링스의 Vitis AI는 최소한 전략에 있어서는 그들이 원하는 "추론계의 Post-CUDA"라는 위치에 맞게, 손쉬운 적용과 폭넓은 호환성을 계속해서 강조하게될 듯 합니다.
10월 말에 공개될 소프트웨어의 수준과 형태를 봐야 좀 더 이야기 해 볼만할테지만, 관련된 라이브러리를 오픈소스로 풀고, 기존의 잘 알려진 기계학습 프레임워크들(최소 3종류 이상~) 에 잘 스며들기만이라도 하면, Bare metal을 제공하는 IaaS 클라우드에서 먼저 사용사례들이 나올 것이고, 거기서 더 결과물이 잘 나왔거나 운이 좋다면 AWS나 Azure 같은 큰손들의 서비스 품목에도 추가될 수 있을 것으로 생각됩니다.
군필여고생쟝- 2019.10.12 16:03

베릴로그를 더 열심히 공부해야겠군요
이유제 2019.10.12 17:59

HDL은 언제까지고 계속되겠네요,,,

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

No Image

지금 GT730을 사용하는건 무리일까요?

집에 거의 사용하지 않은 반짝반짝한 GT730이 남아있습니다 사무용 컴퓨터 의뢰를 받아서 구성을 하고 있는데 CPU가 일반버전이랑 F버전이랑 가격차이가 꽤나 유의미하게 나서 (비용 최소화를 부탁받았습니다) F 버전 CPU에 제가 가지고...

Date2024.03.14 질문 By조마루감자탕 Reply22 Views933

Read More
MSI 메인보드, 14900KS의 6.4GHz 설정 기능 제공

MSI가 코어 i9-14900KS를 위한 새로운 메인보드 바이오스를 제공합니다. P 코어 클럭을 6.4GHz로, 올 코어 부스트는 5.9GHz 간단하게 설정하는 기능이 추가되네요.

Date2024.03.14 소식 By낄낄 Reply3 Views686

Read More
삼성 HBM3의 수율이 10~20%밖에 안 됨

삼성 HBM3 메모리의 수율이 10~20%에 불과하다고 합니다. SK 하이닉스는 70%입니다. 이것 때문에 삼성이 NVIDIA의 HBM3 주문을 확보하지 못하고 있다네요. 삼성은 HBM3 메모리의 패키징에 자체 기술을 사용하고 있으며 MR-MUF(Mass Reflow...

Date2024.03.14 소식 By낄낄 Reply9 Views2992

Read More
No Image

HBM4 두께 표준 '완화' 합의…삼성·SK, 하이브리드 본딩 도입 미루나

오는 2026년 상용화를 앞둔 12단·16단 D램 적층 HBM4(6세대 고대역폭메모리)의 표준이 정해졌다. 최근 진행된 논의에서 관련 기업들이 이전 세대인 720마이크로미터(μm) 보다 두꺼운 775마이크로미터로 패키지 두께 기준을 완화...

Date2024.03.14 소식 By낄낄 Reply2 Views1189

Read More
클래식 매킨토시의 메모리를 4MB로 늘리는데 성공

클래식 매킨토시의 메모리를 4MB로 늘린 개조입니다. 메모리가 달린 도터보더를 쓴 게 아니라 기존에 달린 8개의 44256 램을 떼어내고 4개의 4400 칩으로 바꿔습니다. 새로 단 램은 72핀 4MB SIMM에서 떼어냈다고 하네요. 물론 램만 떼다...

Date2024.03.14 소식 By낄낄 Reply3 Views1098

Read More
ASML, 최초의 2nm Low-NA EUV 장비인 트윈스캔 NXE:3800E를 출하

ASML이 트윈스캔 NXE:3800E를 출하했습니다. 2nm와 3nm 공정 생산이 가능한 Low-NA EUV 장비입니다. 어디에 들어갔는지 밝히진 않았으나 TSMC, 삼성, 인텔 중 하나로 보입니다.

Date2024.03.14 소식 By낄낄 Reply0 Views751

Read More
No Image

AMD, 리눅스 커널에 젠5 프로세서 관련 패치를 추가

AMD가 리눅스 커널에 젠5 프로세서의 성능 모니터링과 이벤트 관련 패치를 추가했습니다. 저런 기능이 특별하다기 보다는, 젠5 프로세서의 출시가 점점 다가오고 있다는 소리 되겠습니다.

Date2024.03.14 소식 By낄낄 Reply0 Views515

Read More
Cerebras, 4조 개의 트랜지스터와 90만 개의 AI 코어를 지닌 칩 공개

Cerebras 시스템의 웨이퍼 스케일 엔진 3입니다. 웨이퍼 한 장으로 칩 한 개를 만들기에 웨이퍼 스케일인데요. 이번에 나온 건 세게에서 가장 빠른 AI 칩이라는 수식어가 붙습니다. 5nm 공정 생산, 4조 개의 트랜지스터, 90만 개의 AI 코...

Date2024.03.14 소식 By낄낄 Reply17 Views2497

Read More
Qbic 가상화폐 채굴 때문에 라이젠 9 7950X의 인기가 높음

비트코인이 사상 최고치인 7만 달러를 넘어서면서 가상화폐 채굴에 다시 관심이 쏠리고 있습니다. 16코어가 탑재된 라이젠 9 7950X 프로세서는 100W 이하로 전력 사용량을 낮춰도 높은 효율로 작동합니다. 그래서 Qbic 가상화폐 채굴에 많...

Date2024.03.14 소식 By낄낄 Reply3 Views827

Read More
인텔의 전세계 데스크탑/노트북 CPU 출하량, AMD+애플의 3배 이상

2023년 4분기 전세계 노트북과 데스크탑 PC의 CPU 출하량입니다. 인텔은 5천만대, AMD는 8백만대, 애플은 6백만대가 출하됐습니다. 전년 대비 인텔은 3% 성장, AMD는 -1% 감소, 애플은 4% 감소였습니다. 또 인텔 점유율은 78%, AMD 점유율...

Date2024.03.14 소식 By낄낄 Reply3 Views616

Read More
주요 제조사의 sata ssd의 용량 확장은 8TB(또는 7.68TB)에서 정체되어 있습니다.

삼성은 삼성 870 QVO가 8TB로 가장 큽니다. 참고로 삼성 870 QVO는 QLC입니다. 참고로, 데이터센터 용은 7.68TB까지 있습니다. 리뷰를 찾아보기가 쉽지가 않은데... 아마 TLC일 겁니다. 마이크론은 데이터센터용...

Date2024.03.13 일반 Bymilsa Reply17 Views1221

Read More
N100 PC 생각외로 쓸만하네요.

그쪽 라인 성능이 좋아봐야 얼마나 좋겠거니 하고 녹화용으로 쓰는데 이번에 아무생각없이 다른 용도로 써보니 생각외로 상당히 쓸만하다는 생각이 들었습니다. 가능하면 PC쪽을 적게 쓰고 안드 태블릿이나 게임기를 쓰는 쪽으로 선회...

Date2024.03.13 일반 By타미타키 Reply20 Views2157

Read More
액체 금속이 새어 들어간 그래픽카드를 수리

그래픽카드에 책체 금속 써멀을 썼다가 고장난 제품을 수리한 영상입니다. 지포스 RTX 3090 파운더스 에디션인데, 대부분의 회로는 정상이었지만 비디오 신호가 출력되지 않았습니다. 메모리 뱅크 테스트를 해 보니 2개의 GDDR6X 메모리 ...

Date2024.03.13 소식 By낄낄 Reply6 Views1738

Read More
인텔 가우디 2, 스테이블 디퓨전에서 NVIDIA H100보다 55% 높은 성능

스테이빌리티 AI가 NVIDIA H100 호퍼 80GB, A100 암페어 80GB, 인텔 가우디 2 96GB에서 스테이블 디퓨전 3의 성능을 비교했습니다. NVIDIA H100은 슈퍼 스칼라 쿠다 프로세서에 텐서 코어를 조합했지만 가운디 2는 생성 AI와 LLM 가속을 ...

Date2024.03.13 소식 By낄낄 Reply3 Views1251

Read More
No Image

대만 전기요금 30% 인상, 반도체 가격 급등?

대만 정부가 TSMC처럼 전기를 많이 쓰는 기업에게 전기 요금을 최대 30% 가량 더 부과할 수 있다고 합니다. 지난 2년 동안 50억kWh 이상을 사용한 기업이 여기에 해당되며, 회사 전체가 아니라 개별 업장을 단위로 계산합니다. 대만의 전...

Date2024.03.13 소식 By낄낄 Reply0 Views901

Read More