컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2019.10.11 05:03

AI 가속 코어를 FPGA에 통합. 자일링스 Versal

조회 수 2225 댓글 5

일반 유저들과는 거리가 아주 먼 내용인데, 마지막 부분만 한번 보세요. 요새 분위기가 이렇다는 걸 알 수 있어서 올립니다.

FPGA에 CPU 코어와 AI 가속기를 결합한 Versal

자일링스의 제품 분류

FPGA(Field-Programmable Gate Array) 업체인 자일링스(Xilinx)가 새로운 종류의 제품인 Versal을 발표했습니다. ACAP(Adaptive Compute Acceleration Platform)과 머신 러닝, 5G에 초점을 맞춘 제품입니다. 자일링스는 8월에 미국 스탠포드에서 열린 핫 칩스 컨퍼런스에서 Versal ACAP를 설명했습니다.

딥 러닝이 인기를 끌면서 데이터 센터에서 FPGA를 신경망 가속기로 사용하고 있습니다. 자일링스는 여기에 맞춰 FPGA 기반으로 머신 러닝에 최적화한 제품을 내놨습니다. Versal는 FPGA, CPU 코어, AI 가속 엔진까지 3가지 하드웨어를 탑재합니다. FPGA는 다양한 하드웨어 코어를 쓰지만, ACAP는 그 중에서도 AI 가속 코어를 중요하게 여기는 제품입니다.

스칼라 엔진, 프로그래머블 로직, AI 코어까지 3종류의 프로세싱 엔진을 NOC (Network-on-Chip)로 연결

Versal의 첫 번째 제품인 VC1902

프로그래머블 로직과 AI 코어를 결합

ACAP라는 종류의 첫 제품인 Versal VC1902은 TSMC의 7nm 공정 7FF로 생산합니다. 고성능 CPU 코어를 2개, AI 엔진 코어는 400개가 들어갑니다. 트랜지스터 수는 370억 개, 온 다이 메모리는 총 855Mbit, I/O는 785개, SerDes가 44의 호화 스펙입니다. 처리 부분은 스칼라 엔진, 프로그래머블 엔진, AI 엔진의 3종류입니다. 스칼라 엔진은 Cortex-A72 듀얼 코어와 Cortex-R5 듀얼 코어를 탑재합니다.

FPGA인 Versal Programmable Logic(PL)은 1.8MFLOPS의 성능에 900K LUTs(LookUp Tables)의 구성이며, 158MB의 Block RAM(BRAM)와 UltraRAM (URAM)를 분산 배치합니다. FPGA 부분의 DSP 어레이는 FP32/16 부동 소수점 연산과 INT8/16/24, CMPLX18 고정 소수점 연산을 지원합니다. FP32의 최대 성능은 2.8TFLOPS, INT8는 11.8TOPS입니다.

프로그래머블 로직

프로그래머블 로직의 DSP 컬럼 구성

메쉬 네트워크를 써서 타일 형태로 구성한 AI 엔진

AI 엔진 코어는 400개, 최고 성능은 8비트 정수(INT8) 133TOPS. AI 엔진은 메쉬 네트워크에 연결되며, 바둑판 형태의 타일 모양으로 배치됩니다. 각각의 코어에는 L1 메모리와 DMA 엔진이 분산됩니다.

메쉬 배열의 Versal의 AI 코어

AI 엔진 코어의 내부
　

각각의 AI 코어 내부는 32-bit 스칼라 RISC 프로세서 기반인 스칼라 유닛, 512-bit SIMD(Single Instruction, Multiple Data) 벡터 유닛, 3개의 어드레스 생성 유닛이 있습니다. 명령 세트 아키텍처는 VLIW (Very Long Instruction Word). 벡터 유닛은 INT8에서 1사이클에 vec128의 연산이 가능합니다.

INT8의 vec128에서 1사이클이니 512비트 벡터 폭과 맞지 않습니다. 하나의 연산을 2개의 오퍼레이션으로 수행한다고 볼 수도 있는데, 400개의 AI 엔진이 vec128를 1 사이클마다 2 오퍼레이션으로 1.3GHz의 속도로 연산하면 133TOPS가 됩니다.

AI 코어의 이론 성능

각각의 AI 엔진은 2개의 로드와 1개의 스토어를 포함합니다. 코어의 메모리는 로컬이 32KB, 4코어 공유 어드레서블 메모리가 128KB, 또 16.3MB의 L2 SRAM이 공유됩니다. AI 코어는 온다이 메쉬 네트워크에 연결됩니다. 광대역 NOC(Network-on-Chip)에 AI 코어 메쉬와 프로그래머블 로직이 저마다 연결되며, NOC는 DRAM 인터페이스에 연결됩니다. AI 코어는 각각 DMA 엔진을 가지고 데이터를 코어에서 코어로 전달합니다.

Versal 메모리 계층

Versal의 NOC (Network-on-Chip)

Versal의 AI 코어. 유연한 데이터 플로우

가속 장치의 상호 연결인 CCIX를 지원

스칼라 엔진인 Versal Processor System(PS)는 Cortex-A와 Cortex-R의 두 가지 코어를 쓴 멀티 코어입니다. 여기에선 Cortex-A72 듀얼코어, Cortex-R5 듀얼코어 구성을 썼습니다. 또 PS에 옆에는 Versal PMC and Security를 배치했습니다. 이건 Platform Management Ctrl (PMC)와 보안을 담당하는 유닛입니다.

Versal 스칼라 엔진
　

Versal NOC는 Vertical NoC과 Horizontal NoC으로 나뉩니다. 다이 중앙은 프로그래머블 로직이 들어가며, 다이 위가 AI 코어, 다이 하단은 메모리 인터페이스, 다이 좌우에는 I/O 다이, 왼쪽에 스칼라 프로세서와 플랫폼 관리가 배치됩니다. NOC는 이들 블록 사이에 배치됩니다.

Versal의 NOC (Network-on-Chip)의 구조

Versal의 NOC 배치

Versal의 NOC 토폴로지
　

메모리 인터페이스는 DDR4/LPDDR4에 x256 인터페이스. I/O는 PCI Express Gen4뿐만 아니라 가속 인터커넥트인 CCIX도 지원합니다. CCIX는 최고 25Gbps의 2x8 구성이 가능하며, CCIX는 호스트 CPU 측과 메모리 일관성을 유지해 연결됩니다.

Versal 메모리 인터페이스

시리얼 인터페이스는 PCI Express와 CCIX를 모두 지원

다용도 Versal의 AI 엔진
　

Versal는 신경망 네트워크 프로세서로 많이 쓰는 매트릭스 전용 연산 유닛이 아니라 벡터 연산 유닛을 채용했습니다. 연산 정밀도도 FP32까지 지원해 단순 AI 코어가 아니라 다양한 용도로 쓸 수 있습니다. 딥러닝에만 전문하된 코어가 아니라 시그널 프로세싱에도 적용할 수 있습니다. 그 예로 자일링스는 5G 무선 처리를 ACAP에서 실현하는 경우를 제시했습니다.

다양한 워크로드에 유연하게 대응하는 ACAP 아키텍처

5G 무선 ACAP의 구현 사례

ACAP에서 해결해야 할 점은 프로그래밍입니다. Arm CPU, 프로그래머블 로직, AI 코어까지 서로 다른 3개의 엔진을 포괄하는 프로그래밍 플랫폼이 필요합니다. 자일링스는 이를 위해 AI 코어 라이브러리를 준비합니다. AI 코어 사이의 데이터 플로우를 자동 생성하는 컨파일러도 개발 중입니다.

ACAP의 AI 코어 프로그래밍 개념

ACAP 프로그래밍 툴 체인

FPGA의 상황 변화가 만들어낸 자일링스의 Versal ACAP

반도체 공정이 복잡해지며 FPGA가 더욱 중요해졌습니다. 지금은 새로운 공정을 도입한 반도체 칩의 설계와 제조 비용이 급증해, 전처럼 쉽게 ASIC (Application Specific Integrated Circuit : 주문형 IC)를 만들지 못합니다. 최첨단 공정에서는 아주 비싼 ASIC를 뽑아낼 가격이 맞지 않습니다. 그래서 FPGA를 쓰는 제품들이 늘었습니다. 예전에는 FPGA를 프로토타입에만 쓰고 최종 제품에는 ASIC를 썼지만, 지금은 FPGA를 양산 제품에 넣는 경우가 많습니다. 그게 ASIC를 설계하는 것보다 저렴해서입니다.

무어의 법칙이 둔화되면서 CMOS 스케일링이 거의 멈추며 범용 프로세서의 성능을 끌어올리기 힘들어졌다는 것도 한몫 합니다. 그래서 성능 향상은 특정 작업에 최적화된 Domain Specific 방식을 많이 씁니다. 데이터 센터에서도 특정 워크로드에 최적화한 가속 장치의 도입이 늘어나고 있습니다. 이런 상황에서 하드웨어 로직을 프로그램으로 대체할 수 있는 FPGA를 다용도로 활용하는 가속기로 도입하고 있습니다. 마이크로소프트는 데이터센터에 FPGA를 전면 도입해 딥러닝을 FPGA로 연산했습니다. 반도체 공정의 개발이 지지부진해지며 FPGA에 시선을 돌리게 됐습니다.

이런 상황에서 FPGA도 변화했습니다. 간단한 프로그래머블 로직 어레이가 아닌 CPU 코어, 고속 메모리, 고속 I/O 인터페이스 블록을 하드웨어 코어로 탑재합니다. 프로그래머블 로직도 더 고성능을 추구하고 있습니다. 자일링스는 이런 분위기에 맞춰, 고성능 가속을 요구하는 데이터센터에 유연성을 확보한 솔루션을 제공합니다. 하드웨어 로직을 프로그래밍을 대체하는 FPGA의 장점과, 하드웨어 AI 가속의 장점을 결합합니다. 비싼 ASIC를 대체해 확장이 필요한 5G 시스템 같은 솔루션도 제공합니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '5'

군필여고생쟝- 2019.10.11 07:04

요즘은 ASIC보단 FPGA만 쓰는게 나은가보네요... 잘 읽었습니다!
?
달가락 2019.10.11 07:07

유지비용문제도 FPGA 혼합 컴퓨팅을 부추기고 있는 것 같아요. 고객사 중에서도 gpu 클라우드를 쓰고 있는데, 이게 비용이 많이 들다보니 이런저런 옵션이 나오는데 그 중에 하나가 저런류의 전용 추론엔진 이야기도 나오더라구요.
?
마라톤 2019.10.11 08:11

좋은 정보 감사합니다. ^_^
화수분 2019.10.11 13:14

FPGA에 CPU까지 박아넣었으면 그래픽카드에 비해서 어떤 이점이 있을지.. 플랫폼이 어지간히 잘 뽑혀야 글카에 비해 이점이 있겠군요.
?
PHYloteer 🤔 2019.10.13 00:45

신경망은 모르겠는데 밑에 나온 5G 장비 같은 경우 FPGA가 이래저래 낫습니다 (레이턴시적인 측면이라던가 전기 효율적인 측면이라던가). 비슷한 이유로 (DSP칩으로 커버하기 힘든) 다른 실시간 DSP 어플리케이션들도 FPGA를 쓰는 게 낫습니다. 말고도 여러 용도들이 있겠죠.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

SK 하이닉스, 자체 컨트롤러의 72층 512Gb 3D 낸드 SSD

SK 하이닉스가 72층 512Gb 3D 낸드 플래시 메모리에 자체 컨트롤러와 펌웨어를 사용한 엔터프라이즈용 SSD를 개발했다고 발표했습니다. 기존의 256Gb 1칩과 같은 크기에 2배의 저장 밀도를 지녔으며, 최대 4TB의 용량을 냅니다. 제품 종...

Date2018.02.05 소식 By낄낄 Reply10 Views2216

Read More
MSI OPTIX MPG27C 게이밍 모니터

MSI OPTIX MPG27C 게이밍 모니터입니다. 곡률 1800R, 화면 크기 27인치, 리프레시율 144Hz, NTSC 100%와 sRGB 115% 색영역, 1920x1080 해상도, 컨트라스트 3000:2, 최대 밝기 250cd/2m, 시야각 178도. 5개의 RGB 패널과 게임 정보를 연동...

Date2018.02.05 소식 By낄낄 Reply0 Views557

Read More
Swiftech Apogee SKF 워터블럭

Swiftech Apogee SKF 워터블럭입니다. 아세탈 바디를 사용한 일반형은 69.95달러, 크롬 도금 처리한 황동 바디를 쓴 프리스티지는 89.95달러. 125μ의 핀으로 구성된 쿨링 엔진을 사용, 중앙에 2개의 RGB LED 스트립을 내장, 인텔 LGA 2...

Date2018.02.05 소식 By낄낄 Reply1 Views515

Read More
ZOWIE XL2740 게이밍 모니터

ZOWIE XL2740 게이밍 모니터입니다. 리프레시율 240Hz, 응답 속도 1ms, 화면 크기 27인치, 해상도 풀 HD, 차광 실드, 게임 프로파일 전환, 색상 최적화, 플리커 프리, 블루라이트 감소 기능. TN 패널, 밝기 320cd/m2, 명암비 1000:1, 동작...

Date2018.02.05 소식 By낄낄 Reply0 Views623

Read More
애즈락 IMB-X790 메인보드

애즈락 IMB-X790 메인보드입니다. 인텔 C236 칩셋으로 스카이레이크/카비레이크의 코어 시리즈 외에 제온 E3-1200 v5도 지원하면서, d-sub와 PCI 슬롯이 달린 게 특징. ECC DDR4-2133 x4 64GB 듀얼채널, SATA 6Gbps x6, mSATA x1, M.2 x1,...

Date2018.02.05 소식 By낄낄 Reply6 Views784

Read More
No Image

중국 국가개발 및 개혁위원회,삼성전자와 DRAM 공급 확대 및 가격인하 MOU체결

https://gigglehd.com/gg/?mid=hard&document_srl=2376158 : 삼성, 메모리 가격을 인하할 것 - 컴퓨터 / 하드웨어 - 기글하드웨어 며칠전 삼성이 메모리가격을 인하할것이라는 소식이 전해졌죠 이러한 전망에는 여러가지 요인이 포...

Date2018.02.05 소식 ByElsanna Reply11 Views1626

Read More
No Image

Power 아키텍처도 취약점 해당

대상은 파워 7, 8, 9 취약점 1, 2(스펙터), 취약점 3(멜트다운) 모두 해당이랍니다 나온지 얼마 되지도 않은 파워9 의문의 1패 리사 수, 짐켈리 당신들은 무슨 신탁이라도 받은 겁니까

Date2018.02.04 소식 By칼토로스 Reply8 Views2048

Read More
인텔, 5년만에 CTO 임명

인텔이 Michael Mayberry 박사를 CTO에 임명했습니다. 인텔의 세번째 CTO가 이렇게 탄생했네요. 원래 CTO를 맡았던 Justin Rattner이 2013년에 자리를 비운 이후 5년 동안 CTO를 맡은 사람이 없었습니다. 이 분은 2005년에 인텔의 재료 ...

Date2018.02.03 소식 By낄낄 Reply12 Views2137

Read More
백블레이즈 2017년 하드디스크 통계: 히타치가 제일 안전

클라우드 서비스 회사인 백블레이즈는 매년 자신들이 사용하는 하드디스크의 고장에 대한 보고서를 내놓습니다. 2017년 4분기에 이 회사는 91243개의 하드디스크 통계를 냈습니다(사용량이 45개가 안되는 모델은 통계에서 제외). 25746개...

Date2018.02.03 소식 By낄낄 Reply15 Views4274

Read More
No Image

삼성, 메모리 가격을 인하할 것

1. DRAM 메모리 칩의 공급은 여전히 부족합니다. 하지만 가격 상승세는 점점 나아지고 있습니다. DRAM 제조사 입장에서 모바일 DRAM의 수익은 다른 제품보다 낮습니다. 1분기 스마트폰의 수요도 낮습니다. 그래서 더 높은 수익을 내는 다...

Date2018.02.03 소식 By낄낄 Reply6 Views2725

Read More
인텔 제온-D, 스카이레이크 18코어로 업그레이드

인텔의 SoC인 제온 D가 올해 중 스카이레이크 아키텍처(스카이레이크-SP, AVX-512 지원)으로 업그레이드됩니다. 6종의 제품이 모습을 드러냈네요. 상위 모델인 D-2191은 18코어 36스레드, 24.75MB 캐시, 클럭 1.6GHz, 86W TDP, 가격 2406...

Date2018.02.02 소식 By낄낄 Reply3 Views1721

Read More
인텔 Dawson Canyon NUC 발표

인텔 Dawson Canyon NUC입니다. 코어 i7-8650U, TDP 15W의 카비레이크 리프레시, 4코어 8스레드, 클럭 1.9~4.2GHz. SO-DIMM 슬롯 한개에 32GB DDR4-2400 메모리, M.2 무선랜, M.2 2280 SSD, 2.5인치 SSD. 전면 USB 3.0 포트 2개, 후면 2개...

Date2018.02.02 소식 By낄낄 Reply3 Views1281

Read More
아틱 프리저 33 eSports ONE

아틱의 CPU 쿨러인 프리저 33 eSports ONE입니다. 가격은 29.99달러. 권장 TDP 200W, 최대 320W까지 쿨링 가능, 레드/옐로우/그린/화이트의 4가지 색상. 0.5mm 두께의 알루미늄 핀 49개, 6mm 두께 히트파이프 4개가 집적 접촉, 120mm 구경...

Date2018.02.02 소식 By낄낄 Reply2 Views755

Read More
인텔 제미니레이크 NUC의 스펙

인텔 제미니레이크 NUC의 스펙입니다. NUC7CJYH, NUC7PJYH, NUC7CJYS가 있으며 이 중 2개는 듀얼코어 셀러론 J4005, 나머지 하나는 쿼드코어 펜티엄 실버 J5005 프로세서를 사용합니다. 클럭은 2.8GHz, 2.7GHz. J5005의 내장 그래픽은 UHD...

Date2018.02.01 소식 By낄낄 Reply2 Views2400

Read More
No Image

AMD: 그래픽카드 열심히 만드는데 메모리가 힘드네요

요새 그래픽카드 가격이 얼마나 뒤었는지는 굳이 말씀드릴 필요가 없을 듯 합니다. AMD는 실적 보고에서 질의 응답 시간을 가졌는데, 애널리스트가 그래픽카드의 공급에 대해 질문했습니다. 여기에 답하길, 현재 GPU의 생산량을 전력으로 ...

Date2018.02.01 소식 By낄낄 Reply11 Views2605

Read More
올해 게이밍 모니터 시장이 40% 성장할 것

올해 게이밍 모니터(리프레시율 100Hz 이상) 시장이 40% 성장할 것이라는 관측입니다. 2017년엔 80% 가까이 성장한 250만대. 올해는 100만대 넘게 더해져 370만대 규모가 될 것이라고 보고 있네요. 게이밍 모니터 제조사는 대만이 70% 이...

Date2018.02.01 소식 By낄낄 Reply8 Views673

Read More
새 코드네임: 아이스레이크-SP, 마티스, 스타쉽

HWINFO 의 5.72 버전이 나왔습니다. 여기서 중요한 건 새로운 코드네임이 등장했다는 것. AMD 400 시리즈 칩셋 AMD Navi GPU 인텔 아이스레이크-SP AMD 스타쉽(Starship), 마티스(Matisse), 라데온 RX 베가 M 마티스는 데스크탑 젠 2 아키...

Date2018.02.01 소식 By낄낄 Reply2 Views1821

Read More
MSI 라데온 RX 580 아머 MK2 발표

MSI 라데온 RX 580 아머 MK2가 발표됐습니다. 기본 클럭 1340Mhz지만 노말 모델이 1353Mhz, OC 모델이 1366Mhz로 오버클럭돼 나옵니다. 메모리는 8GHz 8GB GDDR5 로 같습니다. 아머 MK2는 기존의 아머 시리즈보다 한단계 높은 제품으로 To...

Date2018.02.01 소식 By낄낄 Reply6 Views797

Read More
플렉스터 M8V 시리즈 SSD

플렉스터 M8V 시리즈 SSD입니다. 도시바의 63층 3D 낸드 플래시 사용, SATA 6Gbps 인터페이스, 실리콘 모션 SMI2258 컨트롤러. 2.5인치와 M.2 2280의 두가지 폼펙터. 용량은 128/256/512GB, MTBF 150만 시간. 128GB 모델이 순차 읽기 560M...

Date2018.02.01 소식 By낄낄 Reply5 Views581

Read More
사파이어, SP 640개의 라데온 RX 550 발표

사파이어가 라데온 RX 550 펄스 시리즈를 발표했습니다. 기존의 RX 550은 스트림 프로세서 512개지만 이번엔 640개로 늘었네요. 폴라리스 21 코어를 사용한 덕분. 성능은 25% 정도 향상이 기대됩니다.GDDR5 메모리는 2GB와 4GB. 1.5슬롯 ...

Date2018.02.01 소식 By낄낄 Reply17 Views1541

Read More