Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form

일반 유저들과는 거리가 아주 먼 내용인데, 마지막 부분만 한번 보세요. 요새 분위기가 이렇다는 걸 알 수 있어서 올립니다.

 

 

FPGA에 CPU 코어와 AI 가속기를 결합한 Versal

 

1.png

 

자일링스의 제품 분류

 

FPGA(Field-Programmable Gate Array) 업체인 자일링스(Xilinx)가 새로운 종류의 제품인 Versal을 발표했습니다. ACAP(Adaptive Compute Acceleration Platform)과 머신 러닝, 5G에 초점을 맞춘 제품입니다. 자일링스는 8월에 미국 스탠포드에서 열린 핫 칩스 컨퍼런스에서 Versal ACAP를 설명했습니다.

 

딥 러닝이 인기를 끌면서 데이터 센터에서 FPGA를 신경망 가속기로 사용하고 있습니다. 자일링스는 여기에 맞춰 FPGA 기반으로 머신 러닝에 최적화한 제품을 내놨습니다. Versal는 FPGA, CPU 코어, AI 가속 엔진까지 3가지 하드웨어를 탑재합니다. FPGA는 다양한 하드웨어 코어를 쓰지만, ACAP는 그 중에서도 AI 가속 코어를 중요하게 여기는 제품입니다.

 

2.png


스칼라 엔진, 프로그래머블 로직, AI 코어까지 3종류의 프로세싱 엔진을 NOC (Network-on-Chip)로 연결

 

3.png

 

Versal의 첫 번째 제품인 VC1902

 

4.png

 

프로그래머블 로직과 AI 코어를 결합


ACAP라는 종류의 첫 제품인 Versal VC1902은 TSMC의 7nm 공정 7FF로 생산합니다. 고성능 CPU 코어를 2개, AI 엔진 코어는 400개가 들어갑니다. 트랜지스터 수는 370억 개, 온 다이 메모리는 총 855Mbit, I/O는 785개, SerDes가 44의 호화 스펙입니다. 처리 부분은 스칼라 엔진, 프로그래머블 엔진, AI 엔진의 3종류입니다. 스칼라 엔진은 Cortex-A72 듀얼 코어와 Cortex-R5 듀얼 코어를 탑재합니다.

 

FPGA인 Versal Programmable Logic(PL)은 1.8MFLOPS의 성능에 900K LUTs(LookUp Tables)의 구성이며, 158MB의 Block RAM(BRAM)와 UltraRAM (URAM)를 분산 배치합니다. FPGA 부분의 DSP 어레이는 FP32/16 부동 소수점 연산과 INT8/16/24, CMPLX18 고정 소수점 연산을 지원합니다. FP32의 최대 성능은 2.8TFLOPS, INT8는 11.8TOPS입니다.

 

5.png


프로그래머블 로직 

 

6.png

 

프로그래머블 로직의 DSP 컬럼 구성

 


메쉬 네트워크를 써서 타일 형태로 구성한 AI 엔진


AI 엔진 코어는 400개, 최고 성능은 8비트 정수(INT8) 133TOPS. AI 엔진은 메쉬 네트워크에 연결되며, 바둑판 형태의 타일 모양으로 배치됩니다. 각각의 코어에는 L1 메모리와 DMA 엔진이 분산됩니다.

 

7.png


메쉬 배열의 Versal의 AI 코어

 

8.png

 

AI 엔진 코어의 내부
 

각각의 AI 코어 내부는 32-bit 스칼라 RISC 프로세서 기반인 스칼라 유닛, 512-bit SIMD(Single Instruction, Multiple Data) 벡터 유닛, 3개의 어드레스 생성 유닛이 있습니다. 명령 세트 아키텍처는 VLIW (Very Long Instruction Word). 벡터 유닛은 INT8에서 1사이클에 vec128의 연산이 가능합니다.

 

INT8의 vec128에서 1사이클이니 512비트 벡터 폭과 맞지 않습니다. 하나의 연산을 2개의 오퍼레이션으로 수행한다고 볼 수도 있는데, 400개의 AI 엔진이 vec128를 1 사이클마다 2 오퍼레이션으로 1.3GHz의 속도로 연산하면 133TOPS가 됩니다.

 

9.png

 

AI 코어의 이론 성능

 

각각의 AI 엔진은 2개의 로드와 1개의 스토어를 포함합니다. 코어의 메모리는 로컬이 32KB, 4코어 공유 어드레서블 메모리가 128KB, 또 16.3MB의 L2 SRAM이 공유됩니다. AI 코어는 온다이 메쉬 네트워크에 연결됩니다. 광대역 NOC(Network-on-Chip)에 AI 코어 메쉬와 프로그래머블 로직이 저마다 연결되며, NOC는 DRAM 인터페이스에 연결됩니다. AI 코어는 각각 DMA 엔진을 가지고 데이터를 코어에서 코어로 전달합니다. 

 

10.png


Versal 메모리 계층

 

11.png

 

Versal의 NOC (Network-on-Chip)

 

12.png

 

Versal의 AI 코어. 유연한 데이터 플로우

 


가속 장치의 상호 연결인 CCIX를 지원


스칼라 엔진인 Versal Processor System(PS)는 Cortex-A와 Cortex-R의 두 가지 코어를 쓴 멀티 코어입니다. 여기에선 Cortex-A72 듀얼코어, Cortex-R5 듀얼코어 구성을 썼습니다. 또 PS에 옆에는 Versal PMC and Security를 배치했습니다. 이건 Platform Management Ctrl (PMC)와 보안을 담당하는 유닛입니다.

 

13.png


Versal 스칼라 엔진
 

Versal NOC는 Vertical NoC과 Horizontal NoC으로 나뉩니다. 다이 중앙은 프로그래머블 로직이 들어가며, 다이 위가 AI 코어, 다이 하단은 메모리 인터페이스, 다이 좌우에는 I/O 다이, 왼쪽에 스칼라 프로세서와 플랫폼 관리가 배치됩니다. NOC는 이들 블록 사이에 배치됩니다. 

 

14.png


Versal의 NOC (Network-on-Chip)의 구조

 

15.png

 

Versal의 NOC 배치

 

16.png

 

Versal의 NOC 토폴로지
 

메모리 인터페이스는 DDR4/LPDDR4에 x256 인터페이스. I/O는 PCI Express Gen4뿐만 아니라 가속 인터커넥트인 CCIX도 지원합니다. CCIX는 최고 25Gbps의 2x8 구성이 가능하며, CCIX는 호스트 CPU 측과 메모리 일관성을 유지해 연결됩니다.

 

17.png


Versal 메모리 인터페이스

 

18.png

 

시리얼 인터페이스는 PCI Express와 CCIX를 모두 지원

 


다용도 Versal의 AI 엔진
 

Versal는 신경망 네트워크 프로세서로 많이 쓰는 매트릭스 전용 연산 유닛이 아니라 벡터 연산 유닛을 채용했습니다. 연산 정밀도도 FP32까지 지원해 단순 AI 코어가 아니라 다양한 용도로 쓸 수 있습니다. 딥러닝에만 전문하된 코어가 아니라 시그널 프로세싱에도 적용할 수 있습니다. 그 예로 자일링스는 5G 무선 처리를 ACAP에서 실현하는 경우를 제시했습니다.

 

19.png


다양한 워크로드에 유연하게 대응하는 ACAP 아키텍처

 

20.png

 

5G 무선 ACAP의 구현 사례


ACAP에서 해결해야 할 점은 프로그래밍입니다. Arm CPU, 프로그래머블 로직, AI 코어까지 서로 다른 3개의 엔진을 포괄하는 프로그래밍 플랫폼이 필요합니다. 자일링스는 이를 위해 AI 코어 라이브러리를 준비합니다. AI 코어 사이의 데이터 플로우를 자동 생성하는 컨파일러도 개발 중입니다.

 

21.png


ACAP의 AI 코어 프로그래밍 개념

 

22.png

 

ACAP 프로그래밍 툴 체인

 


FPGA의 상황 변화가 만들어낸 자일링스의 Versal ACAP


반도체 공정이 복잡해지며 FPGA가 더욱 중요해졌습니다. 지금은 새로운 공정을 도입한 반도체 칩의 설계와 제조 비용이 급증해, 전처럼 쉽게 ASIC (Application Specific Integrated Circuit : 주문형 IC)를 만들지 못합니다. 최첨단 공정에서는 아주 비싼 ASIC를 뽑아낼 가격이 맞지 않습니다. 그래서 FPGA를 쓰는 제품들이 늘었습니다. 예전에는 FPGA를 프로토타입에만 쓰고 최종 제품에는 ASIC를 썼지만, 지금은 FPGA를 양산 제품에 넣는 경우가 많습니다. 그게 ASIC를 설계하는 것보다 저렴해서입니다. 

 

무어의 법칙이 둔화되면서 CMOS 스케일링이 거의 멈추며 범용 프로세서의 성능을 끌어올리기 힘들어졌다는 것도 한몫 합니다. 그래서 성능 향상은 특정 작업에 최적화된 Domain Specific 방식을 많이 씁니다. 데이터 센터에서도 특정 워크로드에 최적화한 가속 장치의 도입이 늘어나고 있습니다. 이런 상황에서 하드웨어 로직을 프로그램으로 대체할 수 있는 FPGA를 다용도로 활용하는 가속기로 도입하고 있습니다. 마이크로소프트는 데이터센터에 FPGA를 전면 도입해 딥러닝을 FPGA로 연산했습니다. 반도체 공정의 개발이 지지부진해지며 FPGA에 시선을 돌리게 됐습니다. 

 

이런 상황에서 FPGA도 변화했습니다. 간단한 프로그래머블 로직 어레이가 아닌 CPU 코어, 고속 메모리, 고속 I/O 인터페이스 블록을 하드웨어 코어로 탑재합니다. 프로그래머블 로직도 더 고성능을 추구하고 있습니다. 자일링스는 이런 분위기에 맞춰, 고성능 가속을 요구하는 데이터센터에 유연성을 확보한 솔루션을 제공합니다. 하드웨어 로직을 프로그래밍을 대체하는 FPGA의 장점과, 하드웨어 AI 가속의 장점을 결합합니다. 비싼 ASIC를 대체해 확장이 필요한 5G 시스템 같은 솔루션도 제공합니다.  


TAG •

  • profile
    군필여고생쟝- 2019.10.11 07:04
    요즘은 ASIC보단 FPGA만 쓰는게 나은가보네요... 잘 읽었습니다!
  • ?
    달가락 2019.10.11 07:07
    유지비용문제도 FPGA 혼합 컴퓨팅을 부추기고 있는 것 같아요. 고객사 중에서도 gpu 클라우드를 쓰고 있는데, 이게 비용이 많이 들다보니 이런저런 옵션이 나오는데 그 중에 하나가 저런류의 전용 추론엔진 이야기도 나오더라구요.
  • ?
    마라톤 2019.10.11 08:11
    좋은 정보 감사합니다. ^_^
  • profile
    화수분 2019.10.11 13:14
    FPGA에 CPU까지 박아넣었으면 그래픽카드에 비해서 어떤 이점이 있을지.. 플랫폼이 어지간히 잘 뽑혀야 글카에 비해 이점이 있겠군요.
  • ?
    PHYloteer      🤔 2019.10.13 00:45
    신경망은 모르겠는데 밑에 나온 5G 장비 같은 경우 FPGA가 이래저래 낫습니다 (레이턴시적인 측면이라던가 전기 효율적인 측면이라던가). 비슷한 이유로 (DSP칩으로 커버하기 힘든) 다른 실시간 DSP 어플리케이션들도 FPGA를 쓰는 게 낫습니다. 말고도 여러 용도들이 있겠죠.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 지포스 GTX 1660 슈퍼, GDDR6 메모리 장착

    조택의 지포스 GTX 1660 이미지입니다. GDDR6라고 표기됐네요. 발표일은 29일이라고 전해 썼었지요?
    Date2019.10.12 소식 By낄낄 Reply3 Views632 file
    Read More
  2. 애즈락 A320M-DVS R3.0 메인보드, 라이젠 9 3950X 지원

    라이젠 9 3950X를 지원하는 메인보드 목록에 애즈락 A320M-DVS R3.0이 등록됐습니다. A320 중에서는 유일하긴 한데, 어쨌건 A320에서도 지원한다는 데 의미가 있겠군요. 오히려 최신 리비전인 A320-DVS R4.0에서는 라이젠 9 3950X를 지원...
    Date2019.10.12 소식 By낄낄 Reply1 Views648 file
    Read More
  3. 커세어, 라이젠 최적화 5000Mhz 메모리

    커세어가 벤젠스 LPX CMK16GX4M2Z5000C18 메모리를 발표했습니다. 3세대 라이젠 프로세서와 MSI X570 MEG/프리스티지 시리즈 메인보드에 최적화, 메모리 프로파일만 불러오면 5000Mhz로 작동합니다. 용량은 8GB x2, 레이턴시 18-26-26-46...
    Date2019.10.12 소식 By낄낄 Reply3 Views747 file
    Read More
  4. 애플 맥 프로를 닮은 케이스

    구멍을 잔뜩 넣은 맥 프로를 닮은 케이스입니다. Dune case라는 곳에서 만든 Dune Pro. 21일에 인디고고에서 펀딩할 때 가격과 출시일이 나옵니다. 상단 스테인리스 손잡이, 하단 스테인리스 받침대, 스테인리스 프레임, 3mm 알루미늄. 기...
    Date2019.10.12 소식 By낄낄 Reply12 Views2175 file
    Read More
  5. 입티메 NAS1에 팬을 달아줬습니다

    싼맛에 사서 잘 굴리긴 했는데... 아무래도 연식이 좀 되어서 그런가 골골거리더군요. FTP 연결이 끊긴다던가... 좀만 더 굴려보자는 마음가짐으로 대강 손을 좀 댔습니다.   기본 내장된 팬은 대충 40mm 정도 되는 사이즈라 시끄럽기만 ...
    Date2019.10.11 일반 By도개주 Reply5 Views941 file
    Read More
  6. 쿨러 문제 해결했습니다.

    https://gigglehd.com/gg/hard/5778631 이 글 이어서 입니다.   저번에 그래픽 쿨러의 작동이 제멋대로라고 질문을 했습니다. 결론은 낄댄님 이야기처럼 쿨러의 문제였습니다.   처음에 너무 부드럽게 굴러가서 딱히 문제가 없다고 여겼는...
    Date2019.10.11 일반 Bytitle: 가난한Eriol Reply4 Views903 file
    Read More
  7. AI 가속 코어를 FPGA에 통합. 자일링스 Versal

    일반 유저들과는 거리가 아주 먼 내용인데, 마지막 부분만 한번 보세요. 요새 분위기가 이렇다는 걸 알 수 있어서 올립니다. FPGA에 CPU 코어와 AI 가속기를 결합한 Versal 자일링스의 제품 분류 FPGA(Field-Programmable Gate Array) 업...
    Date2019.10.11 소식 By낄낄 Reply5 Views2225 file
    Read More
  8. No Image

    TRX40 칩셋, 기존 스레드리퍼는 지원 안함

    3세대 스레드리퍼와 함께 AMD TRX40 칩셋이 나올 예정입니다. 그런데 이 칩셋에서는 1세대와 2세대 라이젠 스레드리퍼를 지원하지 않는다고 합니다. 반대로 3세대 스레드리퍼 CPU도 기존의 X399 칩셋 메인보드에서는 작동하지 않습니다. ...
    Date2019.10.10 소식 By낄낄 Reply11 Views1257
    Read More
  9. X299의 새 바이오스, 카비레이크-X 지원을 제거할 예정

    인텔 X299 칩셋 메인보드에 새 바이오스가 나옵니다. 코어 i9-10980XE, 코어 i9-10940X, 코어 i9-10920X, 코어 i9-10900X 지원을 추가하는 바이오스입니다. 새 CPU가 나왔으니 바이오스를 새로 내놓는 건 당연한데, 코어 i5-7640X, 코어 i...
    Date2019.10.10 소식 By낄낄 Reply6 Views852 file
    Read More
  10. 인텔, 옴니패스를 지원하는 제온 프로세서를 단종

    인텔이 옴니패스 인터커넥트가 달린 제온 스케일러블 프로세서를 단종합니다. 옴니패스는 데이터센터/슈퍼컴퓨터를 위해 확장성이 뛰어나고 대기 시간이 짧은 인터커넥트로 개발됐었는데요. 옴니패스를 쓸 제온 파이가 단종되고 MIC 아키...
    Date2019.10.10 소식 By낄낄 Reply0 Views1077 file
    Read More
  11. No Image

    로우 레벨 포맷

    제가 쓰던 2011년에 나온 삼성 1테라 하드가 SMART오류가 났다고 hp바이오스에 떠서 보니 배드섹터가 생겼나 보네요 논리배드인 것 같은데, 로우 레벨 포맷으로 해결 가능할까요? 그리고 좋은 로우 레벨 포맷 프로그램엔 뭐가 있나요?
    Date2019.10.10 질문 Bytitle: 민트초코HD6950 Reply9 Views1307
    Read More
  12. 인텔 7세대 카비레이크 데스크탑 프로세서 단종

    카비레이크-G, 100 시리즈 칩셋에 이어 데스크탑용 카비레이크 프로세서도 단종 처리됩니다. 카비레이크는 2017년에 출시된 14nm 공정 프로세서입니다. 단종 목록에는 20종의 7세대 코어 프로세서가 포함됩니다. 가장 아래로는 셀러론 G39...
    Date2019.10.10 소식 By낄낄 Reply2 Views737 file
    Read More
  13. 인텔 옵테인 905P M.2 SSD, 1년만에 방열판 장착

    인텔의 M.2 SSD인 옵테인 905P가 출시된지 1년만에 방열판을 제공합니다. 905P는 380GB 499달러의 비싼 가격에, 순차 읽기 2600MB/s와 쓰기 2200MB/s, 랜덤 읽기 575K IOPS, 쓰기 550K IOPS의 성능을 지닌 제품입니다. 새로 추가된 방열판...
    Date2019.10.10 소식 By낄낄 Reply5 Views969 file
    Read More
  14. 아마존 레이저 바이퍼 무선 마우스가 유출됐다가 삭제

    캐나다 아마존에 레이저 바이퍼 무선 마우스가 등록됐으나 바로 삭제됐습니다. 아직 발표도 안한 물건이니까요. 바이퍼의 무선 모델이며 무게가 69g으로 아주 가볍습니다. 8개의 프로그래머블 버튼, 20K DPI 광 센서, 70시간 사용 배터리.
    Date2019.10.10 소식 By낄낄 Reply5 Views1727 file
    Read More
  15. No Image

    CPU 코어 관련 질문이 있습니다. 코어 당 ALU, 컨트롤러, 레지스터 수

    CPU 코어는 ALU, 레지스터, 컨트롤러로 구성되는 것으로 압니다.     (1) 멀티코어 CPU에서 코어를 물리적으로 구분하는 기준이 무엇인지 궁금합니다. (2) 각 코어마다 다이 내 구획이 구분되어 있고, 각 코어마다 ALU, 레지스터, 컨트롤...
    Date2019.10.10 질문 By카스티코 Reply5 Views1774
    Read More
목록
Board Pagination Prev 1 ... 1176 1177 1178 1179 1180 1181 1182 1183 1184 1185 ... 1939 Next
/ 1939

최근 코멘트 30개
아이들링
14:04
낄낄
14:00
Pineapple
13:59
아이들링
13:49
아이들링
13:48
낄낄
13:39
린네
13:38
낄낄
13:38
까르르
13:36
금산조
13:23
영원의여행자
13:20
까마귀
13:20
까마귀
13:20
린네
13:17
아이들링
13:15
별밤전원주택
13:10
별밤전원주택
13:10
린네
13:04
린네
13:03
아라
13:03
침착맨
13:02
린네
13:02
소주
12:36
아이들링
12:27
카토메구미
12:20
고자되기
12:19
책읽는달팽
12:16
탐린
12:16
툴라
12:07
ASTRAY
12:01

MSI 코리아
한미마이크로닉스
AMD
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소