Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://ascii.jp/elem/000/004/104/4104202/

PHY의 성능에 여유가 있는 AMD 인스팅트 MI200

 

1.jpg

 

AMD 인스팅트 MI200 시리즈의 다이 레이아웃입니다. 쉐이더 엔진은 XCU를 가리킵니다. 인피니티 패브릭의 링크 속도는 외부 144GB/s, 내부 연결에는 125GB/s 4개입니다. 온 패키지의 2개 다이는 400GB/s입니다. 이렇게 보면 PHY에 여유가 꽤 있어 보입니다. PCIe 4.0 x16으로 연결했을 경우 16GT/s가 16개니까 32GB/s가 최대거든요. 또 특정 제품과 조합하면 1레인당 25GT/s까지 빼낼 수 있습니다. 그렇다면 16레인이 50GB/s, 인스팅트 MI250은 각각 다이에 PCIe I/F가 있기에 총 100GB/s가 나옵니다. 

 

외부 인피니티 패브릭은 500Gb/초인데, 8개의 인피니티 패브릭을 모두 합친 것이며 1개당 62.5GB/s입니다. AMD는 인피니티 패브릭의 레인 수를 공개하지 않았으나, 그 수는 자유롭게 설정할 수 있습니다. 속도는 PCIe 5.0과 비슷하다고 알려져 있습니다. 다만 2개의 다이를 연결하는 패키지 내부의 인피니티 패브릭에 대해서는 잘 알려지지 않았습니다. 4개의 인피니티 패브릭이 400GB/s니까 1개당 100GB/s초가 됩니다. 그림에선 16개의 신호로 연결된 것츠로 보이니 1개당 6.25GB/s입니다. 2개의 다이는 Elevated Fanout Bridge 2.5D 를 이용한 실리콘 인터포저를 거쳐 연결되기에 이 정도로 속도를 높여도 됩니다. 

 

2.jpg

 

I/F의 접속 숫자에 따라 속도가 달라진다는 게 인스팅트 MI200의 특징입니다. 그럼 왜 다이 사이의 연결만 접속 속도를 높였을까요? 이는 2개 다이의 NoC를 빠르게 연결하기 위해서입니다. 왼쪽 아래에 나온대로 Unified Shader Memory across GCDs, 즉 패키지 위의2개 다이에 있는 XCU는 액세스하는 메모리가 로컬의 HBM2e인지 원격의 HBM2e인지를 구분하지 않습니다. 따라서 원격 HBM2e에 액세스를 해도 성능을 확보해야 할 필요가 있습니다. HBM2e는 32채널로 나눠 액세스하기에 1채널당 50Gb/s가 되며 이걸 32채널 동시에 연결하는데 인피니티 패브릭을 거치면 50Gb/s씩 8채널이 됩니다.

 

하나의 XCU에서 다수의 채널을 동시에 접속하진 않기에, 로컬이건 원격이건 XCU의 대역은 바뀌게 됩니다. 물론 인피니티 패브릭을 거치면 지연 시간이 늘어나고, 8채널만 연결할 수 있기에 다수의 XCU가 원격 HBM2e에 동시 액세스하면 지연이 생길 수밖에 없지만 이건 프로그래밍 차원에서 회피할 수 있습니다. 이러한 다이 레벨에서 GPU끼리 연결 방법은 올해 말에 나오는 RDNA3에서도 똑같이 사용합니다. WGP(+L1)+L2 다이와 인피니티 캐시 다이 사이를 연결하는데, 여기에도 Elevated Fanout Bridge 2.5D를 사용하리라 생각됩니다. 

 

3.jpg

 

이건 프론티어 슈퍼컴퓨터에 탑재되는 노드입니다. 왼쪽은 인스팅트 MI250X의 OAM이 4개 있고, 오른쪽은 에픽 메인보드이며 슬링샷-11 네트워크 카드가 장착됐습니다. 메인보드 양 옆은 DDR4 메모리입니다. DIMM 2장을 한 쌍으로 써멀 재킷을 부착해 이걸 외부에서 식히는 구성입니다. 다만 이건 수냉 쿨링을 전제로 한 시스템이고요.

 

4.jpg

 

기가바이트의 공냉 시스템입니다. 2개의 에픽 프로세서를 2U에 넣었습니다. 

 

5.jpg

 

슈퍼마이크로는 4U 시스템입니다.

 

 

인텔 폰테 베키오의 동작 클럭은 1.6GHz

 

6.jpg

 

폰테 베키오의 XE 코어 1개의 처리 성능은 FP32 45TFlops 이상이라고만 알려졌습니다. 그리고 핫 칩스에서 1.6GHz 이상의 클럭임이 공개됐는데요. 이건 최고 클럭이고 실제 시스템에서 이 정도로 작동되는지는 알 수 없습니다. 인스팅트 MI250X를 탑재한 프론티어의 경우 전성비를 높이기 위해 클럭을 1.7GHz에서 1.6GHz로 낮췄으니, 폰테 베키오를 쓴 오로라도 클럭을 낮출 가능성이 있습니다. 

 

7.jpg

 

캐시의 경우 Xe 코어 1개에 512KB의 L1 캐시가 탑재되며, L2와 람보 캐시는 408MB입니다. 람보 캐시는 8개의 타일로 나뉘니 타일 1개의 용량은 51MB가 됩니다. 람보 캐시는 2개의 컴퓨트 타일에서 동시 액세스가 가능하며, 컴퓨트 타일과 람보 캐시 사이의 대역폭은 총 832GB/s입니다. 그러니 인스팅트 MI250X의 다이 사이 연결보다 2배가 높습니다. 다만 이건 원래 L2 캐시이기에 버스 폭이 넓을 수밖에 없습니다. 람보 캐시의 속도가 다이와 동기화된 1.7GHz라면 512비트로 충분하며, 절반으로 깎는다 하더라도 1024비트 구성이면 됩니다.

 

8.jpg

 

408MB의 람보 캐시는 딥 러닝 뉴렁 네트워크, 특히 과학 기술 계산 중에 랜덤 액세스가 자주 발생하는 FFT에서 효과가 좋습니다. 32MB나 80MB와 비교해서 스루풋이 두배로 오릅니다.

 

9.jpg

 

XMX 매트릭스 유닛의 효율도 공개했습니다. BF16을 이용해 GEMM을 연산했을 때, 매트릭스의 크기를 4096으로 늘리면 효율이 95%를 넘지만, 512에선 40% 미만, 1024에선 70% 미만, 2048에서도 90%가 되지 않습니다. 그러니까 행렬을 늘려야 제대로 효율이 나온다는 소리죠. 이건 단점이 될 수도 있습니다. 

 

폰테 베키오는 SPMD (Single Processor Multi Data) / SIMT (Single Instruction Multi Thread)와 SIMD (Single Instruction Multi Data)의 두 가지 동작 모드를 지원합니다. GPU처럼 쓴다면 SPMD/SIMT 프로그래밍이 일반적이나, CPU 프로그램을 이식한다면 SIMD가 편합니다. 성능이야 물론 SPMD/SIMT가 높습니다. 아르곤 국립 연구소에서 개발한 우주 구조 간에 사용하는 라이브러리인 HACC(Hardware/Hybrid Accelerator Cosmology Code)를 SIMD로 이식해서 SIMT로 재기록하자 속도가 4.2배 빨라졌다고 합니다. 

 

폰테 베키오는 3세대 제온 파이인 나이츠 힐 대신 개발된 것으로, 제온 파이는 CPU에서 수행하던 걸 보다 효율적으로 실행하는 GPGPU로 만들 계획이었습니다. 그러니 x86 애플리케이션의 이식은 필수입니다. 그래서 인텔은 oneAPI 개발에 신경을 쓰고 있으며, 로우 레벨에서 GPU와 하드웨어를 제어하는 oneAPI 레벨 제로 API를 제공하며, CUDA 애플리케이션을 SYCL로 변환하는 인텔 DPC++ 툴을 제공하고 있습니다. SPMD/SIMT와 SIMD 모드를 제공하는 것도 그런 이유에서일 겁니다. 



  • profile
    TundraMC      자타공인 암드사랑/GET AMD, GET MAD. Dam/컴푸어 카푸어 그냥푸어/니얼굴사... 2022.09.25 22:55
    GCN은 살아있다!!!
  • profile
    슬렌네터      Human is just the biological boot loader for A.I. 2022.09.26 00:08
    히익 엄청난 전기 괴수들
  • profile
    title: 명사수나다이놈아      Someday out of the blue 2022.09.26 08:50
    매트릭스 코어와 XMX 매트릭스 유닛간 성능차와 효율차도 궁금하네요. 매트릭스 코어는 워낙 이야기 자체가 없는 물건이라...
  • ?
    마라톤 2022.09.26 13:35
    좋은 정보 감사합니다. ^_^

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 애즈락 랙의 3.5인치 핫스왑 베이 12개 짜리 1U 서버

    애즈락 랙의 1U12L-C3758/4L RPSU 서버입니다. 1U의 크기에 12개의 3.5인치 핫스왑 베이를 넣었습니다. 하드디스크 장착 공간을 확보하기 위해 메인보드는 미니 ITX로 줄였습니다. C3758D4I-4L 메인보드, 아톰 C3758(8코어 2.2GHz, 25W), ...
    Date2022.04.12 소식 By낄낄 Reply7 Views778 file
    Read More
  2. Sabrent, 10개의 핫스왑 베이가 탑재된 스토리지 케이스

    Sabrent가 10개의 핫스왑 베이가 탑재된 스토리지 케이스인 DS-UCTB를 발표했습니다. 3.5인치 하드디스크를 트레이 없이 바로 장착, 알루미늄 재질, 각각의 베젤마다 전원 스위치, USB 3.2 Gen.2 타입 C 10Gbps로 컴퓨터와 연결, 120mm 쿨...
    Date2022.04.12 소식 By낄낄 Reply2 Views796 file
    Read More
  3. 인텔, 오리곤 D1X 팹에 30억 달러를 투자하고 이름을 변경

    인텔은 오리곤 주에 위치한 D1X 팹의 업그레이드에 30억 달러를 투자했습니다. D1X는 4개의 캠퍼스로 구성되는데 새로 추가한 캠퍼스에 인텔의 공동 설립자 중 한 명인 고든 무어의 이름을 붙였습니다. 이곳의 전체 크기는 500에이커(2제...
    Date2022.04.12 소식 By낄낄 Reply1 Views625 file
    Read More
  4. No Image

    구형 반도체 제조 공정은 당분간 가격 인상이 없음

    2020년 이후 6분기 연속으로 파운드리의 반도체 생산 가격이 올랐습니다. 하지만 구형 공정의 경우 당분간은 가격을 인상하지 않을 거란 소식이 나왔습니다. 지금까지는 수요가 몰리는데 공급이 이를 따라가지 못하니까 가격을 올릴 수 있...
    Date2022.04.12 소식 By낄낄 Reply0 Views988
    Read More
  5. 애플 스튜디오 디스플레이의 펌웨어 업데이트가 안 되는 문제

    애플 스튜디오 디스플레이의 사용자들 중에 펌웨어 업데이트가 안 되는 문제를 겪는 사람들이 있습니다. 1시간 뒤에 다시 시도하고, 안 되면 애플 서비스에 문의하라는 안내문만 뜹니다. https://discussions.apple.com/thread/253809411...
    Date2022.04.12 소식 By낄낄 Reply1 Views1139 file
    Read More
  6. No Image

    갤럭시 북2 PRO 인텔외장 모델 드라이버 문제

      인텔 ARK 외장그래픽을 탑재한 삼성 갤럭시 북2 PRO 모델이 삼성이 기본 제공하는 드라이버, 다이나믹 튜닝을 사용할 시 성능 저하가 있음을 '뻘짓연구소'에서 확인했습니다. 해당 드라이버를 비활성화 하면 성능, 전력사용량이 정상적...
    Date2022.04.12 소식 By공탱이 Reply7 Views1522
    Read More
  7. NVIDIA: 그레이스 CPU 슈퍼칩이 아이스레이크보다 2배 빠르다

    NVIDIA 그레이스 CPU 슈퍼칩은 NVLink-C2C 기술로 2개의 그레이스 CPU 모듈을 결합해 총 144개의 Arm v9 코어와 1TB/s의 메모리 대역폭을 제공합니다. 각각의 코어는 Arm 네오버스 N2 아키텍처를 사용합니다. NVIDIA는 이것을 아이스레이...
    Date2022.04.12 소식 By낄낄 Reply9 Views1324 file
    Read More
  8. AMD 차세대 서버 CPU를 지원하는 일체형 수냉 쿨러

    AMD 차세대 서버 CPU인 코드네임 제노아의 소켓 SP5를 지원하는 일체형 수냉 쿨러, Dynatron의 L32입니다. 1U 서버에 장착하는 물건이라 수냉인데 라디에이터가 참 작습니다. 40mm 라디에이터, 15000rpm의 40mm 팬 3개 장착, TDP 320W까지...
    Date2022.04.12 소식 By낄낄 Reply6 Views1095 file
    Read More
  9. EK 워터블럭의 그래픽카드 수직 장착 브라켓

    EK 워터블럭의 그래픽카드 수직 장착 브라켓인 EK-Loop Vertical GPU Holder EVO – Gen4 Riser입니다. 이름에 나온대로 PCIe 4.0 라이저 케이블이 포함됩니다. 두께 1.5mm의 철제, 메인보드 스탠드 오프를 사용해 고정합니다. 3슬롯...
    Date2022.04.11 소식 By낄낄 Reply0 Views600 file
    Read More
  10. ADATA Elite SE880 시리즈 휴대용 SSD

    ADATA Elite SE880 시리즈 휴대용 SSD입니다. USB 3.2 Gen.2x2 규격의 USB-C 포트로 연결, 500GB와 1TB의 두 가지 용량, 최고 속도 2000MB/s, 크기 35x64.8x12.25mm, 무게 31g.
    Date2022.04.11 소식 By낄낄 Reply0 Views587 file
    Read More
  11. 써멀라이트 버스트 어쌔신 120 쿨러

    써멀라이트의 CPU 쿨러인 버스트 어쌔신 120입니다. 6개의 히트파이프 탑재, 슬림형 사이드 플로우 디자인이 특징입니다. 메모리와 간섭을 줄이기 위해 두께 52mm, 높이는 154mm, 깊이 124mm, 무게 510g. 쿨링팬은 120mm 구경의 TL-C12C로...
    Date2022.04.11 소식 By낄낄 Reply0 Views811 file
    Read More
  12. No Image

    차세대 플래그쉽 GPU 루머

    차세대 플래그쉽 GPU의 루머들입니다. https://twitter.com/kopite7kimi/status/15133934504731074 NVIDIA 에이다 러브에이스 AD102-300 GPU를 사용한 그래픽카드가 4090으로 명명되며 24GB 21Gbps 메모리에 TDP 600W라는 내용입니다. htt...
    Date2022.04.11 소식 By낄낄 Reply4 Views1069
    Read More
  13. 파워컬러가 라데온 RX 6750 XT의 전파 인증을 받음

    파워컬러가 라데온 RX 6750 XT의 전파 인증을 받았습니다. 6750XT가 곧 출시되려나 봅니다. 라데온 RX 6750 XT는 코어나 메모리 구성은 유지하면서 메모리 클럭만 16Gbps에서 18Gbps로 높인 모델이라 알려져 있습니다.
    Date2022.04.11 소식 By낄낄 Reply0 Views530 file
    Read More
  14. 앨더레이크-X HEDT 프로세서가 출시?

    아이다64 익스트림의 6.60.5944 베타 버전에서 앨더레이크-X HEDT 프로세서를 지원합니다. 인텔이 앨더레이크를 써서 하이엔드 데스크탑 프로세서를 출시하려나 봅니다. 그렇다면 앨더레이크와 같은 LGA 1700 소켓을 쓰겠군요.
    Date2022.04.11 소식 By낄낄 Reply6 Views638 file
    Read More
  15. No Image

    AMD 쓰레드리퍼 공급이 심각하게 부족하다?

    미국의 시스템 제조사/유통사들은 스레드리퍼 3000과 스레드리퍼 프로 3000의 공급이 지난 몇 개월 동안 심각한 수준이었다고 말합니다. 메인기어, 벨로시티 마이크로, 푸젯 시스템을 비롯해 AMD 웹 사이트에서도 소개하는 유명한 시스템 ...
    Date2022.04.11 소식 By낄낄 Reply4 Views830
    Read More
  16. No Image

    AMD 나비 33, 더 높은 성능과 효율 달성?

    AMD의 차세대 아키텍처인 RDNA3를 쓴 나비 33 GPU에 대한 썰입니다. 소스가 무머의 법칙은 죽었다니까 걸러서 보세요. 나비 33은 6nm 공정의 대형 칩입니다. 크기가 360~460제곱mm이고, 128MB나 256MB의 인피니티 캐시가 탑재됩니다. 라...
    Date2022.04.11 소식 By낄낄 Reply11 Views993
    Read More
  17. No Image

    인텔, 앨더레이크 소켓이 뒤틀리는 문제에 대해 설명

    앨더레이크 프로세서는 히트 스프레더가 상대적으로 긴 편이며, 소켓에 고정되는 방식에 문제가 있어 구부러지거나 휘는 문제가 있습니다. 위 영상을 보면 아시겠지만 히트 스프레더와 쿨러 사이에 접촉이 제대로 되지 않는데, 이 경우 ...
    Date2022.04.11 소식 By낄낄 Reply3 Views1206
    Read More
  18. 데스크탑 모니터에서 OSD 메뉴 안건들고 밝기 명암을 조절해봐요

          요구사항도 적습니다   윈도우 7 이상  .NET 프레임워크 4.8 이상 모니터는 반드시 DDC/CI 를 지원해야 하며 그리고 활성화 해야 합니다. (모니터마다 입력단자에 따라 DDC/CI 지원여부는 갈릴수 있습니다.)       일단 저가형 머...
    Date2022.04.10 소식 Bytitle: 명사수포인 Reply27 Views4510 file
    Read More
  19. AMD, 머신 러닝 가속기를 CPU에 적층하는 특허

    AMD가 머신 러닝 가속기를 CPU의 I/O 다이에 적층하는 특허를 냈습니다. 머신 러닝 기능이 필요한 데이터센터/서버를 위한 특허로 보입니다.
    Date2022.04.10 소식 By낄낄 Reply7 Views1719 file
    Read More
  20. TSMC 1분기 매출, 전년 대비 35.5% 증가

    TSMC가 2022년 1분기에 169억 6500만 달러의 매출을 올렸습니다. 전년 동기 대비 35.5% 증가한 숫자입니다. 그리고 2021년 4분기나 3분기보다도 더 높은 수익을 냈습니다. 일반적으로 팹리스 칩 설계는 1분기 후반에 생산을 늘리는 편이기...
    Date2022.04.10 소식 By낄낄 Reply0 Views646 file
    Read More
목록
Board Pagination Prev 1 ... 301 302 303 304 305 306 307 308 309 310 ... 1057 Next
/ 1057

최근 코멘트 30개
아이들링
00:01
낄낄
23:55
고자되기
23:48
recluse
23:39
유니
23:37
벨드록
23:36
유니
23:33
유니
23:32
유니
23:31
유니
23:31
먀먀먀
23:30
마초코
23:23
툴라
23:21
아이들링
23:20
MA징가
23:16
Kanyy
23:14
낄낄
23:11
조마루감자탕
23:11
MA징가
23:07
강제
23:07
코디응
23:01
고자되기
23:00
낄낄
23:00
Kylver
23:00
고자되기
22:57
RuBisCO
22:51
오버쿨럭커
22:47
포인트 팡팡!
22:46
고자되기
22:46
고자되기
22:44

MSI 코리아
AMD
더함
한미마이크로닉스

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소