8코어 RISC-V와 컴퓨트 니어 메모리를 인텔 4 공정으로 제작

낄낄 https://gigglehd.com/gg/12512036

조회 수 2267 댓글 6

Extra Form
참고/링크	https://ascii.jp/elem/000/004/095/4095829/

인텔이 2022년 6월 13일의 VLSI 심포지엄 2022에서 발표한 논문인 An 8-core RISC-V Processor with Compute near Last Level Cache in Intel 4 CMOS입니다. 인텔 4 CMOS 공정으로 만든 라스트 레벨 캐시와 8코어 RISC-V를 소개하는 글입니다.

인텔 4 CMOS 공정이 이 정도까지 왔다는 데 의의를 두면 되겠습니다. 물론 여기서 중요한 건 An 8-core RISC-V Processor나 in Intel 4 CMOS가 아니라 with Compute near Last Level Cache 부분입니다. PIM(Processor In Memory) 기술에 대한 논문에 가깝습니다.

왼쪽이 현재 인텔 프로세서, 오른쪽이 인텔이 이번에 공개한 컴퓨트 니어 메모리 개념입니다. 컴퓨트 유닛을 어디에 두는지에 따라서 효율과 용량, 대역폭이 달라지거든요.

인텔은 라스트 레벨 캐시(LLC) 안에 컴퓨트 유닛(CNC)를 넣어 고성능, 광대역, 대용량의 균형을 고려했습니다. 그리고 이 효과를 시험하기 위해 RISC-V 코어를 썼습니다.

코어 아키텍처의 링버스가 아니라 2D 메시 구성입니다. 8개의 64비트 RSIC-V 코어에 64KB SRAM과 CNC를 조합해 배치했습니다. L2 캐시의 용량은 512KB, 코어마다 L1 명령어/데이터 캐시만 있습니다. 그리고 이 CNC는 256비트 와이드의 단순한 IMD이며 MAC 연산만 가능합니다. 그리고 LLC에 로드/스토어, CNC의 레지스터 파일 읽기/기록(RDCNC/WRCNC)의 5가지 명령만 가능한 매우 단순한 코어입니다.

메모리 액세스 리퀘스트를 바로 보낼 수 있으며 CNC와 거기에 인접한 LLC 사이에서만 연산이 이루어지는 단순한 구조입니다.

CNC multiplies an 8×8 INT8 Matrix by an 8×1 INT8 Vector and accumulates the INT32 result in RFCNC. 8x8 행렬과 8x1 행렬을 곱셈해 그 결과를 INT32 값으로 범용 레지스터에 보냅니다.

RSIC-V로 만든 건 구현이 쉬워서입니다. 이번에 기반으로 삼은 건 CVA6, 시스템 베릴로그로 만든 인 오더/6스테이지 파이프라인의 간단한 구성입니다. 프론트엔드 2스테이지, ID, 이슈, Ex, 커밋이 1스테이지이며, 이슈에서 5명령 동시 발행이 가능하지만 명령어 큐는 1명령/사이클이기에 실질적으로는 인 오더 구조입니다. RSIC-V가 복잡한 명령어 아키텍처를 탑재하기보다, 복잡한 처리는 내부에서 처리하고 명령어 세트 자체는 단순하게 하자는 컨셉을 쓰고 있습니다.

검은색이 기본 CVA6이고 다른 색으로 표기한 부분이 인텔이 수정한 곳입니다. 명령 실행 유닛은 수정하지 않고, CNC를 구동하기 위해 명령 디코더에 CNC 명령을 추가했으며, 메모리 물리 어드레스 알림과 CNC 커맨드 발행 유닛을 이슈 포트에 추가했습니다. x86에서 이렇게 개조하려면 내부 구조가 복잡해지지만 RISC-V에선 커스텀 명령을 추가하기 자유롭고, 기반으로 쓸 코어도 무료 배포하고 있기에 시험용으로 RISC-V를 썼습니다.

LLC에서 달라진 점. 기본적인 RISC-V 코어는 수정하지 않았고, CNC를 쓰지 않으면 평범한 CVA6 코어로 작동하기에 RISC-V용 소프트웨어를 바로 실행할 수 있습니다. SECDED(Single Error Collection/Double Error Detection)은 ECC 기능에 기본 제공하는 것입니다.

인텔은 인텔 4 CMOS 공정을 써서 이 프로세서를 만들었습니다. CNC를 추가하면서 전체 면적은 1.4% 정도 늘어난 1.92제곱mm입니다.

프로그램의 대부분은 RISC-V 컴파일러를 써서 C++로 만들었고, 새로 추가한 CNC 부분은 인라인 어셈블러로 만들었습니다. 왼쪽 소스에서 CNMWR(), CNMMAC(), CNMRF()가 인라인 어셈블러의 일부입니다.

0.55V에서 350MHz, 0.75V에서 1.15GHz로 작동합니다. CVA6 같은 단순한(파이프라인 1스테이지의 처리가 크고 클럭을 높이기 쉬운 구조) 형태임을 감안해 주세요. 성능은 8코어 1GHz에서 75.8GOPS, 1GHz에서 소비 전력은 400mW니까 총 성능은 189.5GOPS/W입니다. 500MHz로 클럭을 낮추면 285GOPS/W, LLC의 소비 전력은 1.6TOPS/W입니다.

CNC는 범용 프로세서보다는 AI 같은 뉴럴 네트워크 연산에 특화된 구조입니다. 그래서 CVA6의 내장 엔진(스칼라 엔진, 빨간색으로 표시), CNC(파란색)의 성능을 비교했습니다. CNC에서 성능이 높아지며 소비 전력은 스칼라 엔진보다 낮습니다. 물론 CVA6이 이런 용도로 쓰라고 만든 건 아닙니다만.

32비트 RISC-V 코어를 사용한 경우입니다. 레이턴시가 범용 프로세서의 1/4이며 성능은 260배, 에너지 효율은 35배입니다.

인텔이 이걸 상용화할 가능성은 적지만 어쨌건 인텔 4 공정은 차근차근 개발 중입니다.

삭제 요청

TAG •

Prev 올해 PC/패널 출하량이 크게 감소

올해 PC/패널 출하량이 크게 감소 2022.07.01by 낄낄 IMW 2022: 차세대 마이크로 컴퓨터의 장수명 저항 변화 메모리 Next

IMW 2022: 차세대 마이크로 컴퓨터의 장수명 저항 변화 메모리 2022.07.01by 낄낄

목록 스크랩

위로 아래로 댓글로 가기

Comments '6'

?
마라톤 2022.07.01 11:28

좋은 정보 감사합니다. ^_^
?
NPU 2022.07.01 12:19

Riscv의 장점이 발휘되는군요
?
배고픈돼지 2022.07.01 12:32

RISC-V 한번 써보고 싶네요. 빨리 대중화 되었으면 좋겠네요.
슬렌네터 Human is just the biological boot loader for A.I. 2022.07.01 12:54

역시 ceo역량이 중요하네요
白夜2ndT 원래 암드빠의 길은 외롭고 힘든거에요! 0ㅅ0)-3 / Twitter @2ndTurning 2022.07.01 18:22

RISC-V가 컴퓨팅 업계의 게임체인저가 되었으면 좋겠네요.
360ghz case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2022.07.01 19:10

PIM이 특이점이 될 수 있을지 기대됩니다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

No Image

앨더레이크, 5% 가량 가격 인하?

인텔이 올해 하반기에 앨더레이크의 가격을 5% 가량 낮출 거라는 소문입니다. 랩터레이크 출시 전에 재고를 정리하고 시장 수요를 끌어내기 위한 것으로 보입니다.

Date2022.07.03 소식 By낄낄 Reply1 Views750

Read More
HYTE x 홀로라이브 한정판 Y60 케이스

iBUYPOWER의 서브 브랜드인 HYTE가 홀로라이브 한정판 Y60 케이스를 출시했습니다. 에니매 엑스포 2022에 전시 중입니다. 3개의 탈착식 강화유리 패널에 일러스트 부착, 3천개 한정 제작, 가격 280달러.

Date2022.07.03 소식 By낄낄 Reply6 Views2178

Read More
인텔 Z790 메인보드가 7월 말에 공개?

인텔 Z790 메인보드가 7월 말에 공개될 수도 있습니다. 가장 큰 특징은 PCIe 5.0 M.2 SSD의 지원입니다. 기존의 Z690은 PCIe 5.0 x16 그래픽카드는 장착해도 M.2 SSD는 PCIe 5.0이었습니다.

Date2022.07.03 소식 By낄낄 Reply3 Views768

Read More
No Image

중국 JCET가 4nm 스마트폰 칩의 패키징 시작

중국 JCET가 4nm 스마트폰 칩의 패키징을 시작했다는 소식입니다. 중국에서 패키징하는 공정 중에서는 가장 선진 공정입니다. 현재 이 회사는 5nm와 7nm 칩의 후공정도 다루고 있습니다. 지금 4nm 공정을 써서 만드는 칩이...라고 해봤자 ...

Date2022.07.03 소식 By낄낄 Reply0 Views772

Read More
No Image

삼성이 EUV 노광기를 대량 구입, 3nm는 내부에서만 사용?

삼성이 ASML에게서 올해 생산하는 EUL 노광기와 내년에 출시할 High-NA EUV 노광기를 납품받기로 계약했다고 합니다. 삼성은 올해 ASML에게서 EUV 노광기 18대를 인도받는데 이건 4조원이 넘는 가격입니다. ASML은 올해 50대의 EUV를 생산...

Date2022.07.03 소식 By낄낄 Reply13 Views2308

Read More
ISSCC 2022에서 공개된 젠3 코어와 3D V 캐시의 세부 사항

2022년 3월 21일에 올라온 글입니다. 이 글에서 다루는 라이젠 7 5800X3D는 진작 출시되어 성능 테스트까지 마쳤지요. https://gigglehd.com/gg/12127797 하지만 성능 말고 기술적인 내용은 이 글을 볼만 하기에 올려봅니다. AMD는 ISCCC(...

Date2022.07.02 소식 By낄낄 Reply4 Views2262

Read More
인텔 2세대 하바나 가우디 2가 NVIDIA A100을 넘어서는 성능을 냄

인텔의 2세대 딥러닝 프로세서인 하바나 가우디 2가 MLPerf 벤치마크에서 NVIDIA A100보다 더 높은 AI 학습 성능을 낸다고 발표했습니다. 이 딥러닝 프로세서를 사용해서 학습에 걸리는 시간이 경쟁 상대보다 짧다는 것이 주요 내용 되겠...

Date2022.07.02 소식 By낄낄 Reply2 Views1368

Read More
No Image

AMD가 더 많은 라이젠 5000X3D 프로세서를 출시?

AMD가 라이젠 7 5800X3D 외에도 더 많은 라이젠 5000X3D 프로세서를 출시한다는 소문이 있습니다. 7월 중에 관련 발표가 나올 가능성이 있습니다. 3D V 캐시 모델을 추가한다는 소문은 꾸준히 나오네요. 5800X3D까지는 100MB 캐지만 5900X...

Date2022.07.02 소식 By낄낄 Reply3 Views1105

Read More
No Image

큰손들이 TSMC 주문을 줄이는 중

애플, AMD, NVIDIA가 TSMC의 생산 주문을 줄이길 원한다는 소문입니다. AMD는 7/6nm 공정을 쓰는 구형 제품의 주문을 줄이는 반면, NVIDIA는 차세대 GPU-지포스 RTX 40 시리즈-를 다루는 5nm 공정의 주문을 줄이길 원한다고 합니다. NVIDI...

Date2022.07.02 소식 By낄낄 Reply12 Views5136

Read More
인텔 아크 A380에서 성능 최적화를 껐을 때의 3D마크 성능

인텔은 1743 드라이버에서 고급 성능 최적화 기능을 끌 수 있도록 옵션을 추가했습니다. 고급 성능 최적화는 일종의 벤치마크 치트처럼 취급하기에, 3D마크에서는 이 기능을 켜면 검증되지 않은 점수로 취급합니다. 그래서 이걸 끄고 테스...

Date2022.07.02 소식 By낄낄 Reply5 Views984

Read More
맥 프로의 메모리는 교체불가능할것

애플실리콘 맥에 리눅스를 이식하는 개발자의 말에 따르면 애플 실리콘 맥 프로는 전작처럼 메모리가 교체 가능한 형태는 아닐거라고 하네요. DIMM은 구리고 전력소모가 높으며 애플이 맥프로에서 필요로 하는 대역폭을 달성하려면 적...

Date2022.07.01 일반 ByNPU Reply25 Views2089

Read More
올해 PC/패널 출하량이 크게 감소

가트너는 2022년 전세계 PC 출하량이 9.5%줄어들 것으로 예측했습니다. 태블릿은 9%, 스마트폰은 7.1% 줄어듭니다. 중국 쪽의 스마트폰은 18%가 감소합니다. https://www.gartner.com/en/newsroom/press-releases/2022-06-30-gartner-for...

Date2022.07.01 소식 By낄낄 Reply1 Views887

Read More
8코어 RISC-V와 컴퓨트 니어 메모리를 인텔 4 공정으로 제작

인텔이 2022년 6월 13일의 VLSI 심포지엄 2022에서 발표한 논문인 An 8-core RISC-V Processor with Compute near Last Level Cache in Intel 4 CMOS입니다. 인텔 4 CMOS 공정으로 만든 라스트 레벨 캐시와 8코어 RISC-V를 소개하는 글입...

Date2022.07.01 소식 By낄낄 Reply6 Views2267

Read More
IMW 2022: 차세대 마이크로 컴퓨터의 장수명 저항 변화 메모리

임베디드 플래시 메모리는 40~28nm 공정이 한계입니다. 메모리 기록(프로그램)과 삭제에 높은 전압이 필요하다보니, 메모리 셀의 크기를 줄이기가 힘들고, 22nm 이후 공정에선 FinFET 같은 3D 구조가 보편화되면서 기존의 평면 MOS FET과 ...

Date2022.07.01 소식 By낄낄 Reply6 Views1366

Read More
클럭 제네레이터 탑재. MSI MAG B660M MORTAR MAX WIFI DDR4

MSI MAG B660M MORTAR MAX WIFI DDR4 메인보드입니다. B660 칩셋에 외부 클럭 제네레이터 칩을 조합해 넌K 프로세서를 오버클럭할 수 있습니다. 몇 번 공개가 됐다가 이제 정식 발표됐네요. 12+1+1페이즈 듀얼 레일 전원부, DDR4 4800MHz ...

Date2022.07.01 소식 By낄낄 Reply6 Views1125

Read More