메모리의 레이턴시에 관한 이야기

조회 수 1976 댓글 16

저번에 핫했던 글도 그렇고 다른사이트에서도 좀 몇번 시끄러웠던 이야기인지라 생각난김에 시스템에서의 메모리 접근 레이턴시가 정확히 어떻게 결정되는가에 대한 이야기를 정리해봅니다.

일반적인 시스템에서 메모리에 접근하는데 소요되는 레이턴시는 아래와 같습니다.

(이미지 출처 : https://www.anandtech.com/show/2427/5 )

적당히 세부요소들이 제대로 나와있는 마땅한 그림을 찾지 못해서 쌍팔년도[...] 그림을 가져왔는데, 뭐 현재도 크게 다르진 않습니다. MCH가 이제는 CPU 다이 속으로 들어왔다는 것과, 고리짝시절의 굼뱅이 같은 FSB가 지금은 훨씬 더 빠른 링버스/메시/인피니티패브릭/CCI 등의 On-die 버스로 대체되었다는 것을 제외하면 기본 틀은 동일합니다.

A : CPU가 데이터 요청을 발행하는 단계입니다. 모든것의 시작점입니다.

B : 이제 CPU가 캐시들을 뒤적거려서 없으면 멤컨에 요청하는 단계입니다. 각 캐시의 레이턴시가 누적됩니다.

C : MCH가 코어에서 명령을 받아서 실제 메모리의 물리적인 주소와 필요한 명령으로 변환하는 단계입니다.

D : 명령이 이제 램 뱅크로 내려갑니다.

E : 램 모듈에 내려진 명령이 처리되어 데이터가 버퍼를 거쳐 MCH로 전송됩니다. 여기서 관여하는게 바로 램타입니다. 제가 설명하기엔 솜씨가 부족하기에 정말 친절하게 설명된 유튜브 영상 링크로 대체합니다.

링크 -> https://youtu.be/x3jGqOrXXc8

F : MCH가 램에서 보내지는 데이터를 CPU와 연결된 데이터 버스의 클럭과 박자를 맞춰줍니다.

(그림에선 FSB고, 요즘의 CPU에선 링버스/메시/IF/CCI 등의 각 제조사의 On-die 버스가 되겠습니다.)

G : MCH가 CPU로의 데이터 전송을 마무리 합니다.

현대의(물론 최소 10년도 더 전의 이야기지만) CPU들에서 멤컨이 통합되면서 데이터버스와 멤컨 자체의 작동속도가 비약적으로 향상되면서 멤컨 자체와 데이터버스에서 소요되는 레이턴시가 많이 줄었지만 반대로 L3캐시가 추가되어 캐시가 한단계 더 늘기도 했고, 데이터 버스에서 각 코어간의 일관성을 유지시키는 과정에서 발생하는 레이턴시도 있어서 실질적으로 그시절이나 지금이나 또이또이 하긴 한데 근소하게 좀 더 줄긴 했습니다.

그래서 POP라던가 MCP처럼 단순히 메모리 칩을 가까이 붙여놓기만 하는걸론 레이턴시가 줄지 않는 겁니다. 규격 내에서 요구되는 물리적인 수준을 충족시킬 수 있다면 레이턴시 자체는 정말 한뼘도 채 안되는 그 짧은 거리에 영향을 받는게 아니니까요. 메모리 접근 레이턴시를 단순히 물리적인 거리로 오해하는 분들과 키배가 많이 발생하는 부분입니다.

물론 메모리를 빠르게 하기 위해선 가까이 있어야 하는것은 사실입니다. 물리적으로 가까우면 우선 더 적은 전력으로 더 안정적으로 더 빠르고 넓게 작동할 수 있습니다. 클럭이 높을수록, 버스 폭이 넓을수록 물리적으로는 더 민감해지는데, 거리가 멀어질수록, 중간에 다른 구성요소가 낄수록 Clock Skew와 노이즈가 심해지고 따라서 당연히 안정적인 작동이 힘들어집니다. 중간에 잡상인(고상하신 말론 오버헤드라고도 합지요...)을 여럿 끼워가면서 거리를 어찌저찌 연장을 할 수는 있습니다만 그만큼의 소비전력과 지연이 발생하고 느려지겠지요.

그리고 이게 캐시나 EDRAM 같이 동작이 더 빠른 메모리일수록 CPU에 밀접하게 배치되어있는 이유입니다. 그만큼 밀접해야 그만큼의 속도를 용이하게 달성할 수 있으니까요. 즉, 가까운 물리적 거리는 낮은 레이턴시와 빠른 작동속도를 위한 "필요조건" 입니다. "충분조건"이 아니고요.

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '16'

헤으응 2021.04.13 00:15

CPU 안에 메모리가 들어가면 오우야 엄청나겠네용!
설아 ShellCat ː 雪雅 - 1st shell 2021.04.13 00:23

cpu 내부에 연산 저장용 메모리로 레지스터라고 있습니다..
메모리 종류중에 젤 비싼놈입니다.
?
RuBisCO 2021.04.13 00:27

그게 바로 캐시지요
?
analogic 2021.04.13 16:14

캐시하고는 좀 다릅니다.
CPU의 연산에 직접 쓸 수 있는 넘이라...
?
RuBisCO 2021.04.13 16:15

설아님 댓글에 단게 아니고 헤으응님 댓글에 대한 답입니다
?
NPU 2021.04.13 00:35

M1이 거리가 짧아서 레이턴시가 짧다고 아시는 분들이 많더라고요. 좀 나은 LPDDR4X 수준인데..
?
Unnamed 2021.04.13 00:37

당초에 스냅드래곤이나 엑시노스 몇몇 모델은 SoC 위에다가 올려버리는 POP 패키지인데 걔네들은 뭐 다른 소리 없었죠.
qua1121 대학원 후 스타트업의 길을 걷습니다. 날 죽여줘... 2021.04.13 01:21

사실 이건 오실로스코프만 찍어봐도 답이 나오는 문제인데 말이죠.
군필여고생쟝- 2021.04.13 01:56

몇 cm 가는데 광속으로 몇 ns급 차이로 차이나는것도 아닌걸 생각해보면 쉬울듯 합니당 ㅎ
360ghz case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.04.13 03:11

신용도 문제까지 생각하면 물리적으로 가까운게 좀 더 이득이겠지요. 다만 링크 신용도가 어느정도 된다면, 무작정 가까이 두는 비싼 칩보다 경제적일 수 있다 란 아이디어로 클러스터 컴퓨팅 등등을 개발한거지, 실제론 가깝고 붙어 있는게 좋죠. 원칩 체제가 가진 가장 큰 단점이, 유지보수인걸 생각하면 다 붙여둔것 보다 자주 갈아야할 파트를 떼는게 좋고.. 물론 둘 사이를 붙여두면 좋은 점은 메모리 레벨로 그냥 내리는것 말고 L4영역으로 더 가까운 레벨로 처리한다면 좀 더 빠를 수 있습니다. 프로그래밍 기법이나, 제조사의 튜닝 기법의 영역이니 그렇다... 정도로...
단순히 A라서 B가 맞아라고 하는 사람들에겐 꽤 좋은 정보인것 같습니다.
?
늘보 2021.04.13 05:31

SOC정도는 되야지.. 패키징 정도로는 의미없죠..
?
마라톤 2021.04.13 07:31

좋은 정보 감사합니다. ^_^
방송 2021.04.13 08:40

CPU와 함께 패기징할때 가장 큰 장점은 CPU의 메모리 콘트롤을 설계할때 패기징할 메모리만 대응하는 맞춤형 효율성과 당대 양산되는 것 중 가장 앞선 메모리가 들어갈 확율이 대단히 높은 점 같습니다.

이부분은 앞으로 더 크게 발전될 여지가 있고 버스를 더 쉽게 늘리는 방식으로 빠른속도와 용량을 늘리며 발전될 여지가 매우 클 것 같습니다.
?
RuBisCO 2021.04.13 09:08

정확히는 단가가 저렴해지죠. PCB 위에다가 DIMM 슬롯과, 그 슬롯과 CPU 사이를 연결하는 패턴이 추가되면 그 자체도 돈입니다. 특히 이전 글에도 나온 이야기지만 그런 고클럭의 회로는 만들기가 빡세죠.(=돈잡아먹는 귀신) 통상의 메인보드에 DIMM 슬롯 한쌍이 들어갈 때마다 전체 단가에서 몇달러 정도가 추가된다고 들었는데, 일체화시켜버리면 이걸 아낄 수 있습니다. 용량장사도 덤으로 할 수 있고요.
냠냠이 2021.04.13 10:04

진짜 돈지랄 제대로 해서 SRAM을 16기가나 달면 얼마나 빨아질까요..궁금.. 아키텍쳐가 다르지만 파워 아키텍쳐는 256MB씩 달아서 SRAM이 1기가에 달하는 제품이 있던데요
방송 2021.04.13 10:38

현제 CPU의 능력과 SSD 성능이 최적화가 안되어 의외로 큰 차이는 안 날것 같고 대신 끔찍한 발열이라는 예상이외 변수가 기다릴 것 같습니다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

No Image

TSMC, 대만 외에 다른 지역에서 칩을 생산하면 돈을 더 받겠다

TSMC는 최근 몇 년 사이에 대만이 아닌 다른 지역에도 팹을 구축하고 있습니다. 독일, 일본, 미국이 있는데요. 하지만 이들 지역의 팹을 이용해서 칩을 만들면 돈을 더 받을 거라고 합니다. '고객이 특정 지역'을 지정하면 돈을 ...

Date2024.04.20 소식 By낄낄 Reply5 Views1605

Read More
갤럭시 지포스 RTX 4060 LP 그래픽카드

갤럭시 지포스 RTX 4060 LP 그래픽카드입니다. 길이 18.2cm, 높이 6.9cm, 40mm 팬 3개, 두께는 2슬롯입니다. DP 1.4 2개, HDMI 2.1a 2개, 8핀 보조전원 1개가 달려 있습니다.

Date2024.04.20 소식 By낄낄 Reply4 Views823

Read More
No Image

SK하이닉스, TSMC와 손잡고 HBM 기술 리더십 강화

SK하이닉스는 차세대 HBM 생산과 어드밴스드 패키징 기술 역량을 강화하기 위해 대만 TSMC와 긴밀히 협력하기로 했다고 19일 밝혔다. 양사는 최근 대만 타이페이에서 기술 협력을 위한 양해각서(MOU)를 체결했고, SK하이닉스는 TSMC와 협...

Date2024.04.20 소식 By낄낄 Reply0 Views467

Read More
AM5 프로세서용 다이렉트 다이 워터블럭

EK가 AM5 프로세서용 다이렉트 다이 워터블럭을 발표했습니다. 히트 스프레더를 떼어내고, 이 워터블럭을 그 위에 직접 올리는 구조입니다. AM5라고는 하지만 멀티 다이 칩렛 구조의 데스크탑 프로세서만 지원하며, 단일 다이의 라이젠 80...

Date2024.04.20 소식 By낄낄 Reply1 Views503

Read More
AMD 스트릭스 헤일로, 젠5+RDNA3.5의 구성?

AMD 스트릭스 헤일로의 구성이라고 합니다. 유출된 것은 아니고 추측이니까 너무 믿진 마세요. CCD 다이는 젠5 8코어, L2 8MB, L3 32MB, TSMC N4X 공정, 다이 크기 80~85제곱mm로 구성됩니다. 이게 2개 있으니 총 스펙은 x2를 하면 됩니다...

Date2024.04.20 소식 By낄낄 Reply7 Views724

Read More
13/14세대 코어 i9 프로세서의 안정성을 위한 ASUS Z790 메인보드 설정

팔콘 노스웨스트에서 13/14세대 코어 i9 프로세서의 안정성을 높이기 위한 ASUS Z790 메인보드 설정 값을 공개했습니다. 이 회사에서 판매하는 시스템이 ASUS Z790 메인보드를 써서 이런 걸 만들었나 봅니다. 이렇게 설정할 경우 최고 클...

Date2024.04.20 소식 By낄낄 Reply3 Views423

Read More
ROCCAT, Turtle Beach로 브랜드 통합

ROCCAT의 브랜드가 Turtle Beach로 통합됩니다. 2019년에 터틀 비치가 ROCCAT을 인수하고, 지금까지 따로 운영했으나 앞으로는 브랜드를 터틀 비치로 일원화합니다. 기존의 로캣 제품은 터틀 비치 브랜드로 계속해서 판매합니다. 외국에선...

Date2024.04.20 소식 By낄낄 Reply3 Views299

Read More
No Image

라데온 RX 6000 고급형은 사실상 단종

라데온 RX 6000 시리즈의 고급형 모델은 재고가 거의 없다고 합니다. 여기에는 6950 XT, 6900 XT, 6800 XT가 포함됩니다. RDNA3도 대충 라인업이 완성됐으니 RDNA2는 털어내는 게 맞겠죠. 이것도 2020년 말에 처음 나왔으니 꽤 오래 됐네요.

Date2024.04.19 소식 By낄낄 Reply4 Views1127

Read More
ASML, High-NA로 10nm 패턴 인쇄, 두번째 High-NA 스캐너 발송

ASML은 High-NA EUV 장비를 사용해 10nm 패턴을 인쇄했다고 발표했습니다. 광학 시스템, 센서, 각 단계를 보정을 마쳤다고 하네요. 나중에는 성능을 더 높이고 생산 현장에서도 똑같은 성능을 내는 것이 목표입니다. https://twitter.com/...

Date2024.04.19 소식 By낄낄 Reply1 Views1036

Read More
레이저 아날로그 옵티컬 스위치 Gen2

레이저 아날로그 옵티컬 스위치 Gen2입니다. 2019년에 레이저 타르타로스 프로 키보드에서 처음으로 썼던 광학식 스위치를 개선해 헌츠맨 v3 프로부터 탑재했습니다. 한츠맨 V3 프로 시리즈는 풀사이즈, 텐키리스, 60% 모델이 나옵니다. 2...

Date2024.04.19 소식 By낄낄 Reply2 Views730

Read More
인텔, 세계 최대 규모의 뉴로모픽 시스템 구축

인텔이 세계 최대 규모의 뉴로모픽 시스템인 Hala Point를 샌디아 국립연구소에서 도입했다고 발표했습니다. 사람의 뇌를 모방한 스파킹 뉴럴 네트워크(SNN)을 사용한 Loihi2 프로세서를 사용합니다. 뉴런과 뉴런 사이는 메모리를 거치지 ...

Date2024.04.19 소식 By낄낄 Reply0 Views833

Read More
LGA 4710 비치넛 시티, LGA 7529 애비뉴 시티

제온 6 시리즈의 플랫폼입니다. LGA 4710 비치넛 시티, LGA 7529 애비뉴 시티의 두 가지 검증 플랫폼이 있는데, 둘 다 2CPU입니다. 비치넛 시티는 350W TDP에 16채널 메모리, 애비뉴 시티는 12채널 메모리에 500W TDP입니다. CPU 크기는 ...

Date2024.04.19 소식 By낄낄 Reply4 Views449

Read More
이 규격이 mSATA 일까요?

요즘 애플 노트북들은 모르겠으나... 예전 애플 노트북들은 m.2 같이 생겼는데 일반 pc 와 다른 m.2 같더군요. NVMe sata, m2 도 아닌 것 같고... 이 규격이 mSATA 일까요? 보통 인클로저가 NVMe M.2 와 SATA 범용은 있어도 mSATA 까...

Date2024.04.18 질문 By투명드래곤 Reply9 Views900

Read More
No Image

그래닛 래피드-AP, 제온 6 시리즈 프로세서의 스펙 유출

Xeon 6980P - 128 코어(Redwood Cove P-코어) / 500W / 2.0-3.2 GHz Xeon 6979P - 120코어(Redwood Cove P-코어) / 500W / 2.1-3.2GHz Xeon 6972P - 96 코어(Redwood Cove P-코어) / 500W / 2.4-3.5GHz Xeon 6960P - 72코어(Redwood Cove...

Date2024.04.18 소식 By낄낄 Reply1 Views586

Read More
엔비디아 창업자 & CEO(젠슨 황), 미국 타임지의 '2024년에 가장 영향력 있는 100인'으로 선정

▶ 엔비디아 창업자 & CEO(젠슨 황), 미국 타임지의 '2024년에 가장 영향력 있는 100인'으로 선정 - 게시글 등록자 : '메타(페이스북)' 회장 겸 CEO, 마크 저커버그 - 엔비디아 창업자 & CEO(젠슨 황) : 기술 산업 중 'GPU 산업'...

Date2024.04.18 소식 By블레이더영혼 Reply3 Views684

Read More