ISA 시절에는 I/O 버스의 신호 속도가 8MHz나 12MHz였는데 PCI로 오면서 갑자기 33MHz로 올랐습니다. CPU의 클럭도 갈수록 올라가면서 펜티엄 3에서는 100MHz를 넘겼고 메모리도 PC 133을 지원하기 시작했지요.
메모리 클럭의 경우 PC-800에서 400MHz DDR, PC-1066에서 533MHz DDR을 달성했는데, 그 때만 하더라도 이 정도 신호에 맞춘 기판을 만들기가 힘들었다고 합니다. 당시 기판은 FR-4 등급을 사용했는데 이건 NEMA/ANSI에서 정한 난연 등급입니다.
기판은 절연층과 신호층으로 구성되며, 절연층의 재료에 따라 FR 등급이 바뀝니다. 가장 불이 잘 타는 FR-1/2가 종이에 페놀 수지를 침투시킨 것이고 FR-3은 페놀 대신 에폭시, FR-4/5가 유리 기판에 에폭시를 넣은 것입니다. 이 FR-4 규격의 기판에서 1GHz의 신호를 통과시키기가 매우 어려웠다고 합니다.
유전율을 낮춘 유리 에폭시 재료를 개발하던가, 재질의 균일도를 높이던가, 절연층/배선층의 두께 편차를 억제하던가, 배선층의 구리 순도를 높이는 등의 여러 해결책이 있었으며, 그 결과 2002년이나 2003년 쯤에 저렴한 4층 기판 메인보드에서 다이렉트 RDRAM을 쓸 수 있게 됐습니다. RDRAM은 비록 쫄딱 망했지만 이것 덕분에 기판이나 배선 기술은 많이 발전했다고 합니다.
다이렉트 RDRAM 시절에 신호 속도가 GHz까지 올라갔고, PATA 다음의 SATA는 1.3GT/s에서 3GT/s를 거쳐 2009년에는 6GT/s의 SATA 3 버전까지 발전했습니다. PCie도 2004년의 1.1a는 2.5GT/s였는데 2007년의 PCIe 2.0은 5GT/s, 2010년의 PCIe 3.0은 8GT/s로 올랐습니다.
차동 신호 방식인 시리얼 인터페이스라서 가능한 숫자이기도 하지만, 2천년만 해도 인텔 1세대 아이테니엄에서 133MHz/64비트 FSB도 제대로 쓰지 못했다가 2008년에 1600Mhz/64비트 FSB를 지닌 코어 2익스트림 QX9770이 나왔으니 2000년대에 신호 속도가 급격히 발전한 건 분명합니다.
다만 여기서 신호 속도의 발전이 주춤했습니다. PCIe의 경우 16GT/s로 발전한 PCIe 4.0이 나온 게 2017년, 표준화까지 7년이 걸렸습니다. 물론 이것 외에 다른 고속 신호도 있긴 했습니다. 2010년의 자일링스 Virtex-7은 XC7VH580T나 XC7VH870T 같은 하이엔드 모델에 28.05Gbps로 송/수신이 가능한 GTZ 트랜시버가 탑재됐고, 메인스트림 모델도 13.1Gbps의 송/수신이 가능한 GTH 트랜시버를 탑재했습니다.
자일링스 외에도 16Gbps를 실용화한 반도체 제조사는 꽤 많았으나, 이런 제품의 송수신기는 독자적인 신호 보정이나 필터, 에러 정정 등을 하드웨어에서 구현했습니다. 당연히 특허를 낸 기술이죠. PCI-SIG는 특정 회사의 독점 특허 기술을 쓰지 않고 일반적인 회로로 실현할 수 있는 기술 표준을 목표로 삼았기에, 그런 특허에 의존하지 않고 일반적인 회로로 16GT/s를 실현하는데 7년이 걸렸다는 이야기가 됩니다.
그럼 그 다음 버전인 PCIe 5.0은 왜 2년 후인 2019년에 표준화가 가능했을까요? 그 이유는 여러가지가 있지만 그 중 하나가 광 이더넷입니다. 이 슬라이드는 이더넷 신호가 어떻게 발전했는지를 표시한 것인데, 100GbE의 경우 가장 처음에는 10Gbps의 레인을 10개 묶어 2010년에 나왔지만 2015년에는 25Gbps 4개, 2018년에는 50Gbps 2개를 묶는 식으로 레인 숫자를 줄였습니다. 레인 속도를 100Gbps로 올려 하나로 끝내는 스펙은 2021년에 표준화가 끝났습니다.
이건 광 이더넷 트랜시버의 구조입니다. 왼쪽은 전기 신호를 입력/출력하고 오른쪽은 광 신호를 출력/입력합니다. 실제로는 여기에 FEC(Forward Error Collection) 회로를 비롯해 다양한 구성이 포함되지만 여기에선 간단하게 그렸습니다. 100GBASE-SR4, 1레인 25Gbps를 4개 묶은 구성입니다. 다만 이건 전기 신호와 광 신호가 1:1의 경우에 이렇다는 거고, 두 신호 사이에 속도가 다르다면 바꿔줄 필요가 있습니다.
광 이더넷 업계에서는 이렇게 신호를 바꾸는 걸 기어박스라고 부릅니다. 100Gbps의 100GBASE-SR4를 10Gbps의 전기 신호로 연결하려면 중간에 10:4나 4:10의 기어 박스를 넣어 10Gbps x10과 250Gbps x4 사이에 변환을 해야 합니다. 이렇게 하면 광섬유와 전기 케이블의 신호가 똑같지 않아도 쓸 수 있지만, 기어박스를 넣으면 소비 전력, 제조 단가, 기판 패키징 너비가 늘어나기에 가급적 기어박스는 피하려고 합니다.
이런 이유에서 이더넷의 고속화에 맞춰 이걸 연결하는 전기 신호의 속도도 높이는 방법을 연구하기 시작했습니다. MII(Media Independent Interface)가 전기 신호 쪽 인터페이스의 이름인데, 이것의 속도를 계속해서 높이게 됐습니다. 위 그림에서 25Gbps/레인의 실용화가 2010년인데 PCIe 4.0에는 넣지 못했습니다. 하지만 2018년에는 50Gbps/레인이 실용화되며 PCIe 5.0에 넣을 수 있게 됐습니다.
이 50Gbps의 레인은 0이나 1로 구성된 바이너리 신호인 NRZ가 아니라 한 번에 4개의 값인 2비트를 전송하는 PAM-4를 쓰기에, 신호의 속도 자체는 25GT/s(오버헤드나 에러 보정을 더하면 26.5625GT/s) 수준이지만, 이더넷-그 중에서도 IEEE에서 표준화한 100GBASE-xxx 시리즈는 PCI-SIG처럼 특허에 묶이지 않은 표준 기술로 실형해야 한다는 제약이 있으며, 25G PAM-4로 신호를 묶는 건 NRZ보다 더 까다롭습니다. NRZ를 그대로 쓴다면 32GT/s로 높이긴 어렵지 않으며 이걸로 PCIe 5.0의 스펙을 빠르게 정할 수 있었습니다.
그리고 이더넷 업계는 전기 신호를 100Gbps로 높였습니다. 50GT/s의 신호에 PAM-4를 조합한 것이고, 오버헤드까지 더하면 53.125GT/s가 됩니다. 인텔은 2018년에 58G PAM-4 PHY의 동작 데모를 공개했는데, 이는 2021년에 표준과하 끝난 100Gbps/레인 세대의 이더넷을 위한 것입니다. 또 자일링스를 비롯한 FPGA 회사도 50Gbps 급의 PHY를 비슷한 시기에 출시해 PAM-4 기반에 전기 신호의 속도는 50Gbps까지 올라갔습니다.
그 다음은 2026~2027년에 표준화가 진행될 것으로 예상되는 200Gbps 레인입니다. 이건 100GT/s의 신호를 PAM-4 변조로 전송하는 방식이며, 인텔은 224G PAM-4(112GT/s + PAM-4 변조) PHY 데모를 공개했으니 실용화도 진행 중입니다.
이처럼, 최근의 트렌드는 고속 신호에 PAM 변조를 조합하는 방식입니다. 이더넷 뿐만 아니라 PCIe도 마찬가지인데, PCI-SIG는 PCIe 6.0을 32GT/s + PAM-4로 구축하겠다고 2019년 6월에 공개하고 올해 월에 스펙도 밝혔습니다. PCie 6.0은 이더넷처럼 FEC를 넣어 에러를 처리하면 지연 시간이 너무 늘어나기에 FEC는 최대한 줄이고 물리층에서 에러 재전송을 수행하는 FLIT를 넣어, 지연 시간을 최소화하면서 PAM-4를 넣고 전송 대역을 2배로 늘렸습니다.
마이크론과 NVIDIA는 PAM-4를 쓴 독자적인 규격인 GDDR6X를 2020년 9월에 공동 발표했습니다. 처음에는 21Gbps(5.25GT/s DDR PAM-4)였지만 2022년 4월에는 24Gbps(6GT/s DDR PAM-4)를 로드맵에 올렸습니다. 그럼 이제부터가 본론인데요. 그 다음은 뭘까요?
6월 13일에 열린 2022 IEEE 심포지엄 VLSI/서킷에서 공개된 Session C17-1(A 40-Gb/s/pin Low-Voltage POD Single-Ended PAM-4 Transceiver with Timing Calibrated Reset-less Slicer and Bidirectional T-Coil for GDDR7 Application)라는 세션입니다.
JEDEC에선 GDDR7이나 LPDDR7, DDR6 같은 차세대 메모리 인터페이스의 스펙을 책정하고 있는데, 삼성은 GDDR7에서 PAM-4를 사용할 가능성이 매우 높으며, PAM-4를 쓴 40Gbps(10GT/s DDR PAM-4) 트랜시버를 실장한 연구 결과를 발표했습니다. 즉 핀 1개에 40Gbps 전송까지는 가능하다고 보는 것입니다.
이건 삼성의 A 68.7-fJ/b/mm 375-GB/s/mm Single-Ended PAM-4 Interface with Per-Pin Training Sequence for the Next-Generation HBM Controller입니다. HBM4 이후에서 핀 한개에 12Gbps(3GT/s DDR PAM-4)를 실현하겠다는 발상입니다. HBM4 이후를 위한 제안을 겸한 논문으로, PAM-4를 쓰면 12Gbps 전송은 비교적 쉽다고 설명합니다. DDR7이나 LPDDR7은 계속해서 NRZ를 쓰지만 그 다음 세대는 PAM으로 바뀔지도 모릅니다.
6월 23일에 PCI-SIG 디벨로퍼 컨퍼런스 2022에서 PCI-SIG는 PCIe 7.0을 발표했습니다. PCIe 6.0에서 PAM-4를 사용하고, 여기에선 전송 속도를 2배로 높인 64GT/s입니다. PCIe는 매 세대마다 최대 속도를 계속해서 두배로 높여 왔으나, 그렇게 하려면 타이밍 마진을 확보하거나 지터를 없애는 등 많은 노력이 필요합니다. 그래서 PCIe 7.0 수준의 속도라면 기판 배선 길이가 6.0의 절반밖에 안 되냐는 지적도 있습니다. 3년 안에 기술을 발전시켜 어떻게든 해결하려는 듯 합니다만.
인텔은 2021년 8월에 이스라엘 연구소에서 80GT/s PAM3의 신호를 이용한 썬더볼트 5 프로토타입을 공개한 바 있습니다. 이더넷 뿐만 아니라 전기 신호가 고속에 PAM 변조를 조합하는 방향으로 나아가고 있다는 건 분명합니다.
이에 비해 UCIe(Universal Chiplet Interconnect Express)는 스피드 레이트가 4/8/12/16/24/32GT/핀이고 NRZ 방식을 사용해 확실한 속도를 안정적으로 내는 방향으로 가고 있습니다. 2021년 6월에 시놉시스가 발표한 DesignWave Die-to-Die IP는 USR(Ultra Short Reach: 10mm 이내)나 XSR(Extra Short Reach: 50mm 이내)로 배선 거리가 제한되지만, 레인당 112Gbps(변조 방식은 NRZ와 PAM-4를 선택할 수 있으니 56GT/s PAM-4로 예상)을 지원합니다. UCIe도 다음 세대에선 64GT/sec나 100GT/s까지 확장되리라 보입니다.
2011년 IDF 즈음에 PCIe 3.0이 막 나오고, 4.0은 가능성 연구를 진행하던 시절에 PCIe 4.0은 광 통신으로 갈 거라는 이야기가 나왔습니다. 당시만 하더라도 32GT/s는 달성하기 힘든 목표였던 것입니다. 하지만 10년이 지난 지금은 100GT/s까지 꾸역꾸역 발전했습니다. 그 다음은 어디까지 올라갈 수 있을까요?