Arm 네오버스 V1은 SVE(Scalable Vector Extensions)를 지원하는 최초의 Arm 코어로 HPC와 ML 워크로드에서 50% 향상된 성능을 제공합니다. 네오버스 N2는 SVE2, 메모리 태깅을 비롯한 Arm v9 확장을 지원하는 첫 IP로 여러 워크로드에서 최대 40% 향상된 성능을 제공합니다. 또 광대역 저지연 인터페이스로 다양한 플랫폼과 연결하는 네오버스 커히런트 메시 네트워크(CMN-700)도 함께 발표했습니다. Arm을 네오버스 V1과 N2를 데이터센터부터 엣지 컴퓨팅까지 여러 분야에 활용하려 합니다.
Arm은 AWS Graviton 2와 암페어의 알테라를 구동하는 네오버스 N1가 전통적인(x86) SMT와 같거나 그 이상이라고 말합니다. N1은 전력 효율이 높기에 하나의 N1 코어가 3개의 x86 스레드를 대체하거나, 같은 전력을 사용할 경우 40% 더 높은 가성비를 제공한다고 주장합니다. 네오버스 V1과 N2 플랫폼에선 192개의 코어와 350W의 TDP까지 가능하며, 경쟁 상대(x86)과 동일한 수준의 성능을 낸다고 합니다.
네오버스 N1는 하이엔드 서버부터 엣지 디바이스까지 여러 분야에서 쓰였습니다. N2는 여전히 여러 분야에서 쓰지만 이것 외에도 V1 제우스 플랫폼이 추가됩니다. V1은 SVE SIMD 명령어를 지원하는 더 넓고 깊은 아키텍처를 사용합니다. V1의 SVE는 256비트 벡터 폭의 레인 2개에서 실행하며 bFloat16 데이터도 지원합니다. Arm은 N2가 N1보다 IPC가 1.5배 증가하고 전력 효율은 70~100% 개선됐다고 주장합니다. 또 L1/L2 캐시가 늘어나면서 크기도 70% 커졌습니다.
V 시리즈는 제한된 전력/면적에서 최대 성능을 내야 하지만 N2는 전력/면적당 성능에 최적화된 설계를 사용합니다. Arm은 메모리 대역폭 뿐만 아니라 PCIe 5.0, CXL 같은 차세대 인터페이스를 제공하며, 고객들이 자체 공급망을 가지고 프로세서를 팔 수 있도록 허용합니다. Arm이야 원래 그렇지만.
네오버스 V1은 Arm의 가장 성능이 높은 코어입니다. 8와이드 페치, 5-8와이드 디코디이/리네임, 15와이드 이슈로 구성됩니다. HBM, DDR5, 커스텀 가속 장치를 지원하며 멀티 다이와 멀티 소켓으로 설계를 확장할 수 있습니다. I/O 옵션에는 PCIe 5와 CCIX, CXL 인터커넥트가 포함됩니다. SVE를 추가하면서 부동소수점 성능은 2배, 벡터 워크로드 1.8배, 머신 러닝은 4배 향상됐다고 합니다.
V1의 가장 큰 변화 중 하나는 7nm와 5nm 공정의 지원입니다. N1은 7nm까지만 지원했습니다. 또 프론트엔드와 코어, 백엔드를 개선해 속도를 높이고 확장성을 향상시켰습니다. 이런 변화에는 분기 예측의 정확도 향상, 바른 명령어 프리페치, 분기 예측 대역폭 확장, L2 BTB 용량 증가, 분기 복구 향상, 정수 성능 향상, 마이크로 OP 캐시, 더 많은 매크로 퓨전 기능, 아웃 오브 오더 윈도우 2배 향상, 새로운 SVE 구현, 로드/스토어 대역폭 50% 향상, 로드 파이프라인 추가, 로드/스토어 버퍼 윈도우 증가, L2 캐시 레이턴시 감소 등이 있습니다.
또 DVFS (Dynamic Voltage Frequency Scaling) 기능을 확장해 새로운 전원 관리 툴을 도입했습니다. 같은 공정에서 V1는 n1보다 IPC가 1.5배, 전력 효율은 70~100% 향상됐다고 주장합니다. 코어 크기는 70% 커졌습니다.
Arm SVE를 통해 대역폭이 2x256b로 두배 늘어나고 4x128b로 네온을 지원합니다. SVE는 벡터 길이에 제한되지 않습니다. 대부분의 벡터 명령어 세트는 비트 길이가 고정되지만 SVE에선 하드웨어가 벡터 길이를 비트마나 다르게 설정할 수 있습니다. 소프트웨어에서는 벡터 길이를 지정하지 않아 바이러니 코드의 이식이 편하고, 하드웨어에서 이를 자동으로 확장합니다.
네오버스 N2 플랫폼인 페르세우스입니다. V1보다 개선된 코어를 사용하지만 많은 것이 알려지진 않았고, Arm v9와 SVE2를 지원하는 첫번째 Arm 플랫폼이라는 것만 알 수 있습니다. 전력/면적을 같은 수준으로 유지하면서 싱글스레드 성능이 40% 향상됐습니다.
Arm SPEC CPU 2017 싱글코어 테스트입니다. 제온 8268과 40코어 아이스레이크 제온, 에픽 로마 7742, 에픽 밀라노 7763 등과 비교해서 Arm의 경쟁력이 있다고 설명합니다.
커히런트 메시 네트워크 CMN-700입니다. 파트너사가 코어수와 캐시 크기를 조정하고, DDR5, HBM, PCIe 5.0, CXL, CCIX 같은 다양한 메모리와 인터페이스를 사용할 수 있도록 뒷받침해줍니다. 고객이 레퍼런스 디자인을 가져와 자유로이 코어 수/클럭/캐시 레벨/메모리/IO 등을 조절할 수 있습니다. 분리된 설계를 지원하며 충분한 대역폭을 제공하고, 멀티 칩 아키텍처와 헤테로지니어스 워크로드를 커버합니다.
CMN-700은 더 많은 코어, 캐시, 노드, 메모리 포트, CCIX를 제공합니다.