a1.jpg

  

NVIDIA의 덴버와 AMD의 시애틀이 등장하는 Hot Chips 컨퍼런스

 

반도체 칩 관련 학회인 Hot Chips 26(A Symposium on High Performance Chips)가 8월 10~12일까지 미국 쿠퍼티노에서 열렸습니다. 새로운 칩이나 신기술 발표 장소로 정착한 Hot Chips는 올해에도 여러 발표가 있었는데 그 중에서도 NVIDIA의 고성능 ARM 코어 덴버와 AMD의 서버용 ARM SoC인 시애틀의 개요가 공개됐습니다.

 

NVIDIA의 64비트 CPU 코어 덴버는 NVIDIA가 ARM에서 아키텍처 라이센스를 취득해 자체 개발한 고성능 CPU 코어로서 최대 7-way의 명령 다중성을 달성하는 슈퍼 스칼라 CPU입니다. 64비트 버전의 테그라 K1에 듀얼 코어로 탑재되며 고성능 컴퓨팅(HPC)용 고성능 GPU에도 들어갈 것으로 보입니다. Hot Chips에서는 덴버 마이크로 아키텍처의 개요 등이 밝혀졌습니다. NVIDIA는 이 밖에도 32비트 버전의 기존 테그라 K1에 대해서도 보다 자세한 내용을 공개할 것으로 보입니다.

 

a2.jpg

 

a3.jpg

 

1월 CES에서 NVIDIA가 공개한 덴버 버전의 테그라 K1

 

시애틀은 AMD의 첫번째 ARM 코어 칩입니다. ARM에서 IP 라이선스를 받은 64비트 코어 Cortex-A57을 최대 8개 탑재합니다. AMD는 앞으로 ARM과 x86/x64의 두가지 코어를 여러 시장에 같이 출시할 것이며, 그러한 AMD ARM 전략의 첫걸음이 되는 시애틀의 아키텍처 개요가 Hot Chips에서 밝혀집니다. AMD는 시애틀의 발표 외에도 카베리의 헤테로지니어스 컴퓨팅 접근에 대해서도 발표를 합니다.

 

기조 강연에는 ARM과 퀄컴이 등장했습니다. ARM은 자사의 기술 부분을 담당하는 Mike Muller(Chief Technology Officer, ARM)가 등장해 현재 프로세서의 가장 중요한 과제인 전력을 주제로 연설을 합니다. 한편 퀄컴은 중요 전략으로 삼은 IoT(The Internet of Things)에 대해 연설합니다.

 

 

트랜스메타의 Ditzel이 재등장

 

Dave Ditzel은 일세를 풍미한 CPU 제조 업체 트랜스메타(Transmeta)의 창업자이자 CEO였던 사람입니다. 이후 인텔로 이적한 후에도 Hot Chips의 강연을 듣기 위해 거의 매년 참가했지만 올해엔 강연을 하기 위해 왔습니다. 실리콘 다이 적층 기술을 지닌 ThruChip의 CEO로서 말이지요. ThruChip은 게이오 대학의 구로타 타다히로가 CTO로 참여한 스타트 업입니다. 구로다는 몇년 전에 ISSCC(IEEE International Solid-State Circuits Conference)에서 적층한 다이 사이를 무선으로 연결하는 기술을 공개해 화제를 모았으며, ThruChip는 이 기술의 상용화를 목표로 합니다.

 

a4.jpg

 

2010년 ISSCC에서 구로다 연구팀이 발표한 128층 낸드 칩

 

a5.jpg

 

 

2010년의 ISSCC에서 구로다 연구팀이 발표한 적층 칩의 통신용 코일

 

고성능 CPU 분야에서는 일본 NEC가 새로운 벡터 프로세서인 SX-ACE Processor를 발표했으며, 후지쯔도 HPC용 SPARC64 XIfx에 대해 강연합니다. 오라클은 Sun Microsystems계열의 매니코어 CPU의 신제품인 SPARC M7을 발표할 예정입니다. 인텔 ISSCC 2014에서 기술 개요를 밝힌 최신 서버 CPU 아이비브릿지-E의 기반인 아이비타운에 대해 설명을 합니다.

 

a6.png

 

아이비타운의 파생화

 

 

마이크로소프트가 데이터센터 솔루션을 발표

 

재밌는 건 마이크로소프트가 FPGA 코너에서 등장한다는 것입니다. 직접 개발한 FPGA 통합 서버 보드 솔루션에 대해 설명을 합니다. 마이크로소프트는 지난주에 열린 플래시 메모리 서밋에서도 독자 개발한 데이터 센터용 SSD에 대해서 강연한 바 있습니다. 대형 데이터 센터가 독자적인 하드웨어를 개발하는 지금의 흐름을 명확하게 알 수 있습니다. FPGA에서는 쌍벽을 이루는 Altera와 Xilinx도 각각 20nm 제품에 대해 발표를 하고 있어, FPGA의 중요성이 커지는 흐름을 반영하고 있습니다.

 

또 이번 Hot Chips에서는 하드웨어 실장 가속 칩의 발표도 두드러졌습니다. 레이 트레이싱 하드웨어 가속기의 스타트업 회사인 Siliconarts와 컴퓨터 비전의 Movidius가 저마다 발표를 합니다.

 

프로세서 외에 다른 분야를 보면 SK 하이닉스가 고성능을 위해 개발한 TSV(Through Silicon Via) 적층 메모리인 HBM(High Bandwidth Memory)의 개요를 발표합니다. HBM은 최근 다른 컨퍼런스에서 발표를 했던 싱글 뱅크 전환 등의 높은 성능이나 전력 절약 기능에 대해 설명합니다.

 

 

튜토리얼은 보안과 IoT

 

Hot Chips의 첫날은 튜토리얼 데이로서 화제가 되는 기술에 초점을 둔 강연이 열립니다. 이번에는 하드웨어 보안과 IoT(The Internet of Things)가 주제입니다. 보안에는 ARM과 AMD, 인텔이 등장해 하드웨어 기반 보안 기술의 개요에 대해 설명을 합니다. IoT 튜토리얼에서는 전력 절약과 커뮤니케이션의 2가지 주제를 이야기하며 ARM, 퀄컴, 텍사스 인스트루먼트가 등장합니다. ARM과 퀄컴은 기조 강연도 하고 튜토리얼도 하는 것이지요. 현재 칩 기술의 초점이 이러한 저전력 코어에 맞춰져 있음을 잘 알 수 있습니다.

 

a7.jpg

 

Hot Chips 회장은 작년까지 스탠포드 대학 강당에서 열렸으나 올해엔 쿠퍼티노의 Flint Center for the Performing Arts에서 개최됩니다.

 

 

http://pc.watch.impress.co.jp/docs/column/kaigai/20140813_662027.html

 

동적 최적화를 하는 덴버 마이크로 아키텍처

 

ARM 아키텍처에서 인텔의 PCU용 CPU인 하스웰 급의 성능을 달성하지만 모바일 디바이스에 넣을 수 있을 정도로 전력 사용량을 낮춘다. 이것이 NVIDIA의 64비트 ARM 코어인 덴버의 컨셉입니다. 그럼 어떻게 해야 고성능과 저전력을 모두 잡을 수 있을까요. NVIDIA는 미국 쿠퍼티노에서 열린 반도체 칩 관련 학회 Hot Chips 26(A Symposium on High Performance Chips. 미국 현지 시간 8월 10~12일)에서 덴버 아키텍처의 일부를 밝혔습니다. 간단히 요약해서 봅시다.

 

a8.jpg

 

a9.jpg

 

a10.jpg

 

Hot Chips에서 발표된 테그라 K1의 덴버 코어

 

덴버는 7개의 실행 유닛을 가진 슈퍼 스칼라 CPU입니다. 일반적인 슈퍼 스칼라 CPU는 동적 스케줄링 방식을 도입해 멸령을 바로 받아 아웃 오브 오더 형식으로 분산시켜 병렬 실행하지만, 이 경우 실행할 수 있는 명령의 수는 명령 디코더가 디코딩할 수 있는 대역폭에 따라가게 됩니다. 예를 들어 ARM의 Cortex-A15는 8개의 실행 유닛을 갖췄지만 명령 디코더는 3명령/사이클로 최대 IPC(Instruction-per-Clock)은 3 IPC입니다.

 

a11.jpg

 

a12.jpg

 

덴버를 Cortex-A15와 비교

 

그에 비해 덴버는 하드웨어 디코더로 디코딩하고 실행한 명령을 동적으로 최적화합니다. 이렇게 최적화한 마이크로 명령을 최적화 캐시에 저장합니다. 그리고 같은 패스를 실행할 때는 최적화 캐시에서 최적화된 코드를 꺼내 실행합니다. 덴버의 하드웨어 디코더는 2명령/사이클이지만 최적화해서 병렬도를 높인 코드를 실행할 때는 한번에 7개 이상의 IPC를 달성할 수 있습니다.

 

최적화를 하기 위해 최적화 캐시는 명령 실행 패스를 조건 분기의 방향까지 포함해 추적하고 저장하는 추적 캐시일 것이라 보이지만 NVIDIA는 밝히지 않았습니다. 또 최적화를 어떤 정책에서 할 것인지 단계적으로 하는지도 밝히지 않았습니다.

 

a13.jpg

 

a14.jpg

 

a15.jpg

 

a16.jpg

 

덴버의 최적화 시스템 구조

 

덴버 실행 유닛의 구성은 풍부한 편으로 2개의 로드/스토어 유닛은 로드와 스토어에 모두 쓰이며 정수 연산 유닛은 4개나 있습니다. 2개의 로드/스토어 유닛과 단순 명령의 정수 연산 유닛이 명령 발행 포트를 공유하게 됩니다. 파이프 라인은 분기 예측까지 13사이클로 Cortex-A15의 15사이클보다 짧습니다. 그만큼 예측 오류의 페널티가 적고 효율이 높습니다. 전력 제어에서는 새로 CC4라 부르는 코어 클러스터 리텐션 저전력 스테이트가 추가됐습니다.

 

a17.jpg

 

덴버의 파이프라인

 

a18.jpg

 

덴버의 전력 절약 스테이트

 

 

트랜스메타의 Efficeon, 인텔의 PARROT과 비슷한 아이디어

 

NVIDIA가 공개한 성능 벤치마크에서 2.5GHz의 덴버는 하스웰 기반의 셀러론 2955U(1.4GHz)과 경쟁하고 있습니다. 클럭을 비교해 계산하면 덴버는 하스웰의 60% 정도 성능을 냅니다. 덴버가 모바일용에 맞는 코어임을 생각하면 제법 괜찮은 편입니다. 다만 데스크탑 PC 프로세서를 대체할 수준이라 보기엔 무리가 있을 것이라 생각됩니다.

 

a19.jpg

 

NVIDIA가 공개한 퍼포먼스 벤치마크

 

다시 실행되는 패스에 동적으로 최적화를 하고 병렬도를 높인 코드를 생성한다는 점에서 덴버는 트랜스메타의 Efficeon과 비슷합니다. 실제로 NVIDIA는 트랜스메타에서 관련 지적 라이센스를 얻었고 트랜스메타의 엔지니어도 영입했습니다. 다만 NVIDIA는 명령 디코더를 하드웨어로 구현했다는 게 차이점입니다. 예전에 덴버가 소프트웨어 디코더라 추정한 건 잘못된 것입니다. 현재 알려진 대로라면 덴버는 인텔이 10년 정도 전에 발표한 Power AwaReness thRough selective dynamically Optimized Traces(PARROT) 컨셉에 가깝습니다.

 

a20.jpg

 

PARROT 파이프라인의 컨셉

 

참고로 Hot Chips의 프레젠테이션을 설명한 NVIDIA의 개발진을 보면 NVIDIA가 2006년에 인수한 인텔 계열 사람들이 세운 프로세서 설계 개발 벤처기업인 Stexar의 직원이 핵심으로 보입니다. Hot Chips에서 프레젠테이션을 한 Darrell Boggs는 원래 펜티엄 4의 리드 아키텍트이며 Stexar의 치프 설계였습니다. Stexar는 펜티엄 4의 개발 팀 엔지니어들이 인텔을 나와 만든 벤처 기업으로 펜티엄 4 개발 팀이 있던 오레건을 기반으로 합니다. NVIDIA는 이 회사를 인수해 NVIDIA의 오레곤 지사로 만들어 프로세서 엔지니어를 이끌어 왔습니다. 인수했을 당시엔 NVIDIA가 x86 CPU의 개발을 목표로 한다고 알려져 있기도 했습니다.

 

a21.jpg

 

덴버 아키텍처를 담당하는 Darrell Boggs

 

 

후지쯔와 NEC가 각각 고성능 CPU를 발표

 

Hot Chips에서는 퍼포먼스급 CPU의 발표도 있었습니다.

 

NEC는 벡터 슈퍼 컴퓨터용 벡터 프로세서인 SX-ACE Processor를 발표했습니다. 멀티 코어 아키텍처로 하나의 칩에 4코어를 탑재합니다. 각 CPU 코어에 벡터 연산용인 VPU(Vector Processing Unit)과 스칼라 연산용인 SPU(Scalar Processing Unit)를 1개씩, 1MB 캐시인 ADB(Assignable Data Buffer)를 탑재합니다. VPU는 16-way의 병렬 유닛으로 16사이클에 걸쳐 256 실행을 하는 벡터 머신입니다. 칩 한개의 벡터 성능은 최대 256GFLOPS, 메모리는 DDR3이며 대역은 256GB/sec. 제조 공정 기술은 28nm며 작동 클럭은 1GHz입니다.

 

a22.jpg

 

NEC의 SX 슈퍼컴퓨터 진화

 

a23.jpg

 

SX-ACE 칩의 다이 평면도

 

a24.jpg

 

SX-ACE 칩 전체의 구성

 

a25.jpg

 

SX-ACE CPU 코어 아키텍처

 

a26.jpg

 

벡터 프로세서에 컨트롤 가능한 캐시를 탑재

 

a27.jpg

 

SX-ACE의 보드

 

후지쯔는 K 이후의 HPC(High Performance Computing)용 프로세서인 SPARC64 XIfx의 개요를 발표했습니다. K 컴퓨터에 사용된 8 코어의 SPARC64 VIIIfx에서 발전해 32 코어를 탑재한 CPU입니다. 각각의 CPU 코어는 SIMD(Single Instruction, Multiple Data) 유닛이 256비트로 베터 폭을 배로 늘렸으며 확장 SIMD 명령을 포함한 HPC 전용의 새로운 명령 확장인 HPC-ACE2를 추가했습니다. HPC-ACE2에는 인 다이렉토 로드/스토어 명령 등도 추가됐습니다.

 

메모리는 마이크론의 적층 메모리 HMC(Hybrid Memory Cube)을 채용해 용량은 32GB고 대역은 양방향 각각 240GB/sec을 달성했습니다. 메모리 용량을 늘리기 위해 HMC의 인터페이스를 4분할해 사용하며 외부 인터페이스와 스택 내 인터페이스가 분리되는 HMC 특성을 살렸습니다. 칩의 최대 성능은 1.1TFLOPS.GPU을 통합한 컨슈머용 CPU 수준의 성능이지만 SPARC64 XIfx는 K 컴퓨터처럼 GPU 코어 같은 가속 장치는 탑재하지 않았습니다. 제조 공정 기술은 20nm로 2.2GHz, 다이 크기는 아직 공개하지 않았습니다.

 

a28.jpg

 

후지쯔의 프로세서 개발 로드맵

 

a29.jpg

 

a30.jpg

 

SPARC64 XIfx 칩의 개요

 

a31.jpg

 

SPARC64 XIfx에 추가한 새로운 명령 셋트

 

a32.jpg

 

SPARC64 XIfx의 코어 파이프 라인

 

a33.jpg

 

광대역 HMC(Hybrid Memory Cube)와 Tofu2 인터커넥트에 맞춘 버스

 

 

프로세서에 광대역 메모리를 제공하는 HBM

 

칩 스택킹도 이번 Hot Chips의 중요한 주제 중 하나였습니다. SK 하이닉스는 반도체 표준화 단체인 JEDEC 규격에 맞춘 고성능 스택 DRAM인 HBM(High Bandwidth Memory)에 대한 프레젠테이션을 했습니다. 그 중에서 SK 하이닉스는 몇가지 새로운 기술 내용과 앞으로의 비전을 밝혔습니다.

 

DRAM은 데이터를 유지하기 위해 일정 시간마다 데이터를 재충전하는 동작이 필요한데 그 리프레시 모드 중에는 액세스하기가 어렵습니다. 그러나 HBM은 유휴 상태의 뱅크 단위로 액세스를 해 아이들 상태에서도 다른 뱅크에 읽기/쓰기가 가능하도록 했습니다. 참고로 인텔의 하스웰 eDRAM도 같은 기능을 갖고 있습니다. 또 HBM은 RAS와 CAS 명령 버스를 분리해 RAS와 CAS 명령을 병렬 실행하도록 했습니다.

 

HBM에서 필수가 된 베이스 인터페이스 다이의 경우 앞으로 컨셉으로서 DDR 계열 DRAM의 인터페이스를 구현하는 등의 비전을 밝혔습니다. 또 2020년 이후에는 HBM의 광대역화와 대용량화를 진행하는 방향도 밝혔습니다. 또한 DRAM의 경우 삼성이 지난주에 열린 Flash Memory Summit에서 밝혔던 2020년 이후까지 DRAM 미세화를 계속해 나갈 방법을 설명했습니다.

 

a34.jpg

 

HBM의 DRAM 스택 개요

 

a35.jpg

 

높은 대역이 장점인 HBM

 

a36.jpg

 

HBM의 싱글 뱅크 전환

 

a37.jpg

 

SK 하이닉스가 제시한 HBM 인터페이스 칩의 전망

 

a38.jpg

 

2020년 이후에도 대용량과 고속화를 계속하는 HBM의 방향성

 

HBM은 높은 대역폭이 장점입니다. 그러나 TSV 인터포저와 인터페이스 다이가 필수라서 TSV를 포함하면 가격이 비싸지고 공급망의 변경이 필요해 진입 장벽이 높습니다. Hot Chips에서는 그걸 해결한 제안도 ThruChip에서 제시했습니다. 아래 글에서 Hot Chips의 다른 발표 보고돌 가하겠습니다.

 

 

http://pc.watch.impress.co.jp/docs/column/kaigai/20140819_662558.html

 

Freedom Fabric가 빠진 AMD ARM 서버 칩

 

이번 Hot Chips 26(A Symposium on High Performance Chips)에서는 ARM과 관련된 발표가 눈에 띄었습니다. 키노트 스피치로 나선 ARM의 Mike Muller(CTO, ARM), NVIDIA의 독자적인 마이크로 아키텍쳐 덴버, AMD의 서버 SoC(System on a Chip) 시애틀이 그것입니다.

 

AMD 시애틀은 고밀도 서버 시장을 위한 SoC로 ARM의 64-bit 명령 세트인 ARMv8의 CPU 코어 Cortex-A57의 IP 라이센스를 받아 SoC를 개발했습니다.

 

시애틀의 Cortex-A57은 2코어씩 묶어 1MB 공유 L2캐시와 함께 CPU 모듈을 이룹니다. 총 4개의 모듈로 8 CPU 코어의 구성이 됩니다. 각 코어의 캐시 구성은 L1 명령 캐시가 48KB며 L1 명령 캐쉬가 32KB입니다. 전체 CPU 코어에서 공유 8MB의 L3 캐시를 갖춥니다. 메모리는 2채널의 DDR3/4 인터페이스. 허브 칩은 쓰지 않고 직접 연결해 최대 4 RDIMM으로 128GB를 연결할 수 있습니다.

 

a39.jpg

 

시애틀의 개요

 

a40.jpg

 

시애틀의 블럭 다이어그램

 

a41.jpg

 

시애틀의 메모리 시스템

 

시애틀의 I/O는 2채널의 10G BASE-KR 이더넷, 8레인 SATA 6Gbps, 8레인 PCI-E 3.0 (x8/x4/x2). 10 기가비트 이더넷을 사용하니 서버 I/O로선 크게 부족할 것이 없습니다. AMD는 시애틀에 SeaMicro의 인터페이스인 Freedom Fabric을 통합할 예정이었으나 언급은 하지 않았습니다. Freedom Fabric은 개발 지연 소문이 나온 상황입니다.

 

a42.jpg

 

a43.jpg

 

a44.jpg

 

a45.jpg

 

시애틀의 레퍼런스 개발 보드

 

다만 시애틀의 다이 레이아웃을 보면 왼쪽 위에 블랙 박스가 있음을 발견할 수 있습니다. 이것은 현재 다이에도 Freedom Fabric이 들어가 있지만 AMD가 막아뒀음을 시사합니다. Freedom Fabric은 ARM 서버에서 AMD의 강력한 무기이니 섣불리 포기했다고 보기도 어렵습니다.

 

어쨌건 시애틀은 당분간은 10 기가비트 이더넷을 사용하며 실험용도 10 기가비트 이더넷 기반입니다. Freedom Fabric이 빠졌으니 시애틀은 표준적인 서버 칩입니다.

 

a46.jpg

 

왼쪽 위에 빈 공간이 있는 시애틀의 평면도

 

시애틀의 CPU 모듈 프론트 엔드는 ARM의 AMBA 5 CHI지만 내부 인터 커넥트가 ARM의 표준적인 조직을 쓰는지는 밝혀지지 않았습니다. ARM은 서버용 조직인 CoreLink CCN-508을 이미 제공하고 있습니다. AMD는 2015년에 나오는 자사의 2세대 Cortex-A57에서 내부 조직을 직접 개발하고 x86 CPU와 공통의 독자적인 조직으로 만드는 SkyBridge 계획을 세운 상태입니다.

 

시애틀은 메인 프로세서 Cortex-A57과 별도로 시스템 컨트롤 프로세서인 Cortex-A5를 넣었습니다. 이는 AMD가 전체 CPU/APU 라인에서 ARM의 TrustZone 보안 기술을 도입해서입니다. x86 계열의 AMD의 PC용 APU도 Cortex-A5가 들어갑니다. 또 시애틀은 Cryptographic Coprocessor(CCP)을 가속 장치로 넣습니다. 다만 시애틀은 AMD의 주특기인 범용 GPU 코어는 넣지 않았습니다. GPU 코어와 ARM 코어의 조합은 2015년에 나오는 제품에서 이루어집니다.

 

a47.jpg

 

a48.jpg

 

시애틀의 제조 공정은 글로벌 파운드리의 28nm로 AMD의 퍼포먼스급 APU와 같습니다. AMD는 글로벌 파운드리의 라인을 늘리는 방향으로 가고 있습니다.

 

a49.png

 

AMD CPU/GPU의 로드맵

 

 

최초의 ARM 서버를 내놓았던 Applied Micro에서 2세대 칩을 발표

 

ARM 서버 CPU로는 Applied Micro가 ARMv8 기반 CPU인 X-Gene 패밀리의 2세대를 발표했습니다. 이 회사는 X-Gene 1(Storm)으로 ARM의 64비트 서버 CPU에 가장 먼저 착수했습니다. Applied Micro는 ARM에서 아키텍처 라이센스를 받아 독자적인 마이크로 아키텍처를 개발했으며 이번에 발표한 X-Gene2(Shadowcat)가 2세대가 됩니다. 제조 공정 기술은 X-Gene 1이 40nm인데 X-Gene2는 28nm가 됐으며 이미 샘플 출시가 된 상황.

 

a50.jpg

 

 

X-Gene2의 블럭 다이어그램

 

CPU 코어는 최대 4 명령 디코딩의 아웃 오브 오더 실행으로 CPU 코어의 기본 구성은 1세대와 크게 다르지 않습니다. 분기 예측의 강화나 스케줄 엔트리의 강화, 데이터 캐시의 접근 등이 강화됐습니다. CPU 코어는 2코어가 하나의 모듈이 되며 2개의 코어가 L2 캐시를 공유합니다.

 

a51.jpg

 

X-Gene의 CPU 모듈

 

a52.jpg

 

X-Gene 2 새도우캣의 블럭 다이어그램

 

a53.jpg

 

X-Gene 2의 CPU 블럭 다이어그램

 

a54.jpg

 

a55.jpg

 

a56.jpg

 

Applied Micro의 로드맵에는 2015년에 샘플 출시 예정인 X-Gene 3(Skylark)가 설계 단계로 나와 있습니다. CPU 코어 수를 16, 64코어로 늘리며마이크로 아키텍처도 확장합니다. 또한 X-Gene 3은 20nm 공정을 지나치고 바로 16nm FinFET로 이행합니다. 현재 많은 개발사들이 28nm 평면 공정에서 14/16nm FinFET로 이행할 계획이며 Applied Micro도 그런 회사입니다. CPU 중엔 최근 Sky가 들어가는 코드네임이 많아 헷갈리는 편.

 

a57.jpg

 

Applied Micro의 로드맵

 

a58.jpg

 

X-Gene 3, Skylark의 개요

 

 

스택 다이 끼리 무선으로 데이터 전송

 

a59.jpg

 

David R. Ditzel(CEO, ThruChip Communications)

 

Hot Chips에서는 CPU 이외에도 주목할만한 기술이 몇개 발표됐습니다. 그 중에서도 시선을 이끈 건 저렴한 3D 칩 스택 기술을 개발한 ThruChip Communications입니다.

 

3D 스택에선 Through Silicon Via(TSV)를 사용한 접근이 HBM(High Bandwidth Memory)와 HMC(Hybrid Memory Cube)등의 광대역 DRAM 기술에 사용됩니다. 그러나 TSV는 현재 아직 제조 비용이 높고 빽빽한 배열이 필요해 HBM 등에서는 서플라이 체인도 변경할 필요가 있습니다. ThruChip는 적층하는 다이 사이를 무선으로 전송해 보다 높은 수준의 wafer thinning 기술을 사용, 이러한 문제를 해결합니다.

 

ThruChip의 기술은 칩 사이의 데이터 접속에 인덕티브 코일을 쓰는 무선 인터페이스 ThruChip Interface(TCI)를 사용합니다. 이 기술은 ThruChip의 CTO의 쿠로다 타다히로가 ISSCC(IEEE International Solid-State Circuits Conference) 등에서 발표한 기술을 기초로 하고 있습니다. 그러나 학회 발표 때와 비교하면 코일은 극적으로 소형화(전송 거리에 따라 코일 치수가 바뀜)됐습니다. 또 코일을 오버랩해 배치함으로써 실장 면적을 축소할 수도 있습니다.

 

a60.jpg

 

인덕티브 코일을 이용해 다이 사이를 무선으로 연결하는 ThruChip의 기술

 

a61.jpg

 

a62.jpg

 

a63.jpg

 

a64.jpg

 

Hot Chips에서는 실제 HBM 다이에서 TSV I/O 면적을 ThruChip의 TCI 코일을 탑재했을 경우와 비교했습니다. DRAM 채널당 16코일/8Gtps의 전송 속도로 HBM과 동등한 메모리 대역을 실현했을 경우 TCI가 극적으로 실장 면적을 줄일 수 있는 것으로 나왔습니다. 또 TSV에 대해 TCI는 전송 전력과 딜레이가 다이 수와 관계 없이 일정하다는 장점이 있습니다.

 

a65.jpg

 

a66.jpg

 

a67.jpg

 

a68.jpg

 

 

무선으로 전력도 전송하는 ThruChip 기술

 

또 ThruChip은 전력 공급도 금속 와이어를 사용하지 않고 실현하는 기술인 Highly Doped Silicon Vias(HDSV)를 발표했습니다. 이것은 실리콘 관통 TSV를 사용한 전력 전송 기술로 4μm의 매우 얇은 웨이퍼를 실현하는 개선된 wafer thinning 기술을 사용합니다. 웨이퍼 두께는 웨이퍼 제조사에서 출시할 때 775μm(300mm 웨이퍼 기준)인데 dicing 전에 웨이퍼를 얇게 깎아냅니다. 메모리 제품은 상대적으로 얇고 TSV 다이는 수십μm로 매우 얇은데 그보다 더 얇게 깎아내는 것입니다. 작업 후에 다이를 붙이면 HDSV와 다음 다이의 전극이 연결돼 전력이 전송됩니다.

 

a69.jpg

 

a70.jpg

 

a71.jpg

 

TCI에 의한 데이터 전송과 HDSV에 의한 전력 공급을 조합하면 데이터와 전력이 모두 무선으로 전송돼 다이 크기도 줄어듭니다. HBM과 비교해서 계산하면 HBM보다 13% 정도 다이를 줄일 수 있다네요. 또 40μm 정도 다이의 TSV 칩과 비교하면 TCI+HDSV의 솔루션은 다이 두께가 8μm(4μm 실리콘+4μm 메탈)이기에 스택 두께도 4DRAM+컨트롤 다이까지 40μm 정도로 극적으로 줄일 수 있습니다.

 

a72.jpg

 

a73.jpg

 

ThruChip의 기술은 TSV 스택 수준의 광대역 접속, 낮은 딜레이와 저전력으로 실현해 다이 크기와 스택 두께도 줄일 수 있다고 CEO인 Dave Ditzel가 설명합니다. Ditzel는 과거 저전력 CPU 제조 업체인 트랜스메타의 CEO로 CPU 업계에서 유명했으나 이번에는 ThruChip 기술로 화제를 불러 일으키려 합니다. TCI는 이미 28종류의 테스트 칩으로 실증된 상황. ThruChip은 기술 컨설턴트로 이 기술의 보급을 계획 중입니다.

 

 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.