IMW 2019: 비휘발성 메모리가 개척하는 초 저전력 AI 하드웨어

낄낄 https://gigglehd.com/gg/5261960

조회 수 2425 댓글 9

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...89183.html

인간과 인공 지능(AI)이 소비하는 전력의 비교. 2018년 12월에 국제 학회 IEDM 2018의 튜토리얼 강연인 Emerging Device Technologies for Neuromorphic Computing에서 CNRS의 Damien Querlioz가 공개한 슬라이드.

딥 러닝 기술이 인공 지능 (AI)과 머신 러닝의 비약적인 발전을 촉구하면서, 현재 컴퓨터 분야의 연구 개발자들에게 몹시 중요한 주제로 자리잡아가고 있습니다. 구글의 자회사인 딥마인드가 개발한 바둑 프로그램, 알파고가 2016~2017년에 바둑 프로 기사들을 상대로 승리를 거두면서, 딥 러닝의 개발 성과가 평범한 사람들과 AI 연구 개발자들에게 충격을 주었습니다.

가장 충격적이었던 건 2016년 3월의 대결입니다. 세계 최고 수준의 바둑 프로 기사인 이세돌과 알파고의 5회 대전에서 알파고가 4승 1패로 승리를 거두었습니다. 대국 전에는 바둑이나 컴퓨터 업계 모두 이세돌이 5전 모두 이기리라 예측했었지요.

바둑이란 게임의 실력으로는 컴퓨터가 인간을 넘어섰지만, 공학적으로 보면 알파고가 여전히 뒤쳐진 부분이 있습니다. 그건 소비 전력입니다. 알파고의 하드웨어는 다양한 CPU, GPU, ASIC로 구성되며, 2016년 3월의 경기에선 클라우드 컴퓨팅을 사용했습니다. 그 소비 전력은 250kW(25만 와트)를 넘어섰습니다. 이에 비해 인간의 뇌가 쓰는 전력은 20W에 불과합니다. 둘 사이에는 1만 배 이상의 차이가 있습니다.

딥 러닝 하드웨어가 많은 전력을 소비하는 이유

딥 러닝의 기본 구조는 신경 회로망의 모방입니다. '인공 신경망'에 해당되지만 AI 업계에선 그냥 '신경망'이라고 부릅니다. 딥 러닝의 신경망은 DNN(Deep Neural Network)이라 부릅니다. 신경망은 뉴런의 각 층이 서로 연결된 네트워크입니다. 이 중에서 사이에 숨겨진 층이 2개 이상인 네트워크를 DNN이라고 부릅니다.

DNN의 입력 층은 입력 데이터를 저장한 뉴런의 연결이며, 하나의 뉴런은 다음 층인 딥 레이어 뉴런과 연결됩니다. 여기서 중요한 건 가중치라 불리는 데이터로, 신경망에서는 시냅스라고 부릅니다. 뉴런 사이의 연결 부위에 해당됩니다. 숨겨진 레이어 뉴런과 연결된 입력 층 뉴런의 값과 가중치 악ㅄ을 곱하고, 그 모든 결과를 더해 특정 활성화 함수에 입력해 출력합니다.

이 알고리즘은 수학적으로 보면 그리 복잡하지 않습니다. MAC(Multiply and ACcumulation)과 그 결과의 활성화 함수 연산을 반복하는 과정입니다. 여기서 중요한 건 DNN의 출력 계층 데이터(학습이나 추론의 결과)를 결정하는 게 '가중치' 값이라는 겁니다. 즉 DNN을 사용한 학습은 가중치를 조정해 최적의 값을 도출해 내는 과정입니다. '학습'은 신경망의 출력 값과 예상 출력 값을 비교해 그 차이가 줄어들 때까지 각 층의 가중치 값을 업데이트합니다. 차이가 가장 줄어들었을 때 교육을 끝내고, 그렇게 얻은 가중치 값을 DNN을 사용한 추론에 사용합니다.

DNN의 일반적인 하드웨어는 CPU, GPU, ASIC 등의 연산 회로와 버퍼 SRAM, 외부 DRAM 등 메모리 회로로 구성됩니다. 이런 구성의 하드웨어가 큰 전력을 사용하는 이유는 크게 두 가지입니다. 하나는 외부 DRAM에 액세스가 많다는 겁니다. DRAM에 가중치 값을 저장하고 불러오기에 DRAM의 액세스는 항상 발생합니다. DRAM 액세스는 CPU 레지스터 액세스보다 100배 더 많은 전력을 사용합니다.

다른 하나는 CPU와 GPU의 정밀도가 너무 높아서입니다. CPU와 GPU는 64비트 부동소수점 연산을 실행하지만, 딥 러닝은 8비트 정수 연산만으로 충분한 경우가 많습니다.

비휘발성 메모리 기술로 딥 러닝의 소비 전력을 낮추는 시도

그래서 소비 전력을 낮추기 위해 메모리 회로에 연산 기능을 통합하고, 메모리 회로와 연산 회로 사이의 거리를 줄이며, 연산 정밀도를 실용적인 범위 안에서 낮추려는 연구가 진행 중입니다.

버퍼 메모리인 SRAM와 외부의 DRAM은 모두 휘발성 메모리며, 데이터를 유지하기 위해 리프레시 동작을 주기적으로 실행하면서 평균 소비 전력이 늘어납니다. 이걸 비휘발성 메모리로 대체하면 이론적으로 대기 상태에서 소비 전력이 0으로 떨어집니다. 그럼 평균 소비 전력이 줄어들겠지요. 또 전원을 꺼도 비휘발성 메모리에 데이터가 남아 있으니 기동과 리셋 등의 동작에 필요한 전력도 줄어듭니다.

딥 러닝에서 각종 메모리 기술의 장점과 단점. Embedded Memory ~ Present status, architecture and technology for emerging applications에서 TSMC의 Eric Wang이 공개한 슬라이드.

5월이 미국 캘리포니아 몬타 레이에서 열린 반도체 메모리 기술 국제 학회인 2019 IEEE 11th International Memory Workshop(IMW 2019))에서 비휘발성 메모리 기술로 저전력 딥 러닝 하드웨어를 실현하려는 연구 성과가 다수 공개됐습니다. 여기에서 발표된 비휘발성 메모리 기술은 저항 변화 메모리(ReRAM), 상변화 메모리 (PCM), 자기 저항 메모리(MRAM), 플래시 메모리입니다. 그리고 AI 하드웨어 아키텍처는 신경망 컴퓨팅 외에도 뉴로몰픽(생체신경모방) 컴퓨팅을 사용합니다.

신경 회로망을 물리적으로 모방하는 뉴로몰픽 컴퓨팅

신경망 컴퓨팅은 신경 회로망의 기능과 구조를 모방하지만 하드웨어는 신경 회로망을 모방하지 않습니다. 극단적으로 말하면 신경망을 이용한 학습과 추론은 일반적인 컴퓨터 하드웨어 플랫폼과 응용 프로그램 중 하나일 뿐입니다. 그러나 보통의 컴퓨터 하드웨어에 비해 전력 효율이 너무 낮기에, GPU나 ASIC를 써서 전력 효율을 높이는 게 최근의 움직임입니다. 그 연장선상에 비휘발성 메모리 기술을 이용하려는 시도가 있습니다.

이에비해 뉴로몰픽 컴퓨팅은 하드웨어 자체가 신경 회로망을 구축합니다. 기본 요소는 뉴런과 시냅스입니다. 뉴런은 비선형 처리를 담당하고, CMOS 디지털 연산 회로나 아날로그 연산 회로로 실현합니다. 시냅스는 인접한 뉴런 사이의 결합 강도 (가중치)을 담당하고, 결합의 강도를 아날로그나 디지털 메모리에 저장합니다.

뉴로몰픽 컴퓨팅의 메모리 칩은 신경 회로망과 유사한 행렬(매트릭스) 형태로 메모리 셀 어레이를 배치한 구조를 채용하며, 옴의 법칙과 키르히호프 법칙을 이용한 덧셈 연산을 내장한 경우가 많습니다. 외형 구조는 신경망과 크게 다르지 ㅇ낳습니다.

시냅스의 역할을 하는 메모리 기술은 SRAM과 비휘발성 메모리가 있습니다. SRAM은 CMOS 로직과 같은 제조 기술로 만들 수 있다는 장점이 있습니다. 비휘발성 메모리는 SRAM보다 저장 밀도가 높고 소비 전력이 낮습니다.

ReRAM 기반으로 2백만개의 시냅스를 내장한 저전력 메모리

IMW 2019에서 파나소닉은 저항 변화 메모리(ReRAM) 기술을 기반으로 삼은 아날로그 메모리를 시냅스로 쓰고, MAC 연산을 내장한 뉴로몰픽 메모리를 개발해 RAND (Resistive Analog Neuromorphic Device)라고 불렀습니다. 2개의 ReRAM 셀에 1개의 시냅스를 구성하고, 2백만 개의 시냅스를 내장한 실리콘 다이를 180nm의 제조 기술로 만들었습니다. 실리콘 다이 면적은 12.6제곱mm, 전원 전압은 1.8V, 소비 전력은 15.8mW입니다. 소비 전력 당 연산 성능은 20.7TOPS/W로 꽤 높습니다.

PCM의 비선형성을 없애고 합습 정밀도를 향상

IBM Research와 ETH Zurich는 상변화 메모리 (PCM)을 DNN 가중치 메모리로 사용하는 딥 러닝 가속을 공동 개발합니다. 크로스바 형태로 배치한 PCM 셀 어레이에 가중치 값을 저장하기 전과 저장한 후에 특정 작업을 추가하면 PCM의 비선형성을 없앨 수 있다는 기술을 발표했습니다. 이로서 필기 인식 학습의 정밀도를 높일 수 있다고 합니다.

64Gbit의 3D 낸드 플래시에서 연속 읽기 내구성을 확인

저장 밀도가 가장 높은 비휘발성 메모리는 3D 낸드 플래시 메모리입니다. 3D 낸드 플래시 메모리는 싱글 다이의 저장 용량이 큽니다. 그래서 Macronix International은 3D 낸드 플래시 메모리를 엣지(단말기)의 추론 시스템에서 DNN 가중치 메모리로 활용하는 방법을 고안했습니다. 추론에선 플래시 메모리의 읽기 액세스가 계속 발생합니다. 이 경우엔 특정 메모리 셀을 읽지 못하는 불량이 나는 게 문제입니다.

Macronix International은 SLC 방식으로 용량이 64Gbit인 3D 낸드 플래시 메모리를 개발해 연속 읽기 수명을 측정했습니다. 그 결과 10의 13제곱에 달하는 연속 읽기가 가능하다는 결론이 나왔습니다. 실제 사용에선 10년 동안 쓸 수 있는 수명입니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '9'

?
hjk9860 2019.07.17 03:44

알파고를 발전/개조시켜서 놋북에서 돌릴 수 있게하고 인간과 알파고 둘다 동일한 전력으로 재경기를 진행해보는것도 나름 재미있겠네요
어쩌면 이게 더 공평하고요
쮸쀼쮸쀼 2019.07.17 09:28

이런 종류의 인공지능 연산은 주로 신경망을 구성할 때 에너지를 많이 쓰기 때문에, 이미 신경망 추론학습이 끝난 알파고는 일반 컴퓨터에서도 돌릴려면 돌릴 수도 있는 것으로 압니다. 그리고 딥마인드는 바둑은 이미 인공지능이 정복했다고 보고 지금은 관련 개발을 종료했습니다. 이제는 스타크래프트 쪽에 눈을 돌린 상태죠.
int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2019.07.17 10:08

AlphaSatr가 DQN으로 사람의 한계수치의 APM으로도 충준히 사람을 압도.. 한다고 하죠..

APM제한이 없으면 무조건 압도.
?
dmy01 2019.07.17 19:03

아마 했었을껍니다 pc에서 돌아가는 버전
프로기사들 떡 실신 시킨 거로 알고 있어요
?
마라톤 2019.07.17 07:30

좋은 정보 감사합니다. ^_^
?
RuBisCO 2019.07.17 09:25

문제는 접근 레이턴시는 어떻게 되는지 궁금하군요.
?
dmy01 2019.07.17 18:57

고맙습니다
요즘 뉴럴프로세싱유닛 탑재 이야기가 많은데 저런 것들이 들어가있다고 보면 되겠군요
최고입니다
?
dmy01 2019.07.17 19:01

근데 저거 완전 인텔 옵테인 메모리 이야기 아닌가요
옵테인 메모리 레이턴시 엄청 낮을테니까 dram 대체도 용이할테고
OS_YKS 2019.07.17 19:57

뉴런과 연결된 입력 층 뉴런의 값과 가중치 악ㅄ을 곱하고,
외형 구조는 신경망과 크게 다르지 ㅇ낳습니다.
오타가 있네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

마이크론, PCIe 4.0 176단 TLC 낸드 사용 M.2 SSD

마이크론이 컴퓨텍스에서 신제품을 발표했습니다. 176단 TLC 3D 낸드 플래시 메모리를 양산하고, 이걸 사용해 PCIe 4.0 NVMe 1.4를 지원하는 M.2 2280 SSD를 출시합니다. 3400 시리즈는 용량 512GB부터 2TB고, 2450은 256GB부터 1TB가 있...

Date2021.06.02 소식 By낄낄 Reply3 Views1034

Read More
1mm 크기에 10Gbit. 초 고밀도 3D 낸드 플래시 메모리 기술

3D 낸드 플래시 메모리의 적층이 갈수록 늘어나고 있습니다. 현재 수직 방향의 셀 트랜지스터 적층이나 워드라인 적층은 176단까지 늘었습니다. 2019년 봄에 128단이었으니 2년 동안 1.375배 늘어난 셈입니다. 2022년이나 2023년에는 200...

Date2021.04.04 분석 By낄낄 Reply3 Views3448

Read More
도시바-WD 연합이 3D 낸드 플래시 기술 개발을 이끌어 나가는가

삼성이 주도해온 3D 낸드 플래시의 개발 경쟁 3D 낸드 플래시 메모리의 기술 개발은 삼성전자가 이끌어 왔습니다. 반도체 칩의 기술 개발 성과를 발표하는 국제 학회 ISSCC의 최근 발표를 보면 삼성이 3D 낸드 플래시 메모리 기술 개발에 ...

Date2019.04.07 소식 By낄낄 Reply11 Views2861

Read More
칭화유니의 64단 3D TLC SSD

칭화유니의 64단 3D TLC 낸드 플래시를 사용한 M.2 SSD입니다. 낸드 칩 위에는 UNIC의 로고가 있네요. 누가 칭화유니라고 불러서 계속 썼는데 앞으로 그냥 UNIC로 쓸까.. P/E 사이클 1500번으로 주류 SSD 수준의 수명을 달성했습니다. 인...

Date2019.03.12 소식 By낄낄 Reply8 Views3561

Read More
No Image

MLC 점유율이 줄어드는 중. 이유는 TLC/QLC

IHS Markit의 조사에 따르면 2016년에 TLC 메모리의 점유율은 56.1%, MLC는 43.6%였습니다. 그런데 2017년 3분기에 TLC는 65%로 치고 올라왔네요. 이게 끝이 아닙니다. 2018년엔 이 숫자가 70%까지 늘어납니다. 뿐만 아니라 그 후에 QLC ...

Date2017.10.12 소식 By낄낄 Reply13 Views1820

Read More
도시바 QLC는 수명이 TLC 수준?

QLC는 하나의 셀에 4비트를 저장, 각각의 셀 유닛마다 총 16종의 다른 전압 상태를 지닙니다. TLC의 두배지요. 그래서 컨트롤이 어렵기도 하지만 그 수명에 대해서 상당히 염려하는 시선이 많은데. 도시바가 발표한 QLC 낸드 플래시가 100...

Date2017.07.04 소식 By낄낄 Reply12 Views3344

Read More
삼성, 64층 256Gbit 3D TLC 낸드 플래시 양산

삼성이 4세대 V-NAND 기술을 사용해 업계 최초의 64층 25Gbit 3D TLC 낸드 플래시 메모리를 양산한다고 발표했습니다. 새 낸드 플래시는 셀 어레이를 관통하는 채널 홀의 균일화와 비전도성 물질로 채널 홀을 덮어 셀의 전자 손실을 최소...

Date2017.06.15 소식 By낄낄 Reply5 Views1253

Read More
MLC SSD의 데이터 손상 취약점

카네기 멜런 대학의 연구팀은 SSD에 존재하는 보안 문제를 발견했습니다. SSD에 저장된 데이터를 간단하게 파괴할 수 있는 것이죠. MLC 낸드 플래시를 사용한 SSD에 사용 가능하며, 똑같은 원래로 TLC SSD에서도 적용되지만 SLC에선 별 ...

Date2017.05.25 소식 By낄낄 Reply3 Views1077

Read More
No Image

낸드 플래시 가격 상승, SSD 필요하면 사세요?

DRAMeXchange의 보고에 따르면 MLC SSD의 평균 가격이 이번 분기 들어 6~10% 올랐고, TLC도 6~9% 올랐다고 합니다. 낸드 플래시의 가격이 오르면 당연히 SSD 가격에도 반영이 될 수밖에 없구요. 지금까지 SSD 가격은 나름 저렴한 편이었구...

Date2016.12.05 소식 By낄낄 Reply4 Views972

Read More
인텔 DC P3100 SSD, 3D TLC, 쓰기 55MB/s

인텔이 데이터센터 SSD의 보급형 라인업인 DC P3100 시리즈를 발표했습니다. M.2 규격에 PCI-E 기반으로 3D 낸드 TLC 플래시를 사용합니다. 읽기 속도는 1800MB/s로 우수하나 쓰기 속도는 최고 175MB/s, 최저 55MB/s밖에 안 나오네요. 오...

Date2016.10.28 소식 By낄낄 Reply20 Views1810

Read More
인텔 3D 낸드 플래시, 2세대 제품이 내년 하반기에

인텔이 7월 11일에 중국에서 3D 낸드 기술 워크샵을 열었습니다. 인텔의 1세대 3D 낸드 플래시는 32층 적층, 50nm부터 34nm 공정, TLC와 MLC가 사실 하나의 칩이고, 작동 모드에 따라 바꿀 수 있습니다. 출고 상태에선 MLC 2패스(1패스는...

Date2016.07.12 소식 By낄낄 Reply3 Views655

Read More