과학기술정보통신부(장관 이종호, 이하 ‘과기정통부’)는 '22.10.15 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 서비스 장애 사고*의 재발 방지를 위한 후속 조치로서, 「디지털서비스 안정성 강화 방안」을 3월 30일(목) 발표하였다.
* 사고 원인 조사결과 및 3사 시정 요구 사항 브리핑('22.12.6, 과기정통부 장관)
(중략)
〈 사고조사·실태점검 등 결과 〉
먼저, SK C&C 판교 데이터센터 화재 사고 조사 및 주요 데이터센터 실태점검* 등을 통해 파악된 문제점은 다음과 같다.
* 민간 데이터센터 86개 시설에 대한 재난관리 실태점검 및 현황조사 실시('22.11~'23.2)
(사전탐지 및 초기대응) 리튬이온 배터리의 이상 징후 탐지를 배터리모니터링시스템*(이하 ‘BMS’)에 의존하고 있었으나 순간적으로 발생하는 리튬이온 배터리 화재를 사전 탐지하는 데 한계가 있었으며,
* 센서로 배터리內 온도·전압 등을 주기적으로 확인하는 시스템(Battery Monitoring System)
BMS 외 사전적 탐지체계가 미비하여 배터리실 화재에 즉각적 대응이 곤란하고, 기존 천정식 가스 소화약제로는 화재 발생 시 초기 진화에 어려움이 있는 것으로 나타났다.
※ SK C&C 판교 데이터센터의 경우도 BMS가 화재 징후를 사전 탐지하지 못하였으며, 이후 공기흡입형 감지기로 화재를 인지하였으나 가스 소화설비로는 진화 실패
(전력공급 생존성) 상당수 데이터센터는 리튬이온 배터리와 무정전전원장치(이하 ‘UPS’), 전력선 등 타 전기설비가 같은 공간에 위치*하고 있어, 배터리 화재 시 전력을 끊김 없이 공급하는 데 한계가 있는 구조로 파악되었다.
* 86개 민간 데이터센터 중 배터리실 內 UPS 배치 28개소, 전력선 포설 64개소
또한, 비상 상황에서 데이터센터 내 전력차단이 불가피할 경우 차단구역을 최소화하기 위한 구역별 전력 관리, 원격 제어를 통한 우회전력 확보 등 재난 대응체계가 미흡한 것으로 드러났다.
다음으로, 카카오·네이버 등 디지털서비스 장애 사고 원인조사를 통해 드러난 문제점은 다음과 같다.
(서비스 다중화) 금번 사고를 계기로 디지털서비스 제공에 필요한 핵심 기능이 데이터센터 간 이중화되어있지 않거나 특정 데이터센터에 편중되어 있는 경우, 데이터센터 작동 불능 상황에서 주요 서비스에 심각한 장애가 발생하거나 복구가 지연될 우려가 있음이 나타났다.
※ 카카오는 일부 서비스를 이중화 운영 중이었으나, 동작(Active)-대기(Standby) 서버간 전환에 필요한 ‘운영 및 관리 도구’가 판교 센터에 집중되어 있어 장시간 장애 발생
(대응 체계) 비상상황 전파·대응 등을 수동적으로 운영하거나, 장애·재난 전담인력 부재, 대형 재난상황에 대한 모의훈련이 미비한 경우 등 장애·재난 대응 역량이 저하되지 않도록 체계적인 재난관리의 필요성이 대두되었다.
자세한 내용은 반드시 보도자료 원문 참조 바랍니다.